兴趣点(point of interest,POI)是地理信息服务的重要形式。互联网上的POI信息大多位于深网网络(deep web)中,其数据量极其庞大。随着互联网技术与应用的快速普及和地理信息服务的深入发展,POI信息资源规模不断增长、更新更为频繁,充分挖掘深网网络中蕴含的POI数据,对于丰富地理信息资源、提升空间信息服务与内容管理能力具有重要意义。
当前,通用搜索引擎和普通深网爬行方法难以有效获取深网POI数据,来源于不同网站的POI信息也存在位置信息、地址描述及分类属性等方面的不一致,如何实现深网POI的有效集成和深度整合,成为空间信息技术面临的一大挑战。为此,论文研究深网POI获取与一致性处理方法,主要研究工作包括:
(1) 基于检索词优化与空间自适应的深网POI获取方法研究。对深网POI信息进行持续获取,并确保在尽量小的代价下尽可能大的爬行覆盖,是深网POI获取需要解决的核心问题。为此,对深网POI信息获取进行了形式化建模,将POI爬行问题归结为特定地理空间范围的集合覆盖求解问题;为实现查询结果的最大可能覆盖,提出了基于原有分类体系、类型特征词提取以及多策略同义词生成相结合的方法,构建候选检索词集合;为有效降低查询代价,通过对局部地区进行贪婪式查询并构建倒排索引,提出了基于重复覆盖率迭代计算的检索词集合优化方法,实现了对候选检索词的简化和排序;为解决局部空间范围最大记录限制以及单节点服务访问受限引发的爬行失效问题,提出了基于自适应空间剖分和动态迁移的爬行策略。试验表明本文方法能有效爬取深网POI数据,并达到较为理想的覆盖率。
(2) 基于格网化纠正的多源POI位置信息一致性处理方法研究。在空间参考和度量单位未知的环境中实现异源POI空间坐标的相互转换,并确保误差可控,是多源POI信息一致性处理的主要任务。为此,提出了基于地理格网和二阶多项变换的位置信息一致性处理方法,通过对各个地理格网单元实现局部一致化处理,实现了对非线性偏移的全局近似校正;提出了基于迭代检测的格网自动构建及控制点生成方法,实现了基于给定误差阈值的地理格网单元自动生成;试验表明利用该方法能较好实现多源POI位置套合。
(3) 基于自学习参考地址库的多源POI地址信息的一致化处理方法研究。面向传统参考地址库构建成本高、多源POI地址信息不一致性强的技术挑战,提出了基于自学习参考地址库的多源POI地址信息一致化处理方法。首先分析了中文地址的要素构成和组合模式,并提出基于分类权重的地址标准化率计算模型;提出了基于特征词的候选要素切分及匹配方法,实现了仅需行政区划地理数据参与的参考地址库生成及扩展;提出了基于kNN离群分析的异常地址要素检测方法,以及基于规则的模糊要素匹配方法。试验表明该方法大大降低了参考地址库的构建成本,并可获得较高的匹配准确率。
(4) 基于形式概念分析的多源POI分类信息一致化处理方法研究。针对由于分类体系不一、类别描述各异等原因造成的多源POI分类属性不一致问题,提出了基于形式概念分析的POI分类信息映射方法,通过对POI分类语义因子进行抽取与优化,形成多源POI分类的形式背景矩阵,在此基础上利用改进的Chein算法构造POI分类概念格,以餐饮类POI构建的分类概念格表明,形式概念分析方法可以有效实现异源POI分类信息的转换与映射。
基于上述研究,本文自主开发了深网POI信息获取及一致性处理软件原型,获取了总量超过9000万的POI信息库;在此基础上,通过对多源POI数据集进行类别、地址和一致性处理,初步形成了多源POI融合成果库。试验表明,本文方法对于有效获取和整合深网POI数据资源、充分挖掘互联网POI信息蕴含的潜在价值具有重要意义。