2. 信息工程大学地理空间信息学院, 河南 郑州 450001;
3. 北京大学工学院, 北京 100871;
4. 上海市现场物证重点实验室, 200083
2. Institute of Surveying and Mapping, Information Engineering University, Zhengzhou 450001, China;
3. College of Engineering, Peking University, Beijing 100871, China;
4. Shanghai Key Laboratory of Criminal Scene Evidence, Shanghai 200083, China
人类活动所涉及的信息中有80%与地理信息相关,因此,多数警用信息都具有空间位置属性,如统计模型、行动轨迹、事发地点、文字影像、声音视频等。快速发展的公安信息化领域,在使警用信息的获取与更新的能力飞速提高的同时,也使其日渐表现出了海量、复杂等大数据特征。它是具有空间属性或用于空间信息处理的警用大数据类型,是大数据的重要组成部分,也是重要的行业大数据。笔者将这种大数据称为警用空间大数据,包括传统的地理数据,如道路、户籍等,以及可以通过位置属性进行关联的其他类型数据。但在迎接机遇的同时,也面临着随之而来的诸多挑战,如:
(1) 警用空间大数据不仅包含传统意义上的空间数据,还包含一部分非传统的空间数据。不同类型的数据,多采用数据库表、文件、图幅、数据瓦片、流媒体格式等作为组织单位,数据大小、采集位置和表现形式均不相同。在部门内部数据整合、跨部门的大数据共享交换和公众服务中存在工作量大、信息整合复杂等问题,不利于任务执行效率和综合利用率的提高。
(2) 在隐含未知的情形下对数据本身进行自动或半自动地挖掘,可以帮助警务人员从中发现事先未知却潜在的案发规律或犯罪线索。有别于常规的事务数据挖掘,空间数据挖掘比一般数据挖掘的发现状态空间理论增加了尺度维,获取的信息更加概括、精炼[1, 2]。在将空间数据挖掘技术和传统GIS技术方法集成的过程中,发现在基于经纬度的区位标识体系下,同一区域在小比例尺中被描述为点,在大比例尺中被描述为面,从而带来了同一区域需要分别标识其点和面以及不同尺度的区域标识缺乏内在多尺度关联性的问题,不利于事件内在关联的准确发掘。
(3) 当前的位置信息往往采用经纬度坐标来标识,在描述空间区域时,需要用区域的中心点来描述它的空间位置信息,用外围轮廓点来描述区域范围,但不同的人采用的中心点及轮廓点往往不同,造成实际使用中,对同一位置的区位标识不一致,需要在后台通过元数据或通过坐标间的空间关系运算进行判断,给空间对象的唯一性标识带来许多困难。不利于精确描述案发地点和行动部署区域等。
“区位”的意思是“分布的地区或地点”[3]。本文中的区位是对空间信息的区域范围和区域位置标识的统称,它使用地理代码来表达空间信息的空间位置和区域范围。以全国统一的区位标识作为组织表达的基准,关联所有与地理信息有关的警用信息,如矢量、栅格、文件、音视频等,并应用基于区域的标识方法,可以成为解决当前矛盾的一条思路。
在地球球面剖分的研究领域,目前主要分为柏拉图立体剖分、经纬度剖分和自适应网格剖分3大类[4-7]。文献[8]提出的GeoSOT采用经纬度剖分用于解决全国地理空间剖分和标识问题, 它具有边界不重叠、网格正交、经纬一致、与传统数据规格兼容性好等特点[8]。该方案目前已在专利“一种统一现有经纬度剖分网格的方法”中公开 (公开号为CN102609525,公开日为2012年7月25日)[9],且已有一系列的研究成果[10-13]。由于该方案所具有的这些优点,本文选用这一方案作为警用空间大数据区位标识方法的实现基础,但所提方法并不限于这一方案,也可以天地图网格[14]、GoogleMaps网格[15]及其他网格系统[16-22]作为实现的基础。本文在描述了所提方法后,以户籍信息的区位标识为例进一步阐述了应用方法,最后对其进行了总结与应用展望。
1 警用空间大数据区位标识方法城市中的实体对象包括房屋、街道、绿地、水域、桥梁等,考虑到它们的大小、特性和使用方式,警用空间大数据区位标识基于GeoSOT基础编码进行扩展,其设计思路为:按经纬差分级,全国经过1次6°×4°划分,1次十六分,1次四分及4次八分后,得到上至全国,下至1/16″的七级网格,考虑到与已有标准的继承性,这7级网格中的第1层采用1:100万地形图分幅划分,其他6层采用GeoSOT剖分层级表中的对应层级,选取的层级之间保持网格大小是2的整数倍关系。警用空间大数据的剖分网格如表 1所示,其中的网格尺度是在赤道附近的大致尺度,网格大小因为3次地球扩展的关系,所以在某些层级上会有多种大小。由于篇幅有限,这里只给出划分结果,每一层划分的详细过程将在后续文章中阐述。
剖分层级 | GeoSOT层级 | 网格尺度 | 网格区域大小 |
1 | 1:100 | 6°×4° | |
2 | 11 | 32 km | 16′×16′、12′×16′16′×12′、12′×12′ |
3 | 13 | 8 km | 4′×4′ |
4 | 16 | 1 km | 32″×32″、32″×28″28″×32″、28″×28″ |
5 | 19 | 128 m | 4″×4″ |
6 | 22 | 16 m | 1/2″×1/2″ |
7 | 25 | 2 m | 1/16″×1/16″ |
警用空间大数据的区位标识应当唯一且精确,即能够为某片实体区域和区域中每一个有必要单独定位的部分都进行唯一标识,如某栋住宅和该住宅中每一门每一户的住户。本设计中的网格最小精度在赤道附近为2 m,在中国范围内可达到1.25 m,且只要外包矩形不同,标识便始终唯一,满足精度和唯一性的需求。警用空间大数据区位标识编码的组成如图 1所示。首先是9位行政区划码,本来使用空间码就可以知道区域的位置,这里保留行政区划码,是为了方便那些基于行政区划的区域数据统计和分类等应用;然后是20位空间码,空间码包括15位定位码+2位跨度码+3位楼层码,定位码C0是区域的定位标识、跨度码M和N是区域的网格跨度,楼层码F是标识区域的空间高度,F的第一位是符号位,后两位是楼层高度位;最后1位校验码是用来判断当前编码中是否有异常符号,编码总长共30位。
![]() |
图 1 警用空间大数据的区位编码 Fig. 1 Location code of police spatial big data |
编码所标识的区域不仅仅是单一的网格区域,而是可以由多个网格所构成的组合区域。其实现思想是采用定位网格码+跨度码的方式组成,区域网格编码由中心的定位网格码C0加上两个方向上网格的跨度码M、N形成,当M=N=0时,表示为定位网格本身,区域组织示例如图 2所示。
![]() |
图 2 区域组织示例 Fig. 2 Organizational example of area |
对于任何区域范围,下面给出构建区位网格码的基本方法:
(1) 对于任意的区域范围A,用第7层的1/16″×1/16″网格对区域A进行划分,通过计数确定最少M行、N列网格可以完全覆盖范围A,按照公式L=max{M,N}计算格子数量即可;
(2) 初始定位网格C0的位置为A的中心位置。以M×N个覆盖格子的左下角点网格CMIN_X和CMIN_Y为起算,接着计算 ([M/2],[N/2]),再由式 (1) 和式 (2) 计算得到定位网格C0的位置,其中[·]为向下取整的符号;


(3) 当0≤L≤7时,定位网格码C0采用4个层级的网格 (第7层) 进行编码,形式如下

(4) 当7 < L≤63时,定位网格码C0采用3个层级的网格 (第6层) 进行编码,多余的位数补无效标志8,如下

(5) 当63 < L≤511时,定位网格码C0采用2个层级的网格 (第5层) 进行编码,多余的位数补无效标志8,如下

(6) 当L > 511时,定位网格码C0采用1个层级的网格 (第4层) 进行编码,多余的位数补无效标志8,如下

实际场景中确定划分层级的示例如图 3所示,设图 3(a)中的层级为第7级,这时L=11,则区域在这一级的8×8的格子中无法完全覆盖区域,则向上合并一层到第6层,发现可以覆盖,则确定图 3(b)所示的第6层为最佳层级。
![]() |
图 3 确定区位标识的最佳层级 Fig. 3 Determining the optimum level of location identification |
按照这样的定位网格码的编码方式,可以从后面码元8的个数判断当前区位的尺度,以及尺度对应网格的层级,再结合M、N的网格跨度,可以判断区位的长宽大致有多少。从原理上,该区位标识方法可以有效地标识任意具备不同最小外包矩形的区域,并且可以全国唯一标识和定位。
2 试验户籍是用以记载和留存住户人口基本信息的法律文书,户是可对其独立进行房屋权属管理的最小房屋单元,和所居住房屋的位置有紧密的联系,房屋是城市中的重要实体,是供人们生产、居住或者作其他用途的永久性建筑物的总称,与人们的日常活动息息相关,也是各类罪案的高发地点,故选择它作为警用空间大数据区位标识的示例对象。
当前,我国建筑物编码主要由住建、国土等部门制定,并以各行政区划为单位进行具体的实施。以智慧城市为例,其建筑数据库据标准采用的是住建部颁布实施的《房屋代码编码标准》。该编码其由22位字符组成。前21位为本体码 (行政区划码9位+幢编码12位),以及末位的校验码1位。行政区划码同现行的国家标准,12位幢编码可选择竣工时间法、坐标法、分宗和分幅法中的任一种,但一个城市应只使用一种方法。此外,还有类型码法及深圳等地方城市根据自身情况提出的建筑物编码。
现有的建筑物编码还存有一些不足:①建筑物编码无法根据自身信息唯一确定。如使用坐标法时、不同的人会给同一建筑标出不同的编码。②建筑物编码无法对精细尺度的空间区域进行编码,如分宗法、分幅法、深圳建筑物编码的网格尺度较粗,尚不能精细到建筑级。
此外,现有方法对小区建筑的编码一般采用顺序编码的方式,如1栋、2栋、3栋等。这一方法缺乏对空间关系的描述,需要建立拓扑数据库才能知道相邻建筑之间的空间关系。又比如,小区中的路灯或者井盖,如果也采用顺序编码的方法,由于不同单位的编码不同。需要单独建立建筑和路灯、井盖等周围物体的拓扑关系。这一方法,在房管局的不动产登记里面已有应用,登记中的房屋所处位置周围还会画上相邻的房屋,以体现两者之间的空间关系。区位编码隐含了位置属性和位置之间的空间关系,是刚性的,具有全国唯一性,能够很好地解决这一问题。故相较于现有方法,优势明显。
本文以北京大学畅春园某栋房屋为例,其东南向长约30 m、南北向宽约24 m,楼高6层,按照警用空间大数据区位标识的方法对该建筑和其中5楼南面从西向东的第2个房间分别进行户籍编码,试验区域的实景如图 4所示。
![]() |
图 4 试验区域 Fig. 4 Experimental area |
第1步:确定9位行政区划编码
找到该建筑在北京海淀区畅春园所对应的9位行政区划编码:110108015。
第2步:确定划分层级和定位码
按第7层网格大小为示例区域打上1/16″×1/16″≈2 m×2 m的方格,形成建筑物第7级剖分网格,如图 6(a)的小网格部分所示,由于整栋建筑在第7级的跨度M=15,N=13,跨度范围为7 < L≤63,所以需要采用第6层网格的大小进行划分,如图 5(a)中大网格的部分所示,得到其定位码C0为J50AEHD 4278 1638。而房间在第7级的跨度M=2,N=4,可以在该级进行标识,如图 5(b)所示,其定位码C0为J50AEHD 4274 1630。如前所述,具体划分过程将在后续论文中给出,这里只给出划分结果。
![]() |
图 5 确定定位码C0 Fig. 5 Determining location identification C0 |
第3步:形成空间码
在确定层级及定位码C0后,根据两个方向上跨度的网格数确定M和N。建筑在第6层网格上确定横向跨度M=1,纵向跨度N=1,得到空间码C0MNF=J50AEHD 4278 1638 11 000。房间在第7层网格上的跨度分别为M=2,N=4,得到空间码C0MNF=J50AEHD 4274 1630 24 005。
第4步:形成户籍区位标识编码
空间码和行政区划码,检验码一道构成完整的户籍区位标识。
建筑:110108015 J50AEHD42781638 11 000 0
房间:110108015 J50AEHD42741630 24 005 0。
3 结论本文从大数据时代,警用空间大数据在应用时面临的挑战入手,引出了在警用信息化建设中对空间大数据统一标识的需要。然后基于具有边界不重叠、网格正交、经纬一致、与传统数据规格兼容性好等特点的GeoSOT剖分网格,设计了一套警用空间大数据区位编码方法。方法首先通过分析从原来GeoSOT所具有的32级剖分网格中选取适用于作为警用空间大数据区位标识的层次作为所使用的层次,然后介绍了具体的区位编码方法,并以户籍的空间区位标识为例进行了说明,由于最小粒度可以到米级且编码隐含空间关系,所以本方法可以用来唯一标识不同尺度的空间区域及区域与周围物体的空间关系,最后对其应用进行了展望。从而为警用空间大数据的区位标识提供了一种新的解决方案。由于警用大数据的海量性和多样性,如何在保证标识精度的同时保证其计算效率,以及扩展到其他类型数据的标识,将会是下一步研究中需要重点考虑的问题。由于本区位标识方案的基础性作用,其应用展望如下所示:
(1) 有利于刑事技术的信息化建设。警用空间大数据区位标识提供了一套对地理区位量化的方式,有利于开展不同地理目标间地理关联度的度量与计算,可用来整合各类犯罪时空情报信息,构建情报犯罪时空数据模型,多层次、多尺度地描述城市犯罪时空分布特征和发展变化趋势。主要功能包括:基于公安部门现有的网吧、旅馆、监狱、卡口、交通、人员、案件等海量网格位置信息,基于区位标识编码代数的时空大数据关联分析,实现“海量时空数据的碰撞比对”,快速有效地分析宏观犯罪趋势、同类或不同类案件之间的关联和特定案件的犯罪线索等。基于公安海量的时空动态位置信息,利用海量大数据分析技术,从不同数据源中抽取位置信息,围绕车辆和人员,将其形成完整的动态时空轨迹序列,从而实现人员和车辆的轨迹查询和轨迹回放。主要以人为分析的主体,以通过各种手段确定的行踪轨迹为研究对象,其目标是掌握所关注人员的行为模式,进而分析所关注人员与其他人员、案件、物品之间的关联关系。
(2) 有利于发展下一代公安北斗导航。目前,已经正式在公安部批复的警用标准地址库建设采用的是GeoSOT地球剖分网格编码的扩展形式,在此基础上,将警用空间大数据区位标识应用于北斗导航领域,可以快速实现标准地址内的区域定位功能,并且能够有效地关联标准地址编码后台关联的各类警用资源和数据。另外,由于警用空间大数据区位标识码和警用地址库编码的同源性,直接采用他进行海量标准地址数据的采集、编码、维护更新,浏览展示,共享服务将变得更加方便快捷。
[1] | 李德仁, 王树良, 李德毅, 等. 论空间数据挖掘和知识发现的理论与方法[J]. 武汉大学学报 (信息科学版), 2002, 27(3): 221–233. LI Deren, WANG Shuliang, LI Deyi, et al. Theories and Technologies of Spatial Data Mining and Knowledge Discovery[J]. Geomatics and Information Science of Wuhan University, 2002, 27(3): 221–233. |
[2] | 李德仁, 王树良, 史文中, 等. 论空间数据挖掘和知识发现[J]. 武汉大学学报 (信息科学版), 2001, 26(6): 491–499. LI Deren, WANG Shuliang, SHI Wenzhong, et al. On Spatial Data Mining and Knowledge Discovery (SDMKD)[J]. Geomatics and Information Science of Wuhan University, 2001, 26(6): 491–499. |
[3] | 陆大道. 区位论及区域研究方法[M]. 北京: 科学出版社, 1988. LU Dadao. Location Theory and Regional Research Methods[M]. Beijing: Science Press, 1988. |
[4] | GOODCHILD M F, YANG Shiren. A Hierarchical Spatial Data Structure for Global Geographic Information Systems[J]. CVGIP:Graphical Models and Image Processing, 1992, 54(1): 31–44. DOI:10.1016/1049-9652(92)90032-S |
[5] | DUTTON G. Improving Locational Specificity of Map Data-A Multi-Resolution, Metadata-Driven Approach and Notation[J]. International Journal of Geographical Information Systems, 1996, 10(3): 253–268. |
[6] | SAHR K, WHITE D, KIMERLING A J. Geodesic Discrete Global Grid Systems[J]. Cartography and Geographic Information Science, 2003, 30(2): 121–134. DOI:10.1559/152304003100011090 |
[7] | TONG Xiaochong, BEN Jin, WANG Ying, et al. Efficient Encoding and Spatial Operation Scheme for Aperture 4 Hexagonal Discrete Global Grid System[J]. International Journal of Geographical Information Science, 2013, 27(5): 898–921. DOI:10.1080/13658816.2012.725474 |
[8] | CHENG Chengqi, TONG Xiaochong, CHEN Bo, et al. A Subdivision Method to Unify the Existing Latitude and Longitude Grids[J]. ISPRS International Journal of Geo-Information, 2016, 5(9): 161. DOI:10.3390/ijgi5090161 |
[9] | 程承旗, 郑承迅. 一种统一现有经纬度剖分网格的方法: 中国, 102609525A[P]. 2012-07-25. CHENG Chengqi, ZHENG Chengxun. A Subdivision Method to Unify the Existing Latitude and Longitude Grids:China, 102609525A[P]. 2012-07-25. |
[10] | 李世忠, 宋树华, 程承旗, 等. 基于GeoSOT网格的"天绘一号"卫星影像数据组织[J]. 遥感学报, 2012, 16(S): 102–107. LI Shizhong, SONG Shuhua, CHENG Chengqi, et al. Mapping Satellite-1 Remote Sensing Data Organization Based on GeoSOT[J]. Journal of Remote Sensing, 2012, 16(S): 102–107. |
[11] | 宋树华, 程承旗, 濮国梁, 等. 全球遥感数据剖分组织的GeoSOT网格应用[J]. 测绘学报, 2014, 43(8): 869–876. SONG Shuhua, CHENG Chengqi, PU Guoliang, et al. Global Remote Sensing Data Subdivision Organization Based on GeoSOT[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(8): 869–876. DOI:10.13485/j.cnki.11-2089.2014.0103 |
[12] | 程承旗, 吕雪锋, 关丽. 空间数据剖分集群存储系统架构初探[J]. 北京大学学报 (自然科学版), 2011, 47(1): 103–108. CHENG Chengqi, LÜ Xuefeng, GUAN Li. Study on System Architecture of Subdivision Storage Cluster for Global Spatial Data[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2011, 47(1): 103–108. |
[13] | LÜ Xuefeng, CHENG Chengqi, GONG Jianya, et al. Review of Data Storage and Management Technologies for Massive Remote Sensing Data[J]. Science China Technological Sciences, 2011, 54(12): 3220–3232. DOI:10.1007/s11431-011-4549-z |
[14] | GONG J Y, XIANG L G, CHEN J, et al. Multi-source Geospatial Information Integration and Sharing in Virtual Globes[J]. Science China Technological Sciences, 2010, 53(S1): 1–6. DOI:10.1007/s11431-010-3216-0 |
[15] | SAMPLE J T, LOUP E. Tile-based Geospatial Information Systems:Principles and Practices[M]. New York, NY: Springer, 2010: 23-200. |
[16] | BOSCHETTI L, ROY D P, JUSTICE C O. Using NASA's World Wind Virtual Globe for Interactive Internet Visualization of the Global MODIS Burned Area Product[J]. International Journal of Remote Sensing, 2008, 29(11): 3067–3072. DOI:10.1080/01431160701733023 |
[17] | SCHWARTZ J. Bing Maps Tile System[EB/OL]. http://msdn.microsoft.com/en-us/library/bb259689.aspx. |
[18] | BARCLAY T, GRAY J, EKBLAD S, et al. Designing and Building TerraService[J]. IEEE Internet Computing, 2006, 10(5): 16–25. DOI:10.1109/MIC.2006.95 |
[19] | NAKAJIMA K. Preconditioned Iterative Linear Solvers for Unstructured Grids on the Earth Simulator[C]//Proceedings of the Seventh International Conference on High Performance Computing and Grid in Asia Pacific Region. Tokyo:IEEE, 2004:150-159. |
[20] | 钱建梅, 郑旭东. 国家卫星气象中心气象卫星资料存档系统[J]. 应用气象学报, 2003, 14(6): 756–762. QIAN Jianmei, ZHENG Xudong. The Satellite Data Archive System of National Satellite Meteorological Center[J]. Journal of Applied Meteorological Science, 2003, 14(6): 756–762. |
[21] | 李德仁, 朱欣焰, 龚健雅. 从数字地图到空间信息网格:空间信息多级网格理论思考[J]. 武汉大学学报:信息科学版, 2003, 28(6): 642–650. LI Deren, ZHU Xinyan, GONG Jianya. From Digital Map to Spatial Information Multi-grid:A Thought of Spatial Information Multi-grid Theory[J]. Geomatics and Information Science of Wuhan University, 2003, 28(6): 642–650. |
[22] | 国家测绘地理信息局测绘标准化研究所. GB/T 13989-2012国家基本比例尺地形图分幅和编号[S]. 北京: 中国标准出版社, 2012. Institute on Standardiztion of National Adminstration of Suveying, Mapping and Geoinformation. GB/T 13989-2012 Subdivision and Numbering for the National Primary Scale Topographic Maps[S]. Beijing:China Standard Press, 2012. |