2. 地球空间信息技术协同创新中心,湖北 武汉 430079
2. Collaborative Innovation Center of Geo-informatics,Wuhan 430079,China
1 大数据和遥感大数据
近年来,随着信息科技和网络通信技术的快速发展,以及信息基础设施的完善,全球数据呈爆发式增长。国际数据资讯公司(International Data Corporation,IDC)的最新研究指出,全球过去几年新增的数据量是人类有史以来全部数据量的总和,到2020年,全球产生的数据总量将达到40ZB左右[1],而其中95%的数据是不精确的、非结构化的数据[2]。一般而言,把这些非结构化或半结构化的、远超出正常数据处理规模的、通过传统的数据处理方法分析困难的数据称为大数据(big data)。大数据具有体量大(volume)、类型杂(variety)、时效强(velocity)、真伪难辨(veracity)和潜在价值大(value)等特征[3]。
大数据隐含着巨大的社会、经济、科研价值,被誉为未来世界的“石油”,已成为企业界、科技界乃至政界关注的热点。2008年和2011年《Nature》和《Science》等国际顶级学术刊物相继出版专刊探讨对大数据的研究[4, 5],标志着大数据时代的到来。在商业领域,IBM、Oracle、微软、谷歌、亚马逊、Facebook等跨国巨头是发展大数据处理技术的主要推动者。在科学研究领域,2012年3月,美国奥巴马政府6个部门宣布投资2亿美元联合启动“大数据研究和发展计划”[6, 7],这一重大科技发展部署,堪比20世纪的信息高速公路计划。英国也将大数据研究列为战略性技术,对大数据研发给予优先资金支持。2013年英国政府向航天等领域的大数据研究注资约1.9亿英镑[8]。我国也已将大数据科学的研究提上日程,2013年国家自然科学基金委开设了“大数据”研究重点项目群。总体而言,大数据科学作为一个横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新型交叉学科,已成为科技界的研究热点。
目前来看,国际上针对大数据的科学研究仍处于起步阶段,大数据的工程技术研究走在科学研究的前面[9]。绝大多数研究项目都是应对大数据带来的技术挑战,重视的是数据工程而非数据科学本身。为了深入研究大数据的计算基础研究,需要面向某种特定的应用展开研究。
在遥感和对地观测领域,随着对地观测技术的发展,人类对地球的综合观测能力达到空前水平。不同成像方式、不同波段和分辨率的数据并存,遥感数据日益多元化;遥感影像数据量显著增加,呈指数级增长;数据获取的速度加快,更新周期缩短,时效性越来越强。遥感数据呈现出明显的“大数据”特征。
然而,与遥感数据获取能力形成鲜明对比的是遥感信息处理能力十分低下[10, 11]。现有的遥感影像处理和分析技术,主要针对单一传感器设计,没有考虑多源异构遥感数据的协同处理要求。遥感信息处理技术和数据获取能力之间出现了严重的失衡,遥感信息处理仍然停留在从“数据到数据”的阶段,在实现从数据到知识转化上明显不足,对遥感大数据的利用率低,陷入了“大数据,小知识”的悖论。更有甚者,由于大量堆积的数据得不到有效利用,海量的数据长期占用有限的存储空间,将造成某种程度上的“数据灾难”。
大数据的价值不在其“大”而在其“全”,在其对数据后隐藏的规律或知识的全面反映。同样,遥感大数据的价值不在其海量,而在其对地表的多粒度、多时相、多方位和多层次的全面反映,在于隐藏在遥感大数据背后的各种知识(地学知识、社会知识、人文知识等)。遥感大数据利用的终极目标在于对遥感大数据中隐藏知识的挖掘。因此,有必要研究适应于遥感大数据的自动处理和数据挖掘方法,通过对数据的智能化和自动分析从遥感大数据中挖掘地球上的相关信息,实现从遥感数据到知识的转变,突破这种“大数据,小知识”的遥感数据应用瓶颈。
本文主要讨论遥感大数据的智能分析与信息挖掘问题。在大数据的背景下,借助和发展相关技术,开展对遥感大数据的研究,一方面可以丰富“大数据科学”的内涵,另一方面也可有效地破解遥感对地观测所面临的“大数据,小知识”的困局,具有十分重要的科学价值和现实意义。
2 遥感大数据的自动分析遥感大数据的自动分析是进行遥感大数据信息挖掘、实现遥感观测数据向知识转化的前提,其主要目的是建立统一、紧凑和语义的遥感大数据表示,从而为后续的数据挖掘奠定基础。遥感大数据的自动分析主要包含数据的表达、检索和理解等方面。
2.1 遥感大数据的表达随着对地观测遥感大数据不断涌现,其语义的复杂性、数据维度语义的丰富性、传感器语义的多样性等新特点使得传统的表达方式已不能满足实际应用需求[12, 13]。同一地物的不同粒度、时相、方位和层次的观测数据可以看作是该地物在不同观测空间的投影,因此,遥感大数据的特征提取需要考虑多源、多分辨率影像特有的特征表达模型,以及特征间的关系和模型的相互转化。研究遥感大数据的特征计算方法,从光谱、纹理、结构等低层特征出发,抽取多元特征的本征表示,跨越从局部特征到目标特性的语义鸿沟,进而建立遥感大数据的目标一体化表达模型是遥感大数据表达的核心问题。研究内容主要包括:
(1) 遥感大数据的多元离散特征提取:在大数据的框架下,需要研究多分辨率、多数据源、多时空谱的遥感影像特征提取,形成遥感大数据在不同传感器节点的离散、多元特征提取方法。
(2) 遥感大数据多元特征的归一化表达:遥感大数据的特征提取需要考虑多元离散特征的融合和降维。特征融合旨在把多元特征统一到同一个区分特征空间中,用数据变换的方式将不同源、不同分辨率的离散特征同化到大数据的应用空间。同时,多元特征的维数分析目的在于将遥感大数据的高维混合特征空间进行维数减少,形成归一化的低维特征节点和数据流形,以提高大数据处理的效率。
2.2 遥感大数据的检索遥感大数据应用正朝着网络化、集成化的方向发展。世界各国也纷纷制定了国家级别空间数据基础设施的计划,旨在通过网络的方式,提供高程、正射影像、水文、行政边界、交通网络、地籍、大地控制以及各种专题数据的访问与下载服务。例如,美国政府建立的空间信息门户,其目标在于建立一站式地理空间站点,以提高政府工作效率以及为大众提供空间信息服务,在一定程度上方便了信息的获取。然而,这种服务模式主要是通过目录搜索的方式提供数据下载,对于数据的处理和分析还远远不够,难以实现对用户需求的按需服务[14]。现有的地理信息和遥感数据服务链还难以对任务需求变化和动态环境变化进行自适应处理,也难以在任务并发情况下进行服务协同优化。
为了从海量遥感大数据中检索出符合用户需求和感兴趣的数据,必须对数据间的相似性和相异性进行度量。在此基础上的高效遥感大数据组织、管理和检索,可以实现从多源多模态数据中快速地检索感兴趣目标,提高遥感大数据的利用效率。对于遥感场景数据的检索目前基本实现了基于影像特征的搜索。然而,在遥感大数据中,同一地物的不同观测数据存在大量的冗余性和相似性,如何利用这些冗余信息,研究图像的相似性或差异性、充分挖掘图像的语义信息,有效提高检索效率是遥感大数据利用的关键问题。
仅针对某一类型图像的传统遥感图像检索方法已难以适用于遥感大数据的检索,发展知识驱动的遥感大数据检索方法是有效途径之一(如图 1所示),主要包括:
(1) 场景检索服务链的建立:由于遥感图像描述的是地表信息,不存在明确或单一的主题信息[14],而传感器和成像条件的多样化又导致了遥感图像的多样化,因此,需要在遥感影像语义特征提取、目标识别、场景识别与自主学习的基础上,针对不同类型遥感数据的特点,建立适合数据类型与用于需求的场景检索服务链,获取不同类型遥感数据所共有的地学知识,为检索多源异质数据提供知识基础。
(2) 多源海量复杂场景数据智能检索系统:海量场景数据智能检索系统基于用户给定的待检索信息(文本描述、场景图像等)对多源海量遥感数据进行检索,快速返回用户所需的场景。
(3) 融入用户感知信息的知识更新方法:相关反馈技术作为一种监督的自主学习方法,是基于内容的图像检索中提高图像检索性能的重要手段。相关反馈是一种通过用户对检索结果的反馈,把低层次特征与高层语义进行实时关联的机制[14],其基本思想是:查询时,首先由系统对用户提供查询结果,然后用户反馈给系统其对于结果的满意程度,从而锻炼和提高系统的学习能力以模拟人类的对图像的感知能力,达到高层语义检索的目的。
2.3 遥感大数据的理解遥感大数据科学的主要目标是实现数据向知识的转化,因此遥感大数据场景的语义理解至关重要[15, 16, 17, 18]。目前对于遥感场景数据的处理基本实现了由“面向像素”到“面向对象”的处理方式的过渡,能够实现对象层-目标层的目标提取与识别[15]。然而,由于底层数据与高层语义信息间存在语义鸿沟,缺乏对目标与目标关系的认知、目标与场景关系的认知,造成了在目标识别过程中对获取的场景信息利用能力不足的问题[16, 17, 18, 19, 20, 21]。为了实现遥感大数据的场景高层语义信息的高精度提取,在遥感大数据特征提取和数据检索的基础上,应主要研究以下内容(如图 2所示):
(1) 特征-目标-场景语义建模:为了实现遥感大数据的场景语义理解,克服场景理解中的语义鸿沟问题,需要发展从目标-场景关系模型、特征-视觉词汇-场景模型、特征-目标-场景一体化模型3个方向,研究特征-目标-场景的语义模型。
(2) 遥感大数据的场景多元认知:以多源、多尺度等多元特征为输入,以特征-目标-场景语义模型为基础,研究遥感大数据的场景多元认知方法,提供多元化语义知识输出。
2.4 遥感大数据云遥感云基于云计算技术将各种遥感信息资源进行整合,建立基于遥感云服务的新型业务应用与服务模式,提供面向公众的遥感资源一体化的地球空间服务[22]。遥感云将各种空天地传感器及其获取的数据资源、数据处理的算法和软件资源以及工作流程等进行整合,利用云计算的分布式特点,将数据资源的存储、处理及传输等分布在大量的分布式计算机上,使得用户能快速地获取服务。国家测绘地理信息局建设的地理信息综合服务网站——天地图,就是利用分布式存储技术来存储全球的地理信息数据,这些数据以矢量、影像、三维3种模式来展现,通过门户网站实现了地理信息资源共享。OpenRS Cloud是一个基于云计算的开放式遥感数据处理与服务平台,可以直接利用其虚拟Web桌面进行快速的遥感数据处理和分析。GeoSquare利用高效的服务链网络为用户提供输入输出管理工具来构建可视化的服务链模型进行遥感数据处理。目前正在建立的空天地一体化对地观测传感网旨在获取全球、全天时、全天候、全方位的空间数据,为遥感云中数据获取、处理及应用奠定基础。
3 遥感大数据挖掘数据挖掘是指从大量数据中通过算法搜索其隐藏信息的过程[23],是目前大数据处理的重要手段和有效方法,可以从遥感大数据中发现地表的变化规律,并探索出自然和社会的变化趋势。下面将具体分析遥感大数据挖掘过程和遥感大数据和广义遥感大数据的综合挖掘。
3.1 遥感大数据挖掘过程对大数据进行数据挖掘整个过程包含数据获取与存储、数据处理与分析、数据挖掘、数据可视化及数据融合等,这些过程都具有大数据的特点[22, 23, 24],如图 3所示。而相较于数据检索和信息提取而言,数据挖掘的难度更大,它依赖于基于大数据和知识库的智能推理等的理论和技术支撑。遥感大数据的数据挖掘具体过程为:首先是数据的获取和存储,存储从各种不同的传感器获取的海量、多源遥感数据并利用去噪、采样、过滤等方法进行筛选整合成数据集;然后对数据集进行处理和分析,如利用线性和非线性等统计学方法分析数据并根据一定规则对数据集分类,并分析数据间及数据类别间的关系等;接着对分类后的数据进行数据挖掘,利用人工神经网络、决策树、云模型、深度学习等方法探索和发现数据间的内在联系、隐含信息、模式及知识[23, 24];最后可视化这些模式及知识等,用一种直观的展示来方便用户理解,并将有关联的类别进行融合,方便分析和利用。
3.2 遥感大数据和广义遥感大数据的综合挖掘遥感大数据是地物在遥感成像传感器下的多粒度、多方位和多层次的全面反映。一方面,它能与GIS数据等其他空间大数据有较好的互补关系;另一方面,广义的遥感大数据应该包含所有的非接触式的成像数据,这些遥感大数据和广义遥感大数据的综合信息挖掘能揭示更多的地球知识和变化规律。
随着智慧城市在中国和全世界的推广以及视频架构网的完善,视频监控头作为一种特殊的遥感传感器在城市的智慧安防、智慧交通和智慧城管中有大量应用[21, 22]。2005年国务院启动平安城市的计划,在660个城市装了2200多万个摄像头,大部分城市装了25~60万个摄像头,存储的数据达到PB级别。这些广义遥感时空大数据包含了丰富的信息,如果对这些数据进行信息挖掘,就可以从中发现地球上的一些精细尺度的变化规律,例如人类的生活和行为等。
然而这些广义遥感时空大数据,目前不仅存储费用昂贵,而且不能得到很好的分析,无法发挥其在智慧城市中的作用[22, 24],亟须寻求自动化的数据智能处理和挖掘的方法,发展对空间地理分布的视频数据进行时空数据挖掘的新理论和新算法。
时空分布的视频数据挖掘其目的不仅是进行智能的数据处理和信息提取,更重要的是通过时空分布的视频数据挖掘自动区分正常行为和异常行为的人、车、物,从而对海量的视频数据进行合适的处理,例如删除与人们正常活动有关的、需要保护的私隐活动数据,而保留包含可疑事件的数据。
时空数据挖掘指从时空数据中提取出隐含的、未知的、有用的信息及知识,时间维度和空间维度增加了其挖掘过程的复杂性,因此,时空数据的挖掘需要综合运用多种数据挖掘方法,如统计方法、聚类法、归纳法、云理论等[23, 24]。时空分布的视频数据挖掘的主要研究内容包括行为分析,基于时空视频序列的事件检测等内容。
3.3 遥感大数据挖掘的潜在应用遥感大数据挖掘不仅能用于挖掘地球各种尺度的变化规律,而且能用于发现未知的,甚至与遥感本身不相关的知识[22, 24],其中一个典型的应用是用夜光遥感技术发现夜光和战争之间的关系。例如,借助美国国家海洋和大气管理局免费公布的相关卫星数据,可以绘制出169个国家的夜光趋势图[25],通过统计分析得到全球夜光波动指数,发现每年夜光波动程度与当年全球发生武装冲突数量的相关度很高,相关系数达到0.7以上[25]。如果利用数据挖掘的方法把所有国家按照夜光波动进行分级,夜光波动最大的一类国家,在近20年内发生战争的几率为80%,夜光波动较大或者极大的53个国家中,有30个遭受战争侵扰。因此,可以得出结论:夜光突然减少,一般情况下对应着战争爆发和因海啸等天灾造成的居民大规模迁徙;夜光突然增加,一般意味着战争结束以及战后、灾后重建。一个国家的夜光波动越大,说明在该段时间发生战争的可能性越大。
4 结语与展望未来10年,我国遥感数据的种类和数量将飞速增长,对地观测的广度和深度快速发展,亟须开展遥感大数据的研究。然而,卫星上天和遥感数据的收集只是遥感对地观测的第一步,如何高效地处理和利用已有的和这些即将采集的海量多源异构遥感大数据,将遥感大数据转化成知识是主要的理论挑战和技术瓶颈。研究遥感大数据的自动分析和数据挖掘,能为突破这一瓶颈提供有效的方法,有望显著提高对遥感数据的利用效率,从而加强遥感在环境遥感、城市规划、地形图更新、精准农业、智慧城市等方面的应用效力。因此,重视和抓紧遥感大数据的研究不仅具有非常重要的学术价值,而且具有重要的现实意义。
[1] | ADSHEAD A. Data Set to Grow 10-fold by 2020 as Internet of Things Takes off [EB/OL]. [2014-04-09]. http://www.computerweekly.com/news/2240217788/data-set-to-grow-10-fold-by-2020-as-internet-of-things-takes-off. |
[2] | MAYER S V, CUKIER K.Big Data:a Revolution That Will Transform How We Live, Work, and Think [M]. Translated by ZHOU Tao. Hangzhou: Zhejiang People’s Publishing House, 2012. (MAYER S V, CUKIER K.大数据时代:生活,工作与思维的大变革 [M].周涛, 译. 杭州:浙江人民出版社,2012.) |
[3] | ZIKOPOULOS P, EATON C, DEROOS D, et al. Understanding of Big Data [M]. New York:Mc Graw Hill, 2012. |
[4] | DAVID G.Big Data [J]. Nature, 2008, 455(7209): 1-136. |
[5] | WOUTER L,JOHN W.Dealing with Big Data [J]. Science, 2011, 331(6018): 639-806. |
[6] | White House Office of Science and Technology Policy. Big Data is a Big Deal[EB/OL]. [2012-03-29].http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal. |
[7] | White House Executive Office of the President. Big Data across the Federal Government [EB/OL].[2012-03-29].http://www.whitehouse.gov/sites/default/files/microsites/ ostp/big_data_fact_sheet.pdf. |
[8] | WANG Weihang. The British Provides Huge Sum of Money for Developing Big Data Technologies to Promote Economic Growth [EB/OL]. [2013-05-31]. http://www.e-gov.org.cn/xinxihua/news003/201305/141545.html. (王苇航.英国斥巨资发展大数据技术以期推动经济增长[EB/OL]. [2013-05-31].)http://www.e-gov.org.cn/xinxihua/news003/201305/141545.html. |
[9] | LI Guojie, CHENG Xueqi. Research Status and Scientific Thinking of Big Data [J]. Bulletin of Chinese Academy of Sciences, 2012, 27(6): 647-657. (李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域—大数据的研究现状与科学思考[J]. )中国科学院院刊,2012,27(6): 647-657. |
[10] | LI Deren, TONG Qingxi, LI Rongxing, et al. Some Frontier Problems of High Resolution Earth Observation [J]. Scientia Sinica Terrae, 2012, 42(6): 805-813. (李德仁, 童庆禧, 李荣兴,等. 高分辨率对地观测的若干前沿科学问题[J].) 中国科学: 地球科学, 2012, 42(6): 805-813. |
[11] | QUARTULLI M, OLAIZOLA I G. A Review of EO Image Information Mining[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2013 (75):11-28. |
[12] | XIN Fangfang, JIAO Licheng, WANG Guiting. Change Detection in Multitemporal Remote Sensing Images Based on Dynamic Fuzzy Fisher Classifier and Non Local Mean Weighted Method [J]. Acta Geodaetica et Cartographica Sinica, 2012,41(4):584-590.(辛芳芳,焦李成,王桂婷. 非局部均值加权的动态模糊Fisher分类器的遥感图像变化检测[J].)测绘学报,2012,41(4):584-590. |
[13] | LI Hui,XIAO Pengfeng, FENG Xuezhi, et al. Multi-scale Edge Detection in Multispectral Remotely Sensed Imagery Based Vector[J]. Acta Geodaetica et Cartographica Sinica, 2012, 41(1): 100-107. (李晖,肖鹏峰,冯学智,等.基于向量场模型的多光谱遥感图像多尺度边缘检测[J].)测绘学报,2012,41(1):100-107. |
[14] | ZHANG Nan.Content-based Remote Sensing Image Retrieval [D].Changsha:National University of Defense Technology, 2008. (张男.基于内容的光学遥感图像检索关键技术研究[D].)长沙:国防科学技术大学, 2008. |
[15] | YUAN Deyang, NIE Juan, DENG Lei, et al. Design and Implementation of Metadata-based Multi-source Remote Sensing Image Database Integration Technology [J]. Science of Surveying and Mapping, 2012, 37(3): 151-155. (袁德阳,聂娟,邓磊,等. 基于元数据的多源遥感影像数据库集成技术研究与实现 [J]. )测绘科学, 2012, 37(3): 151-155. |
[16] | DATCU M, DASCHIEL H, PELIZZARI A, et al. Information Mining in Remote Sensing Image Archives: System Concepts [J].IEEE Transactions on Geoscience and Remote Sensing, 2003, 41(12): 2923-2936. |
[17] | KOPERSKI A, TUSK C, MARCHISIO G, et al. Learning Bayesian Classifiers for Scene Classification with a Visual Grammar [J]. IEEE Transactions on Geoscience and Remote Sensing, 2005, 43(3): 581-589. |
[18] | PORWAY J, WANG Q, ZHU S C.A Hierarchical and Contextual Model for Aerial Image Parsing [J]. International Journal of Computer Vision, 2010, 88(2): 254-283. |
[19] | LIENOU M L, MAITRE H, DATCU M.Semantic Annotation of Satellite Images Using Latent Dirichlet Allocation [J]. IEEE Geoscience and Remote Sensing Letters, 2010, 7(1): 28-32. |
[20] | YUE P, WEI Y,DI L, et al. Sharing Geospatial Provenance in a Service-oriented Environment [J]. Computers, Environment and Urban Systems, 2011, 35(2): 333-343. |
[21] | CHEN N. Geoproessing Workflow Driven Wildfire Hot Pixel Detection under Sensor Web Environment [J]. Computers & Geosciences, 2010, 36: 362-372. |
[22] | LI Deren, YAO Yuan, SHAO Zhenfeng. Big Data in Smart City[J].Geomatics and Information Science of Wuhan University, 2014, 39(6): 631-640. (李德仁,姚远,邵振峰. 智慧城市中的大数据[J].)武汉大学报:信息科学版, 2014, 39(6): 631-640. |
[23] | HAN J, KAMBER M, PEI J.Data Mining: Concepts and Techniques [M]. San Francisco:Morgan Kaufmann Publishers, 2006. |
[24] | LI Deren, WANG Shuliang, LI Deyi. Spatial Data Mining Theories and Applications [M].Beijing: Science Press, 2013. (李德仁,王树良,李德毅. 空间数据挖掘理论与应用 [M].北京:科学出版社,2013.) |
[25] | LI Xi.Luminous Remote Sensing Cultural Perspectives Observation to the Earth [EB/OL]. [2014-05-30]. http://ccnucity.ccnu.edu.cn/ShowDetail.aspx?id=5593 |