基于社交媒体数据的武汉内涝时空统计分析 | ![]() |
2. 武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉,430079;
3. 武汉大学中国发展战略与规划研究院,湖北 武汉,430072
2. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China;
3. China Institute of Development Strategy and Planning, Wuhan University, Wuhan 430072, China
武汉市地处江汉平原,地势较低且夏季降水量极大,易受到洪涝灾害影响。而随着城市化进程的不断加快,湖泊面积锐减,自然土壤逐渐硬化导致难以涵养水分,故武汉市近年来内涝频发,严重影响市民的日常生活,还造成了巨大的经济损失。尤其是以2016年为最,仅7月6日当天,6 h的降雨量便达到200多毫米,多处房屋、道路、涵洞被淹没,交通也受到了很大影响[1]。所以,了解武汉市近几年来内涝发生的时空分布与严重程度变化,有助于进一步分析后续武汉市的内涝问题以及提出切实有效的内涝解决方法。
目前,已有较多学者利用网络爬虫获取社交媒体数据,并对其进行分析,用于研究灾害情况。邢祥等[2]利用中青舆情监测室的微博、微信和论坛数据对社交媒体在天津港8·12火灾中舆论传播的影响开展了研究;彭浩轩[3]利用社交媒体数据挖掘2016年7月武汉市南湖区域积水点空间与属性信息,结合土地利用变化进行了内涝响应分析;朱晓寒等[4]提出内涝灾害的多维情景框架;李雪尘等[5]获取2012年大暴雨的微博数据并进行时空分析,展现暴雨相关信息并预测其发展趋势;冯小东等[6]利用雾霾相关信息的微博热度,结合雾霾发生的情况,得出社交媒体舆论热度与自然灾害的影响程度有很强相关性;王森等[7]利用Twitter数据分析Sandy飓风的时空分布特征,说明社交媒体在应对重大灾害时有十分积极的作用。
此外,微博数据还被应用于其他领域。张超越等[8]以杭州市公交车燃烧事件后的微博为基础,证明微博对处理城市应急事件的能力;张媛等[9]提出了一种有效的社交网络大数据获取方法,并以微博签到数据为例验证了其可靠性。
现有的社交媒体数据分析研究主要面向单次灾害事件,缺乏对同类灾害事件发生的时空变化统计分析,无法体现灾害事件的发生规律及变化趋势。本文基于新浪微博数据,获取了2015—2019年武汉市内涝的社交媒体数据,并对武汉市内涝的区域分布、年际及月际变化进行了分析,总结了近年来武汉市内涝发生的时空规律。
1 研究方法首先,在后羿采集器中预登陆微博,以便在后续操作中使用微博的高级搜索功能。预登陆后在高级搜索中调整搜索关键词、搜索时间及搜索地点。本文使用的关键词为“渍水”“内涝”,搜索地点为湖北省武汉市,在搜索的时间设定上,由于微博只显示50页,需要对时间进行分段处理以便获取更为完整全面的数据,如在获取2016年“内涝”关键词对应的数据时,按微博条数分5个时间段进行数据读入。生成的数据表中包含对应网址、用户名、时间、正文内容、点赞数、转发数与评论数等信息。
然后,对相关微博进行筛选,需要筛除的包括与内涝本身无关的微博以及发生地不在武汉市内的微博。对保留的微博按年为单位进行数据统计,对发生地点、严重程度进行记录,并对同名地点进行提及次数的统计,将其作为数据可信度的一个指标。为了后续的数据分析,本文对微博内容中提及的内涝严重程度进行量化,将“短时渍水”“小车可以通行”等描述量化为1;将“车辆勉强通行“”行车缓慢”等描述量化为2;将“大面积渍水“”小车无法通行”等描述量化为3;将“渍水严重“”车辆无法通行”等描述量化为4;部分严重程度描述缺失暂定为0,以便后续在地图上显示。
在完成上述数据汇总工作后,还要进行地理编码和地图显示工作。本文采用基于百度地图应用程序接口(application program interface,API)的Map Location网络地理编码工具进行地理编码。使用Map Location时,将汇总表中的地点加上前缀“武汉市”,以提高地理编码的准确度,最后输出包含地点经纬度、地点类型、可信度、坐标系类型(使用百度地图API时的输出坐标系为百度坐标系,即BD09坐标系)的汇总表。但由于原始微博文本内容与所述地点有关的信息详略程度差异较大,会影响定位的准确度。在进行地图显示前,要先进行坐标转换,因为ArcGIS中不包含百度坐标系这一地理坐标系。
地点坐标与武汉市行政区划图使用的坐标系分别为BD09坐标系和1984世界大地测量系统(world geodetic system 1984,WGS-84),为使两者在同一地图上显示,要将BD09坐标系的地点坐标转换到WGS-84坐标系下,即先将BD09坐标系转换至火星坐标系(GCJ02),再将GCJ02坐标系转换至WGS-84坐标系[10],具体实现代码可参考CSDN博客[11, 12]。坐标转换完成后,便可在ArcMap中同时显示地点坐标与武汉市行政区划图。
2 实验结果及分析 2.1 数据验证为检验结果的准确性,本文将2016年7月6日爬取的内涝点与武汉市水务局发布的内涝点情况进行成图并对比,青山区的部分数据情况见图 1。
![]() |
图 1 微博内涝点与武汉市水务局官方数据对比 Fig.1 Comparison Between the Waterlogging Spots from Social Media and the Official Data from the Water Resources Bureau of Wuhan |
两种内涝点并非完全重合,且微博数据中的内涝点数量比水务局的多,这是因为微博中有些关于内涝地点的描述十分详细,有些又过于简略而导致地理编码不准确。但总体上来看,本文方法对研究武汉市内涝问题较为准确。
2.2 结果分析内涝点的位置信息及严重程度信息见图 2。对5年内涝发生总数及平均严重程度进行计算,得到按区划汇总的内涝发生情况,如表 1所示,本文计算平均严重程度时把0值排除在外。
![]() |
图 2 2019年武汉市内涝点情况 Fig.2 Distribution of Waterlogging Spots in Wuhan in 2019 |
表 1 内涝数据按区汇总表 Tab.1 Summary of Waterlogging Data by Districts |
![]() |
其中,图 3展示了各年微博数据中内涝发生数量的月变化情况(只显示有内涝记录的月份)。在2015—2019年期间,2016年微博数据中所提及的内涝发生情况最为严重,有894例;其次为2015年的178例,2019年的145例以及2018年的78例。而2017年微博数据中所提及的内涝发生次数最少,仅为19例。武汉市内涝多发生于6月和7月,且以2016年7月为最,当月内涝发生次数接近700次;4月、5月、8月、9月均有少量内涝情况出现;而其他月份几乎没有内涝发生。2016年6月至7月武汉市降水量极大,对整个武汉市内涝情况的时间序列进行分析,发现内涝的发生情况与降雨量有很大关系。
![]() |
图 3 各年内涝的月变化情况 Fig.3 Monthly Variation of Waterlogging Spots in Each Year |
图 4展示了按区划分的内涝数的年变化情况,以各点严重程度对内涝点进行加权,结果见图 5。武汉市内涝的发生数及严重程度不仅随时间变化,还因区而异,这与各区所处的地理位置、城市排水系统的优劣及生态环境(如植被湖泊等的面积)有关。其中,洪山区的内涝最为严重;江岸区、武昌区、江夏区也是内涝频发,5年中内涝发生总数在100例以上,且严重程度较高;江汉区、汉阳区与东西湖区受内涝的影响也比较大;相对而言,硚口区、青山区、汉南区、蔡甸区、黄陂区及新洲区受内涝影响较小。
![]() |
图 4 按区划分内涝发生数逐年变化情况 Fig.4 Yearly Variations of Waterlogging Spots in Different Districts |
![]() |
图 5 按区划分的严重程度加权的内涝发生数逐年变化情况 Fig.5 Yearly Variations of Waterlogging Weighted by Severity in Different Districts |
所以,在内涝防控方面,也应对这些内涝多发区域进行更严格的防涝治涝工作。在雨季(特别是每年7月)到来之前,对洪山区、江岸区、武昌区等区域的排涝设施提前进行检查与修缮,并组织、培训好更多的救灾人员,以便应对短时强降雨导致的短时内涝,并且密切关注这些区域的内涝多发地,在附近设立紧急排涝站点,以尽量降低内涝造成的损失。
3 结束语本文利用爬虫软件从微博数据中爬取了武汉市2015—2019年的内涝相关数据,统计了内涝信息中的发生时间、地名地址和严重程度描述,利用基于百度地图API的网络地理编码工具Map Location对地名地址进行了地理编码,从内涝发生频率的年际变化、月际变化及不同行政区划的差异等方面进行了分析。本研究还存在可以改进的地方,如引入文本语义分割方法,将更有效快速地从微博内容中获取地名地址及内涝严重程度信息。此外,结合长时间序列的土地利用变化进行内涝响应分析,也是下一步工作的重点。
[1] |
宋宏娇, 张丹丹, 周思迪. 城市化进程中武汉市内涝灾害防治研究[J]. 工程技术研究, 2019, 4(8): 249-250. DOI:10.3969/j.issn.1671-3818.2019.08.115 |
[2] |
邢祥, 王灿发. 社交媒体对重大突发危机事件舆论影响的研究: 从天津港"8·12"特别重大火灾爆炸事故看社交媒体的"渗透"[J]. 新闻爱好者, 2015(11): 16-18. DOI:10.3969/j.issn.1003-1286.2015.11.003 |
[3] |
彭浩轩. 基于遥感影像和社交媒体的武汉市南湖土地利用变化及内涝响应分析[D]. 武汉: 华中科技大学, 2018
|
[4] |
朱晓寒, 李向阳, 刘昭阁. 大数据环境下城市内涝灾害的情景维度模型构建[J]. 武汉大学学报·信息科学版, 2020, 45(11): 1818-1828. |
[5] |
李雪尘, 熊薪. 基于社交平台大数据的暴雨时空分析[J]. 科技创新导报, 2019, 16(5): 119-121. |
[6] |
冯小东, 李卓雅, 史志慧. 基于网络舆情热度的自然灾害影响评估分析[J]. 情报探索, 2020(1): 16-22. DOI:10.3969/j.issn.1005-8095.2020.01.003 |
[7] |
王森, 肖渝, 黄群英, 等. 基于社交大数据挖掘的城市灾害分析: 纽约市桑迪飓风的案例[J]. 国际城市规划, 2018, 33(4): 84-92. |
[8] |
张超越, 张晨晓, 乐鹏. 基于微博热门话题的扩散特征研究[J]. 测绘地理信息, 2018, 43(2): 115-118. |
[9] |
张媛, 胡庆武. 社交网络时空大数据聚类挖掘有效选择分析[J]. 测绘地理信息, 2020, 45(2): 45-50. |
[10] |
李士强, 张云鹏, 田崇新. 基于Python的网络地图坐标转换方法研究[J]. 测绘与空间地理信息, 2019, 42(7): 46-48. |
[11] |
雪中亮. 电子地图坐标系统研究整理[EB/OL]. [2020-01-07]. https://blog.csdn.net/llmmll08/article/details/51162297
|
[12] |
Easyhood. 将GPS坐标转换为火星坐标[EB/OL]. [2019-12-15]. https://blog.csdn.net/Easyhood/article/details/53057098
|