测绘地理信息   2022, Vol. 47 Issue (3): 161-164
0
用户标签揭示进出口量:基于标签共现的空间关联性分析[PDF全文]
游想1, 张双印2, 费腾1    
1. 武汉大学资源与环境科学学院, 湖北 武汉, 430079;
2. 武汉大学测绘遥感信息工程国家重点实验室, 湖北 武汉, 430079
摘要: 区域之间的关联强度通常可以通过客流、贸易流、通信流等来衡量,但是这些数据的可获取性往往是不确定的。以用户产生的开放式资料为基础,采用包含3个步骤的方法来估测区域间的关联强度:①将研究区域划分成标准网格;②基于用户标签在研究区域中的分布建立网格之间的关联网络;③调整网络中边的权重来计算区域间关联强度。
关键词: Flickr标签    网格    标签共现    区域关联性    进出口量    
Import and Export Volume Revealed by User Tags: A Spatial Relatedness Analysis Based on Tag Co-occurrence
YOU Xiang1, ZHANG Shuangyin2, FEI Teng1    
1. School of Resources and Environmental Sciences, Wuhan University, Wuhan 430079, China;
2. State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Wuhan University, Wuhan 430079, China
Abstract: The relatedness between regions can often be measured by passenger flow, trade flow, communication flow and so on. However, the accessibility of these data is usually uncertain. Based on open data generated by users, we use a 3 step method to estimate the strength of relatedness between regions. Firstly, the study area is divided into grids. Secondly, a related network between the grids is established based on the distribution of user tags in the study area. Thirdly, the relatedness values between regions are calculated by adjusting the edge weights of the network.
Key words: Flickr tags    grids    tag co-occurrence    regional relatedness    import and export volume    

区域间的关联性研究对促进区域协调发展具有重要意义。而区域关联性分析取决于如何利用关联这些区域的各种数据。有众多研究强调了网络嵌入对区域关联性研究的重要性[1-7]。而在很大一部分研究中,区域关系是基于网络中节点之间的流量数据计算的,如交通流量、乘客流量、人口迁移[8-10];或基于在线用户生成数据计算。例如,Flickr网站上用户位置信息作为一种在线用户生成数据资源,被用于量化人类的旅行流量[11, 12],进而被用于分析区域间的关联性;微博也是一种在线用户生成的数据资源,可通过研究微博用户的社会关系和地理位置变化来确定区域相关性[13, 14]。以上研究主要针对用户带来的实际流和虚拟流,仅利用人口流动和人际交往的目标和强度来描述区域间关联性强度不够全面,这些研究本质上只围绕存在于“第一空间”[15]的流进行“,第二空间”中的流则被有意或无意地忽略了“。第一空间”即人们看到的“物理”空间,是一门物质的、可见的、可测量的、对空间客观判定的正式科学“;第二空间”指人的感知与“第一空间”的结合,是对空间进行建模和概念化的规划者和城市学家的空间[15]

Twitter、Flickr和微博等社交网络应用程序的使用已然是一种潮流,这为从人的感知角度来研究区域联系提供了数据依据。随着这些社交应用的兴起,出现了一些关于社交网络应用的共现分析研究[16, 17],其中,较为简单的标签共现分析主要被用来研究这些标签之间的关系,或进行标签特征分析和语义分析,很少被用于区域关联性分析。本文利用Flickr中用户生成的标签数据,通过标签共现分析从人类感知的角度来研究世界各地之间更加全面的关联。本文使用带有地理坐标的用户标签数据进行研究,避免了地名的模糊性问题,在“第二空间”中绘制了区域间的概念流,且为了进一步探索该方法的潜在实用性,选取了一些样本国家,对由本文方法计算出的它们之间的概念关联强度与贸易交互量进行了相关性分析。

1 研究数据与方法 1.1 研究数据

本文所用的全球用户标签数据和相应的位置信息是从Yahoo Flickr Creative Commons 100 Million(YFCC100M)数据集中提取的,该数据集包含200404—2014-08拍摄的公开的照片。提取其中最常用的000个英文标签作为研究数据,排除了一些没有实际意义的单词,如“at”和“to”这些常用介词。

1.2 研究方法

如果两个地名同时出现在同一文本中,则可以认为它们有关联[18, 19]。在本文中,如果两个区域被相同的标签标记,则认为它们有关联。具有相同标签的区域可视为网络中的两个节点被这个标签所关联,并在网络中由一条边连接表示该关联关系。区域之间的边连接得越多,表示这些区域被越多相同的标签所标记,即这些区域之间的概念关联强度越强。在Bonne投影下,将世界地图分割成多个100×km的标准网格,构造一个查找表,表的一侧列出了所有有效的用户标签,表的另一侧对应相应用户标签所在的网格编码。

1.2.1 节点之间的概念关联性

1)构建标签网络。在查找表中,一个标签可以对应多个网格,先将这些网格视为节点,具有相同标签的任意两个节点都可以通过边连接,从而形成每个标签的网络;再将20 000个标签的所有网络叠加,形成一个包含13 968个相关联节点(网格)的集成网络。在这个集成网络中,任意两个节点之间的边数表示有多少相同的用户标签被用来描述这两个不同的位置(区域),或者在另一个意义上,表示它们之间概念关联强度。通常,节点之间连接的边的数量越多,表示节点之间的关联度越强。

2)基于标签网络计算概念关联强度。通过不同方式给节点之间的边赋权重,以下指标可用于计算标签共现网络中节点之间的概念关联强度:

① 节点之间的边数(number of edges,NE)。在这个指标中,所有边的权重都是相等的,具体到每条边,lijm表示节点i和节点j被标签m同时标记一次,不考虑带有标签m的照片在这两个节点中的数量。考虑到节点所包含的标签个数的影响,即对于同一个共现标签,不同节点包含的带有该标签的照片数目有所不同。在计算两节点之间的关联强度时,该指标记录了两个节点中出现的所有标签的数目,再令节点间的边数除以该数目。即对于节点ijTiTj分别是节点ij中出现的标签集合,TijTiTj的并集,tij是集合Tij中包含的不同标签个数。NE指标计算的节点ij之间的关联强度如下:

$C_{i j}^{\mathrm{NE}}=\left(\sum\limits_{m}^{M} O_{i}^{m} \times O_{j}^{m}\right) / t_{i j}$ (1)

式中,M是所有标签总数,等于20 000;Oim表示节点i中是否有标签m,有则为1,反之为0。

② 节点之间边的权重之和(sum of the weight of edges,SWE)。不同共现标签可能对两个节点之间的关联强度贡献不同,相同标签所对应的照片数量在不同节点中可能会有很大差异。鉴于此,每个节点中每个标签的照片数量被记录下来用于计算这个新指标(SWE),每条边的权重由一对节点中所包含的由共同标签所标记的较少照片数量表示,不同的边可能具有不同的权重:

$C_{i j}^{\mathrm{SWE}}=\left(\sum\limits_{m}^{M} \min \left(N_{i}^{m}, N_{j}^{m}\right)\right) / t_{i j}$ (2)

式中,Nim表示节点i中被标签m标记的照片数。

在SWE指标中,对于每个节点对,它们之间不同边的权重变化很大,权重较大的边可能会掩盖权重较小的边对节点间关联强度的贡献。为了减少权重大的边对节点之间概念关联强度的贡献,加强边的数量对节点之间概念关联强度的贡献,本文提出了一个新的指标SWE-log,在这个指标中,逻辑回归函数被应用于边权重的计算,计算公式如下:

$C_{i j}^{\mathrm{SWE}-\log }=\left(\sum\limits_{m}^{M} \frac{1}{1+\mathrm{e}^{-\left(\min \left(N_{i}^{m}, N_{j}^{m}\right)-z\right)}}\right) / t_{i j}$ (3)

式中,z为阈值,通过多次实验选择了所有权重的均值作为z;e表示自然常数。

③ 词频-逆向文档频率的节点间边的权值之和(sum of the weight of edges term frequency inverse document frequency,SWE -TF -IDF)。节点中普遍存在的标签共现对节点之间的概念关联强度通常不太重要,为了减弱广泛分布的标签(在众多节点所有节点中出现)的影响,采用TF-IDF方法来度量边的权重。在文本挖掘预处理中,TF-IDF是一种统计方法,用于评估单个单词对文集语料库中的文档集或其中一个文档的重要性。单词对某个文档的重要性随着它们在该文档中出现次数的增加而增加,但随着它们在整个语料库中出现频率的上升而降低。在该指标中,TF-IDF被用于评估每条共现边对节点之间概念关联强度的重要性,边的权重计算如下:

$W_{i j}^{m}=\min \left(\frac{N_{i}^{m}}{N_{i}}, \frac{N_{j}^{m}}{N_{j}}\right) \times\left(\ln \left(\frac{F}{F_{m}}\right)+1\right)$ (4)

式中,Fm表示出现标签m的节点数;F表示节点总数;Ni表示节点i中的照片总数。节点之间的概念关联强度计算公式如下:

$C_{i j}=W_{i j}^{m}$ (5)
1.2.2 国家之间的概念关联性

本文选择了20个广泛使用Flickr的样本国家,分别用4个指标计算概念关联强度,这些国家的人口、发展水平和经济地位各不相同。这20个国家分别是加拿大、中国、法国、德国、印度、爱尔兰、意大利、日本、科威特、马来西亚、墨西哥、荷兰、挪威、卡塔尔、俄罗斯、韩国、西班牙、土耳其、美国和英国。将两个国家任意两个节点之间的概念关联强度相加即可得到它们之间的概念关联强度。

1.2.3 交互作用与相似性的较量

为了确定本文方法得到的这些国家之间的概念关联强度是表明国家之间的交互作用还是相似性,对个国家相互之间的关联强度与它们间的交互作用和相似度分别进行了相关性分析。各国之间的交互作用是根据从Chatham House收集到的2004—2014年10年间各国之间的进出口量(贸易量)计算的。这些进出口量和从The World Bank收集的各国人口、土地面积和人均国内生产总值的平均值被视为各国的特征,形成每个国家的特征向量。归一化后,通过计算20个特征向量两两之间的余弦相似度,得到20个国家两两之间的相似度。

1.2.4 探索分析

为了进一步探索本文方法的潜力,且由于Chatham House和The World Bank上的数据时间上限为2017年,本文还计算了2005—2015年、2006—2016年、2007—2017年这20个国家两两之间的交互作用和相似度,并将其与本文方法所得的国家间的关联强度(2004—2014年)进行皮尔逊相关性分析。

2 研究结果

实验得到了20个国家两两之间的贸易交互作用和相似度。表 1为皮尔逊相关性分析结果。4种概念关联强度指标与国家间贸易交互强度的皮尔逊相关分析的P值均小于0.01,具有统计学意义,且皮尔逊相关系数均在0.7左右,相关性较好。而这4种概念关联强度指标与国家间相似度的相关系数要低得多,均小于0.2。这表明用Flickr用户标签数据计算出的国家间关联强度与国家间贸易交互强度是显著相关的,关系较为密切;而国家间关联强度与国家间的社会经济相似度间的相关性则要小得多,几乎没什么关联。4个指标中,SWE-TF-IDF关联强度与各国之间的贸易交互强度(2004—2014年)之间的相关性最强。

表 1 皮尔逊相关性分析结果(2004—2014年) Tab.1 Pearson Correlation Coefficients(2004—2014)

通过相关性分析得到了国家间4种概念关联强度与2005—2015年、2006—2016年、2007—2017年国家间贸易交互强度和相似度之间的皮尔逊相关系数。国家间贸易交互强度与4种概念关联强度之间的相关系数均大于0.69,如图 1(a)所示;而国家间的4种概念关联强度与2005—2015年、2006—2016年、2007—2017年各国间相似度之间的皮尔逊相关系数均小于0.18,见图 1(b)。进一步说明了研究得到的国家间的概念关联强度更能代表国家间的贸易交互强度。图 1(a)还表明,国家间概念关联强度与2005—2015年、2006—2016年、2007—2017年的国家间贸易交互作用之间的皮尔逊相关系数均高于其与2004—2014年间的国家间贸易交互作用之间的相关系数,且时间越往后移,相关系数越大。这表明,由Flickr用户标签数据计算得到的区域间概念关联强度更能准确地反映在该数据时间范围之后的区域间贸易交互强度,这意味着本文方法可能具有预测国家之间贸易量的潜力。由图 1(a)可知,在这4个指标中,SWE-TF-IDF指标所得的国家间关联强度能最好地表示国家间的贸易交互强度。

图 1 相关性分析结果 Fig.1 Correlation Analysis Results

3 结束语

本文以数百万Flickr用户上传的照片中的标签和位置数据为基础,提出了一种标签共现的区域联系分析方法,用4种指标计算出了世界各地之间的概念关联强度。对结果进行相关性分析发现,基于Flickr用户感知的各种空间关联性分析指标都能很好地表示样本国之间的贸易交互强度,并且能更好地表示未来的贸易交互强度,这表明用户感知的空间关联强度对国家间的贸易交互强度有一种导向作用。这也许反映了“第一空间”和“第二空间”不是孤立存在的,在社会历史领域中,“第二空间”总是控制着“第一空间”,即想象的空间控制着具体的(真实的)空间[15]

与以往试图揭示区域间相互作用强度的研究相比,本文方法是一种新的低成本方法,采用的是集体主观方法,可以避免任意参数化过程,且使用的数据是由分布在世界各地的数百万Flickr用户提供的,故得到的结果更全面。本文方法在缺乏传统社会经济统计数据的情况下尤其有用,且具有很大潜力。为便于同国家的贸易数据进行比较,本文方法仅在国家层面上实现了应用,但只要用户标签数据足够,该方法就可以在任何空间尺度上得到应用。此外,该方法对进出口公司、期货公司、保险公司等都有利用价值,也可以帮助制定国家或地区的社会经济政策。在后续研究中,仍要不断改进,希望在未来能有新发现。

参考文献
[1]
Camagni R. The City of Business: The Functional, the Relational-Cognitive and the Hierarchical-Distributive Approach[J]. Quality Innovation Prosperity, 2017, 21(1): 31-48. DOI:10.12776/qip.v21i1.818
[2]
Camagni R, Capello R. The City Network Paradigm: Theory and Empirical Evidence[J]. Contributions to Economic Analysis, 2004, 266: 495-529.
[3]
McCann P, Acs Z J. Globalization: Countries, Cities and Multinationals[J]. Regional Studies, 2011, 45(1): 17-32. DOI:10.1080/00343404.2010.505915
[4]
Meijers E, Hoogerbrugge M, Cardoso R. Beyond Polycentricity: Does Stronger Integration between Cities in Polycentric Urban Regions Improve Performance?[J]. Tijdschrift Voor Economische En Sociale Geografie, 2018, 109(1): 1-21. DOI:10.1111/tesg.12292
[5]
Meijers E J, Burger M J, Hoogerbrugge M M. Borrowing Size in Networks of Cities: City Size, Network Connectivity and Metropolitan Functions in Europe[J]. Papers in Regional Science, 2016, 95(1): 181-198. DOI:10.1111/pirs.12181
[6]
Neal Z P. The Connected City, How Networks are Shaping the Modern Metropolis[M]. New York: Routledge, 2013.
[7]
Taylor P J, Derudder B. World City Network: A Global Urban Analysis[M]. New York: Routledge, 2016.
[8]
Abel G J, Sander N. Quantifying Global International Migration Flows[J]. Science, 2014, 343(6 178): 1 520-1 522.
[9]
Dash Nelson G, Rae A. An Economic Geography of the United States: From Commutes to Megaregions[J]. PLoS One, 2016, 11(11): e0166083. DOI:10.1371/journal.pone.0166083
[10]
Djankov S, Freund C. Trade Flows in the Former Soviet Union, 1987 to 1996[J]. Journal of Comparative Economics, 2002, 30(1): 76-90. DOI:10.1006/jcec.2001.1752
[11]
Barchiesi D, Preis T, Bishop S, et al. Modelling Human Mobility Patterns Using Photographic Data Shared Online[J]. Royal Society Open Science, 2015, 2(8): 150046. DOI:10.1098/rsos.150046
[12]
Barchiesi D, Moat H S, Alis C, et al. Quantifying International Travel Flows Using Flickr[J]. PLoS One, 2015, 10(7): e0128470. DOI:10.1371/journal.pone.0128470
[13]
Li Q Q, Chang X M, Shaw S L, et al. Characteristics of Micro-Blog Inter-City Social Interactions in China[J]. Journal of Shenzhen University Science and Engineering, 2013, 30(5): 441-449. DOI:10.3724/SP.J.1249.2013.05441
[14]
王波, 甄峰. 网络社区交流中距离的作用: 以新浪微博为例[J]. 地理科学进展, 2016, 35(8): 983-989.
[15]
Soja E W. Thirdspace: Journeys to Los Angeles and other Real-and-Imagined Places[M]. Oxford: Blackwell, 1996.
[16]
Pervin N, Phan T Q, Datta A, et al. Hashtag Popularity on Twitter: Analyzing Co-occurrence of Multiple Hashtags[C]. 7th International Conference, SCSM 2015, Los Angeles, CA, USA, 2015
[17]
Wang R, Liu W L, Gao S Y. Hashtags and Information Virality in Networked Social Movement[J]. Online Information Review, 2016, 40(7): 850-866. DOI:10.1108/OIR-12-2015-0378
[18]
Ballatore A, Bertolotto M, Wilson D C. An Evaluative Baseline for Geo-Semantic Relatedness and Similarity[J]. GeoInformatica, 2014, 18(4): 747-767. DOI:10.1007/s10707-013-0197-8
[19]
Spitz A, Geiß J, Gertz M. So Far Away and yet So Close: Augmenting Toponym Disambiguation and Similarity with Text-Based Networks[C]. Proceedings of the Third International ACM SIGMOD Workshop on Managing and Mining Enriched Geo-Spatial Data, New York, USA, 2016