2. 北京联合大学 应用文理学院, 北京 100191;
3. 浙江工业大学 管理学院, 杭州 310023
2. College of Applied Arts & Sciences of Beijing Union University, Beijing 100191, China;
3. School of Management, Zhejiang University of Technology, Hangzhou 310023, China
近年来,随着信息通信技术的快速发展,新数据源的不断出现与数据采集技术的日益提高,使得数据采集成本大大下降,进一步推动了数据量的剧增。数据量的指数级增长不但改变了人们的生活方式、企业的运营模式,也改变了科研范式。大量动态的、蕴含着空间位置信息的网络数据(地理大数据)的迅猛增长,为注重空间分析的地理学研究提供了丰富的数据资源,拓展了地理学研究新方向,进而掀起了一场国内外地理学者针对“大数据”的研究热潮。特别是在城市时空间行为研究领域,在大数据挖掘和分析技术日臻成熟的背景下,城市时空间行为研究反响热烈,基于人类行为和活动的大数据研究案例屡见不鲜,有力地推动了学科发展,促进了城市时空间行为研究范式的转型。甚至,有学者指出,一个新的领域正在出现,它可以利用收集和分析数据的能力来揭示个人和群体行为的模式[1],通过合理的数据挖掘算法进行实际的移动预测[2],揭示出人类难以察觉的趋势和模式。随着机器学习算法的不断改进和发展,研究人员将这些算法应用于记录个人活动、对话和动作的实时数据,试图改善人类健康,指导交通和规划,并促进对人类行为的科学理解[3, 4]。
在此背景下,国外学者借助多源大数据率先开展了大数据时代下的城市时空间行为研究。例如,利用公交或旅行智能卡数据来揭示城市居民或特定群体的出行、工作、休闲等日常活动的规律和行为模式[5-7];通过从手机定位和通话数据中提取有用的移动信息,识别城市居民的生活和工作地点[8],调查城市内部的个人移动模式[9],检测不同城市间日常活动的时空差异[10];利用社交媒体用户发文的位置信息推测人类的移动模式等[11]。近几年来,国内学者通过利用大数据挖掘技术,在城市时空间行为研究领域也开展了一系列实证研究:利用GPS和互动式调查网站等数据,从多个维度揭示居民的通勤特征[12];利用手机信令数据构建人口空间动态分析框架,解析人口分布和活动的动态特征[13],进而探究城市居民活动的空间周期变化规律[14];利用公交IC智能卡数据,结合居民出行调查、城市土地利用信息,开展城市居民的职住关系和通勤行为研究等[15]。此外,随着移动设备和基于位置服务的广泛采用,社交媒体通常允许用户分享日常活动的位置(如签到和拍照等),融合了位置和文本二维信息的社交媒体数据大大提升了理解人类行为和地理空间中复杂的社会动态的作用。甚至有学者认为,基于互联网交流和互动产生的数据,可能会彻底改变我们对人类集体行为的理解[16]。因此,借助社交媒体数据进行城市时空间行为研究成为了当前国内外地理学者关注的焦点。例如,对大规模的基于位置的社交媒体数据进行可伸缩的、高效的时空分析[17],揭示居民活动的时空间分布特征[18, 19],建模和预测用户的行为和活动模式[20],甚至于推测用户的的个人属性和偏好[21]。然而,目前的研究主要集中在利用社交媒体数据的签到位置信息,针对用户发布的文本内容信息的挖掘和分析十分薄弱。现有的文本数据挖掘案例主要集中在舆情分析与演变[22, 23],解析用户情绪色彩[24],城市意象感知等[25]。然而,社交媒体数据作为城市时空间行为研究的重要数据源,其文本信息中隐含着海量的用户行为活动信息并未得到充分挖掘,文本信息挖掘技术作为一种从大量可用的社交媒体数据中提取有效信息的重要技术力量在城市地理研究中也并未得到重视。因此,在城市时空间行为研究中,针对社交媒体数据中的文本资源进行充分挖掘亟待加强。
面对以人为核心的城市研究与规划需求,如何理解城市居民的日常生活并分析城市空间与居民生活方式之间的互动关系就显得尤为重要[26]。就餐作为一项人类生存的基本生理行为,也是居民日常生活的重要组成部分,其重要性不言而喻。以北京市为例,2019年,全市餐饮业收入达1204.5亿元,占社会消费品零售总额的9.8%。随着经济发展水平的日益提高,信息技术的逐步完善,人们物质生活不断丰富,居民的生活需求和出行能力有了大大提高,也使得人们的就餐行为已不再是单纯的满足生理需要,其行为活动日趋复杂化、多样化和个性化。在大数据逐渐引领城市空间研究的背景下,学者们主要是通过城市POI数据、大众点评、美团等网络数据来对城市餐饮业空间分布格局或具体的餐饮业空间分布特征进行研究[27-29],而少有从居民行为活动视角,探究居民就餐活动的时空间分布状况的研究案例,应当加强居民就餐活动分布和决策的相关研究。
综上,文章以北京市五环内中心城区作为案例地,借助新浪微博数据、北京市各类POI数据以及相关统计年鉴数据等多源数据集,构建基于自然语言处理技术(NLP)与空间分析有机结合的居民时空间行为研究框架。通过比较居民就餐活动与现有餐饮服务设施在实体空间上的匹配程度,揭示居民就餐活动与城市空间的互动关系模式,探求城市居民时空间活动背后的空间驱动力量,以期更好地审视和剖析城市空间结构。同时,本研究也进一步拓宽了社交媒体数据特别是文本数据的应用领域,有效补充了城市时空间行为研究的方法体系,并为现有的城市时空间行为研究、智慧城市建设和产业选择提供科学支撑与理论依据。
2 研究区概况与研究方法 2.1 研究范围本文的研究范围是北京市五环内的中心城区,主要包括东城区、西城区、朝阳区、海淀区、丰台区、石景山区等。作为北京市首都功能核心区,2019年,北京市中心城区常住人口1123.6万人,占全市常住人口的52.2%,中心城区地区生产总值25596.1亿元,占全市GDP总量的72.4%,中心城区社会消费品零售总额9057.4亿元,占全市社会消费品零售总额的73.8%。由此可见,中心城区是北京人口和各项经济社会活动最集中的区域。
2.2 数据来源与预处理 2.2.1 数据来源本文利用的数据主要来源于新浪微博数据和高德地图POI数据。根据新浪微博官方发布的2020年第二季度财务报告显示,截至2020年6月30日,微博的月活跃用户数已增至5.23亿,平均日活跃用户数为2.29亿,月活跃用户数中约94%为移动端用户。对于如此海量的微博数据,本文在数据获取方法上进行了有针对性的改进,通过利用新浪微博官方API和网络爬虫工具,对定位在北京市辖区内的微博进行了抓取,抓取的数据属性包含微博ID、文本、时间、经纬度等信息,获取北京市2017年微博用户数据1300余万条。其次,从高德公司获取了2018年北京市各类POI数据,其中餐饮服务设施点共54887个(五环内31495个),以此作为本文的原始数据库。
2.2.2 数据预处理由于本文的研究对象为北京城市居民的餐饮活动,所以需要对原始微博数据进行初步筛选,剔除非北京市居民的用户数据,本文对微博数据的预处理主要包括两个部分内容:
首先,根据特定筛选规则确定出与北京城市居民餐饮活动有关的微博,筛选规则如下:
规则1:用户在2017年中发文总量在800条以下
规则2:用户至少在3个月及以上在北京市内发过微博
规则3:文本内容包含就餐相关的关键词(如好吃、美食、美味、火锅等)
依据以上规则,对原始的1300余万条微博数据进行初步筛选,共获得北京市居民关于就餐的微博数据总量495393条。
第二步,对微博内容进行清洗。在多次试验的基础上,建立了一套关于北京市居民就餐活动的自定义词典(包括关键词词库与停用词词库两部分)。在自定义词典的基础上进行数据清洗,主要去除微博文本数据中包含的大量表情符号、图片、淘宝链接、广告、抽奖等与主题文本无关的信息,得到较为简洁、清晰的文本数据,表 1为部分数据示例。
![]() |
表 1 微博数据示例 Tab.1 The Examples of Weibo Data |
本文基于新浪微博数据、POI数据以及相关统计年鉴数据等多源数据集,综合运用机器学习算法与地理空间分析技术进行居民时空间行为研究。首先,通过机器学习算法,对采集到的大规模的社交媒体数据集(带有地理位置的用户发文数据)进行分类,识别出用户的具体活动类型,进而结合发文位置,形成了时空行为研究的良好的基础数据,可针对居民日常活动进行时空特征分析。本文创新性的构建起了一套基于自然语言处理技术与空间分析相结合的居民时空间行为研究框架(如图 1),将地理大数据中丰富的文本信息与定位信息有机结合起来,实现了城市时空间行为研究方法层面上的集成创新。
![]() |
图 1 基于社交媒体数据的城市时空间行为研究分析框架 Fig.1 The Analysis Framework of Urban Temporal and Spatial Behavior Research Based on Social Media Data |
随着人工智能和机器学习技术的快速发展,机器学习、深度学习等智能化手段大大缩短了数据处理成本,提高了工作效率,并越来越广泛的应用于数据分析和数据挖掘领域。本研究以BERT模型[30]为基础,结合Fast.AI技术[31],根据所抓取的微博文本是否与餐饮活动有关进行文本分类。BERT是由Google公司于2018年发布的自然语言处理模型之一,该模型可用于问答系统,情感分析,垃圾邮件过滤,命名实体识别,文档聚类等多种任务中。Fast.AI为Facebook官方2018年重点突出一款深度学习的框架。二者的结合有效的提升了文本分类的精度。通过多次迭代后,本模型的分类精度达到了92%,利用本分类模型对所有微博数据进行文本分类,最终识别出2017年北京市的居民就餐微博数据为331796条,其中五环内254609条。
2.3.2 LDA主题模型LDA(Latent Dirichlet Allocation)主题模型是David M. Blei等人于2003年基于潜语义分析和概率潜语义分析提出的一种对文本数据的主题信息进行建模的主题概率模型[32],可以用来识别大规模文档集或语料库中潜藏的主题信息,并且有极强的解释性,能够有效地解决短文本数据稀疏性的问题,主题提取效果显著,可较好地反映文本体现的热点话题。本文采用了Python3.5中Scikit-Learn库的LDA模型构建算法,对经过NLP技术提取出的关于北京市居民就餐活动相关微博的文本内容进行主题聚类,通过LDA模型中的词袋(Bag of Words)计算出不同主题的概率,以及主题下对应的词语分布概率,最终获得微博用户就餐活动的4类主题聚类结果。
2.3.3 地理探测器为进一步分析餐饮活动空间分异格局的成因,本文采用地理探测器进行归因分析。地理探测器是由中国科学院地理科学与资源研究所王劲峰空间分析小组开发的,由风险探测、因子探测、生态探测和交互探测4部分共同组成的,用以探测地理空间分异性,并揭示其背后驱动力的一组统计学方法[33]。该方法不仅擅长分析类型量,还可以探测数值型数据和定性数据,其另一独特优势还在于能够探测两个因子的交互作用对因变量的影响程度。而居民行为决策过程本就是多重因素综合作用的结果,居民就餐活动的空间分异格局的形成离不开对多种影响因素的系统剖析,故运用地理探测器方法来能够很好地揭示居民就餐行为选择的影响机制。
3 结果分析 3.1 餐饮服务设施及居民就餐活动的空间分布特征 3.1.1 北京市餐饮服务设施空间分布为了较好地揭示北京市餐饮服务设施的空间分布状况,本文主要采用了核密度分析方法,设置搜索半径为500 m,使用自然断点法进行分类。在核密度分布图中,红色区域表示高密度区,区域内密度值较大,集聚效应显著;反之,白色区域表示低密度区,区域内无明显的集聚现象,结果如图 2所示。
![]() |
图 2 北京市餐饮服务设施核密度图 Fig.2 The Kernel Density Map of Beijing Catering Service Facilities |
可以发现,北京市餐饮服务设施空间分布范围广泛,绝大部分区域都有餐饮设施点的分布,符合餐饮设施在实体空间上的布局情况(饮食是人类的刚性需求)。但是,餐饮设施点空间分布不均,呈现出东多西少,北多南少,中心多,外围少的特征。具体表现为,城市中心区域餐饮设施点数量较多,分布密集,形成了多个高密度集聚区域,而外围地区餐饮设施不仅数量少,密度低,空间分布也较为散乱。其中,高密度集聚区多集中于东城区、西城区以及朝阳区,如朝外商圈、工体商圈、CBD商圈等。海淀区也有部分区域餐饮设施分布较为密集,如苏州街、清华科技园、中央民族大学等地。此外,北京市餐饮服务设施的分布还具有亲近人群与消费市场分布的特征,表现为围绕着著名街区、热门景点、大型居住区、高等院校及科研单位进行布局。
3.1.2 基于微博的居民就餐活动的空间分布图 3反映了北京市居民就餐活动的空间分布状况。可以发现,北京城市居民就餐活动的分布范围较为广泛,空间分布不均衡,具有显著的中心集聚的特征。居民就餐活动主要集中在三环以内的中心城区,形成了以工体—朝外— CBD商圈为主的高密度区,同时,集聚程度表现出由中心城区向外递减的趋势。此外,各中心城区内还形成了多个集聚中心,如西单、朝阳大悦城、中关村、五道口等。而按具体地域来说,居民就餐活动则主要分布在重要商圈周边(如CBD商圈、朝外商圈、工体商圈附近,主要包括工体、三里屯、国贸、万达广场等),著名街区内部(如西单、王府井等)和热门景点附近(如什刹海、鼓楼、南锣鼓巷等地)。从整体来看,居民就餐活动空间呈“中心集聚,多点开花”的分布格局。
![]() |
图 3 北京市居民就餐活动核密度图 Fig.3 The Kernel Density of Beijing Residents' Dining Activities |
通过图 2和图 3对比,可以发现,北京市居民就餐活动与餐饮服务设施点的空间覆盖范围都较为广泛,主要分布在东城区、西城区、朝阳区、海淀区4个中心城区。同时,还具有多个相同的高密度集聚区,如工体—朝外—CBD商圈、西单和王府井等区域。整体而言,两类空间呈东多西少,北多南少的不均衡分布状态,形成了中心—外围的分布格局。此外,两类空间均具有围绕重要商圈、热门旅游景点和大型住宅区进行密集分布的特点。同时,其密集程度受城市商圈规模、交通、人口密度等因素的影响也较大。但是,相对而言,居民就餐活动空间分布范围较小,集聚程度更高,集聚特征更为显著。而餐饮服务设施空间的中心集聚程度稍低,中高密度区域面积较大,集聚程度由中心向外围的等级递减规律更为明显。但大体而言,两类空间的分布格局大同小异,呈空间同位模式。
3.2 居民就餐活动主题分类解读 3.2.1 主题分类数量的确定如何确定主题数目一直以来都是应用LDA主题模型进行文本数据挖掘的一个关键和棘手问题。经验设定法凭借其简洁高效的特点成为了大多数研究人员主要选择。本文采用经验设定法,通过反复调试和枚举主题的数目,观察高概率主题词的好坏,语义是否一致来判断实验结果的好坏。在经过多次的实验后,最终确定当主题类别为4时,各从属主题在结果图中的分布较为分散,关键词也能较为清晰地反映各类主题的特征,故以此结果作为下一步分析解读的依据(如图 4)。其中属于4类主题的有效微博数量共97417条,占总体就餐微博数量的38.3%。
![]() |
图 4 主题模型结果输出图 Fig.4 The Graph of Topic Model Result Output |
深入剖析各分类主题的高频率主题词语义特征,在此基础上对其进行提炼概括。主题1中,通过解读关键词语义,易知该类就餐活动的主要群体为“朋友”,结合“好吃”“火锅”“蛋糕”等其他关键词,表明该类主题主要反映的是一种朋友之间的生日聚会或相约吃火锅等活动,故命名为朋友聚餐类。主题2中,“吃饭”一词的贡献值最大,“家”作为一个关键的地点名词,再结合如“早餐” “早上”等其他贡献值较高的词语,可知该主题体现的是一类满足人的日常生理需要的日常餐饮活动,命名为日常餐饮类较为贴切。主题3中,关键地点为“餐厅”,结合“味道”“吃火锅”“吃饱”等关键词,可以看出该类主题反映的是一种没有特殊目的的普通就餐活动,故命名为普通餐饮类。主题4中“喜欢”“吃货”“美食”等贡献值较高的词语,很明显的体现该类主题是一类追求特色美食的行为活动,故概括为特色餐饮类。四类主题的微博数量分别为38651、11126、12294、35346条,分别占总体有效微博数量的39.7%、11.4%、12.6%、36.3%,如表 2。其中,朋友聚餐和特色餐饮主题占比高,日常餐饮和普通就餐主题数量较少,主要因为日常和普通餐饮活动主要发生在家庭内部,人们较少记录这些活动,这也是微博数据的“有偏性”的一个表现。但因为本研究所关注的是居民就餐活动的时空行为特点,日常餐饮和普通就餐多发生于家庭,空间特性不明显,所以此部分微博数量较少对本研究主题影响不大。
![]() |
表 2 各从属主题及主题词 Tab.2 Themes and Keywords of Each Category |
图 5展示的是各类主题就餐活动的空间热点分布状况。从图中可以发现,各类主题就餐活动的空间热点分布具有一些共同特征。例如,中心—外围的整体空间分布格局。四类主题就餐活动的热点区域大多分布在三环以内的中心城区,而外围城区热点区较少,形成了以工体—朝外— CBD商圈为中心的集聚分布格局。值得一提的是,四类主题就餐活动还具有沿重要商圈、著名街区、热门景点、大型商场密集分布的共同特征。其共同分布的热点区主要有西单、王府井、三里屯、南锣鼓巷、朝阳大悦城、中关村、五道口等。除此之外,各类主题就餐活动的热点分布还各有特点,揭示了城市结构和城市生活的复杂性和多元性。
![]() |
图 5 各类主题就餐活动的空间热点分布 Fig.5 The Spatial Hotspot Distribution of Various Theme Dining Activities |
朋友聚餐类主题活动的热点区域分布广泛,在四类主题就餐活动中热点区数量最多,热点区域面积最大,中心城区特别是在工体—朝外—CBD商圈区域形成了连片热点区。此外,该主题就餐活动还具有围绕着高等院校、火车站点以及部分交通线路集聚的特征。例如,北京大学、清华大学、中国人民大学、中央民族大学等高等院校周边,朋友聚餐类的就餐活动十分密集。而火车站点,诸如北京站、北京南站、北京北站、北京西站等主要火车站点周边也有大量朋友聚餐活动。沿交通线密集分布的代表性线路主要有建国路、工人体育场东路、北路、东直门内大街、西长安街、广场东侧路等,可以理解为聚餐对象习惯于在就餐地点往来的路上进行发文活动,从而在交通线上也出现就餐活动密集分布的现象。
3.3.2 主题2:日常餐饮类日常餐饮类主题活动相比其他三类主题就餐活动而言,该主题的热点区数量较少,分布范围也较小,但这恰好与此类就餐的主题较为契合。通常人们在进行日常就餐时,目的只是为了满足自身生理需要,因而发微博的人次都明显少于其他三类就餐主题活动。此外,该类主题还有一个较为显著的特征,即热点区域的分布具有接近大型住宅区或大型企业分布的特点。这反映出居民的日常饮食除在家进行以外,大多在自身居住的小区或者工作所在的企业配套的餐饮设施点进行,而大型住宅区和大型企业往往由于人口众多,配套的餐饮设施更加完善,便成为了居民日常饮食的热点区域,如乐视体育中心、珠江罗马嘉园、青年汇佳园、华腾园等。
3.3.3 主题3:普通餐饮类主题3为普通餐饮活动,该主题餐饮活动的热点分布较为分散,连片集聚程度较低。因此,相较于其他三类主题就餐活动的热点分布而言,虽然该主题就餐活动的热点区域也存在集聚现象,但高级别和最高级别的热点区域数量较少,面积较小,而一般级别的热点区域较多,相对来说空间分布较为均衡。
3.3.4 主题4:特色餐饮类主题4为特色餐饮类活动,顾名思义,该类主题的就餐主体其就餐目的就是追求美食,满足自身对食物的较高要求,因而这类就餐活动主要集聚在特色餐饮设施集中分布的地域,如传统美食街、特色小吃街以及部分高档餐饮业区域等。具体来说,以前门大街、大栅栏为代表的传统美食街和以王府井小吃街、簋街为代表的特色小吃街是该主题就餐活动分布的主要热点区域,而以牛街、三丰里等为代表的少数民族美食区也吸引了众多爱好美食的居民前往就餐。
4 居民就餐活动空间格局的影响因素 4.1 居民就餐活动与城市空间关系城市功能空间是多种功能要素在城市内部的地域组合与空间分布形式,其发展变化是多要素相互作用于城市空间上的结果。图 6反映的是居民就餐活动与城市主要功能空间的结构关系,可以发现,各类城市要素共同表征的城市功能空间在组织和结构上具有较高程度的关联性,不同类别间的城市功能空间的相互作用和联系十分紧密,进而对城市居民就餐活动产生了重要影响。一方面,居民就餐活动的空间分异格局的形成是人口、土地利用等多种城市要素综合作用的结果,另一方面,居民就餐活动的空间分布格局在一定程度上能够影响城市空间结构。具体而言,居民就餐活动空间所表征的城市消费空间主要分布在三环以内,并表现出明显的多中心结构特征,与交通、人口分布、商业设施等城市要素的空间分布密切相关,其整体的空间分布与城市居住、就业、商业等要素表征的城市功能结构具有一定的相似性,这也证实了相关城市要素对就餐活动的确实存在较大的影响,下面将进一步通过归因分析来探究城市空间要素的变化是如何影响居民的就餐活动的。
![]() |
图 6 就餐活动与城市主要功能空间的结构关系示意图 Fig.6 The Structural Relationship Between Dining Activities and Urban Main Function Space |
本文主要借助地理探测器来进一步探究影响居民就餐活动空间分异的相关因素。首先,构建一个由各类城市要素、环境状况、地价、交通便捷度、人口分布、区位条件等6大体系13项变量组成的影响因素指标体系。具体指标表征如表 3所示。其次,对各类影响因素指标进行离散化处理后,运用地理探测器分别对各类影响因素进行因子探测和交互探测分析,以期全面揭示北京市居民就餐活动空间选择的影响机理。
![]() |
表 3 居民就餐行为选择的影响因素指标体系 Tab.3 The Indicator System for Influencing Factors of Residents' Choice of Dining Behavior |
因子探测主要用于测度各类影响因素对居民就餐活动空间选择的影响程度大小。如图 7,按影响因子解释力前3强排序依次为:X1 >X4 >X10。其中,餐饮服务设施数量的因子解释力最大(0.173),说明北京市居民就餐选择受餐饮服务设施数量的影响作用最为强烈,即餐饮服务设施数量与居民就餐选择之间具有最强的一致性。代表性地域有西单、王府井、工体商圈等。次要影响因素为商业服务设施数量,因子解释力为0.13,表明商业服务设施的数量对居民就餐活动的空间选择也具有重要作用。由于商业服务设施大多集聚在大型购物商场或者商业街内,多与餐饮服务设施共同布局,且大多数居民在外就餐前后也有逛商场的意愿,因而商业服务设施集聚的地区往往也成为居民就餐的一个重要选择。第三大影响因素为最近地铁站点距离,其因子解释力为0.125。从前文可知,居民就餐活动的热点地区,大多都有地铁站点分布,交通较为便利,体现出交通因素作为一个基础性的影响因素,对居民就餐选择具有较大影响。此外,公共服务设施数量、教育文化设施数量、距天安门的距离的因子解释力均大于0.1,因而与居民就餐活动的空间选择也具有较强的一致性。其他因素对居民就餐活动的空间选择的影响明显较弱(因子解释力小于0.1)。
![]() |
图 7 各类影响因素的因子解释力 Fig.7 Power of Explanatory of Various Influencing Factors |
交互探测主要用于分析两个不同影响因子交互作用时是否会增强或减弱对因变量的解释力,能够有效揭示两个影响因子对居民就餐活动空间选择的影响程度。结果发现:①任意两个影响居民就餐选择的因素在经过两两交互后,其因子解释力均呈增强趋势,这表明居民就餐选择受到各维度分项就餐活动因素的共同制约,两个影响因素相互交互后的因子解释力要明显强于原来单个影响因子的解释力。②不同两个因子交互后的解释力的增强程度各不相同。其中,X1与X2、X2与X12、X3与X7、X7与X8、X8与X11、X9与X13在交互作用后因子解释力呈非线性增强,其他因素交互后的因子解释力为双因子增强,前者的因子解释力增加更为显著。例如,X1和X2交互后因子解释力为最大(0.265),大于X1的因子解释力(0.173)与X2的因子解释力(0.073)之和。可以解释为,居民在外就餐时,往往更注重就餐地周边是否存在运动休闲场地,如公园、运动场所等,以满足其休闲娱乐的需求。③交互作用后的因子解释力前3强排序依次为X1与X2 >X1与X13 >X1与X10,突出显示了餐饮服务设施数量与居民就餐选择的高度一致性,也反映出交通便利程度与经济区位因素在居民就餐活动的空间选择中有着重要的影响力,那些交通便利,经济位置优越,餐饮服务设施分布密集的区域往往就成为居民就餐活动的高密度集聚区。例如,CBD商圈、王府井、五道口等地。
5 结论与展望本文基于居民行为活动视角,依托多源数据集,创新性的构建出一套基于机器学习与空间分析有机结合的新型居民时空间行为研究框架,并以居民就餐活动为例,探究北京市居民就餐活动与城市空间关系及其影响因素,得出以下结论:
(1)大数据技术支持的文本信息挖掘与空间分析相结合的综合集成研究方法将社交媒体数据中丰富的文本信息与定位信息有机结合起来,能够充分挖掘社交媒体数据背后隐藏的人类行为活动的时空模式及规律。采用BERT与Fast.Ai的文本分类模型,能够很好识别就餐活动相关的微博数据,其精度能够达到90%以上。
(2)实证研究结果表明,北京居民就餐活动与餐饮设施空间分布存在空间上的同位模式。北京市居民就餐活动主要集中在三环以内的中心城区,同时还围绕着重要商圈周边、著名街区内部和热门景点进行分布。形成了以工体—朝外—CBD商圈为主的高密度区,集聚程度表现出由中心城区向外递减的趋势。但相对而言,居民就餐活动空间分布范围较小,集聚程度更高,空间集聚特征更为显著。从整体来看,居民就餐活动空间呈“中心集聚,多点开花”的分布格局。大体而言,两类空间的分布格局大同小异,呈空间同位模式。
(3)运用LDA主题模型分析北京市居民就餐活动的微博文本数据,挖掘出朋友聚餐、日常餐饮、普通餐饮和特色餐饮四类主题。四类主题就餐活动的热点区域集中分布在中心城区,形成了以工体—朝外—CBD商圈为中心的集聚分布格局。同时,四类主题就餐活动还具有沿重要商圈、著名街区、热门景点、大型商场密集分布的共同特征,反映出就餐活动的热点分布与城市经济、人口分布都具有较高的一致性。
(4)运用地理探测器分别对北京市居民就餐活动的各类影响因素进行因子探测和交互探测,结果发现,餐饮服务设施数量与居民就餐选择之间具有最强的一致性,但居民就餐选择还受到各维度分项因素的共同制约,任意两个影响因素相互交互后的因子解释力要明显强于原来单个影响因子的解释力,其中,餐饮服务设施数量和运动休闲设施数量交互后因子解释力最大。
但是,由于微博数据本身存在使用群体的有偏性问题,导致本文讨论的居民就餐活动规律更主要反映的是特定人群的空间行为,如何解决微博数据背后的代表性问题需要更深入的研究。此外,在应用LDA模型确定分类主题数量时采用的是经验值,分类结果受到了部分主观因素的影响,在后续研究中有待继续改进。在未来的研究中,要注重对多源大数据的综合利用,加强社交媒体数据特别是文本数据与其他城市要素信息的时空关联,将人工智能技术与地理学的空间思维有机结合起来,进一步追踪甚至预测人类具体的时空间行为轨迹,为城市居民日常行为活动的相关研究提供更加有效的技术支持和理论支撑。
[1] |
Lazer D, Pentland A, Adamic L A, et al. Computational social science[J]. Science, 2009, 323(5915): 721-723. DOI:10.1126/science.1167742 |
[2] |
Song C, Qu Z, Blumm N, et al. Limits of predictability in human mobility[J]. Science, 2010, 327(5968): 1018-1021. DOI:10.1126/science.1177170 |
[3] |
Mitchell T M. Computer science. Mining our reality[J]. Science, 2009, 326(5960): 1644-1645. DOI:10.1126/science.1174459 |
[4] |
González M C, Hidalgo C A, Barabási A L. Understanding individual human mobility patterns[J]. Nature, 2008, 453(7196): 779-782. DOI:10.1038/nature06958 |
[5] |
Kandt J, Leak A. Examining inclusive mobility through smartcard data: What shall we make of senior citizens' declining bus patronage in the West Midlands?[J]. Journal of Transport Geography, 2019, 79: 1-10. |
[6] |
Sun L, Axhausen K W, Lee D, et al. Understanding metropolitan patterns of daily encounters[J]. Proceedings of the National Academy of Sciences of the United States of America, 2013, 110(34): 13774-13779. DOI:10.1073/pnas.1306440110 |
[7] |
Medina S A. Inferring weekly primary activity patterns using public transport smart card data and a household travel survey[J]. Travel Behaviour and Society, 2018, 12: 93-101. DOI:10.1016/j.tbs.2016.11.005 |
[8] |
Csáji B C, Browet A, Traag V A, et al. Exploring the mobility of mobile phone users[J]. Physica A-statistical Mechanics and Its Applications, 2013, 392(6): 1459-1473. DOI:10.1016/j.physa.2012.11.040 |
[9] |
Calabrese F, Diao M, Lorenzo G D, et al. Understanding individual mobility patterns from urban sensing data: A mobile phone trace example[J]. Transportation Research Part C: Emerging Technologies, 2013, 26: 301-313. DOI:10.1016/j.trc.2012.09.009 |
[10] |
Ahas R, Aasa A, Yuan Y, et al. Everyday space-time geographies: Using mobile phone-based sensor data to monitor urban activity in Harbin, Paris, and Tallinn[J]. International Journal of Geographical Information Science, 2015, 29(11): 2017-2039. DOI:10.1080/13658816.2015.1063151 |
[11] |
Hawelka B, Sitko I, Beinat E, et al. Geo-located Twitter as proxy for global mobility patterns[J]. Cartography and Geographic Information Science, 2014, 41(3): 260-271. DOI:10.1080/15230406.2014.890072 |
[12] |
申悦, 柴彦威. 基于GPS数据的城市居民通勤弹性研究: 以北京市郊区巨型社区为例[J]. 地理学报, 2012, 67(6): 733-744. [Shen Yue, Chai Yanwei. Study on commuting flexibility of residents based on GPS data: A case study of suburban mega-communities in Beijing[J]. Acta Geographica Sinica, 2012, 67(6): 733-744.] |
[13] |
钟炜菁, 王德. 基于居民行为周期特征的城市空间研究[J]. 地理科学进展, 2018, 37(8): 1106-1118. [Zhong Weijing, Wang De. Urban space study based on the temporal characteristics of residents' behavior[J]. Progress in Geography, 2018, 37(8): 1106-1118.] |
[14] |
钟炜菁, 王德, 谢栋灿, 等. 上海市人口分布与空间活动的动态特征研究——基于手机信令数据的探索[J]. 地理研究, 2017, 36(5): 972-984. [Zhong Weijing, Wang De, Xie Dongcan, et al. Dynamic characteristics of Shanghai's population distribution using cell phone signaling data[J]. Geographical Research, 2017, 36(5): 972-984.] |
[15] |
龙瀛, 张宇, 崔承印. 利用公交刷卡数据分析北京职住关系和通勤出行[J]. 地理学报, 2012, 67(10): 1339-1352. [Long Ying, Zhang Yu, Cui Chengyin. Identifying commuting pattern of Beijing using bus smart card data[J]. Acta Geographica Sinica, 2012, 67(10): 1339-1352. DOI:10.11821/xb201210005] |
[16] |
Watts D J. A twenty-first century science[J]. Nature, 2007, 445(7127): 489. DOI:10.1038/445489a |
[17] |
Cao G F, Wang S W, Hwang M, et al. A scalable framework for spatiotemporal analysis of location-based social media data[J]. Computers, Environment and Urban Systems, 2015(51): 70-82. |
[18] |
陈宏飞, 李君轶, 秦超, 等. 基于微博的西安市居民夜间活动时空分布研究[J]. 人文地理, 2015, 30(3): 57-63. [Chen Hongfei, Li Junyi, Qin Chao, et al. Study on spatio-temporal distribution of residents' nocturnal activities of Xi'an based on micro-blog[J]. Human Geography, 2015, 30(3): 57-63. DOI:10.3969/j.issn.1673-6974.2015.03.029] |
[19] |
王波, 甄峰, 张浩. 基于签到数据的城市活动时空间动态变化及区划研究[J]. 地理科学, 2015, 35(2): 151-160. [Wang Bo, Zhen Feng, Zhang Hao. The dynamic changes of urban space-time activity and activity zoning based on check-in data in Sina Web[J]. Scientia Geographica Sinica, 2015, 35(2): 151-160.] |
[20] |
Huang Q, Wong D W. Activity patterns, socioeconomic status and urban spatial structure: What can social media data tell us?[J]. International Journal of Geographical Information Science, 2016, 30(9): 1873-1898. DOI:10.1080/13658816.2016.1145225 |
[21] |
Kosinski M, Stillwell D, Graepel T, et al. Private traits and attributes are predictable from digital records of human behavior[J]. Proceedings of the National Academy of Sciences of the United States of America, 2013, 110(15): 5802-5805. DOI:10.1073/pnas.1218772110 |
[22] |
赵燕慧, 路紫, 张秋娈. 多类型微博舆情时空分布关系的差异性及其地理规则[J]. 人文地理, 2018, 33(1): 61-69. [Zhao Yanhui, Lu Zi, Zhang Qiuluan. The differences of spatial and temporal distribution relations in public opinion of multi-type micro-blog and its geographical rules[J]. Human Geography, 2018, 33(1): 61-69.] |
[23] |
苏晓慧, 张晓东, 胡春蕾, 等. 基于改进TF-PDF算法的地震微博热门主题词提取研究[J]. 地理与地理信息科学, 2018, 34(4): 90-95. [Su Xiaohui, Zhang Xiaodong, Chunlei Chunlei, et al. Research on extraction of earthquake's hot topic-words from microblog based on improved TF-PDF algorithm[J]. Geography and Geo-information Science, 2018, 34(4): 90-95. DOI:10.3969/j.issn.1672-0504.2018.04.014] |
[24] |
Frank M R, Mitchell L, Dodds P S, et al. Happiness and the patterns of life: A study of geolocated tweets[J]. Scientific Reports, 2013, 3(1): 2625-2625. DOI:10.1038/srep02625 |
[25] |
谢永俊, 彭霞, 黄舟, 等. 基于微博数据的北京市热点区域意象感知[J]. 地理科学进展, 2017, 36(9): 1099-1110. [Xie Yongjun, Peng Xia, Huang Zhou, et al. Image perception of Beijing's regional hotspots based on microblog data[J]. Progress in Geography, 2017, 36(9): 1099-1110.] |
[26] |
塔娜, 柴彦威. 理解中国城市生活方式: 基于时空行为的研究框架[J]. 人文地理, 2019, 34(2): 17-23. [Ta Na, Chai Yanwei. Understanding the lifestyle in Chinese cities: A framework based on spacetime behavior research[J]. Human Geography, 2019, 34(2): 17-23.] |
[27] |
秦萧, 甄峰, 朱寿佳, 等. 基于网络口碑度的南京城区餐饮业空间分布格局研究——以大众点评网为例[J]. 地理科学, 2014, 34(7): 810-817. [Qin Xiao, Zhen Feng, Zhu Shoujia, et al. Spatial pattern of catering industry in Nanjing urban area based on the degree of public praise from internet: A case study of dianping.com[J]. Scientia Geographica Sinica, 2014, 34(7): 810-817.] |
[28] |
谭欣, 黄大全, 赵星烁. 北京市主城区餐馆空间分布格局研究[J]. 旅游学刊, 2016, 31(2): 75-85. [Tan Xin, Huang Daquan, Zhao Xingshuo. A study on the spatial distribution pattern of restaurants in Beijing's main urban area[J]. Tourism Tribune, 2016, 31(2): 75-85. DOI:10.3969/j.issn.1002-5006.2016.02.013] |
[29] |
徐晓宇, 李梅. 基于开源大数据的北京地区餐饮业空间分布格局[J]. 地球信息科学学报, 2019, 21(2): 215-225. [Xu Xiaoyu, Li Mei. Analysis on spatial distribution pattern of Beijing restaurants based on open source big data[J]. Journal of Geo-information Science, 2019, 21(2): 215-225.] |
[30] |
Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C]. Minneapolis, Minnesota, USA: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 2019: 4171-4186.
|
[31] |
Howard J, Ruder S. Universal Language Model Fine-tuning for Text Classification[C]. Melbourne, Australia: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, 2018: 328-339.
|
[32] |
Blei D M, Ng A Y, Jordan M I, et al. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(4/5): 993-1022. |
[33] |
王劲峰, 徐成东. 地理探测器: 原理与展望[J]. 地理学报, 2017, 72(1): 116-134. [Wang Jinfeng, Xu Chengdong. Geodetector: principle and prospective[J]. Acta Geographica Sinica, 2017, 72(1): 116-134.] |