2. 宁波市规划与地理信息中心,浙江 宁波 315041;
3. 肯特州立大学地理系,俄亥俄 肯特 44242
2. Ningbo Planning and Geographic Information Center, Ningbo 315041, China;
3. Department of Geography, Kent State University, Kent, Ohio 44242, USA
1 引 言
城市是具有商品交换功能的人类生活聚居区域[1],对城市居民而言,其居住区除了要提供良好的工作生活空间外,还需具备完善的商业及交通等服务设施。其中商业服务设施除受到城市规划布局的影响外,更多以满足居民工作生活要求为主要目标,具有很强的属地性[2, 3, 4]。商业服务设施的出现与消失过程,直接反映了城市区域变化与更新趋势,因此,对特定区域中商业服务设施的考察可为其规划实施成果的合理性评价提供量化依据,并分析不同因素对其产生的影响。
商业设施信息采集可通过工商部门或商业采集等方式获得,但在城市发展较快的地方,激烈竞争会造成商业设施生存期较短,而周期较长的传统调研方法往往导致样本量不足、时效性差和附加属性少等问题[5, 6],许多过期信息点(point of interest,POI)无法及时更新,很难有效反映出商业设施的时空及服务满意度变化,影响了评价的可靠性。人类社会正进入“大数据”时代,大数据使得社会信息传播方式发生了重大改变,如Facebook、Twitter、微博和点评等社交网络服务(social network service,SNS)应用又被称为“社会传感器(social sensor)”[7, 8],它们可产生涉及社交用户日常生活的海量数据,扩展了社会信息生产及获取的深度与广度[9]。SNS数据中也包含了大量含有位置的信息,成为一种众包地理数据源,受到城市规划与城市计算领域的广泛重视,如利用位置签到数据研究城市热点与商圈变化的规律[10],使用社交用户关系推测用户个体的位置[11],使用Twitter数据探测流感传播路径及趋势[12]等。以点评服务为例,它提供的商业设施评价信息包含了时间、空间和服务满意度等属性,且更新频率远高于工商业登记和实地调研,能够有效地反映某个商业服务设施的历史变化过程。
本文以大众点评网(www.dianping.com)中采集的北京大上地区域点评类数据为基础,结合该区域规划方案及问卷调研情况,使用GeoDaNet[13]在基于道路网络约束条件下运用核密度估计法检测了不同类型服务设施的空间分布特征。本文提出了一种基于道路网约束的核密度计算方法,对点评数据中蕴含的空间分布、时空演变特征和设施数量与设施满意度等规律进行了分析,这对城市商业布局的引导及规划具有重要的参考价值。
2 点评数据预处理与分析大众点评网提供的点评数据以文本形式存在,对其的量化分析必须进行预处理,即将一个商业服务设施所有的点评文本转换为对应的数值形式的满意度,从而生成以商业服务设施为核心的POI。此外,对处理获得的POI还需与原始调查问卷成果进行比较以确定其可靠性,只有两者无显著差异,通过点评数据获得的POI才有被分析的价值。
2.1 点评数据获取与满意度处理大众点评网是目前国内最大的点评类SNS网站,它以商户(商业服务设施)为核心提供社交类点评[14],这些点评数据包括美食、休闲娱乐、购物、美容核运动健身等类别,数量已超过3600万条。本文对点评数据获取与满意度处理包括3个步骤:首先获取研究区域内所需类型包含的商业服务设施,其获取结果包括每个设施的设施名称及对应的标识码;再根据该标识码从“大众点评网”获取地址进行地理编码以取得设施的地理坐标;最后计算点评文本对应的满意度,其过程如图 1所示。
大上地区域位置如图 2框内所示,它位于北京海淀区中东部,是北京软件与信息产业聚集地,同时也是城中村较集中的区域。目前产业发展参差不齐、新旧社区混杂,生活品质差别较大。东部核心区是大量高新企业所在地,其余区域为待改造区域。图中的字母显示了大上地区域的道路网分级,即高架路(A)、主干道(B)和次干道(C)。本文选择此区域为研究对象是因为它具备明显的新、旧城对比,利于分析城市发展的不同影响因素,同时可以对相关传统调查材料进行对比分析。
本文共获得该区域13类商业服务设施共计2038个及各自对应的点评文本,总数为35 394条,时间跨度从2004年5月至2014年6月,2009年后通过移动设备发出的点评数据剧增,具体情况如表 1所示。
类型 | 丽人 | 亲子 | 医院 | 娱乐 | 婚庆 | 学校 | 药店 | 超市 | 运动设施 | 酒店 | 银行 | 洗衣店 | 美食 |
POI数量 | 263 | 54 | 59 | 235 | 26 | 73 | 69 | 179 | 102 | 72 | 131 | 25 | 750 |
文本数量 | 1048 | 304 | 257 | 2196 | 44 | 75 | 32 | 841 | 475 | 686 | 188 | 7 | 29335 |
点评信息是使用自然语言来描述的,将点评文本转换为满意度实质上是进行文本分类。文本分类方法有多种,如支持向量机(support vector machine,SVM)、贝叶斯网络和主题模型(topic model)[15, 16]分类等。本文使用基于潜在语义索引(latent semantic indexing,LSI)[17, 18]的主题模型技术对文本进行处理,LSI通过向TF-IDF中引入一个主题维度,将TF-IDF矩阵分解为“文本—主题—特征项”矩阵形式,这样就获得了新的分类形式,即可以根据该点评文本的语义内容来判断它属于哪一类主题,从而确定所对应的满意度。在本文示例中,LSI是通过将文本与其包含的满意度特征项,即通过分析每一条点评中包含的“很好”、“很差”、“物美价廉”等词汇的语义,来说明其所属的满意主题,从而获得相应的满意度。
本文将点评文本的用户感受分为“很差”、“差”、“一般”、“好”和“很好”5类主题,并分别赋1~5分。如“这家饭店物美价廉,下次还要来光临。”表达的语义是高度赞赏,可评5分;而“饭菜很差,下次不来了”表达的语义是“很差”,可评1分,以此说明用户对服务设施的满意程度。如一家餐厅的12月份的两个评论表达的满意度是“一般”和“好”时,则该餐厅12月份两个评论的满意度分别为3分和4分,则其平均满意度为3.5分。
来自一家服务设施的点评信息将成为一个既拥有空间坐标,也包含了自从2006年以来每个季度满意度的POI。最后这些数据将构成一个语义丰富的POI数据集。
2.2 点评数据的可靠性分析在大上地区域规划方案制定前,相关部门以问卷调查方式发放了500份问卷,最终收回437份有效问卷。公共设施居民满意度的调查部分涉及日常生活8大类商业服务设施,经过整理计算后可以得到这些设施的平均满意度;由于从点评数据获得的评价值可以按年或季度进行统计,为保持数据时效性,选择的是2013年第4季度的不同类型商业服务设施的平均满意度,如表 2所示,除酒店类设施传统调查问卷没有提供外,基于点评数据的调查评分方法提供了与传统方法接近的结果。
由于类型数量小于30,本文选择对两组数据使用SPSS软件进行T检验,计算所得p-level值为0.589 07,远大于检验样本的显著性差异 p 值0.05,即两组数没有显著性差异,因此,点评数据可以替代传统问卷调查的样本。
3 商业服务设施的空间分布特征商业服务设施的特征决定了其必然分布于道路两侧。考察分布于道路网两侧的POI密度分布可以评价一段街道上各类商业服务设施的密集程度,从而判断其繁荣程度与产业聚集特征,因此需要考虑其所在的道路。基于道路网约束,本文设计了一种反映商业服务设施分布于交通网络上的道路密度的方法,用于分析商业服务设施的空间分布特征,其具体计算过程如下:①道路网分解,为了分析整条道路的不同部分上的商业设施聚集程度,首先将道路网分解为长度固定的线性单元(linear unit),并使用两个POI间的最短网络距离作为度量方式[19],这样将一条道路切分为多个等长路段后使POI更准确地映射至道路的某一部分,利于区分同一条道路上不同路段间的密度;②道路网信息提取,每个POI寻找与自己最近(网络距离)的路段,并记录该POI的信息;③道路核密度计算,当全部路段均计算出被映射至自身的POI数量后,对于单个路段,选择带宽 r以内的路段作为其密度范围内邻居[20],则核密度值计算可如下式[21]
式中,dis是两个线性单元最短网络距离;r 为带宽,本文取10 m以保证所有POI都能落到最近单元上; k 为核函数,由于核函数类型对整体密度模式影响较小[19],本文选择了默认的Quadratic核函数; ci是单元i 拥有的POI数量; n为单元s 的邻接单元数量。经试验,本文在具体核密度估计分析中选择200 m作为线性单元长度,如长度过长会造成核密度普遍较低,此长度可有效地反映道路网间不同部分的对比情况,如过短则会让计算量剧增,影响处理效率。经计算,包括表 2中列举的设施与医院共9种类型商业设施,在道路网上的核密度剔除空值与0后的平均值为0.02,本文将所有核密度大于0.02的线性单元渲染为红色,小于及等于0.02之间的线性单元为绿色,如图 3所示(由于篇幅所限,只展示了9种类型商业服务设施中的4种),它反映了不同商业服务设施由于行业特点和自身面对的客户群体的差异表现出的巨大差别。它们可划分成两种形态:A类是指主要沿主干道分布且具有高核密度值(>0.02)的较长线性单元,即数量较多的商业服务设施,如运动健身、美食、娱乐设施、婚庆和超市等设施,这些服务设施的消费水平较高,消费人群年龄段较为年轻,通常会在交通便捷的醒目位置开设商铺,同时服务设施往往呈现扎堆效应,以便于吸引更多的客流;B类是主要分布在次干道且具有高核密度的较短路段,即线性单元较少的商业服务设施,此类设施包括医院、丽人、亲子和酒店等类型,通常为居民生活日常所需的大型服务设施或常以加盟店形式出现的商业服务设施,与普通市民的日常生活密切相关。
调查方式 | POI类型 | |||||||
婚庆 | 酒店 | 丽人 | 美食 | 亲子 | 超市 | 娱乐 | 运动 | |
传统评分 | 3.42 | 无 | 3.36 | 3.55 | 3.72 | 3.83 | 3.09 | 4.01 |
点评评分 | 3.02 | 3 | 3.16 | 3.31 | 4 | 3.62 | 2.98 | 3.86 |
与A、B两类沿道路分布形式对应的,9类商业设施的空间分布也表现出较大的差异,如运动健身、美食、婚庆、娱乐和超市等A类设施,在研究区域内呈现较为均匀的聚集状态,即在该区域内普遍分布但又扎堆聚集;而如医院、丽人、酒店和亲子类等B类设施,则呈现出离散分布形态。这两类设施的沿道路及空间分布形态,可以为类似设施的选址提供依据,也可以为城市规划中的设施分布提供更好的引导,即A类设施应尽量在相同商圈内开业,而B类设施则应避免扎堆,以便更好地分享人流红利。
4 商业服务设施的满意度变化趋势分析在城市发展过程中许多商业服务设施都呈现一定的聚集特征,如高级写字楼、银行和高档商店的聚集区被称为中央商务区,在这些商业中心区域往往存在一些知名的、满意度较高的标杆性服务设施来带动周围整体服务水平的提升。在很多服务类设施的发展过程中,当一家设施出现后如果受到欢迎,其周围会迅速出现多家类似的服务设施,而整条街道上该类型服务设施的数量及满意度会随着竞争的激烈化出现上升或衰减的现象[4]。在本节中以丽人类服务设施为例,分别研究了其满意度时空变化情况及满意度与设施数量之间的关系。
4.1 丽人类服务设施的时空变化虽然满意度可以分为5类,但为了更好地在图上分析及对比不同商业服务设施的满意度变化情况,本文将5类满意度绘制成3种情况,即不满意(满意度为1~2分)、一般(3分)和满意(4~5分)的POI在道路网核密度图上并进行组合,最终获得丽人类商业服务设施的满意度变化趋势图。在组合过程中,由于同一条道路上不可避免地出现多种满意度类型的服务设施,此时道路满意度取其算术平均值。由于篇幅所限,图 4只展示了2006年至2014年间丽人类设施的时空变化情况,其中不满意为蓝色(1~2.9分)、一般满意为绿色(3~3.9分)、满意为红色(4~5分)表示。
从图 4可以看出:①在时序上,丽人类商业服务设施的数量是沿着主干道逐渐向次干道铺开,同时逐步向右侧的大上地中心区域集中,通过查询中心区域的地图,还可知在大型商厦聚集了大量的商业服务设施,它形成了此区域丽人类设施的激烈竞争;②在2006年至2012年中,满意度为“一般”的丽人类商业服务设施始终占据主流,但中心区域的丽人类商业服务设施在增长的同时也造成满意和不满意两类对立评价相对集中,它反映出此区域竞争的异常激烈,这也显示出服务设施的数量与满意度之间具有某种相关性。
4.2 丽人类服务设施数量与满意度的相关性分析本文统计了丽人类商业服务设施在200 m长的道路段上的数量分布及满意度情况,其结果如图 5和图 6所示。
图 5展示了等距路段上的丽人类商业服务设施的数量分布。从中可看出,在存在丽人类服务设施的路段中,没有竞争即仅有1家的路段为18家,仅占18.9%;而有2至3家的路段为主流,分别是33家和21家,占56.8%;而有5家和6家设施的路段也为极少数,仅有5条和2条,它们均为大型商中位于不同楼层的美容、美发和美甲店。这反映出丽人类商业服务设施基本是以竞争形态而存在的。
通过考察单条路段上设施的两类评论及平均数量,从图 6可了解其基本变化趋势:图中的3条曲线分别反映了单个设施获得的不满意及满意评论数量,以及该路段的平均满意度。本文对图 5和图 6中的设施数量、平均满意度、满意评论数量和不满意评论数量的数据使用SPSS进行了相关性计算,其结果为:①在呈激烈竞争的丽人类设施分布中,单个路段上的设施数量与其平均满意度的相关系数为-0.518 3,没有体现出两者之间具有高线性相关,即整体上路段的平均满意度与其设施的数量之间无直接关系;②当设施数量为1~3家时其平均满意度相关系数为0.917 7,呈高度相关,即在局部上1~3家设施的分布可以让道路平均满意度区域最大化;③随着单个路段上服务设施的增加,每家服务设施获得“不满意”评论的平均数量呈递增趋势,其相关系数为0.904 2,呈高度相关。而获得“满意”评论的相关系数为0.830 9,也表现出较强的线性现象,这说明在竞争较为激烈的地段,对于设施的满意与否存在较大的争议。因此,从表面上看,一家商业服务设施的满意度高低应该与其自身的服务水平相关,但相关分析结果显示,在激烈的商业竞争环境中,多家聚集一处的设施对客源的争夺会直接影响点评网络上出现的设施满意度。
在图 6中还可以看到,当一条200 m的路段中有6家服务设施时,其不满意评论平均数量出现了显著增加,而满意评论平均数量却保持稳定。通过从大众点评网中考察这些设施的点评的内容,可将此情况归咎为两个因素:一是激烈的竞争会导致一些服务设施营业额的降低从而走向倒闭,在此过程中如由于服务及办卡退费等原因,会导致大量的差评出现;二是不同店铺之间的恶意竞争会导致许多人为差评(即无明确时间和事件描述的恶意性评论)来误导潜在消费者的情况。
在对其余8种设施使用相同方法分析时,也发现200 m路段上的设施数量与服务满意度之间存在较高相关性,同时也存在一个设施数量的平衡点,如美食为8家,超市为4家等。
5 结 论区域内商业服务设施与居民的日常工作生活密切相关,它们可直接反映区域过去与现在的发展水平,并揭示未来发展趋势。本文以点评类SNS服务为信息源,研究了从中挖掘商业服务设施满意度的方法,并通过对不同类型商业服务设施基于道路网的聚集程度分析,揭示了研究区域商业设施在空间上蕴含的两种分布形态及在时序上的变化趋势,分析了单位路段上设施数量与路段满意度、设施获得的点评数量之间的变化规律,对引导商业服务设施的分布具有一定的参考价值。下一步,将结合点评数据、房价数据等社会化信息,进一步分析城市区域内不同商业设施发展的属地特征与自组织特征,并将进一步细化数据时间粒度,将研究深入至月份及季度,揭示作为城市区域变化信号的商业服务设施的深层规律。
[1] | PAUL L K, LINDA M. Urbanization[M]. GU Chaolin, TANG Peiyuan, YANG Xingzhu, et al. Trans. Beijing: Science Press, 2009: 1-3. (保罗·诺克斯, 琳达·迈克卡西. 城市化[M]. 顾朝林, 汤培源, 杨兴柱, 等译. 北京:科学出版社, 2009: 1-3.) |
[2] | YI Xiaoxiang. A Study on Community Retail and Service Facilities Based on Consumption Theories—The Case of Shanghai[J]. Urban Planning Forum, 2012, 10(3): 44-52. (衣霄翔. 消费视角下的居住区商业服务设施配建体系研究——以上海市曲阳新村为例[J]. 城市规划学刊, 2012, 10(3): 44-52.) |
[3] | TANG Zilai. The Formation Demand of the Service Facilities in Real Estate: The Trend Forecast and Practice Test[J]. City Planning Review, 1999, 23(5): 32-36. (唐子来. 居住小区服务设施的需求型态: 趋势推断和实证检验[J]. 城市规划, 1999, 23(5): 32-36.) |
[4] | XU Xiaoyan. Micro Location Layout of Neighborhood Facilities[J]. Planners, 2011, 27(12): 62-66. (徐晓燕. 城市社区配套设施微区位布局研究[J]. 规划师, 2011, 27(12): 62-66.) |
[5] | YAN Ruogu, ZHOU Suhong, YAN Xiaopei. Studies of Urban Regeneration[J]. Progress in Geography, 2011, 30(8): 947-955. (严若谷, 周素红, 闫小培. 城市更新之研究[J]. 地理科学进展, 2011, 30(8): 947-955.) |
[6] | DAI Fei, ZHANG Junhua. The Survey Methods in Planning and Design 1—Questionnaire Survey(Theory Part)[J]. Chinese Landscape Architecture, 2008, 24(10): 82-87. (戴菲, 章俊华. 规划设计学中的调查方法(1)——问卷调查法(理论篇)[J]. 中国园林, 2008, 24(10): 82-87.) |
[7] | SAKAKI T, OKAZAKI M, MATSUO Y. Earthquake Shakes Twitter Users: Real-Time Event Detection by Social Sensors[C]//Proceedings of the 19th International Conference on World Wide Web. Raleigh: ACM,2010: 851-860. |
[8] | GOODCHILD M F. Citizens as Sensors: the World of Volunteered Geography[J]. GeoJournal, 2007, 69(4): 211-221. |
[9] | HEIPKE C. Crowdsouring Geospatial Data[J]. ISPR Journal of Photogrammetry and Remote Sensing, 2010, 65(6): 550-557. |
[10] | HU Qingwu, WANG Ming, LI Qingquan. Urban Hotspot and Commercial Area Exploration with Check-in Data[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(3): 314-321. (胡庆武, 王明, 李清泉. 利用位置签到数据探索城市热点与商圈[J]. 测绘学报, 2014, 43(3): 314-321.) |
[11] | DAVIS JR C A, PAPPA G L, DE OLIVEIRA D R R, et al. Inferring the Location of Twitter Messages Based on User Relationships[J]. Transactions in GIS, 2011, 15(6): 735-751. |
[12] | LAMPOS V,CRISTIANINI N.Tracking the Flu Pandemic by Monitoring the Social Web[C]//2010 2nd International Workshop on Cognitive Information Processing (CIP). Elba: IEEE,2010: 411-416. |
[13] | HWANG M H, WINSLOW A. User Manual for GeoDaNet:Spatial Analysis on Undirected Networks[EB/OL]. [2012-03-22]. https://geodacenter.asu.edu/drupal_files/Geodanet_Manual_03_2012.pdf. |
[14] | LV Xiuying. The Current Situation of the Development of the Third Party Review Websites in China under the Web2.0—Dianping and Douban[J]. Journal of Southeast University:Philosophy and Social Science, 2011, 13(S1): 87-92. (吕秀莹. 浅析Web2.0环境下我国第三方点评网站的发展现状——以大众点评网和豆瓣网为例[J]. 东南大学学报: 哲学社会科学版, 2011, 13(S1): 87-92.) |
[15] | BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993-1022. |
[16] | BLEI D M, LAFFERTY J D. Dynamic Topic Models[C]//Proceedings of the 23rd International Conference on Machine Learning. New York:ACM,2006:113-120. |
[17] | DEERWESTER S, DUMAIS S T, Furnas G W, et al. Indexing by Latent Semantic Analysis[J]. Journal of the American Society for Information Science and Technology, 1990, 41(6): 391-407. |
[18] | TAO Chao, TAN Yihua, PENG Bifa, et al. A Probabilistic Latent Semantic Analysis Based Classification for High Resolution Remotely Sensed Imagery[J]. Acta Geodaetica et Cartographica Sinica, 2011, 40(2): 156-162. (陶超, 谭毅华, 彭碧发, 等. 一种基于概率潜在语义模型的高分辨率遥感影像分类方法[J]. 测绘学报, 2011, 40(2): 156-162.) |
[19] | XIE Zhixiao, YAN Jun. Kernel Density Estimation of Traffic Accidents in a Network Space[J]. Computers, Environment and Urban Systems, 2008, 32(5): 396-406. |
[20] | SHE Bing, ZHU Xinyan, GUO Wei, et al. Research on Spatial Pattern of City Events under Road Network Constraints[J]. Application Research of Computers, 2013, 30(8): 2327-2329. (佘冰, 朱欣焰, 呙维, 等. 道路网约束下的城市事件空间点模式分析[J]. 计算机应用研究, 2013, 30(8): 2327-2329.) |
[21] | OKABE A, SATOH T, SUGIHARA K. A Kernel Density Estimation Method for Networks, Its Computational Method and a GIS-based Tool[J]. International Journal of Geographical Information Science, 2009, 23(1): 7-32. |