基于轨迹数据的武汉大学学生行为规律分析 | ![]() |
GPS轨迹分析是基于用户的GPS轨迹进行数据分析、挖掘,从而研究用户的个体性行为特征和群体性行为特征的分析方法[1]。当前研究主要包括对用户的轨迹数据进行聚类分析和关联性研究,发现特征地点的热度、用户的出行规律及用户之间的相关性等,面向群体为社会大众,对大学生这一特定群体的轨迹数据研究和行为规律分析相对较少。大学生作为一个特定的、庞大的社会群体,其轨迹行为具有很强的特殊性、规律性。因此,本文提出了已知校园及其周边环境,基于轨迹聚类的大学生行为规律的分析方法。
基于轨迹的数据挖掘在许多领域都有相关的研究,也产生了许多成熟的研究方法和结论。郑宇等[2, 3]提出了基于GPS轨迹的兴趣点和出行规律挖掘方法,利用对北京市内用户个人出行目的地的树形建模,和个人出行经验的直接联系,发现了北京市四环以内的十大兴趣点和用户在各个兴趣点之间的出行规律;张志华[4]提出了利用GPS轨迹数据固有的时空结构结合先验知识挖掘出高质量的出行信息的方法,采用面向对象的轨迹数据分割方法进行出行方式判别和出行调查试验;刘分等[5]提出了基于移动通信网络中的通信相关性和位置规律相似性,引入相关性度量,研究群体之间的关联关系。然而,现有轨迹数据分析方法数据主要来源于社会大众群体,针对性不足,不能反映某一特定群体活动规律。
本文采用传统的DBSCAN (density-based spatial clustering of applications with noise) 算法提取轨迹中的停留点,提出了基于环境的轨迹停留点分析方法,研究了武汉大学学生这一特定群体的出行规律。对于了解武汉大学学生的行为和校园内外热点地区的分布具有重要意义。
1 数据采集本文的数据由武汉大学校内的志愿者通过GPS腕表采集所得。本文共征集到来自武汉大学文理学部、工学部、信息学部11个学院的40余名志愿者,其中,有29名志愿者愿意公开个人数据,剩下的志愿者由于隐私问题不愿公开个人轨迹信息。29名志愿者统计情况如表 1所示。
表 1 志愿者人数分布统计表 Table 1 Number and Distribution of Volunteers |
![]() |
从2014年4月到10月,共采集到轨迹697条,其中志愿者愿意公开且质量优良的有效轨迹为413条。
2 基于空间的轨迹聚类分析用户的停留点是用户轨迹最重要的特征之一,它隐含了丰富的空间结构信息和行为规律信息。结合学生背景,对学生的停留点加以分析挖掘,能够得到极具价值的学生行为特征规律。GPS采集设备工作时,严格按照特定的时间间隔采集轨迹点,因此当用户在某地停留时,采集设备将在该地区采集得到密集的点簇。通过基于空间的聚类分析方法提取相应点簇,即可获取用户的停留点。
首先,本文对典型的空间聚类算法进行了对比筛选。k-means算法[6, 7]需先行确定聚类中心的数量k,但轨迹的停留点数量通常未知,所以该算法并不适用;而DBSCAN算法[8, 9]能够把具有足够高密度的区域划分为簇。因此,本文选择DBSCAN算法作为提取轨迹停留点经纬度的基础算法。然后,基于校园背景与环境,通过人工方式采集热点区域 (教学楼、宿舍、校园周边商圈) 的经纬度信息,并与停留点的经纬度进行比对,实现更为精确的停留点经纬度解析,为提取个体与群体的行为规律提供基础。
2.1 提取停留点经纬度DBSCAN算法于1996年由Ester等人提出[10],作为基于空间密度的经典聚类算法之一,在提取轨迹停留点等方面有较为广泛的应用。该算法主要思想为:对于一个集合中的每个对象,若在给定半径的邻域中包含的对象不少于某一给定的最小数目,则该对象可视为一个类簇的核心点。为方便轨迹聚类分析,现引入如下相关概念[3]。
定义1 GPS轨迹:按时间序列有向连接的GPS点集 (在本文中,考虑到志愿者活动的特殊性,轨迹时间范围一般为24 h)。轨迹表达为:
$ {\text{Traj = }}\left\{ {{{\vec p}_i}\left| {{{\vec p}_i} = \left( {{x_i}, {y_i}, {t_i}} \right)} \right.} \right\}\left( {1 \leqslant i < n} \right) $ |
定义2 停留点:用户在某一地理区域停留所形成的子轨迹集合的中心点。其中,该集合表达为:
$ \begin{gathered} P = \left\{ {{{\vec p}_k}\left| {\left( {{x_k}, {y_k}} \right) \cap {C_P}, \left| {{t_m}-{t_n}\left| { > {t_{{\text{thresh}}}}} \right.} \right.} \right.} \right\} \hfill \\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\left( {n \leqslant k < m} \right) \hfill \\ \end{gathered} $ |
式中是由组成集合P的轨迹点共同定义的空间范围,则规定了停留的时间阈值。
停留点P的经纬度属性表达如下:
$ {x_P} = \frac{1}{{m-n}}\sum {{p_{k \cdot }}x} $ |
$ {y_P} = \frac{1}{{m-n}}\sum {{p_{k \cdot }}y} $ |
如图 1所示,若不考虑数据缺失的问题,用户在某一地理区域停留时,空间上将形成相对高密度的点簇。运用DBSCAN聚类算法,能够过滤低密度的区域,并通过发现稠密度样本区域,从而提取用户停留点。
![]() |
图 1 轨迹停留点提取示意图 Figure 1 Sketch Map of Extraction of Stay Points in a Trajectory |
DBSCAN算法描述如下:
输入:给定邻域半径E,给定点在E领域内成为核心对象的最小领域点数MinPts,输入集合D;
输出:目标类簇集合D′,聚类中心P。
1) 遍历输入集合D中的每一个未被处理的对象,若该对象在给定半径E内的邻域下包含对象数不少于MinPts,则可标记其为核心对象;
2) 找出核心对象的E领域中所有直接密度可达对象,并进行标记;
3) 重复步骤1)~2),直到所有对象都被处理完毕;
4) 输出目标类簇集合D′,并计算聚类中心P的相关属性。
采用上述算法步骤,能较为理想地提取轨迹停留点经纬度。
2.2 基于校园环境得到停留点位置基于DBSCAN聚类算法,仅能得到用户停留点的经纬度值。为提取更精确的用户行为特征,需将停留点的经纬度转化为可理解的地址信息。目前,百度地图API已实现了逆地址解析功能[11],但这种方法仅能得到结构化的地址信息 (如武汉市洪山区珞喻路129号等),不能与武汉大学校园内外的各类具体环境点匹配。由于本研究针对的人群都是武汉大学在校学生,校园环境与学生背景是已知的信息,在此基础上,本文提出基于校园环境的停留点逆地址解析算法。
在武汉大学及其周边选取了49个典型的基准点,覆盖宿舍、教学楼、图书馆、食堂、学生活动中心、校园周边的商圈、公交站等类型 (见图 2),基于百度地图与建筑物、露天场地等的地理边界,确定校园环境基准点的经纬度范围。在此基础上,将停留点的经纬度进行百度转码,并与基准点的经纬度范围进行匹配,若停留点的经纬度落在基准点范围之内,则有很大把握判断该区域即为用户这一时间段的停留区域。算法示意图如图 3所示。
![]() |
图 2 武汉大学部分基准点示意图 Figure 2 Reference POI Samples in Wuhan University |
![]() |
图 3 停留点逆地址解析算法示意图 Figure 3 Reverse Address Resolution Algorithm of Stay Points |
算法伪码如下:
输入:聚类中心点P=(Lat, Lng),环境基准点西北角点PtNW=(Lat, Lng),环境基准点东南角点PtSE=(Lat, Lng)。
输出:判断结果True,环境点名称R.Name或False。
1) 定义环境基准点矩形R=(PtNW, PtSE, Name)
2) 比较聚类中心点是否位于基准点矩形内
FOREACH
IF (P.Lat < PtNW.Lat & & P.Lat>PtSE.Lat & & P.Lng>PtNW.Lng & & P.Lng < PtSE.Lng)
P∈R
Display R.Name;
Return True;
ELSE
Return False
3 实验结果分析 3.1 DBSCAN聚类算法的实验结果分析本文将DBSCAN聚类算法应用到学生轨迹分析中,并对志愿者采集得到且愿意公开的413条轨迹进行测试。其中,有378条轨迹能够通过该算法成功提取到停留点;少量轨迹由于轨迹点量过少、采集设备出现故障等问题,未能成功聚类。综合来看,DBSCAN聚类算法的测试准确率达到91.5%,效果较为理想。图 4仅展示部分轨迹聚类结果。其中,图 4(a)为成功提取到停留点的轨迹聚类效果图,图 4(b)为未能正确提取停留点的轨迹聚类图。
![]() |
图 4 轨迹聚类效果展示图 Figure 4 Result of Trajectory Clustering |
3.2 用户个体行为特征提取
以本课题研究中的一个普通志愿者刘某为例,本文采集得到该同学从2014年6-9月共48条轨迹,运用上文基于校园环境的轨迹聚类方法,共提取出42个有效的停留点。在轨迹采集过程中,刘某的少量轨迹由于行程过短、轨迹点量过少,无法提取得到相应的停留点。同时,本算法设计未将个体轨迹的起始点、终止点纳入考虑范围,因此,最终刘某的有效停留点个数小于其轨迹条数。
对停留点信息进行分类、整理、数理统计,得到结果见表 2和图 5, 并能够得到刘某个体的行为特征规律如下:
表 2 刘某停留点及对应时间段统计表 Table 2 Liu's Stay Points and Time Span |
![]() |
![]() |
图 5 刘某停留点及对应时间段统计图 Figure 5 Liu's Stay Points and Time Span |
1) 刘某的轨迹集中于武汉大学信息学部区域,因此可以判定,刘某为信息学部学生;
2) 刘某上课地点包括信息学部一号教学楼以及附三教学楼;
3) 刘某去运动场地的次数占到总停留点数量的50%以上,比例较高,说明该同学喜爱体育运动。根据统计信息可知,刘某常于晚间20:00~22:00在信息学部大操场进行体育锻炼;
4) 刘某在运动场、校内外休闲区等地的活动更加频繁,且活动范围较大,包括篮球场、校外超市、购物广场等地区。因此可推测,刘某可能是一位爱好运动、爱好出行游玩的学生。
3.3 群体行为特征提取运用上文提出的算法,对采集所得的697条轨迹进行批量分析,剔除掉匿名数据和无效数据,最终得到共404个质量良好的停留点。
在群体行为特征提取中,食堂、教学楼、操场、休闲观光区、周边商圈是人们感兴趣的区域。本文针对这几个区域,对停留点信息进行数理统计与归纳,整理结果如表 3和图 6所示 (注:少量区域时间段分布过于离散,未予统计)。
表 3 热点区域及其主要时间段统计表 Table 3 Hot Spots and Its Corresponding Main Time Span |
![]() |
![]() |
图 6 热点区域类别比例分布图 Figure 6 Distribution of the Hot Spots Class Proportion |
根据表 3与图 6中展示的统计数据,能够得到武汉大学学生的群体行为特征规律如下:
1) 志愿者样本中50%以上来源于信息学部,因此信息学部的热点区域在统计分析中占了较大比重;
2) 信息学部共有3个食堂:一食堂、二食堂、星湖园食堂。根据统计可知,大多数志愿者 (尤其是信息学部的学生) 在进餐时优先选择二食堂。据作者调查,一食堂饭菜匮乏,星湖园食堂价格偏高,二食堂价格适中、口味优良,因而成为许多学生常去的食堂;
3) 信息学部大操场出现频率高于50%,占主导地位。其主要时间段为晚上19:00~22:00,说明很多学生晚上会在大操场进行体育锻炼或休闲运动;
4) 在休闲观光区的统计中,信息学部星湖所占比例最大,主要时间段为学生的课余时段。据调查,星湖连接着教学区与宿舍区,自然环境优美,成为信息学部学生课余休闲的首选地点。信息学部大学生活动中心出现频数也较大,其主要时间段为晚上17:00~21:00。据了解,大学生活动中心于晚间开设了舞蹈课,并经常举办各类大小型晚会,学生在该地区的实际活动情况与统计结果相符;
5) 在周边商圈的统计中,武大正门口优品汇超市所占比例最大,其主要时间段为12:00~14:30和17:00~21:00,说明学生通常在中午或者晚上的空闲时间去超市购物;群光广场所占比例最小,据调查,群光广场以售卖奢侈品为主,对学生消费群体并没有吸引力。综合来看,武汉大学学生用于逛超市、商场等休闲的时间较少,用于学习、运动的时间则更为充足。
4 结束语本文基于当前已有的轨迹研究服务成果,提出针对武汉大学学生群体的轨迹研究。为提高轨迹数据挖掘的准确性,本文首先利用DBSCAN聚类算法完成用户停留点的粗提取,然后结合校园地理背景信息进行精确的停留点经纬度逆地址解析,通过大量的数据采集与分析,得到武汉大学学生个体性与群体性的行为特征规律。然而,由于GPS设备数量有限,用户样本数量较小且大部分来源于信息学部,本文还未能实现对武汉大学所有学区学生的轨迹数据挖掘与行为特征分析。同时,志愿者采集数据质量未能达到较高水平,提取得到的停留点数量较少,也不足以挖掘更深层次的学生个体行为特征。如何扩大学生群体的受众面,提取更广泛的用户轨迹停留点信息,以及如何获取更高质量的用户轨迹数据,将是下一步的研究方向。
[1] | 李征航, 吴秀娟. 全球定位系统 (GPS) 技术的最新进展第四讲:精密单点定位 (下)[J]. 测绘信息与工程, 2002, 27(6): 31–35. |
[2] | Zheng Y, Zhang L, Xie X, et al. Mining Interesting Locations and Travel Sequences from GPS Trajectories[C]. The 18th International Conference on World Wide Web, ACM, Genera, Switzerland, 2009 |
[3] | Zheng Y, Zhang L, Xie X, et al. Mining Correlation Between Locations Using Human Location History[C]. Proceedings of the 17th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, ACM, Seattle, Washington, 2009 |
[4] |
张治华.基于GPS轨迹的出行信息提取研究[D].上海:华东师范大学, 2010 |
[5] | 刘分, 葛国栋, 赵宇, 等. 移动通信网络位置群体关联用户挖掘[J]. 计算机应用, 2013, 33(8): 2 100–2 103. |
[6] | 徐义峰, 陈春明, 徐云青. 一种改进的K均值聚类算法[J]. 计算机应用与软件, 2008, 25(3): 275–277. |
[7] | 张伟, 耿继进, 邱卫宁, 等. 利用K均值聚类建立拟稳基准的价格关联体系新方法[J]. 测绘地理信息, 2014, 39(3): 31–33. |
[8] | 荣秋生, 颜君彪, 郭国强. 基于DBSCAN聚类算法的研究与实现[J]. 计算机应用, 2004, 24(4): 45–46. |
[9] | 冯少荣, 肖文俊. DBSCAN聚类算法的研究与改进[J]. 中国矿业大学学报, 2008, 37(1): 105–111. |
[10] | Ester M, Kriegel H, Sander J, et al. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C]. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), Menlo Park, California, 1996 |
[11] | 杜传明. 百度地图API在小型地理信息系统中的应用[J]. 测绘与空间地理信息, 2011, 34(2): 152–153. |