武汉大学学报(工学版)   2018, Vol. 51 Issue (5): 459-464

文章信息

江昊, 李媛, 吴礼华, 池卿华
JIANG Hao, LI Yuan, WU Lihua, CHI Qinghua
一种基站接入用户数量波动性的对比分析方法
A comparative method of accessed user volatility of base stations
武汉大学学报(工学版), 2018, 51(5): 459-464
Engineering Journal of Wuhan University, 2018, 51(5): 459-464
http://dx.doi.org/10.14188/j.1671-8844.2018-05-014

文章历史

收稿日期: 2017-01-20
一种基站接入用户数量波动性的对比分析方法
江昊1,2, 李媛1, 吴礼华1, 池卿华3     
1. 武汉大学电子信息学院,湖北 武汉 430072;
2. 武汉大学地球空间信息技术协同创新中心,湖北 武汉 430079;
3. 航天恒星科技有限公司, 北京 100194
摘要:基于手机用户上网数据,提出了一种衡量基站在不同时段接入用户数波动性的对比分析方法——最大距离准则.利用基站接入用户数标准差的累积概率分布来表征某地区基站接入用户数量的整体波动情况,并通过基于Bootstrapping的K-S检验来衡量不同时段波动的差异大小.数值仿真验证了该方法的有效性.利用该方法对我国两个地级市手机用户上网实测数据的分析发现,基站接入用户数的波动性不仅随地区和时间不同而异,也与基站所处的场景有关.对结果的分析揭示了我国城乡发展现状以及人口结构特征,为城市规划以及基础设施的合理配置和资源分配提供了可供参考的依据.
关键词基站    手机用户    波动性    Kolmogorov-Smirnov检验    Bootstrapping    
A comparative method of accessed user volatility of base stations
JIANG Hao1,2, LI Yuan1, WU Lihua1, CHI Qinghua3     
1. School of Electronic Information, Wuhan University, Wuhan 430072, China;
2. Collaborative Innovation Center of Geospatial Technology, Wuhan University, Wuhan 430079, China;
3. Space Star Technology Co., Ltd., Beijing 100194, China
Abstract: Based on mobile cellular data, a method called maximum distance criterion is proposed for analyzing the difference of accessed user volatility between base stations (BS), which is achieved by the cumulative probability distribution difference of standard deviations of mobile Internet users on each BS of different datasets. Kolmogorov-Smirnov test is introduced to measure the degree of the difference. Numerical simulation verified the effectiveness of the method. Then we utilize the method to analyze the real mobile cellular data of two cities in China. The results show that the accessed user volatility of BS is related not only with space and time, but also with social situations. Analysis of the results reveals the collective movements of mobile Internet users, which is tightly related to the current situation of urban and rural development of China.
Key words: base stations     mobile phone users     volatility     Kolmogorov-Smirnov test     Bootstrapping    

近年来,随着移动互联网的飞速发展以及手机等移动设备的普及,移动互联网用户数量急剧增加[1],使得业务流量急剧上升,对基站的性能和资源调度提出了更高的要求.新环境下探讨移动基站的负荷和资源使用情况对于运营商合理分配基站资源、提高无线信道资源利用率以及指导基站选址建设具有重要意义.

衡量基站负荷的指标主要有带宽利用率、上下行流量、接入用户数量等[2, 3].现有的关于基站负荷和资源消耗的研究,主要是从基站资源共享的角度出发[4, 5],或是针对单一场景下的资源消耗[6],很少考虑基站在不同地区和不同时段的使用情况差异.然而,当基站所在场景的用户数量发生变化时,基站处于过负载或者欠负载的状态,基站的频谱资源都无法达到最大的利用率.因此,针对不同时段的用户接入基站情况来动态分配基站频谱资源,不仅可以提高用户体验,还可以在不同基站间进行资源调度,实现资源的节约.本文从用户的角度出发,提出了一种基站接入用户数量波动性的对比分析方法——最大距离准则(maximum distance criterion,MDC).以小时为单位,统计各基站接入用户的数量,通过各基站上网人次标准差的累积概率分布来表征该地区基站接入用户的整体波动性,并利用基于Bootstrapping的Kolmogorov-Smirnov(K-S)检验来评估同一地区基站在不同时段接入用户波动性的差异大小.基于实测数据分析发现,基站接入用户数的波动性不仅随地区和时间不同而异,也与基站所处的地理场景有关,在一定程度上反映了我国城乡发展现状以及城市人口结构特征,为我国城市发展规划以及基础设施的合理配置和资源分配提供了可供参考的依据.

1 数据集介绍 1.1 数据来源

本文的数据集为我国安顺市和金华市的手机用户上网数据,前者覆盖的时间范围为2013-02-08-2013-02-28(包含了春节的上网记录),后者为2014-11-21-2014-12-13.每一条上网记录包含了用户接入基站的时刻、用户ID以及基站的经度和纬度.两个城市基站的空间分布如图 1所示.

图 1 基站分布情况 Figure 1 Spatial distribution of base stations
1.2 数据分布特性

以小时为单位,统计各时段各基站接入用户数量.随机选取两个基站,其上网人次的概率密度曲线如图 2所示.数值拟合表明二者近似服从正态分布,拟合参数分别为μ1=272.46, σ12=72.85;μ2=126.68, σ22=31.51.

图 2 基站上网人次的概率密度分布 Figure 2 PDF of user number of each base station
2 MDC方法 2.1 方法原理

基站接入用户是随着时间不断变化的,用户数量的波动情况会影响基站的信道资源利用率.本文利用基站接入用户数量标准差的累积概率分布来表征某地区基站接入用户数量的整体波动情况,并通过基于Bootstrapping的K-S检验来衡量不同时段基站接入用户数量的波动差异大小,Bootstrapping[7]是一种被广泛应用于知识获取的机器学习技术,其主要思想是对原始数据样本进行有放回抽样,通过新样本得到原始数据样本的一个分布,以此来估计原始数据.K-S检验[8]是一种用样本来检验样本来自同一个总体假设的统计检验方法.

2.2 方法具体步骤

图 3给出了MDC方法流程.给定两组数据集XY,以矩阵形式表示,每行服从正态分布,XY满足列数相同.

图 3 MDC方法流程 Figure 3 Main procedure of MDC method

1) 归一化.对XY按照下式进行归一化,得到归一化数据集X′和Y′.

    (1)

式中:xij表示第i行第j列的数;K表示矩阵的列数.

2)求标准差.由于数据集每行服从正态分布,其均值mi和标准差si如下式所示,标准差越大,说明基站接入用户数量的波动性越大.

    (2)

3) K-S检验.分别用fX(si)和fY(si)表示X′和Y′标准差的累积概率密度函数,则二者的统计最大距离为

    (3)

其中

    (4)

4) Bootstrapping.对X′和Y′的列进行有放回随机抽样,得到抽样数据集XspYsp.为提高结果准确性,重复步骤2、3共5 000次,得到抽样最大距离集合{dsp, i, 1≤i≤5 000}.通过比较dX′, Y和{dsp, i}来衡量X′和Y′的数据波动性差异大小.

本文将步骤3和4称为基于Bootstrapping的K-S检验,其流程如图 4所示.

图 4 基于Bootstrapping的K-S检验流程 Figure 4 Procedure of K-S test based on Bootstrapping
3 数值仿真 3.1 仿真数据

为验证方法的有效性,利用产生的随机数进行数值仿真.根据前面的分析可知,本文数据集的统计特性主要有:1)数据集每行服从正态分布,满足σ2μ/4;2)两组数据集的列数相同.根据上述特点,随机生成两组仿真数据集XsYs,相关参数如表 1所示.可以看到,Xs中各行数据的标准差整体大于Ys中每行数据的标准差,表明Xs的整体波动性强于Ys.

表 1 仿真数据参数 Table 1 Simulation data sets
Xs(600×500) Ys(300×500)
行号范围 σ2 行号范围 σ2
1~100 30.0 1~50 10.0
100~300 1 800.0/i 50~150 300.0/j
300~600 1 200.0/i 150~300 300.0/j
3.2 仿真结果

图 5(a)给出了XsYs标准差的累积概率分布曲线.可以看到,Xs对应的曲线完全位于Ys的下方,因此Xs的标准差整体上大于Ys,数据的波动性更强.这与上文的参数设置是一致的.

图 5 仿真结果 Figure 5 Simulation result

K-S检验计算得到两条曲线的最大距离ds=0.33.抽样最大距离{dsp, i, 1≤i≤5 000}的累积概率分布曲线如图 5(b)所示,该曲线为右连续,接近80%的值均小于0.33,其余的等于0.33,即ds ≥{dsp},说明两条曲线的差异是存在的,且差异很大.这说明本文提出的MDC方法用来评估不同时段基站接入用户数量波动性的差异是有效的.

4 实例分析

为了分析不同地区基站在不同时段接入用户数量的波动性差异大小,本文选取第1节中的安顺和金华两个城市的部分基站,利用MDC方法对不同地区基站在不同时段接入用户数量的波动性进行分析.

4.1 数据采样

对于安顺市,在空间尺度上,选取图 1(a)中地区1的城区和地区2的农村;在时间尺度上,选取2013-02-09-2013-02-15(春节)和2013-02-16-2013-02-22(工作日).分别分析这两个地区的基站在春节和工作日接入用户数量的波动性差异.对于金华市,分别选取图 1(b)中的居民区、城区道路、高校和商业区4个场景的基站在2014-11-25-2014-11-26(工作日)和2014-11-29-2014-11-30(周末)接入用户数量波动性差异,以小时为统计时段,分别统计各基站在各时段内的上网人次.

4.2 春节和工作时段对比

选取安顺市城区和农村地区的基站来进行分析,结果如图 6所示.可以看到,对于城区基站,工作时段的分布曲线基本上位于春节所对应曲线的下方,说明前者的标准差整体上大于后者,即工作时段的基站接入用户数量波动性相比春节更大;而农村基站情况相反.由此可以看到,基站接入用户数量的波动性不仅与时间有关,也与基站所处地域有关.两条曲线的最大距离分别为0.115和0.195,分别大于抽样最大距离的53%和23%,说明在春节和工作时段,城区基站接入用户数量的波动性差异大于农村基站.

图 6 春节和工作日对比结果 Figure 6 Comparison results between the Spring Festival and workdays

为了探究两个地区基站接入用户数量波动性存在差异的原因,图 7给出了两个地区所有基站上网人数从2013-02-08-2013-02-28共21 d的逐日变化情况.图中横轴2~8 d为春节,其他为工作时段.可以看到,城区和农村人口数量的变化趋势大体相反.春节期间城区上网人数较少,在春节第5 d达到最低点,而在趋近工作时段时逐步回升;农村的上网人数在春节期间数量较高,且一直处于比较稳定的状态,春节刚刚结束时出现了一个“尖峰”,进入工作时段后逐渐降低.目前,很多研究工作都基于手机用户的上网数据来对人群的空间移动行为进行分析[9-11],文献[12]在对城市人群移动行为的分析中也得到了类似的变化情况.这是由于在春节期间,大量人群从城区返乡,造成了春节期间农村用户的上网行为较工作时段更为活跃;而城区用户数量减少,因此相比于工作日基站接入用户波动性更小.

图 7 上网人次的逐日变化 Figure 7 Daily change of user number

城区基站在两个时段接入用户波动性差异大于农村基站也不难理解.由于本文选取的城市为普通的地级市,城区的外来人口主要集中在周边农村.因此在春节期间,城区用户会向周边的农村迁移,而本文选取的地区2只是地区1周边地区的一部分,即城区用户的迁出规模要大于本文中农村用户的迁入规模,因此基站接入用户数量的波动大小也不同.

4.3 周末和工作日对比

选取金华市4个场景的基站在周末和工作日接入用户数量波动性的对比分析结果如图 8所示.可以看到,位于高校和商业区的基站,周末接入用户数的波动性强于工作日,而位于居民区和城区道路的基站则情况相反.由于周末学生的活动更为丰富,而商业区会有更多人群,因此,这两个场景的基站接入用户数的波动性大于工作日.而在工作日,城区道路的人流量较大,且在上下班会出现高峰期,而其他时段的人流量则比较平均,因此该场景下的基站接入用户数量的波动性相比于周末更强.

图 8 周末和工作日对比 Figure 8 Comparison results between workdays and weekends
5 结论

本文基于手机用户上网实测数据,提出了一种衡量基站在不同时段接入用户数量波动性的对比分析方法MDC.通过对不同地区和不同场景下的基站在不同时段接入用户的分析发现,基站接入用户波动性因地域和所处时段而异:地区发展水平越高,人口数量越大,基站接入用户数量的波动性越大;在市中心地区,基站在日常工作时段的资源使用稳定性低于春节,农村地区则情况相反.对结果的分析在一定程度上揭示了用户群体的行为规律,其受到所处社会环境等多方面的影响.这对于目前受众多学者关注的人类群体行为研究[13-16]具有一定的借鉴意义.

同时,对于不同场景的基站在工作日和周末接入用户数的波动情况分析发现,位于高校和商业区的基站周末接入用户的波动性强于工作日,而位于居民区和城区道路的基站情况相反.这与用户的日常出行习惯存在密切关系.该结果对于基站间的资源调度具有重要的指导意义.例如,在工作日的上下班高峰期等,用户大多集中在城区道路,且由于用户的空间移动性,导致基站接入用户数的波动性较大.因此,对于其他场景下无线资源占用率较低的基站,可以进行适当的关闭.而与城区道路距离较近的基站,则可以进行适当的分流,以降低城区道路基站的高负荷.

本文的分析结果也反映了我国城乡发展现状[17],我国正处于城镇化的进程中,大量农村人口进入城市工作,使得城市人口密度增大,而在节假日又会有大量人员返乡,人口大规模迁移的情况将长期存在.因此移动通信设施的建设规划、城乡路网以及网络资源的合理配置,甚至各种基础设施的建设都需要考虑到这一现状.下一步将对迁移人口的频度、迁移数量等人口迁移规模的相关内容进行研究,旨在为城乡基础设施的规划提供相关的指导信息.

参考文献
[1] 中国互联网络信息中心. 第35次中国互联网络发展状况统计报告[R]. 中国: 中国互联网络信息中心, 2015.
CNNIC. The 35th statistics report of China Internet development[R]. China: CNNIC, 2015.
[2] 蒋韡琳, 张中兆, 沙学军, 等. 消除小区间干扰的OFDMA系统多小区上行资源分配方案[J]. 高技术通讯, 2010, 20(12): 1235–1240.
Jiang Weilin, Zhang Zhongzhao, Sha Xuejun, et al. An ICI-eliminating resource allocation scheme for the uplink of multi-cell OFDMA systems[J]. Chinese High Technology Letters, 2010, 20(12): 1235–1240. DOI:10.3772/j.issn.1002-0470.2010.12.005
[3] 蒋韡琳. OFDMA系统小区间干扰消除与资源分配算法研究[D]. 哈尔滨: 哈尔滨工业大学, 2011.
Jiang Weilin. Research on inter-cell interference cancellation and resource allocation algorithm in OFDMA system[D]. Harbin: Harbin Institute of Technology, 2011. http://cdmd.cnki.com.cn/Article/CDMD-10213-1012000368.htm
[4] 宋亚楠, 仲茜, 曲光亮, 等. 多基站协作无线资源分配方法[J]. 计算机工程, 2014(5): 49–53.
Song Yanan, Zhong Qian, Qu Guangliang, et al. Multi-base-station cooperate wireless resource allocation method[J]. Computer Engineering, 2014(5): 49–53.
[5] 陈力. B3G/4G系统中的无线资源分配的研究[D]. 北京: 北京邮电大学, 2012.
Chen Li. Research on radio resource allocation in B3G/4G systems[D]. Beijing: Beijing University of Posts and Telecommunications, 2012. http://cdmd.cnki.com.cn/Article/CDMD-10013-1012499313.htm
[6] 张凌峰, 高波, 蒋鑫. 家庭基站资源管理和优化技术研究[J]. 电信科学, 2010(12): 31–34.
Zhang Lingfeng, Gao Bo, Jiang Xin. Study on technology of management and optimization of home NodeB wireless resources[J]. Telecommunications Science, 2010(12): 31–34. DOI:10.3969/j.issn.1000-0801.2010.12.008
[7] Abney S. Bootstrapping[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, Pennsylvani, USA, 2002: 360-367.
[8] Lopes R H C. Kolmogorov-Smirnov Test[M]. International Encyclopedia of Statistical Science. Springer Berlin Heidelberg, 2011: 718-720.
[9] Hoteit S, Secci S, Sobolevsky S, et al. Estimating human trajectories and hotspots through mobile phone data[J]. Computer Networks, 2014, 64(4): 296–307.
[10] Becker R, Cáceres R, Hanson K, et al. Human mobility characterization from cellular network data[J]. Communications of the ACM, 2013, 56(1): 74–82. DOI:10.1145/2398356
[11] Gonzalez M C, Hidalgo C A, Barabasi A L. Understanding individual human mobility patterns[J]. Nature, 2008, 453(7196): 779–782. DOI:10.1038/nature06958
[12] 徐赞新, 王钺, 司洪波, 等. 基于随机矩阵理论的城市人群移动行为分析[J]. 物理学报, 2011(4): 53–59.
Xu Zanxin, Wang Yue, Si Hongbo, et al. Analysis of urban human mobility behavior based on random matrix theory[J]. Acta Physica Sinica, 2011(4): 53–59.
[13] Michael C, Jennifer X. Mining communities and their relationships in blogs: A study of online hate groups[J]. International Journal of Human-Computer Studies, 2007, 65(1): 57–70. DOI:10.1016/j.ijhcs.2006.08.009
[14] Hasan S, Zhan X, Ukkusuri S V. Understanding urban human activity and mobility patterns using large-scale location-based data from online social media[C]//Proceedings of the 2nd ACM SIGKDD International Workshop on Urban Computing, Chicago, USA, 2013. http://cn.bing.com/academic/profile?id=a27ce1388503da29ab4307665bb04105&encoded=0&v=paper_preview&mkt=zh-cn
[15] Kwlley S, Goldberg M, Magdon I M, et al. Stability of individual and group behavior in a blog network[C]//2009 IEEE International Conference on Intelligence and Security Informatics, Texas, USA, 2009: 7-12. http://www.cs.rpi.edu/~magdon/ps/conference/BlogStabilityISI2009.pdf
[16] Liu Y, Sui Z, Kang C, Gao Y. Uncovering patterns of inter-urban trip and spatial interaction from social media check-in data[J]. PLoS one, 2014, 9(1): e86026. DOI:10.1371/journal.pone.0086026
[17] 李杰义. 城市人口结构与产业结构的不对称分布问题及其对策[J]. 生产力研究, 2008(19): 102–103.
Li Jieyi. Problems and countermeasures of the asymmetric distribution of urban population structure and industrial structure[J]. Productivity Research, 2008(19): 102–103.