| 基于微博热门话题的扩散特征研究 |
微博自问世以来,其简单便捷、信息丰富、传播速度快、更新迅速的特点迅速吸引了大众的关注[1]。目前,微博数据挖掘的主要研究包括话题事件分析、情感分析、信息检索与推荐、网络关系分析、信息传播、影响力分析等方面。丁兆云等[2]总结了微博的研究现状及微博的噪音数据多样性、开放性等特性为将来研究带来的新挑战;蒋盛益等[3]对微博内容挖掘及用户关系挖掘的研究情况及相关方法进行了介绍及归纳,并对微博信息挖掘的发展进行了展望;赵红运[4]提出了基于用户活跃度与热门话题的微博社区推荐算法,从活跃度和热门这两个方面将微博社区中的活跃用户及社区中讨论的热门话题推荐给社区中的新用户,以提高这些新用户的检索速度和效率;胡庆武等[5]利用基于位置的签到数据探索城市热点商圈,为区域经济规划提供决策;常晓猛等[6]探究了反映城市空间的相互作用,用虚拟网络环境反映城市相关吸引力。其中,话题研究仍集中在以组织(如政府、企业、媒体等)为主体的视角,对普通公众的传播策略研究仍占少数,而且较少将讨论置于具体危机事件中进行传播内容、诉求、策略与扩散形式的探索。
基于传统微博话题研究的局限性,本文对微博话题事件在文本、时间和空间上的扩散特征研究。从微博信息扩散特征的研究方法、数据采集与预处理和扩散特征分析3个方面进行了论述。
1 研究方法本文使用新浪微博数据,以微博热门话题杭州公交车燃烧事件为例挖掘微博信息。其中,采用的方法主要有词频分析法、重尾理论、叠置分析法。
1) 词频分析法
词频分析法是利用能够揭示或表达文献核心内容的关键词或主题词在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法[7]。
2) 重尾理论
重尾分布是一种概率分布模型,它分为两个子类型:长尾分布和次指数分布。长尾理论是事件发展变化的一种演变趋势,可以分为头和尾两个基本要素。
大数据时代,重尾理论可用于地理结构的可视化和动态性分析。当数据呈现出重尾分布时,重尾理论可以有效地用来揭示或形象化其缩放模式。蒋斌[8]将重尾理论应用到社交网络数据,构造自然城市,证实自然城市与实际城市有很大的相似性,这种分类方法在获取缩放模式方面优于传统的分类方法[9]。
3) 叠置分析法
叠置分析法是地理信息系统中用来提取空间隐含信息的方法之一。它是将不同数据层面进行叠置产生一个新的数据层面,叠置结果综合了原来两个或多个层面要素所具有的属性,主要包括标识、相交更新、交集取反、联合、更新等叠加操作,叠置分析将现有要素合并成一组要素,以识别输入要素间的空间关系。有时会有几件突发事件同时爆发,同时引起民众的关注,共同影响民众的心理态势,这时就需要将两个或者更多事件引起的网络舆情进行叠加分析。本文通过对杭州公交车燃烧事件相关微博数据的叠置分析,将不同日期的用户活跃区域进行叠置并写入新的图层,研究信息扩散的集中区域。
2 数据采集与预处理 2.1 数据采集以2014年7月5日17:15发生在杭州的公交燃烧案为例,事件造成了较大伤亡,在微博上引起了广泛关注。新浪微博官网显示,7月6日原创或转发与杭州公交车燃烧有关的微博数量达到了80 000条。
本文采用基于API的数据采集方法采集了与此次事件相关的微博数据。采集到的微博数据包含以下属性:用户ID、文本内容、省、市、性别和创建时间。通过多个关键词的组合方法提取微博数据,发现以杭州公交作为关键词进行数据搜索产生的噪声数据最小,因此以其为关键词获取从2014年7月5日-8日的1 269条数据进行研究, 如图 1所示。
![]() |
| 图 1 杭州公交主题提取的微博数量 Figure 1 Number of Hangzhou Bus Related Records |
2.2 数据预处理
为了加快查询速度和方便数据管理,笔者将数据存放在本地数据库。文本特征方面,采用中国科学院NLPIR汉语分词系统进行文本挖掘,该软件进行文本分析的文件输入格式为文本数据,因此本文从数据库中提取所需数据并保存为文本格式,以便下文分析;时间特征上,对数据进行清洗统计,将全部数据按24个时间段进行话题讨论数量统计,微博数据属性包括时间、日期和数量;空间特征上,将带有空间坐标信息的excel数据转化为矢量图层数据。
3 扩散特征分析 3.1 文本扩散分别对2014年7月5日-8日的微博文本内容进行词频分析,分析名词、动词、形容词3种开放词类的高频词汇。这类结果基于完美双数组TRIE树的专利算法,词频统计效率较高,是常规算法的10倍以上。该算法的效率不会随着待统计结果数目的剧增而呈指数级增长,一般是呈亚线性增长。它足够支持本文的向量化计算,并达到较好的结果。
2014年7月5日和6日的最高频词汇一致,均为“杭州”、“燃烧”、“恐怖”,其他高频词汇有所变化,7月6日出现新词“嫌疑人”、“放火”,表明事件的新变化:这可能是一个人为事件。7月7日的最高频词汇为“杭州”、“纵火”、“恐怖”,“燃烧”到“纵火”的改变表明人为事件的可能性极高,视频的高词汇出现说明公众都在了解事件的详细过程,并由此确定了这件事情为人为事件。7月8日的最高频词汇为“杭州”、“纵火”、“危重”,说明公众心理由害怕变成了担忧,“身份”、“包来旭”、“确定”等高频词汇表明这件事情的始作俑者已经确定。4天的高频词汇差异(以名词为例,如图 2所示)说明公众关注的焦点正是整个杭州公交案的走向。公共事件的走向会影响公众的讨论内容,反过来,公众的讨论也会影响公共事件的走向。因此,可以对公众如何运用新媒体进行危机传播提出策略性建议,以提高其传播效率与能力。当灾害发生时,公众可通过强化内容客观性、形式丰富性与诉求正面性等,为媒体、政府等工作提供参考价值。
![]() |
| 图 2 2014年7月5日-8日杭州公交车燃烧事件相关微博高频词统计 Figure 2 Statistics of High Frequency Words for Hangzhou Bus from July 5th to 8th, 2014 |
3.2 时间扩散
微博平台的信息传播是实时的,针对某个事件或者话题的信息,用户可以在第一时间将相关事件信息发布到公共信息平台上。2014年7月5日下午杭州公交事件发生后,立即在微博上引起了广泛的讨论。将2014年7月5日-8日的数据按24个时间段统计后以折线图方式显示,如图 3所示,事件在发生后的两天内(2014年7月6日和7日)得到了大量的关注和讨论,微博用户活跃时间存在2个高峰期:9:00~11:00和17:00~18:00,而且每天都在下午2:00左右关注度达到了最低。凌晨1:00~4:00, 微博信息的发布数随时间呈递减趋势, 且微博数处于较低水平, 表明这段时间内很少有用户使用微博。从早上4:00开始, 微博数持续走高, 至上午9:00~10:00之间形成高峰, 这与电子邮件、即时通信以及移动手机通信的使用高峰期常常出现在上午10:00的情况相似[10]。这些现象表明,大多数微博信息和工作无关, 只是碎片时间的一些短暂交谈。从统计特征来看, 用户的微博信息发布行为具有周期性、阵发性等特征。具体来说,周末(7月5日和6日)与工作日(7月7日和8日),在一天24 h内,微博数随时间的变化趋势基本一致,上午9:00~11:00和晚上睡觉前是微博使用的高峰期。
![]() |
| 图 3 不同时间段的杭州公交关注人数 Figure 3 Number of Focusing on Hangzhou Bus During Different Time Periods |
3.3 地理扩散
地理学角度上,信息的扩散是指信息在一定的时间内从一个地理位置向其他地理位置传递的过程。地理空间分析一直由高斯思维方式主导,它假定事物可以由平均值表征特征。但实际上,许多事情缺乏明确定义的平均值,即地理空间分析需要找出与高斯思维完全不同的新方法,空间异质性应被制定为地理学的标度率。蒋斌[11]证明了地理世界事物是相互依存的、复杂的、动态的和非平衡的。他认为,大数据时代,重尾理论可用于自然城市结构的可视化和动态性,并通过实例证明了其正确性。基于此,本文利用ArcGIS地图制图软件绘制热点话题地理扩散的特征图,通过研究热点话题的扩散过程,分析微博事件在地理空间的扩散规律。
根据重尾理论空间可视化的流程处理2014年7月5日-8日的数据,得到热门话题讨论的分布。带有区域的话题会从发生地点逐渐向周边地区传播。从空间的整体格局上来看,对杭州公交车燃烧关注的微博用户所在地主要集中在杭州、广东、北京、江苏和上海等城市,它们成为了信息扩散的主要城市,这主要是由于该城市的经济条件发达以及距离信息源城市较近的缘故。这些地区往往也成为其他网络上流行的热点话题关注的主力地区,这在一定程度上反映出微博场域话语权与当地经济社会发展水平有一定正相关关系。这些地区经济发展水平较高, 互联网普及率更高, 网民发展迅速, 因此聚集了较多的高学历、高智商、熟悉网络生活, 又关心社会事务的年轻人群体,他们是推进社会民主的主力人群。这些城市在空间中形成了信息流强集聚节点,对信息流扩散的作用贡献突出。
将2014年7月6日-8日3天的分布进一步做叠置分析,发现在全国范围内,除了广东等少数省份外,大部分省份的信息扩散集中于省会城市。说明在全国大部分省份中,每个省份的省会城市在信息扩散中居于核心地位,对微博的信息传播发挥着主要的作用,虽然有很多城市都参与了微博转发,对信息进行了扩散,但它们的信息扩散能力和贡献都较小,信息扩散能力较弱。对于城乡之间的扩散差异来说,城市拥有各方面的优越条件,可以为网络信息化提供更优越的发展空间,这就造成了网络信息化偏向于在大城市集聚的效应。
城市群(又称城市带、城市圈、都市群或都市圈等)指以中心城市为核心,向周围辐射构成城市的集合。城市群的特点反映在经济紧密联系、它们之间的产业分工与合作、交通与社会生活、城市规划和基础设施建设相互影响。由多个城市群或单个大的城市群即可构成经济圈。截至2015年,中国有长三角城市群、珠三角城市群、京津冀城市群、中原城市群、长江中游城市群、哈长城市群、成渝城市群、辽中南城市群、山东半岛城市群、海峡西岸城市群、关中城市群等国家级城市群。研究发现,热门话题的活跃度集中于长三角城市群、珠三角城市群、京津冀城市群3大城市群。
为了验证其准确性,将所有微博数据以不同的城市群进行统计。其中,长三角城市群(杭州、上海、江苏)以41%占据话题讨论第一,京津冀城市群(北京、天津、河北)以15%占据第二,珠三角城市群(广东、深圳、香港等)以12%占据第三,而这3个城市群是经济最为发达的地方,这与重尾理论分析得出的结论基本一致。
综上所述,基于扩散特征分析的微博数据挖掘可以发现微博中隐含的信息,为政府在危机事件中的决策提供指导。根据上海交通大学舆情研究实验室统计的数据,2010年72起影响力较大的热点事件中,微博作为重要媒介参与事件的比例达81%,其中,由微博首次曝光的热点事件有8起。可以看出,微博对中国社会公共事件的影响力正在逐渐增强。
4 结束语本文针对微博话题事件从文本、时间、空间3个维度上进行挖掘,发现其在不同维度上的传播特征,创新点在于利用重尾理论实现数据的空间特性在地理上的表达,分析比较了微博信息流在空间的分布形态差异和不同地区间在信息流扩散中扩散强度的差异,从一个全新的研究角度探究网络信息流扩散的时间和空间特征,扩展了重尾理论在地理学上的应用。
研究发现,微博是公众发布信息和得到信息的有利工具,用户活跃度时间存在规律性,利用微博的有效信息对危机事件做出分析和处理,帮助媒体和政府做出决策;城市网络信息传播强度和社会经济发展成正相关,经济发展水平高的地方,用户活跃度大,是信息传播的主力,传播主要集中在3大城市群:长三角城市群、珠三角城市群、京津冀城市群。
重尾理论的应用为微博数据挖掘提供了新的方向,但面对仍在不断变化发展的微博,仍有许多值得研究和探讨的领域,如可以着重研究微博用户与信息流的扩散路径之间的关系。微博个性化推荐、微博自动摘要、挖掘技术的实际应用等也仍具有广阔的开拓空间。
| [1] | 李杰, 赵阳. 基于WebGIS的突发事件网络舆情可视化设计与实现[J]. 测绘地理信息, 2014, 39(4): 38–41 |
| [2] | 丁兆云, 贾焰, 周斌. 微博数据挖掘综述[J]. 计算机研究与发展, 2014, 51(4): 691–706 DOI: 10.7544/issn1000-1239.2014.20130079 |
| [3] | 蒋盛益, 麦智凯, 庞观松, 等. 微博信息挖掘技术研究综述[J]. 图书情报工作, 2012, 56(17): 136–142 |
| [4] |
赵红运. 基于用户活跃度和热门话题的微博社区推荐技术研究[D]. 兰州: 兰州交通大学, 2014 |
| [5] | 胡庆武, 王明, 李清泉. 利用位置签到数据探索城市热点与商圈[J]. 测绘学报, 2014, 43(3): 314–321 |
| [6] | 常晓猛, 乐阳, 李清泉, 等. 利用位置的虚拟社交网络地理骨干网提取[J]. 武汉大学学报·信息科学版, 2014, 39(6): 706–710 |
| [7] | 王连喜. 微博短文本预处理及学习研究综述[J]. 图书情报工作, 2013, 57(11): 125–131 DOI: 10.7536/j.issn.0252-3116.2013.11.023 |
| [8] | Jiang Bin. Head/Tail Breaks for Visualization of Ci-ty Structure and Dynamics[J]. Cities, 2015, 43(3): 69–77 |
| [9] | Jiang Bin, Miao Yufan. The Evolution of Natural Ci-ties from the Perspective of Location-Based Social Media[J]. The Professional Geographer, 2015, 67(2): 295–306 DOI: 10.1080/00330124.2014.968886 |
| [10] |
易兰丽. 基于人类动力学的微博用户行为统计特征分析与建模研究[D]. 北京: 北京邮电大学, 2012 |
| [11] | Jiang Bin. Geospatial Analysis Requires a Different Way of Thinking: The Problem of Spatial Heterogeneity[J]. GeoJournal, 2014, 80(1): 1–13 |
2018, Vol. 43





