为研究社会网络用户情感行为,以新浪微博数据为基础,对用户微博内容情感进行分级,进而对微博用户群体情感行为进行分析,建立了分级别情感发帖模型,并进行了仿真实验.通过分析发现用户在表达某一级别情感的发帖量均服从幂律分布,且幂指数随着情感级别趋向平和而增加.大部分用户通过微博表达情感时较为平和,需要表达激烈的情感时,用户参与比例会减小.在级别情感发帖模型的建立过程中,考虑到了发帖人受到周围情感环境因素的影响以及自身情感的随机性变化,并通过模型仿真的结果验证了分级别情感发帖量服从幂律分布以及幂指数的变化趋势.
In order to study the social network users' emotional behavior, the massive sina micro-blogging data is graded by emotional stage, and the group emotional behavior is analyzed as well. An emotional stage posting model is established and model simulation is done. Analysis shows that the posting amount of users obeys power-law distribution at a certain emotional stage, and the exponent increases as the emotional stage tends to calm. Most of posts are peaceful when users express emotion through the micro-blogging, and the user participation rates will also decrease when the intense emotions need to be expressed. In the emotional stage posting model, the impact of the around emotional environmental factors of the poster is considered, and also the randomly changing of poster's own emotion. Finally the previous experiments are verified by model simulation.
当前,新兴的社交媒体正在全世界范围内展现出惊人的发展速度,微博作为其中的一个重要组成部分,已经吸引了众多用户,并成为人们在线交流和传播情感的主要平台.虽然网络上的交流经常被认为是虚拟的,但是这种不受时间和空间限制的交流也会产生各种人与人之间不同程度的互动,随之产生各种不同的情感.所以对于在线情感的研究,尤其是群体情感的研究就显得至关重要.近年来,国内外学者对在线网络的行为动力学进行了广泛的研究,并提出了一系列方法和模型[1-3],然而却较少有学者基于情感属性对用户的行为进行研究,尤其是对分级别的情感行为进行研究.
笔者利用复杂网络分析方法以及人类行为动力学分析方法,基于新浪微博数据,通过对用户发帖所蕴含的情感进行计算,继而对微博世界中用户的群体情感行为进行分析及建模仿真.深入了解用户情感行为的产生机制,可加深对微博网络中群体情感行为形成的认识,对微博的舆论控制以及微博营销等都具有一定的参考价值.
1 微博数据及情感计算 1.1 微博数据来源数据来源于新浪微博数据集.新浪微博在中国占据着最大的市场份额,也正在经历着飞速的增长.用户使用微博可以更新个人状态,发布短小内容,阅读他人信息等.而用户的这一系列行为活动,无时无刻不在表达着用户的情感倾诉,进而产生了海量的情感行为.
本研究利用新浪提供的应用程序编程接口(API,application programming interface)抓取微博数据[4],其中用户数量达到12 416,微博时间跨度为2011-11-21—2011-12-22,长达1个月,微博数量359 970,用户关系达到61 880.
在微博用户表达过程中,用户可能使用各种语言、符号等对自身情感进行表述,有时甚至会由于误操作而发布一些无法让人识别的乱码,所以对于这些数据,有必要进行筛选排除.笔者所采用策略是利用正则表达式判断微博文本中是否含有汉字,如果不含有汉字,则认为这条微博是无效的,不计入情感统计.
1.2 微博情感计算情感计算主要是针对文本内容情绪的分析,即通常所说的正面、负面或者中立.如何判定微博发帖者的情感倾向性是一个难题.武汉大学沈阳团队通过构建情感词典方式确定语料所表达的情绪[5],针对微博客情感挖掘测试的结果经交叉判定正确率达到80.6%.
利用沈阳团队所开发的情感计算工具RostEA, 可以计算出微博内容的正负向情感强弱,但是并没有办法对大规模的微博数据进行计算, 也无法对情感进行分级.为解决这一问题,本研究对该软件进行了改写,通过多线程并行计算, 使其可以计算大规模的微博数据,并将计算结果存入到MYSQL数据库之中.在计算了微博情感之后,根据软件所计算出的情感分值对结果进行分级. RostEA软件的生成结果中认为中性情绪情感值分布在[-5, +5]之间,积极情绪情感值和消极情绪情感值分布分别在(+5, +∞)和(-∞, -5),并认为[-25, +25]之外是最为强烈的情感表达. RostEA软件本身也是按照被测文本所包含情感词以及词的情感值进行的文本情感评分,而对于一条微博,最多含有140字,所以微博即使为了表达最激烈的情感,也不会像大规模文本一样包含大量的情感词汇,所以笔者认为用[-25, +25]之外表示最激烈情感较为合理.再考虑中性情感[-5, +5]之间测度为10,于是在[-25, +25]之间不妨以10为测度进行分级,分成了[-3, +3]之间7个情感等级.其中-3表示最负面的情感,+3表示最正面的情感.情感值与情感分级对应规则如下:
情感计算分级过程如图 1所示.
在对数据库中每条微博的情感级别进行划分之后,进而对12 416个用户在2011-11-21—2011-12-22 1个月时间内所发的微博数量依据不同情感级别进行了统计.发现每种情感级别的用户微博数量均呈幂律分布.根据情感级别(e)由高到低, 发微博量(N)和幂指数(α)、用户数量(U)、发微博量均值(μ)和方差(S2)如表 1所示.从表 1中可以看出,用户发帖量N随着情感级别趋向平和而增加,发帖量幂律分布的不同情感级别幂指数α也随着情感趋向平和而增加.对于在不同情感级别发帖的用户数量U而言,依然是随着情感级别趋向平和而增加.这也说明了用户在微博表达情感时,更愿意通过平和的方式进行表达.对于用户所发不同级别情感微博的平均发帖量μ, 依然可以看出在中性情感表达时μ最大,但是对于2个最为激烈的情感-3和+3,发生了轻微上翘的现象,这可以理解为虽然表达激烈情感的用户数量较少,但是这些用户却在表达激烈情感时有略微增加的参与热情,发出略微更多的微博.通过计算样本方差S2, 可以看出方差较大,这也是无标度样本所具有的性质,侧面验证样本的无标度性质.
由于篇幅有限,首先只选取2幅图进行展示,图中横坐标x表示发帖量,纵坐标P表示用户比例.不妨考虑发帖量大于10的用户,在图 2(a)中该种用户比例为0.329 4,图 2(b)中比例为0.219 2.可以看出,对于同样的发帖量,用户在表达较为激烈情感(+1) 时,用户的参与比例更小.
图 3也可以显示出剩余的5种情感级别发帖量依然服从幂律分布,且通过了阈值为0.9的Kolmogorov-Smirnov检验.
从图 3可以看出,用户发帖量超过几百条时,点逐渐开始稀疏,这说明大多数微博用户在1个月之间的发帖量不会超出几百条,只有少数用户会达到上千条.
通过以上数据发现,随着情感级别趋向平和,发帖数量随之增加,幂指数也随之增加.当情感级别趋向激烈,发帖数量随之减少,幂指数也随之减少.并且正向情感的发帖量总是大于负向情感的发帖量.
分析结果表明,人们通过新浪微博表达情感的时候,大多数时的表达还是较为理性平和的.需要表达激烈的情感时,人们参与比例会降低,但是对于这些参与最激烈情感的人来讲,可能会发出略多的微博.
3 情感行为模型及仿真 3.1 情感行为建模近年来,国内外学者对在线用户行为作了大量的研究,不仅验证了新浪微博网络是复杂网络,也验证了新浪微博用户发帖量服从幂律分布[6],并建立了相应的用户发帖模型.然而这些研究中并没有对用户每次发帖行为的情感进行划分.也就是说,利用模型可以仿真得出某一时刻用户是否有发微博行为,但模型中并没有给出用户在该时刻所发微博是哪一种情感级别.
在文献[7]中,从3个方面考虑了用户情感行为的表达:1) 用户与朋友、熟悉人之前的情感互动;2) 用户自身的情感唤醒;3) 用户自身的情感恢复.但该研究只是将情感作了简单的正负划分,并在抽象的网格中进行了情感仿真,并没有划分更加细化的情感级别,也没有在真正的网络中去进行情感行为仿真.
在已有工作基础上[6-8],进一步分析用户在发出某条微博时,所发微博内容属于何种情感级别,建立新浪微博情感行为活动模型.
如果节点i在某时刻t发布微博,那么所发微博的情感级别ei(t)可由如下2种方法产生.
1) 节点i在t+1时刻所发微博情感以概率p受到t时刻其邻居节点所发微博情感影响.即节点i的情感级别以概率ps受到邻居某一节点影响,以概率1-ps受到所有相邻节点影响.
其中:δj表示i的邻居节点j是否发微博,0表示不发,1表示发;Ni表示节点i的所有邻居节点.
2) 节点以概率1-p自身进行情感行为,所发布的情感行为级别以中性情感为期望服从正态分布,即ei(t)~N(0, δ2).此外节点具有情感释放恢复过程,如果节点i以及相邻节点经过一段时间没有发出微博或无情感波动,则节点i的情感级别以概率q恢复为中性.
3.2 情感行为仿真首先,利用仿真技术生成BA网络来模拟微博社会网络,设置用户节点总体数为1 500.在仿真生成的微博社会网络基础上,依据前文设定的模型规则,采用Matlab进行模型仿真.在仿真过程中,仿真时间步设为3 000,初始发微博节点数为300.
考虑到BA网络生成和模型仿真过程中均会具有一定的随机性,所以对该模型进行了5次仿真.仿真结果表明,用户在不同情感级别的发帖量依然服从幂律分布,并且随着情感级别趋向平和,发帖数量随之增加,幂指数也随之增加,且正向情感微博数略大于负向情感微博数.这与前文统计实验中结果较为吻合.但是幂指数大小与前文中并不一致,相对于幂指数本身,此处仿真更加关注幂指数随着情感级别变化的趋势,所以幂指数大小本身对仿真结果并没有影响,如图 4所示.
图 4(a)和(b)为1次仿真过程中情感等级分别为0和+1的用户发帖量分布;图 4(c)和(d)为5次仿真中幂指数的变化;图 4(c)是对5次仿真的幂指数进行连线,其中每条折线连接的点都是在一次仿真中各个情感级别的幂指数;图 4(d)是对图 4(c)的幂指数均值进行二次拟合的结果.可以看出,幂指数在情感级别为0时最大,随着情感级别趋向激烈,幂指数随之减小.
4 结束语社会网络情感行为分析,尤其是群体社会网络情感行为分析体对于舆情监控等具有重要的应用价值.通过对新浪微博内容进行情感行为划分,进而对微博用户的不同情感级别发帖量进行了统计分析,发现用户在不同级别情感发帖量均服从幂律分布.并且以已有的用户发帖行为模型为基础,考虑到用户发帖行为的情感与邻居节点的互动性、用户情感随机性、用户情感恢复性,建立了用户级别情感发帖模型,并进行了仿真实验.仿真实验与统计分析取得了较为一致的结果.
但是由于仿真实验使用的是BA网络,并不是真实的情感网络,所以对于真实情感网络的建立是下一步的研究方向.
[1] | Zhou Tao, Kiet H A T, Kim B J, et al. Role of activity in human dynamics[J]. EPL (Europhysics Letters), 2008, 82(2): 28002. doi: 10.1209/0295-5075/82/28002 |
[2] | Li Ming, Zhao Wei. Visiting power laws in cyber-physical networking systems[J]. Mathematical Problems in Engineering, 2012(2): 302786. |
[3] | Wu Ye, Ye Qihui, Li Lixiang, et al. Power-law properties of human view and reply behavior in online society[J]. Mathematical Problems in Engineering, 2012(12): 968087. |
[4] | Xiao Yunpeng, Wang Bai, et al. Analyzing, modeling, and simulation for human dynamics in social network[J]. Abstract and Applied Analysis, 2012(2): 208791. |
[5] | Shen Yang, Li Shuchen, Zheng Ling, et al. Emotion mining research on micro-blog[C]//The 1st IEEE Symposium on Web Society(SWS2009). Lanzhou: IEEE, 2009: 71-75. |
[6] | 郑兰. 微博客世界中用户间互动对用户微博使用行为的影响研究[D]. 北京: 北京邮电大学, 2012. |
[7] | Czaplicka A, Chmiel A M, Holyst J A. Emotional agents at the square lattice[J]. Acta Physica Polonica A, 2010, 117(4): 688–694. doi: 10.12693/APhysPolA.117.688 |
[8] | Chmiel A, Sienkiewicz J, Thelwall M, et al. Collective emotions online and their influence on community life[J]. PloS One, 2011, 6(7): e22207. doi: 10.1371/journal.pone.0022207 |