中国科学院大学学报  2018, Vol. 35 Issue (1): 131-136   PDF    
基于深度学习的微博用户自杀风险预测
田玮1,2, 朱廷劭1     
1. 中国科学院心理研究所, 北京 100101;
2. 中国科学院大学, 北京 100049
摘要: 随着互联网的发展,越来越多的人在社交网络表达自己的情感,其中包括自杀意愿,这就为自杀预防创造了新机遇。如果自杀风险可以利用微博进行自动识别,就可以为自杀预防工作开辟新方向。本文立足于使用深度学习建立社交媒体自杀识别器,探讨通过社交平台实时评估个体用户自杀可能性。为验证这种算法模型的有效性,对算法所使用的关键词属性进行统计学分析,并与另外两种算法模型的预测结果进行比较。实验结果表明基于深度学习的算法模型可更有效地对微博用户的自杀风险进行预测。
关键词: 自杀     多层神经网络     微博     社交网络     识别器    
Deep learning model for suicidal identification of Chinese microblogs
TIAN Wei1,2, ZHU Tingshao1     
1. Institute of Psychology, Chinese Academy of Sciences, Beijing 100101, China;
2. University of Chinese Academy of Sciences, Beijing 100049, China
Abstract: With the development of internet, more and more people express their emotion and feeling in social media, including suicidal ideation. There is a new opportunity for suicide prevention, if people with high suicidal risks can be identified through social media like microblog. In this work we attempt to set up the suicidal ideation recognizer with deep learning model, and address the possibility of suicidal risk assessment in social media. In order to verify the validity of the algorithm model, we also conduct statistical analysis of the key word features, and compare the incorrectly classified instances with other two algorithms. The results indicate that deep learning algorithm works more effectively for suicide risk identification.
Key words: suicide     multi-layer perception(MLP)     microblogs     social media     recognizer    

自杀不仅是个人行为,更是一种严重的公共健康问题[1],会引发一系列消极的后果。据2007年初北京心理危机研究与干预中心发布的《我国自杀状况及其对策》数据,在中国,自杀是全国人口死亡的第5位死因,是15~34岁人群的首位死因[2]。中国每年有28.7万人死于自杀; 200万人自杀未遂[3]。鉴于此,迫切需要对自杀现象进行及时的干预,而自杀风险的预测评估对于自杀的干预和预防起着关键作用。自杀风险的预测不仅仅是针对已经发生自杀行为的特殊群体,而是通过对普通人群的研究,发现有高度自杀风险的特殊群体,从而实现自杀的预测和有效防止。

近年来,伴随着互联网的飞速发展,越来越多的网络用户在社交网络上抒发个人情感。而年轻人更是社交媒体的主力军,以40岁以下用户为主,占82.5%,其中20~29岁年龄段社交用户占32.9%,在整体人群中占比最大;其次是19岁以下用户,占26.3%;30~39岁用户的占比也在23.3% [4]。微博作为中国最受欢迎的社交媒体已经拥有五亿注册用户,也成为自杀直播主要平台[5]。有的网络用户在社交网络表达他们的自杀意向,但是没有得到及时救援,反而遭到其他媒体用户的讥讽与不理解[6]。西方学者已经建议把自杀的言语表达解读为有自杀意向的信号[7],而美国自杀学会也已经把“谈论自杀”等同于“有自杀意向”和“想通过自杀求死”同列为自杀风险的预警信号[7-8]。已有研究表明,论坛、微博等社交媒体已经成为探索发现自杀者的新领域[9],现有的一些研究也已从社交网络提取与自杀相关的想法和行为作为自杀意向的分析依据[10]。因此,针对互联网数据的自杀预测研究将可以把自杀处理的被动式危机干预变为主动式危机干预,从而建立以互联网为背景的自杀防线。本研究以新浪微博为研究对象,试图建立基于文本分类的自杀风险自动识别模型,用以从公共健康的角度贡献于自杀预防工作。

自动文本分类是自然语言处理领域中的一个研究热点,其研究方向就是借助自动分类技术判断文本的类别,借助文本分类技术可以从急剧增长的网络文本获取所需要的信息。近年来,越来越多的研究开始着眼于中文文本分类的算法研究[11-12],而相应的研究成果也开始应用到网络数据的提取与分析[13-14], 但基于中文文本分类对微博自杀风险预测的研究严重不足,目前中国对自杀的预测大部分还是在采用传统的问卷调查法和量表测量法[15-16]。因而,本研究立足于使用文本分类技术对新浪微博文本进行分析,以达到对自杀意念的及时有效的识别。

人工神经网络(artificial neural network,ANN)也称为神经网络,是对大脑或自然神经网络若干基本特征的抽象和模拟,是一个以有向图为拓扑结构的动态系统,它通过对连续或断续式的输入做状态响应而进行信息处理。是一个高度复杂的非线性动力学系统,不但具有一般非线性系统的共性,更主要的是它还具有自己的特点,比如高维性、神经元之间的广泛互连性以及自适应性或自组织性等。人工神经网络技术已经广泛应用于心理学领域,用于心理健康或者情感分析[17-18],但基于神经网络技术对于自杀分析的研究还较少。为此本研究应用神经网络技术,以新浪微博为研究对象,对微博用户的自杀意愿加以分析,从而建立有效的算法模型用以识别微博用户的自杀意愿,进而为预防自杀提供有效支持。

1 数据采集

本研究利用先前研究的数据收集结果[19],即从1 953 485名新浪微博用户发布的全部微博中按照如下限定条件筛选出符合条件的微博用户:(1)总微博发帖量不少于532条;(2)每天平均微博发帖量不少于2.84条(微博用户日均发帖数), 不多于40条(避免商业发帖大户)。在满足条件的微博用户中,使用与自杀相关的关键词(如,自杀,想死等),采用专家分析法筛选出含有自杀意愿的微博。经过上述收集过程,本研究筛选出660条有自杀意愿的微博和无自杀意愿的对照组微博6 641条,总共涉及7 301条微博,3 767个微博用户。

2 研究方法 2.1 文本预处理

本研究对7 301条微博进行文本分词预处理,根据微博@用户是会在用户名之后自动添加空格的特点,认为”@”符号到其后第一个空格之间的内容为用户的@内容,这部分文字并没有实际意义,故应删除。此外由于影视或文学作品的名字与其内容往往并不一致,可能会对语义判断造成误导,故将书名号“《》”中的内容删除。由于博文中英文的出现频率过小,无法对其进行分析,并且文本中还含有一些特殊符号或者无意义词(例如:而且,等等,啊)以及网址等较难提取信息的内容,故对文本进行筛选,只保留Unicode在4E00和9FFF之间的字符。然后使用jieba分词包对微博博文进行分词处理,最后除去分词后文本中含有较少信息的词语(例如:啊,哎,吧)。经过筛选,过滤掉95条无自杀意愿的微博博文,最终保留660条有自杀意愿的微博和6 546条无自杀意愿的微博作为研究对象。

2.2 特征值提取

本研究使用卡方检验进行特征值的提取。卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。我们要提取出与“自杀”密切相关的词语,故对每一个词取原假设为:该词与“自杀”类独立,然后进行卡方统计量的计算,卡方统计量值越大,则越要拒绝原假设,认为词语与“自杀”相关。首先,统计研究数据中微博总数N,统计该词出现的“有自杀意愿”微博篇数A、出现的“无自杀意愿”微博篇数B、不出现的“有自杀意愿”微博篇数C和不出现的“无自杀意愿”微博篇数D,然后计算其卡方值$ \frac{{N{{\left( {AD - BC} \right)}^2}}}{{\left( {A + C} \right)\left( {A + B} \right)\left( {B + D} \right)\left( {B + C} \right)}} $,选出所有词中卡方值较高的作为特征词。

在选取出特征词后,对每篇博文计算每个特征词的TF-IDF值,将此值作为该特征词的权重,并对数据样本进行主成分分析。至此,可将一篇微博映射到一个特征向量。

考虑到中文词语的多样性,为确保预测模型的有效性,本研究选取前N(N=2 000)个词语作为特征词,即为后续模型训练中的特征维度。

2.3 MLP建模

本研究采用Python深度学习库Theano实现基于多层神经网络(multi-layer perception, MLP)深度学习算法的建模过程。Theano是当下非常流行的开源的机器学习库,它涵盖了当今主流的机器学习算法并通过提供的丰富的库函数使得建立机器学习的模型和模型验证更加灵活,也更加容易实现。MLP(多层感知器)神经网络是常见的ANN算法,它由一个输入层,一个输出层和一个或多个隐藏层组成。MLP中二值分类感知器的模型如图 1所示,f为阈值函数:$ y = f\left( {\sum\limits_{i = 1}^n {{w_i}{x_i} + \theta } } \right) $也可表示为$ y = {\mathop{\rm sgn}} \left( {\sum\limits_{i = 1}^n {{w_i}{x_i} + \theta } } \right) $,设阈值:θ=-w0, W=(w1, w2, …, wn, w0)T, X=(x1, x2, …, xn, 1)T, 则:y=sgn(WTX)即:$ y = f\left( {{\mathit{\boldsymbol{W}}^{\rm{T}}}\mathit{\boldsymbol{X}}} \right) = \left\{ \begin{array}{l} 1\;\;\;\;{\mathit{\boldsymbol{W}}^{\rm{T}}}\mathit{\boldsymbol{X}} > 0\\ - 1\;\;\;\;{\mathit{\boldsymbol{W}}^{\rm{T}}}\mathit{\boldsymbol{X}} < 0 \end{array} \right. \Rightarrow \mathit{\boldsymbol{X}} \in \left\{ \begin{array}{l} {\omega _i}\\ {\omega _j} \end{array} \right. $这种神经元没有内部状态的转变,而且函数为阈值型,因此它其实是一种线形阈值计算单元。而感知器的算法就是通过对训练样本数据集的“学习”得出判别函数的系数。用样本数据做训练时,若Xωig(X) > 0,则W不变。若g(X) < 0,则修改W,直到所有样本都满足条件为止。通过上面的定义,感知器的问题就变成了ωi/ωj两类问题。因此,感知器的自组织、自学习思想可以用于确定性分类器的训练。而本研究就是建立针对“有自杀意愿”和“无自杀意愿”的两类分类识别器对微博用户的自杀意愿进行预测。

Download:
图 1 二值分类感知器模型 Fig. 1 Perception with two classifiers

为了选取最有效的隐藏结点数,本实验选用50,100,150,200,…,950, 共19个隐藏结点数分别验证其收敛情况和相应的预测错误率。模型所使用的基本参数设置见表 1

表 1 模型基本参数设置 Table 1 Parameter setting
2.4 模型验证

本研究将收集到微博数据随机分为2组,第一组70%的训练数据集,用于MLP模型训练和建模;第2组30%的测试数据集,用于测试以及验证使用建立的MLP模型进行预测的准确率。

2.5 统计分析

为了验证模型所识别出的特征值及其权重的有效性,本研究使用SPSS 19.0软件对提取到的特征值数量和相应的权重值进行组间差异分析。首先所统计到的数据是否服从正态分布,对于样本服从正态分布的数据,使用独立样本t检验;对于不服从正态分布的数据,采取非参数检验中的Mann-Whitney U秩和检验。考虑到本研究的样本数据量较大,为了避免由于数据量引起的误差,在差异分析的基础上使用Excel计算效应量(Cohen’s d)。效应量是不依赖于样本大小的反映自变量和因变量关联强度的指标。

2.6 其他算法

本研究同时使用weka应用朴素贝叶斯算法和随机森林算法对所选微博数据集进行预测分析,并与实验所选用的MLP模型进行错误率比较。

3 结果与分析 3.1 MLP模型效果验证

MLP模型预测结果显示,该模型的准确率可以达到94%以上。如图 2所示,结点数为50~950,错误均在6%左右,再考虑到模型的收敛效果和相应的执行效率,本实验建议该模型使用550作为有效隐藏结点数。

Download:
图 2 MLP模型不同结点数收敛情况和错误率统计 Fig. 2 Iteration number and validation errors for different hidden layer nodes
3.2 统计学结果

MLP模型训练的过程就是对特征量训练和学习的过程,因此特征值的提取对模型的准确率有着重要的影响。为了验证本研究所提取的特征值的有效性,实验采取统计学方法对所提取特征值及其相应权重系数进行差异性分析。

K-S检验结果显示,特征值数量和及其权重值均不符合正态分布(P < 0.05), 因而对两组数据的特征值数和其相应的权重值进行Mann-Whitney U秩和检验。结果表明特征值数量和其相应的权重数值差异有统计学意义(P < 0.05)(见表 2)。

表 2 特征值词数及其权重值秩和检验结果 Table 2 Rank-sum test results of key word number and weighting

效应量计算结果显示(见表 3),特征值数量和其相应的权重值差异效果较大,其中特征值权重值的差异效果优于特征值数量,这也就更说明,该模型所使用的特征值及其权重有很好的预测效果。

表 3 效应量计算结果 Table 3 Results of Cohen's d
3.3 与其他算法的比较

目前文本分类的方法有很多,常见的有:贝叶斯方法、K—近邻方法、支持向量机方法、决策树方法和神经网络方法,这些算法各有千秋。当然,这些分类算法同样适用于中文文本分类。但考虑到本实验研究的数据是海量且形式多样的微博数据,以及本实验的目的是建议有效的自杀意愿识别器,因此该模型需要有更高的准确率和更好的稳定性。

本实验选用朴素贝叶斯和随机森林两种方法与实验所选取的MLP多层神经网络方法比较,用以验证MLP所实现的模型可以对自杀意愿的预测有更好的预测效果。朴素贝叶斯算法是一种以贝叶斯相关理论为基础的算法,是基于概率模型的方法,它以给定目标值时属性之间的相互独立性为前提。随机森林算法来源于决策树的机器学习,是一个包含多个决策树的分类器,决策树的训练就是将数据集分裂成两个子数据集的过程。神经网络的训练就是一个特征向量作为输入,将该向量传递到隐藏层,然后通过权重和激励函数来计算结果,并将结果传递给下一层,直到最后传递给输出层才分类结束,是一个高度复杂的非线性动力学系统。如表 4,使用Weka进行朴素贝叶斯算法预测错误率为9.15%,随机森林算法的预测错误率为8.90%,由此结果可见基于jieba分词和TF-IDF特征提取的MLP多层神经网络为最为有效的预测模型。

表 4 3种算法预测错误率比较 Table 4 Validation error comparison among three algorithms
4 总结

本文提出基于文本分析的方法,实现MLP两类分类识别器,实现了基于微博的自杀风险的自动识别分类。通过统计学分析的方法验证了jieba分词和TF-IDF特征提取的有效性,并且与其他两种算法的比较验证了MLP具有更高的识别准确率。

随着近年来社交网络的不断应用发展,有越来越多的人在网络平台表达自杀的想法,甚至直播自杀。因此,识别社交网络上用户的自杀意愿,将会成为预防自杀的有效手段。限于数据资源和水平,本文的工作还需要进一步完善。考虑到中文言语的多样性,未来的工作将考虑补充数据资源并且更好地完善特征值提取的算法,另外进一步研究也会考虑更多与自杀相关的人口学因素分析,使自杀预测工作更加完善有效。

参考文献
[1]
阚双余, 郑小方. 大学生自杀意念与家庭环境关系[J]. 中国公共卫生, 2013, 29(2):167–168. DOI:10.11847/zgggws2013-29-02-04
[2]
Yip P S F, Liu K Y, Hu J, et al. Suicide rates in China during a decade of rapid social changes[J]. Social Psychiatry and Psychiatric Epidemiology, 2005, 40(10):792–798. DOI:10.1007/s00127-005-0952-8
[3]
艾琳. 每年28. 7万人死于自杀意味着什么[EB/OL]. 中国网(2007-09-11)[2016-11-15]. http://www.china.com.cn/review/txt/2007-09/11/content_8857789.htm.
[4]
中国互联网络信息中心. 2015年中国社交应用用户行为研究报告[R]. 中国互联网络信息中心官网(2016-04)[2016-11-15]. http://www.cnnic.cn/hlwfzyj/hlwxzbg/sqbg/201604/P020160722551429454480.pdf.
[5]
Fu K, Cheng Q, Wong P W C, et al. Responses to a self-presented suicide attempt in social media; a social network analysis[J]. Crisis the Journal of Crisis Intervention & Suicide Prevention, 2013, 34(6):1–7.
[6]
Shen Q. Live online suicide raises concerns in China[EB/OL]. 新华网(2014-12-01)[2016-11-15]. http://news.xinhuanet.com/english/china/2014-12/01/c_133826060.htm.
[7]
Rudd M D, Berman A L, Jr J T, et al. Warning signs for suicide:theory, research, and clinical applications[J]. Suicide and Life-Threatening Behavior, 2006, 36(3):255–262. DOI:10.1521/suli.2006.36.issue-3
[8]
Mandrusiak M, Rudd M D, Jr J T, et al. Warning signs for suicide on the internet:a descriptive study[J]. Suicide and Life-Threatening Behavior, 2006, 36(3):263–271. DOI:10.1521/suli.2006.36.issue-3
[9]
Cheng Q, Chang S S, Yip P S. Opportunities and challenge of online data collection for suicide prevention[J]. Lancet, 2012, 379:e53–e54.
[10]
Chang S S, Kwok S S, Cheng Q, et al. The association of trends in charcoal-burning suicide with Google search and newspaper reporting in Taiwan:a time series analysis[J]. Social Psychiatry and Psychiatric Epidenmiology, 2015, 50(9):1451–1461. DOI:10.1007/s00127-015-1057-7
[11]
邸鹏, 段利国. 一种新型朴素贝叶斯文本分类算法[J]. 数据采集与处理, 2014, 29(1):71–75.
[12]
李琼, 陈利. 一种改进的支持向量机文本分类方法[J]. 计算机应用, 2014, 34(8):2317–2321. DOI:10.11772/j.issn.1001-9081.2014.08.2317
[13]
钟将, 杨思源, 孙启干. 基于文本分类的商品评价情感分析[J]. 计算机应用, 2014, 34(8):2317–2321. DOI:10.11772/j.issn.1001-9081.2014.08.2317
[14]
申莹, 徐东平, 庞俊. 基于概念的中文博客情感极性聚类分析[J]. 计算机系统应用, 2011, 20(8):72–75.
[15]
吴连海, 王萍, 王磊, 等. 心理健康症状对大学生自杀倾向预测模型的构建[J]. 中国健康心理学杂志, 2010, 18(1):99–100.
[16]
蒋怀滨, 张斌, 李强, 等. 消极完美主义对自杀态度预测机制的内隐实验研究[J]. 现代预防医学, 2015, 42(6):1038–1041.
[17]
张训保, 黄水平, 卓朗, 等. 人工神经网络在失去土地农民心理健康调查中的应用[J]. 中华流行病学杂志, 2008, 29(10):1038–1041. DOI:10.3321/j.issn:0254-6450.2008.10.020
[18]
魏丙刚, 胡志刚. 基于BP神经网络的大学生心理健康状况预测与分析[J]. 科技致富向导, 2010(9):78–81.
[19]
Li A, Huang X, Hao B, et al. Attitudes towards suicide attempts broadcast on social media:an exploratory study of Chinese microblogs[J]. Peerj, 2015, 3(9):e1209.