文本挖掘(text mining)也称文本中的知识发现(knowledge discovery),是数据挖掘方法在文本数据集上的运用,旨在从大量非结构化的文本集合①中挖掘信息、发现知识。它是一个跨学科的交叉研究领域,涉及机器学习、自然语言处理、统计学等多个领域的知识和方法。
①非结构化文本集合指的是不方便存储在数据库二维表中或无法用统一结构表示的文档集,如HTML文档。
近年来,随着数据存储技术和互联网的不断发展,数据正以前所未有的速度迅速增长和积累,特别是社交媒体的用户每天都在创造大量的文本信息。这些数据一定程度上记录了人们的行为态度、交往过程和互动关系,为研究人们的社会化行为提供了新的可能[1]。社会科学研究方法是我们认识各种社会现象及事物的途径,是我们获取知识的重要方式[2]。传统研究方法在当前海量文本内容分析中已不再适用。文本挖掘可以利用机器学习、自然语言处理等计算机技术从大量文本数据中发现模式、规律、趋势等,为学者以定量手段进行社会科学研究提供新的方法。社会计算(social computing)的目的便在于架起自然科学与社会科学之间的桥梁,借助计算机技术形成一套完整的社会科学定量分析研究手段[3]。基于此,文本挖掘在社会科学领域研究中的应用得到了学者们越来越多的关注。相关研究表明,近年来国际上关于文本挖掘的研究论文呈不断上升趋势,且主要集中在自然科学领域[4]。
文本挖掘在社会科学研究中的应用情况如何?本文以Web of Science (WoS)和CNKI两大数据库为基础,对文本挖掘在社会科学研究中的应用现状进行了综述,并在此基础上,指出目前研究中存在的一些主要问题,归纳出文本挖掘方法对社会科学发展带来的机遇与挑战,为我国的社会科学研究提供借鉴。
二、 文本挖掘概述文本挖掘是从大量的文本数据集中发掘隐含的、以前未知的、有潜在价值的模式和知识(如规则、趋势等)的过程[5]。该方法主要利用计算机及其各种程序对自然语言进行自动处理,目前主要用于网络上产生的大量半结构化或非结构化文本信息。简单来说,文本挖掘主要包括文本预处理、数据分析、结果可视化三个步骤,见图 1。
![]() |
图 1 文本挖掘的一般过程 |
文本挖掘的对象经常是非结构化或半结构化的文本集合,而不是数据库中的形式化记录。文本预处理的目的就是使得文本数据结构化,从而方便利用现有的数据挖掘技术对其进行分析。文本预处理过程包含分词(中文)、特征表示和特征提取等一系列操作。
文本经过预处理后,就可以对结构化的数据进行挖掘分析了。常用的文本挖掘技术包括:
(1)文本分类(text classification)。文本分类指按照预先定义好的类别,为文档集合中的每个文档确定一个或几个类别。文本分类是一个有监督的(supervised)机器学习过程,一般分为训练(或学习)和分类两个阶段[6]。首先通过对一个训练文档集进行人工标注类标签的方式构建分类模型,然后计算机基于这种学习得到的关系模式自动将一篇文档归入所属类别。
(2)文本聚类(text clustering)。与文本分类不同的是,文本聚类没有预先定义好的类别,是一种典型的无监督的(unsupervised)机器学习方法,文本处理的自动化程度更高。文本聚类的目标是将文档集合分成若干个簇,使得同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小,并为每个簇给出一个主题摘要[7]。
(3)关联分析(association analysis)。关联规则指的是寻找同一事物中不同变量同时出现的规律性。关联规则挖掘最初用于发现数据库中项或属性间的关系,在文本分析中指的是从文档集合中找出不同词语之间的有意义的关系[8]。关联可分为简单关联、时序关联以及因果关联。
(4)趋势预测(trend prediction)。趋势预测是指通过对已有文档的分析,推测出特定数据在将来某个时刻的取值情况。如果考虑文本数据的时间维度,那么文本数据可以看作一类特殊的时序数据,能够反映一段时间内文本主题的变化情况,因此可以用来预测下一时间段文本主题的发展变化趋势[9]。
三、 文本挖掘在社会科学研究中的应用 1. 文献数量与涉及学科本文在SSCI数据库(Web of Science)中以“text mining”为关键词进行主题检索,共得到853条记录(截止2015年4月),其中第一篇论文发表于1990年;在CNKI数据库中以“文本挖掘”为关键词进行主题检索,共得到2308篇文章,其中有475篇属于社会科学领域的研究应用(截止2015年4月),第一篇发表于1998年。图 2显示了近十年来(2005-2014),两大数据库中文本挖掘用于社会科学研究的每年文章发表数量。
![]() |
图 2 社会科学“文本挖掘”(text mining)论文增长趋势 |
可以看出,两大数据库中每年发表的相关文章数皆呈不断上升趋势。在SSCI数据库中,2005年只有11篇,2014年达到160篇,2009年后文章数增幅变大;在CNKI数据库中,2005年只有13篇,2014年达到109篇,2011年后文章数增幅显著变大。从2007年开始,CNKI数据库中该领域每年发表的文章数一直低于SSCI数据库,差距呈现出先增大后减小的趋势。
表 1进一步展示了社会科学“文本挖掘”研究文献的学科涉及情况①。可以发现,国内外该领域的相关研究主要涉及的是计算机科学(Computer Science)、情报学和图书馆学(Information Science & Library Science),其次为企业经济(Business & Economics)和管理学(Management Science)。不同的是,国内涉及最多的学科是图书情报与数字图书馆(Digital Library),而国外主要是计算机科学;国内的新闻与传媒领域也对文本挖掘技术给予了一定关注,而国外的一部分研究还涉及了工程学与医学领域。
![]() |
表 1 社会科学“文本挖掘”研究文献的主要涉及学科 |
①表 1数据分别来自CNKI和Web of Science官网的检索结果分析。
2. 研究热点本文利用信息可视化软件Citespace②提供的关键词共现分析和膨胀词探测技术,通过对从数据库获取的文献相关数据的分析,来确定社会科学领域运用文本挖掘的研究热点和发展趋势。
②Citespace是由美国德雷克塞尔大学陈超美博士开发的一款广泛用于构建学科知识图谱、分析学科热点和趋势的Java应用程序。
图 3和图 4为用Citespace分别对SSCI数据库和CNKI数据库中相关文献进行关键词共现分析后得到的研究热点时间序列图谱③。图中每个节点代表一个关键词,节点越大表示其出现频次越高,受研究者关注越多。可以发现,在研究热点方面,两者差别不大。情报分析(intelligence analysis)、专利分析(patent analysis)、情感分析(sentiment analysis)、舆情分析(opinion analysis)、热点发现(hotspotdiscovery)、知识管理(knowledge management)等为国内外学者共同关注较多的主题。此外,在不同发展阶段,国内外的研究热点也大体呈现出一致性。从2005年开始,两大数据库中的文章都是前期主要以情报分析、热点发现和知识管理为主,后期主要以舆情分析或情感分析为主。然而,在相关技术方面,国内论文只是较多提及了文本分类、文本聚类等基本文本挖掘技术,而国外论文还广泛涉及了自然语言处理(natural language processing)、机器学习(machine learning)等在计算机领域运用较广的研究方法。
![]() |
图 3 SSCI数据库“文本挖掘”研究热点时间序列图谱 |
![]() |
图 4 CNKI数据库“文本挖掘”研究热点时间序列图谱 |
③时间跨度为2005-2014,时间片阀值为top30,使用关键路径(pathfinder)算法。
为验证上述关于研究热点分布的论断,本文进一步对相关文章进行了综述,进而可以概括出文本挖掘在社会科学研究中的主要应用领域包括:情感分析、热点发现、知识管理、情报分析等。
(1)情感分析。情感分析又称观点挖掘(opinion mining),一般应用文本分类技术对带有情感色彩的主观性文本进行处理,主要是对媒体评论和产品评论的情感分析。Ceron通过对Twitter上关于政治领导人和选举的帖子进行情感分析,发现社会化媒体可以有效地监测舆情和预测民意[10]。叶强等提出了一种针对中文互联网客户评论的主观情感自动判别方法,消费者据此可以了解其他用户的态度倾向,做出更好的购买决策[11]。
(2)热点发现。文本聚类技术可用于对社交媒体进行话题发现。Lee和Chien利用一个聚类模型对大量微博数据进行事件话题检测,结果能够呈现最当务之急的事件信息[12]。此外,文本挖掘技术还可用于机会发现(chance discovery)。刘兰等探讨了如何对科技信息进行文本挖掘,绘制技术路线图,从而帮助发现技术创新机会[13]。
(3)知识管理。在管理学中,知识管理指企业从积累的大量数据中挖掘有用知识以辅助业务决策,包括客户知识采集、消费者行为分析等[14]。Liau和Tan通过对Twitter上用户关于低价航空的帖子进行聚类分析,来挖掘客户需求[15]。中国学者还对文本挖掘在数字图书馆领域的应用进行了较多探讨,通过挖掘用户需求和特征,更好地提升图书馆的个性化服务[16]。
(4)情报分析。情报分析也称信息分析,是一个将从源数据中抽取的信息分析转化为有用情报的过程[17]。Seol的研究显示,利用文本挖掘可从非结构化的专利文本中为科技公司发掘新的商业机会[18]。龚惠群利用文本挖掘绘制了机器人产业的专利地图,寻找机器人产业的技术空白点[19]。此外,企业还可利用文本挖掘获取竞争情报(competitive intelligence, CI),提高竞争效益[20]。
四、 当前相关研究存在的主要问题尽管文本挖掘在国内外社会科学研究中已经得到了广泛运用,但通过对研究文献的分析,发现在当前的研究中也存在着一些问题。
(1)关联分析、趋势预测等文本挖掘技术应用相对不足。在进行文本挖掘时,往往需要综合利用多种相关技术,如在文本聚类的基础上进行关联分析或趋势预测。但从图 3和图 4中可以看出,SSCI数据库和CNKI数据库中,“文本分类”和“文本聚类”出现的频次都要远远大于“关联分析”和“趋势预测”。结合对相关文献的分析,本文发现社会科学领域对文本挖掘的使用,主要以文本分类和文本聚类技术为主,将文本挖掘的另外两种主要技术--关联分析和趋势预测--直接用于知识发现的研究相对缺乏。事物的相关性关系和发展变化趋势是两类具有重要指导意义的知识。因此,关联分析和趋势预测技术在社会科学研究中的应用有待加强。
(2)社会科学领域的学者对文本挖掘技术的掌握和运用有待加强。从图 3发现,“自然语言处理”(2.7%)、“机器学习”(1.1%)、“算法”(1.3%)等计算机领域的技术词汇较多出现在了SSCI数据库中,而由图 4看出,CNKI数据库中出现最多的技术词汇是“文本分类”(2.9%)和“文本聚类”(4.7%)。这说明相比国外,国内的文本挖掘研究还停留在较浅层次上,很多学者只是使用基本的文本挖掘技术进行简单的辅助性研究,运用的深度还有待加强。其次,由表 1可知,SSCI数据库中49.7%的文章涉及的主要是计算机科学,而CNKI数据库中的比例为16.5%。可以说,国外社会科学领域相当部分的文本挖掘研究并不是来自本领域。计算机科学的研究者虽在技术上占一定优势,却不一定熟悉社会科学的理论和方法。为此,社会科学的研究者应尽量掌握一些计算机分析技术,并加强与其他学科的合作。
(3)文本挖掘方法自身带有局限性。受语料库、挖掘算法和计算机技术等因素的影响,有时即使正确地运用了文本挖掘技术,也往往得不到预期的效果。首先,文本数据不但一般是非结构化的,内容还往往是人类使用的自然语言, 包含复杂的语义关系,如在不同语境下同一个单词表达的意思可能完全不同,计算机一般很难理解。其次,文本的特征提取与表示大多采用“词袋”法(即将文本看做无序的词汇集合),这样就忽略了词在句子中的顺序和语法角色,致使大量的有用信息丢失[21]。这个问题的解决有赖于计算机技术的发展和相关领域的学者开发出更接近人类思维的文本挖掘模型。目前在进行文本挖掘时,往往需要结合文本分析、内容分析等其他研究方法。
五、 展望 1. 研究趋势为进一步识别出基于文本挖掘的社会科学未来研究趋势,本文利用Citespace的膨胀词探测技术,将随时间频次变化率高的主题词(burst term)从文献中探测出来。图 5、图 6是根据词频的变动趋势确定的国内外研究前沿。可见,国内外基于文本挖掘的社会科学研究前沿有所不同。在国外,文本挖掘在热点发现和医疗健康领域的运用是未来的一个研究趋势,帕金森氏病(parkinsons disease)、雷诺现象(raynauds phenomenon)等是涉及较多的疾病,且社会化媒体依然是研究前沿技术平台;在国内,文本挖掘在情感分析、知识管理、专利分析和图书馆等领域的运用仍将受到重视,在文献计量学中的运用会有所上升,且“Web2.0”代表对新媒体技术平台的关注。
![]() |
图 5 SSCI数据库“文本挖掘”研究的前沿图谱 |
![]() |
图 6 CNKI数据库“文本挖掘”研究的前沿图谱 |
(1)弥补了传统的社会科学研究方法。传统社会科学研究大多使用调查问卷、电话访问等方式获取数据。受样本规模影响,这种方式收集的数据量不会很大,且受访者往往知道自己的答案会被用于研究分析,影响结果的真实性。传统的文本内容分析往往采用内容分析法,即通过人工编码方式断定篇章意义,不但处理的数据量有限,还受人为因素影响。在Web2.0时代,社会化媒体用户“贡献”的数据量要远远大于传统数据获取方式的采集量[22]。文本挖掘不但可用于分析海量数据,还能对网络上用户“无意间”留下的行为记录进行分析,可以有效消除抽样和人为因素对研究结果的影响[23]。
(2)社会科学的研究视角将更加多元。传统社会科学研究一般是有目的性的去收集所需数据,得到的小规模数据往往只含有与研究问题或假设相对应的有限信息,很难进行拓展性研究。就舆情研究来说,传统研究只重视网民话语表达的单向度分析,不能有效窥探网民群体的社会心理和社会关系,而借助大数据,舆情研究的视角将转向社会关系呈现、社会心理描绘、社会诉求预测等多元化研究[24]。借助文本挖掘、自然语言处理等计算机分析技术,我们可以在全样本范围内且在个体水平上,测量群体的社会网络和行为变化,而不只是总体意见[25]。
(3)社会科学的研究范式将更加实用。传统社会科学研究一般是先在已有理论的基础上提出假设或模型,然后通过收集和分析数据来验证假设的理论模型,因此其研究范式是一种自上而下的演绎法。而基于文本挖掘的研究范式是一种自下而上的归纳法,社会学家无需再进行理论预设,直接从大量现实数据中发现新的规律,发展或挑战已有理论,因此这种研究范式更加实用[26]。这两类研究分别代表着因果性思维和相关性思维,在未来研究中,大数据的相关分析将更加受到重视,但因果分析并被不会被取代,它可用来解释发现的相关性[27]。
(4)社会科学的地位将得到提高。有的学者认为,如今的社会科学已经停滞不前,接近100年不曾发生本质改变的研究体系和方法阻碍了新知识和有用知识的产生,这种保守主义导致社会科学不能享受像自然科学一样的声望[28]。但是,Watts认为,借助于大数据和计算机分析技术,21世纪的社会科学可以利用极为丰富的数据,实现更为准确的定量研究,从而将脱下“准科学”的外衣,成为一门真正的科学[29]。
总之,文本挖掘作为一种新的数据分析技术,透过对社会科学研究方法的影响渗透到对学科理念的变革。图 7展示了文本挖掘对社会科学的影响机制和过程。
![]() |
图 7 文本挖掘对社会科学的影响机制和过程 |
文本是最大的也是使用最广泛的一类大数据,文本分析的工具和方法已经获得了长足发展[30]。近年来,文本挖掘在社会科学领域得到了广泛应用,且呈现出不断上升趋势,Web挖掘是主要研究方向,主要集中在情感分析、热点发现、知识管理和情报分析等领域。文本聚类与文本分类是最常用的挖掘技术。文本挖掘技术在我国社会科学领域得到广泛重视是近几年才开始的,在研究数量和相关技术深度上,与国外还存在一定差距。
文本挖掘在社会科学研究应用中也存在一些局限和问题。首先,学者大多运用文本分类与聚类技术进行辅助研究,将关联分析和趋势预测直接用于知识发现的研究相对缺乏;其次,国内学者对文本挖掘技术的使用还停留在较浅层次上,而国外的相关研究则过度集中在计算机科学领域;最后,文本挖掘方法自身带有一定的局限性。
计算机辅助的文本挖掘技术为大数据时代的社会科学研究提供了新的可能,为社会科学的发展带来了新的机遇[31]。文本挖掘可有效弥补传统研究方法的不足,实现更为准确的定量化研究,而且研究视角更加多元,研究范式更加实用。文本挖掘将透过对研究方法的影响,以点带面地对社会科学领域产生影响,令社会科学在未来更加受到重视。
[1] | 沈浩, 黄晓兰. 大数据助力社会科学研究:挑战与创新. 现代传播, 2013(8): 13-18. |
[2] | 林聚任. 社会科学研究方法. 山东: 山东人民出版社, 2008: 18-21. |
[3] | 孟小峰, 李勇, 祝建华. 社会计算:大数据时代的机遇与挑战. 计算机研究与发展, 2013, 50(12): 2483-2491. |
[4] | 郭金龙, 许鑫, 陆宇杰. 人文社会科学研究中文本挖掘技术应用进展. 图书情报工作, 2012, 56(8): 10-15. |
[5] | Feldman R, Dagan I. KDT-Knowledge Discovery in Textual Databases//Proceedingsof the 1st Annual Conference on Knowledge Discovery and Data Mining, 1995:112-117. |
[6] | MitchellTM. 机器学习. 北京: 机械工业出版社, 2008: 36-58. |
[7] | 袁军鹏. 文本挖掘技术研究进展. 计算机应用研究, 2006(2): 1-3. |
[8] | Feldman R, Hirsh H. Finding Associations in Collectionds of Text. Machine Learning and Data Mining:Methods and Applications, John WileySons, 1998: 223-240. |
[9] | 谌志群. 文本趋势挖掘综述. 情报科学, 2010, 28(2): 316-319. |
[10] | Ceron A, et al. Every tweet counts? How sentiment analysis of social media can improve ourknowledge of citizens′political preferences with an applicationto Italy and France. New Media & Society, 2014, 16(2): 340-358. |
[11] | 叶强, 张紫琼, 罗振雄. 面向互联网评论情感分析的中文主观性自动判别方法研究. 信息系统学报, 2007, 1(1): 79-91. |
[12] | Lee CH, Chien TF. Leveraging microblogging big data with a modified density-based clustering approach for event awareness and topic ranking. Journal of Information Science, 2013, 39(4): 523-543. DOI: 10.1177/0165551513478738. |
[13] | 刘兰, 赵新力, 李艳. 基于文本挖掘和技术路线图的技术创新机会发现. 中国软科学, 2007(6): 102-110. |
[14] | Broadbent M. The Phenomenon of Knowledge Management What Does It Mean to the Information Profession?. Information Outlook, 1998(5): 345-354. |
[15] | Liau BY, Tan PP. Gaining customer knowledge in low cost airlines through text mining. Industrial Management & Data Systems, 2014, 114(9): 1344-1359. |
[16] | 黎琳, 赵英. Web内容挖掘在数字图书馆中的应用. 图书馆学研究, 2006: 19-24. |
[17] | 李广建, 杨林. 大数据视角下的情报研究与情报研究技术. 图书与情报, 2012(6): 1-8. |
[18] | Seol H, Lee S, Kim C. Identifying new business areas using patent information:A DEA and text mining approach. EXPERT SYSTEMS WITH APPLICATIONS, 2011, 38(4): 2933-2941. DOI: 10.1016/j.eswa.2010.06.083. |
[19] | 龚惠群, 刘琼泽, 黄超. 机器人产业技术机会发现研究-基于专利文本挖掘. 科技进步与对策, 2014, 31(5): 70-74. |
[20] | 张玉峰, 朱莹. 基于Web文本挖掘的企业竞争情报获取方法研究. 情报理论与实践, 2006, 29(5): 563-566. |
[21] | A Brier, B Hopp. Computer assisted text analysis in the social sciences. Qual Quant, 2011(45): 103-128. |
[22] | TangL, LiuH. 社会计算:社区发现和社会媒体挖掘. 北京: 机械工业出版社, 2012. |
[23] | 范并思. 社会科学信息分析中的文本挖掘. 图书情报工作, 2012, 56(8): 6-9. |
[24] | 喻国明, 王斌, 等. 传播学研究:大数据时代的新范式. 新闻记者, 2013(6): 22-27. |
[25] | Golder S, Macy M. Digital Footprints:Opportunities and Challenges for Online Social Research. Annual Review of Sociology, 2014(40): 129-146. |
[26] | 张伦. 基于社会化媒体的信息传播行为:理论与实践的变革. 科学与社会, 2014(1): 80-94. |
[27] | 维克托·迈尔-舍恩伯格, 肯尼思·库克耶. 大数据时代:生活、工作与思维的大变革. 杭州: 浙江人民出版社, 2013: 81-89. |
[28] | Christakis N. Let's Shake Up the Social Sciences. New York Times, 2013. |
[29] | Watts D. A twenty-first century science. Nature, 2007, 445(7127): 489. DOI: 10.1038/445489a. |
[30] | FranksB. 驾驭大数据. 北京: 人民邮电出版社, 2013. |
[31] | Wiedemann G. Opening up to Big Data:Computer-Assisted Analysis of Textual Data in Social Sciences. Historical Social Research, 2013, 38(4): 332-357. |