基于互联网文本挖掘的用户意图感知

引用本文

杨贤, 何汉武. 基于互联网文本挖掘的用户意图感知[J]. 广东工业大学学报, 2017, 34(3): 54-58. DOI: 10.12052/gdutxb.170016.

Yang Xian, He Han-wu. Internet Text Mining for User Intent Perception[J]. JOURNAL OF GUANGDONG UNIVERSITY OF TECHNOLOGY, 2017, 34(3): 54-58. DOI: 10.12052/gdutxb.170016. 复制到剪切板

基金项目:

国家自然科学基金资助项目(51275094)；广东省部产学研专项资金企业创新平台（2013B090800042）

作者简介:

杨贤(1982–)，男，助理研究员，在职博士研究生，主要研究方向为认知心理学、人机交互.。

通信作者

何汉武(1966–)，男，教授，博士，主要研究方向为虚拟现实、人机交互. E-mail： hwhe@gdut.edu.cn

文章历史

收稿日期：2017-01-15
网络出版时间：2017-05-01

Contents Abstract Full text Figures/Tables PDF

基于互联网文本挖掘的用户意图感知

杨贤¹, 何汉武²

1. 广东工业大学　艺术与设计学院，广东　广州 510009;
2. 广东工业大学机电工程学院，广东广州 510006

收稿日期：2017-01-15; 网络出版时间：2017-05-01

基金项目：国家自然科学基金资助项目(51275094)；广东省部产学研专项资金企业创新平台（2013B090800042）

作者简介：杨贤(1982–)，男，助理研究员，在职博士研究生，主要研究方向为认知心理学、人机交互.。

通信作者：何汉武(1966–)，男，教授，博士，主要研究方向为虚拟现实、人机交互. E-mail： hwhe@gdut.edu.cn

摘要: 能否准确感知用户意图是创新设计的关键, 传统用户意图研究方法费时费力且容易忽略重要因素. 论文提出, 用户意图表达的是用户对一个对象的期望集合, 而基于该对象分布在互联网的海量数据隐藏着这个集合的所有因素. 通过互联网文本挖掘技术获取该用户意图有关的因素, 并把这些因素与用户意图等价起来. 为了验证它们的等价关系, 论文以可穿戴智能设备为研究对象, 采用正反问卷法对因素集合的真实度进行测量. 同时, 论文从多个维度分析了文本挖掘获取因素的科学性, 并与传统用户意图研究方法进行交叉对比, 研究结果表明基于互联网文本挖掘技术的用户意图求解方案具有可行性且优点较多. 论文所用方法适用于所有类似用户意图这种复杂对象的建模与求解.

关键词: 互联网文本挖掘因素集合用户意图认知科学

Internet Text Mining for User Intent Perception

Yang Xian¹, He Han-wu²

1. School of Art and Design, Guangdong University of Technology, Guangzhou 510009, China;
2. School of Electromechanical Engineering, Guangdong University of Technology, Guangzhou 510006, China

The accuracy of user intent perception is the key to innovative design. The research methods of traditional user intent are time-consuming and prone to overlooking some of important factors. User intent is proposed to be a factor set of user expectations for an object, and all the factors are hidden in the object-relational massive data distributed on the internet which can be achieved by text mining technology. The equal value relation between user intent and factor set is proved by a pro and con questionnaire survey. Meanwhile, the factors acquired by text mining are testified to have advantage over traditional methods. The feasibility of the above-mentioned proposal is verified by taking wearable intelligent devices as a study, and the result is approving. The method proposed in this paper is applicable to all modeling and solving of complex objects which is similar to user intent.

Key words: Internet text mining factor set user intent cognitive science

“以用户为中心”的设计提倡设计要基于用户真实意图^[1-2]. 2016年1月，习近平总书记提出的供给侧改革本质上也是从用户真实意图出发，矫正要素配置扭曲，提高供给结构对需求变化的适应性和灵活性，更好满足用户意图. 用户意图感知研究发展到今天，已经成为一项集认知科学、智能数学、计算机技术等多学科交叉的前沿研究工作. 这种意图感知是一种高度凝聚，具有深层次内涵的人类情感活动，并会不断地演变，因此很难进行编码与度量^[3-4]. 设计师能否把握目标用户对产品的心理期望与感受，感知目标用户的真实意图是产品成功的关键^[5-6].

1 相关工作

用户意图感知最早由英国物理化学家和哲学家Polanyi提出^[7]，他认为意图就是存在于个人头脑中的、某个特定环境下的、难以正规化和沟通的知识，是知识创新的关键部分，主要来源于个体对外部世界的判断和感知，源于经验. 此后，许多学者分别从哲学、语言学、心理学、教育学、图书馆学、管理学和计算科学等领域对用户意图进行了研究^[8-11].

Osgood等提出语义差异法^[12]，通过学习被测量对象相关的一系列属性，让用户对各个属性进行解释，将用户认知反应在Likert量表上，然后运用统计法进行分析. 这是一种定性的描述性分析, 存在不少问题，如能否报告出所有的隐性认知？是否会影响被试者的思维加工过程？

“以用户为中心”的设计理念以认知科学为基础，提倡让用户参与到产品的设计开发中去，让用户真实意图反映到产品设计开发的每个环节，确保产品功能基于用户真实需求，提高产品体验与满意度^[13-14]，但存在主观性较强等问题.

在信息论领域，随着基于统计的自然语言处理方法的采用，研究者们开始研究用户搜索意图，以及自然语言的聚类与分类等基于大数据的用户意图. Aggarwal等^[15]给出了利用网络计算方法对海量数据进行分析的研究综述；Baezayates等^[16]进行了用户搜索意图等的研究. 北京理工大学海量语言信息处理与云计算工程研究中心的张华平开发了NLPIR系统^[17]，促进了中文文本挖掘，也给用户意图的求解提供新的思路.

尽管用户意图在很多学科以及行业中都有研究者们在研究，但作为一个较为完整的理论体系应用于产品设计开发中还很不成熟，仍然存在一些不足：①主观性较强，依赖专家经验. 即使是用来做定量的问卷调查方法，也难以抛开专家的个人主观. ②容易忽略某些关键因素. ③耗时耗力，不具备可持续性.

论文采用基于互联网大数据的方式，保证研究数据的客观性. 首先提出代表用户意图的所有因素存在于互联网大数据中，然后用文本挖掘技术获取研究对象的因素集^[18]，为证明因素集的真实性，采用正反问卷法对因素真实度进行测量. 同时从多个维度分析文本挖掘获取的代表用户意图因素集的科学性，并与传统用户意图研究方法进行交叉对比，论证基于互联网文本挖掘技术的用户意图求解方案的优势.

2 用户意图

用户意图是一个组合词，在产品设计领域，用户意图往往表现为用户对产品需求的期望. 用户意图无所谓对错. 它是某个用户群体在特定的场景下展示出来的对某个产品的心理期望与感受. 用户根据过去对这一产品或相关产品的经验，甚至有可能是偏见，形成目前的产品应该是什么样子的这一思维概念上的模型，比如“它的功能如何”、“外观造型怎样”、“如何使用”和“个性张扬”等问题. 如何抓住用户意图，如感觉和情绪等，并且将这些信息转化为适当的设计元素，运用隐喻和推理的原理传递产品信息，使设计出来的产品尽可能与用户的期望模型相一致，甚至超出其期望，使用户产生“眼睛一亮”的兴奋感觉就是产品设计成功与否的关键. 用户意图变成设计元素也就是变成因素集可以通过以下公式实现.

$U = \{ {u_1},{u_2}, \cdots ,{u_n}\} .$

(1)

如果所有因素u_i能够全部唯一确定，论域U就能够被确定. 如果因素集数量比较大，可以通过文本聚类的方式，表达为

$U = \left[ {\begin{array}{*{20}{c}}{{u_{11}}}& \cdots &{{u_{1n}}}\\[5pt] \vdots &{}& \vdots \\[5pt]{{u_{m1}}}& \cdots &{{u_{mn}}}\end{array}} \right].$

(2)

U为用户意图，u_ij为代表用户意图U的因素，见表1第2、3列，他们具有等价关系. 式(2)中的每一行u_i为1个指标簇，即1个文本聚类，见表1第1列.

3 互联网文本挖掘

从认知科学的角度看，用户意图表达的是用户对一个对象的期望集合，而基于该对象分布在互联网的海量数据隐藏着这个集合的所有因素.

当用户意图用因素集表达时，因素集有哪些？是否属于变异因素？这些都是未知的. 这些因素是主观的，模糊的，进化的，随着社会发展，技术条件的变迁，因素还会改变，可以说，到这里因素集都是不确定的. 根据用户意图试探性地输出几个关键词. 汪培庄在《模糊集与随机集落影》提到，随机统计与模糊统计是对偶出现的，随机统计是在一个圆圈里找到一个点，而模糊统计是在一个点里找到一个圈. 在用户意图这个对象里确定几个特征项是很容易的事情，即确定模糊统计里说的圆圈里面的点，然后利用文本挖掘技术，在互联网大数据中，获取跟关键词相关的文本信息，最后得到一组因素集，也就是找到模糊统计的那个圆圈，这组因素集究竟能否代表用户意图，是暂时未知的，其技术路线如图1所示.

图 1 求解因素集 Figure 1 Factor set solving

如何保证获取的因素集能够反映该用户意图？理想状态是因素集刚好反映了用户意图，或者说缺失的因素以及多余的因素可忽略不计. 首先要验证因素集真实度，确保因素集真实反映用户意图，论文采用正反问卷对每个因素进行测量.

4 案例实现与结果分析 4.1 求解实例分析 4.1.1 基于互联网文本挖掘的因素集获取

论文以智能可穿戴设备为研究对象. 首先用传统的用户意图研究方法(Traditional Research Method, TRM)获取用户意图，包括调研，竞争性分析，用户深度访谈以及用户网络问卷等方式获取用户关于智能可穿戴设备的因素（见表1第2列）. 同时通过互联网文本挖掘技术(Internet Text Mining Technology， ITMT)也获取了智能可穿戴设备的因素集（见表1第3列），文本挖掘的技术路线如图2所示.

图 2 文本挖掘技术 Figure 2 Internet text mining technology

表 1 研究对象的因素集（部分） Table 1 The factors set of research object

在表1中，1个指标簇（表中第1列）对应1个或者多个因素（表中第2、3列）. 没有放进表中的指标簇还有外观、功能、交互、性能和功耗.

4.1.2 因素集的真实度验证

由表1中第2列与第3列的对比可以看出，ITMT与TRM的拟合度较高，这说明ITMT方法具有可行性依据.

为了进一步验证ITMT，课题组对ITMT方法获取的每一个因素进行正反问卷验证. 正反面问卷指同一个指标设计成正反两个问题，可以用来检测问卷资料的真实度，如：

题目1：如果可穿戴智能设备记录每次运动的运动数据，并统计运动消耗量等信息，你觉得如何？

A很喜欢，B理所当然，C无所谓，D勉强接受，E很不喜欢

题目2：如果可穿戴智能设备没有分析你的身体卡路里消耗，没有记录运动的数据，你觉得如何？

A很喜欢，B理所当然，C无所谓，D勉强接受，E很不喜欢

这是一个小样本的测量，总共回收有效问卷100份，使用过可穿戴设备或者接触过运动型APP的用户比率为88%，具体数据如表2所示.

表 2 问卷分析 Table 2 Questionnaire analysis

通过正反问卷调查，验证因素是否真实，即用户对这个因素是否属于用户意图的态度. 其态度如果高于设定阈值，代表用户对于这个因素属于用户意图的态度是认可的，即该因素属于用户意图. 如果低于阈值，说明这个因素不属于用户意图，是一个噪点，如果噪点过多，即无意义因素过多，则说明通过文本挖掘技术获得因素集的方法是不科学的，或者说算法存在很大的问题. 整个试验的结果取得了令人满意的结果，如题目1所示, “记录”属于魅力因素，符合用户期望，即

${u_{_5}} = {{\text{记录}}}.$

(3)

以此类推，求出所有u_i的解，式(1)或式(2)即可求出. 同时由题目1可知，通过ITMT方法获取的因素具有较高的真实度. 随着算法的改善，通过ITMT所得到的结果不需要再量化，直接应用于式(1)或式(2)，整个过程可以直接用程序实现，即实现用户意图的数学建模与求解.

4.2 ITMT方法分析 4.2.1 数据特点

ITMT方法获取的因素集数据比较丰满，但也相对比较分散，这主要是因为算法仍然存在不完善的地方. 经过对不同研究对象的试验，ITMT一般不会出现断层的问题，这解决了传统用户意图方法的一个缺陷，传统用户意图研究方法容易忽略一些重要因素.

4.2.2 数据量要求

ITMT获取因素集对数据量有一定的要求，这是论文假设的基础，即对某个研究对象的信息量足够大，才可以认为用户对该研究对象的意图是确定的，才能够使用式(1)或者式(2)，要不然因素集真实度不可信. 论文分别对有关智能可穿戴设备的垂直资讯网页及垂直论坛网页爬取了100 pages, 200 pages, 500 pages, 1 000 pages, 10 000 pages并进行数据分析. 得到效果如图3，其中，X轴是爬取的网页数量，Y轴是ITMT与TRM的拟合度. 前面说过，用户意图无所谓对错，它是某个用户群体在特定的场景下展示出来的对某个对象的心理期望与感受，具有主观性、模糊性以及进化性的特点. 所以，式(1)和式(2)的解并非固定的，通过与传统用户研究所得到解的拟合度，以及通过表2所使用的量化方法，能够从侧面上论证因素集的真实度.

从图3以及因素集数据得到以下结论：

(1) 页数较少时，比如从100 pages到200 pages，呈现不稳定状态，随着页数增加，准确度稍微提升，但是彼此之间互有缺漏.

(2) 从200 pages到500 pages，拟合度快速提升，前面缺漏的因素大部分都有了，500 pages时，因素集快要达到稳定状态.

(3) 到1 000 pages时，因素集基本稳定. 课题组还对其他研究对象（如：智能冰箱）进行了研究，其稳定状态也基本在1 000 pages时. 所以，在垂直型网页中，爬取1 000个网页，就能够保证数据量足够大.

(4) 从1 000 pages到10 000 pages，噪点越来越多.

图 3 拟合度 Figure 3 Degree of fitting

4.3 ITMT的优势 4.3.1 不够细腻但数据丰满

由表1的第2列与第3列对比可知，TRM因为有专家的经验在，各个因素之间的连续性更好，表达得也比较到位. ITMT相对来说比较离散，缺乏人脑认知的连续性. 整个因素集看起来像似一群分布在拟合曲线两边的一个个数据点. 但ITMT数据比较饱满，一般不会出现断层的问题，这解决了传统用户意图方法的一个缺陷，传统用户意图研究方法容易忽略一些重要因素.

4.3.2 成本消耗低，可持续性强

TRM需要大量的人力物力，持续时间比较长. 而ITMT几乎不需要任何成本，仅仅需要进行一些人为的校正，跟调查问卷剔除无效问卷类似.

4.3.3 预测功能

通过监听互联网上两个不同时间点研究对象因素集的加权系数变化，能够预测因素的变化趋势，这对于产品设计领域来说，是非常利好的消息，因为提前了解用户意图的变化趋势，就等于知道产品的设计方向. 另外，ITMT还可以用于其他领域，比如某些网络敏感词语短时间内加权系数急剧增长可以预测诸如恐怖主义袭击，暴乱等社会突发事件.

4.3.4 一种评价方法

由于ITMT方法能够快速获得跟研究对象相关的因素，这些因素加以分析，就可以作为针对某个对象的评价指标，现阶段各种机制和研究对象都有相应的评价研究，ITMT为这种类型的研究提供一种新思路.

5 结论

论文提出利用互联网大数据解决用户意图感知的问题，是一个新的尝试. 论文对实验结果进行了多个维度的论证及分析，验证了可行性并提出了一些新的思路，总结如下：(1) 论文提出的基于互联网大数据求解用户意图的方法具有一般性，对于任何类似于用户意图的复杂对象研究以及某个研究对象的评价机制都可以使用该方法；(2) 论文论证了文本挖掘在用户意图感知的应用与传统的研究方法相比具有非常大的优势；(3) 论文提出的方法具有成本消耗低，客观性，可持续性等优势.

参考文献

[1]	NORMAN D A. The design of everyday things: revised and expanded edition [M]. New York: Basic Books, 2013.
[2]	周美玉, 王倩. 浅析" 意象”及其对产品感性设计的作用[J]. 艺术与设计(理论), 2011(3): 178-180. ZHOU M Y, WANG Q. Analysis of imagery and its role in perceptual design[J]. Art and Design (theory), 2011(3): 178-180.
[3]	LOWRY P B, ROBERTS T L, ROMANO JR N C. What signal is your inspection team sending to each other? Using a shared collaborative interface to improve shared cognition and implicit coordination in error-detection teams[J]. International Journal of Human-Computer Studies, 2013, 71(4): 455-474. DOI: 10.1016/j.ijhcs.2012.11.004.
[4]	TANG H H, LEE Y Y, GERO J S. Comparing collaborative co-located and distributed design processes in digital and traditional sketching environments: A protocol study using the function-behaviour-structure coding scheme[J]. Design Studies, 2011, 32(1): 1-29. DOI: 10.1016/j.destud.2010.06.004.
[5]	丁欢, 许柏鸣. 家具造型设计中的感知意象研究现状与进展[J]. 家具与室内装饰, 2013(8): 15-17. DING H, XU B M. Statues and progress of research on perception image of furniture form design[J]. Furniture & Interior Design, 2013(8): 15-17.
[6]	DE VRIES E, MASCLET C. A framework for the study of external representations in collaborative design settings[J]. International Journal of Human-Computer Studies, 2013, 71(1): 46-58. DOI: 10.1016/j.ijhcs.2012.07.005.
[7]	POLANYI M. Personal knowledge: Towards a Post-Critical Philosophy[J]. Philosophy of Science, 1959, 26(3): 617-618.
[8]	HEYLIGHEN A, NIJS G. Designing in the absence of sight: Design cognition re-articulated[J]. Design Studies, 2014, 35(2): 113-132. DOI: 10.1016/j.destud.2013.11.004.
[9]	ANTUNES P, HERSKOVIC V, OCHOA S F, et al. Reviewing the quality of awareness support in collaborative applications[J]. Journal of Systems and Software, 2014, 89: 146-169. DOI: 10.1016/j.jss.2013.11.1078.
[10]	拉维·莱美, 阿卡里氏·阿帕德, 尼噶. 人类行为解释与转换系统的多通道进化框架研究[J]. 广东工业大学学报, 2016, 33(02): 5-14. RAVI L, AKHILESH U, NIGAM S R. Evolving multimodal frameworks for human behavior interpretation and transformation system[J]. Journal of Guangdong University of Technology, 2016, 33(02): 5-14. DOI: 10.3969/j.issn.1671-623X.2016.02.001.
[11]	LOWRY P B, ROBERTS T L, ROMANO J N C. What signal is your inspection team sending to each other? Using a shared collaborative interface to improve shared cognition and implicit coordination in error-detection teams[J]. International Journal of Human-Computer Studies, 2013, 71(4): 455-474. DOI: 10.1016/j.ijhcs.2012.11.004.
[12]	OSGOOD C, SUCI G, TANNENBAUM P. The measurement of meaning [M]. 1st ed. Illinois: University of Illinois Press, 1957.
[13]	HOWARTH J, SMITH-JACKSON T, HARTSON R. Supporting novice usability practitioners with usability engineering tools[J]. International Journal of Human-Computer Studies, 2009, 67(6): 533-549. DOI: 10.1016/j.ijhcs.2009.02.003.
[14]	ALI MAZALEK. Framing tangible interaction frameworks[J]. Artificial Intelligence for Engineering Design Analysis & Manufacturing, 2009, 23(3): 225-235.
[15]	AGGARWAL C C. Social network data analytics [M]. Berlin: Springer Publishing Company, 2011.
[16]	BAEZAYATES R, CALDERÓNBENAVIDES L, GONZÁLEZCARO C. The intention behind Web queries[J]. Lecture Notes in Computer Science, 2006, 4209: 98-109. DOI: 10.1007/11880561.
[17]	ZHANG H P, ZHANG R Q, ZHAO Y P, et al. Big data modeling and analysis of microblog ecosystem[J]. International Journal of Automation and Computing, 2014, 11(2): 119-127. DOI: 10.1007/s11633-014-0774-9.
[18]	贺科达, 朱铮涛, 程昱. 基于改进TF-IDF算法的文本分类方法研究[J]. 广东工业大学学报, 2016, 33(05): 49-53. HE K D, ZHU Z T, CHENG Y. A research on text classification method based on improved TF-IDF algorithm[J]. Journal of Guangdong University of Technology, 2016, 33(05): 49-53. DOI: 10.3969/j.issn.1007-7162.2016.05.009.