面向微博图文关系识别的统一特征空间映射方法

文章信息

胡慧君, 刘亚, 刘茂福, 顾进广, 吴黎兵

HU Huijun, LIU Ya, LIU Maofu, GU Jinguang, WU Libing

Unified Feature Space Mapping Approach to Correlation Recognition Between Image and Text in Weibo

武汉大学学报(理学版), 2017, 63(5): 448-452

Journal of Wuhan University(Natural Science Edition), 2017, 63(5): 448-452

http://dx.doi.org/10.14188/j.1671-8836.2017.05.010

文章历史

收稿日期：2017-01-01

Abstract

PDF

Figures

Tables

引用本文

胡慧君, 刘亚, 刘茂福, 顾进广, 吴黎兵. 面向微博图文关系识别的统一特征空间映射方法[J]. 武汉大学学报(理学版),2017, 63(5): 448-452. 复制到剪切板

HU Huijun, LIU Ya, LIU Maofu, GU Jinguang, WU Libing. Unified Feature Space Mapping Approach to Correlation Recognition Between Image and Text in Weibo[J]. Journal of Wuhan University(Natural Science Edition) , 2017, 63(5): 448-452. 复制到剪切板

面向微博图文关系识别的统一特征空间映射方法

胡慧君^1,2, 刘亚^1,2, 刘茂福^1,2, 顾进广^1,2, 吴黎兵³

1. 武汉科技大学计算机科学与技术学院, 湖北武汉 430065;
2. 智能信息处理与实时工业系统湖北省重点实验室, 湖北武汉 430065;
3. 武汉大学计算机学院, 湖北武汉 430072

收稿日期：2017-01-01

基金项目：国家社会科学基金重大项目（11 & ZR189）；湖北省教育厅科学技术研究计划项目（B2016010）；湖北省教育厅人文社会科学研究项目（17Y018）；武汉市科学技术计划项目（2016060101010047）

作者简介：胡慧君, 女, 博士, 讲师, 现从事智能信息处理研究.E-mail:huhuijun@wust.edu.cn

通信联系人：刘茂福, E-mail:liumaofu@wust.edu.cn

摘要：针对图文微博中图像、文本和社交数据的异构性，在提取图像、文本和社交等多模态特征的基础上，本文提出了面向微博图文关系识别的统一特征空间映射方法.该方法首先选择图像特征空间为统一特征空间，然后基于遗传算法求解映射矩阵，将文本特征和社交特征映射至统一特征空间，最后利用支持向量机在统一特征空间中建立图文关系识别模型.采用统一特征空间映射方法前后的对比实验结果表明，在总正确率上，面向微博图文关系识别的统一特征空间映射方法是有效的.

关键词：图文关系统一特征空间支持向量机特征映射

Unified Feature Space Mapping Approach to Correlation Recognition Between Image and Text in Weibo

HU Huijun^1,2, LIU Ya^1,2, LIU Maofu^1,2, GU Jinguang^1,2, WU Libing³

1. College of Computer Science and Technology, Wuhan University of Science and Technology, Wuhan 430065, Hubei, China;
2. Hubei Province Key Laboratory of Intelligent Information Processing and Real-Time Industrial System, Wuhan 430065, Hubei, China;
3. School of Computer, Wuhan University, Wuhan 430072, Hubei, China

Abstract: In order to eliminate the heterogeneity between visual, textual and social features extracted from image-text Weibo, this paper presents the unified feature space mapping approach based on genetic algorithm to transform the textual and social features to visual feature space. And then, the unified feature space based on correlation recognition has been put forward to identify the semantic relationship between the image and text in image-text Weibo. Experiment results show that our approach is effective and efficient in semantic correlation recognition of image-text Weibo.

Key words: correlation between image and text unified feature space support vector machine feature mapping

0 引言

在微博平台上，用户可以通过自生产内容形式发布微博，以分享经验、见解、意见乃至观点^[1].针对微博文本，当微博用户进行点赞、转发、评论、回复等行为时，微博文本上下文中就出现了由微博用户这种交互行为而产生的社交数据.自2010年始，微博平台允许为微博文本配有图片，微博用户一般不再简单地以文字形式发布微博.因此，微博数据除了微博文本外，还包含有社交数据以及图片等视觉数据.

微博中的图片、文本和社交等多模态数据之间往往存在紧密关系.近年来，微博在成为社会媒体计算领域获取社会大数据重要来源的同时，其多模态数据之间的相关性也已引起了研究者的关注^[2~4].本文将对微博中图片与文本之间的语义关系进行研究.我们把配有图片的微博称为图文微博.图文微博有图像特征、文本特征和社交特征.图文微博的图片和文本的关系可分为两类：图片与文本相关(图文相关)，图片与文本不相关(图文不相关).微博用户为了更形象、生动地表达微博的含义往往会发图文相关微博；微博用户为了吸引更多的关注则会发图文不相关的微博.

合理运用微博的图像特征、文本特征和社交特征来识别微博中的图像与文本间关系，可为对应的微博图片进行图标题生成^[5]，也可为该图片匹配到对应的文本选项.因此，正确地区分微博的图文相关性在图像语义检索、图像标题自动生成以及图像标签推荐等方面具有很大的实用价值^[6~8].

图文微博的图像、文本和社交多模态数据特征存在异构性，针对该问题，研究者们提出了很多特征融合方法.杜友田等^[9]基于局部协调训练半监督学习方法来融合文本与图像特征；Bu等^[10]在进行三维形状识别与检索时使用了多模态特征融合；Natarajan等^[11]采用多核学习方法对低层多模态特征进行融合以进行Web视频事件检测；Oskouie等^[12]综述了足球视频高层语义特征(包含视频、音频和文本)的组合方法；Suk等^[13]研究多层次特征表示与融合时采用了深度学习方法；Wang等^[14]首先基于线性加权方法融合多模态特征，进而将其用于故事相似检测中.

虽然上述相关工作均探索了多模态数据异构性，但并未涉及多模态数据之间的识别问题.本文利用遗传算法，求出两个映射矩阵，即图像底层特征与文本特征间的映射矩阵和图像底层特征与社交特征间的映射矩阵，将文本和社交特征映射到图像特征空间，使文本、社交和图像特征处于相同的统一特征空间(unified feature space，UFS)，消除多模态数据底层特征异构性；在统一特征空间内，识别微博图文关系(相关或不相关).选用支持向量机(support vector machine，SVM)进行分类.

1 基于遗传算法的统一特征空间映射方法

微博图文关系识别一般由5大模块组成，即图文微博预处理、特征抽取、特征映射、模型训练和模型预测，框架如图 1所示.

图 1 微博图文关系识别框架图 Figure 1 Overview of correlation recognition between image and text in Weibo

图选项

由于图像、文本和社交三类特征间存在异构性，针对该问题，本文提出了面向微博图文关系识别的统一特征空间映射方法来解决这种异构性.考虑到图文微博的文本和社交两类特征具有相近特征空间，而图像特征同文本、社交两类特征之间的异构较大，故选择图像特征空间为统一特征空间.

本文提出的统一特征空间映射方法是基于遗传算法设计的.该方法首先选择图像特征空间为统一特征空间，然后把图文微博异构的文本特征、社交特征映射到图像统一特征空间，进而在统一特征空间中生成图文微博的新特征.

设图文微博图像特征i有n维，文本特征t有l维，社交特征s有m维，人工标注的图文关系向量r为1维.本文的特征映射方法主要是将图文微博的文本和社交两类特征分别从各自特征空间映射到统一图像特征空间.特征映射的关键是求出对应的两个映射矩阵，将文本特征映射到图像特征空间，即求映射矩阵T_ti(n×l)，使得T_tit′→i′_t(其过程如图 2所示)；将社交特征映射到图像特征空间，即求映射矩阵T_si(n×m)，使得T_sis′→i′_s.

图 2 基于遗传算法的文本特征映射 Figure 2 Textual feature mapping based on genetic algorithm

图选项

用遗传算法求解映射矩阵首先要进行染色体编码和适应度函数设计.编码是把解空间的各个解表示成染色体，适应度函数则控制解的收敛方向.

1) 染色体编码

染色体采用实数编码.将图文微博文本特征映射到统一图像特征空间，需要求n×l阶的映射矩阵T_ti，也就是n×l个实数.本文的遗传算法中实数用16位二进制进行编码，因而，针对每个n×l阶的映射矩阵，其对应的染色体编码为16×n×l位二进制.

2) 适应度函数

依据每次迭代得到的映射矩阵，使用该映射矩阵将文本特征映射至统一特征空间，获得微博文本的新特征向量.利用人工标记的图文微博关系一维向量，将基于遗传算法的统一特征空间映射方法的适应度函数定为(1) 式.

(1)

其中，N为训练集图文微博规模，t_n、i_n和W_n分别表示第n个图文微博的文本特征向量、图像特征向量和图文关系权重.适应度函数的值越小，相应的映射矩阵越优，本文基于该原则进行映射矩阵的遗传迭代，当算法收敛时获得最优的映射矩阵.

由于我们的图文微博训练集中，具有图文相关性的正样本远远多于不具有图文相关性的样本，造成训练集不平衡.为了减弱这种不平衡带来的影响，将W_n定义为

(2)

其中，N为训练集样本规模，N_p和N_n分别表示训练集中有图文相关性和没有图文相关性的样本个数，r_n为第n个图文微博样本的图文关系标志值，具有图文相关性，该值为1；没有图文相关性，该值为0.

3) 遗传操作

轮盘赌：群体中个体被选择的概率与其适应度函数值成正比；

单点交叉：在群体中随机选择个体，对选中的个体以一定的概率随机改变编码数据中的某位的值.

通过编码、迭代优化、遗传操作等，即可得到映射矩阵T_ti.采用同样的方法可求得社交特征到图像特征为映射矩阵T_si.

2 实验 2.1 数据来源及实验环境

本文实验数据来自新浪微博，图文微博训练集8 817条，图文微博测试集1 000条数据，共9 817条图文微博.图像与文本关系分为两类，即相关和不相关.每类中训练集和测试集的图文微博的数目如表 1所示.

表1 图文数据分布 Table 1 Dataset from Sina Weibo

类别	训练集	测试集
相关	6 630	812
不相关	2 187	188
合计	8 817	1 000

表选项

本文提取文本特征22维，社交特征6维，图像特征39维.由于提取的特征数值范围相差较大，需对提取和处理后的每一维特征用下式进行归一化处理

其中，x为归一化前的特征数值，x_max为该维特征的最大值，x_min为该维特征的最小值.

为对微博图文关系进行识别，本文基于支持向量机建立分类模型，使用LIBSVM工具包^[15]实现.nonUFS-SVM为抽取图像、文本和社交三类特征后，不用统一特征空间映射方法，直接用SVM分类；UFS-SVM表示抽取三类特征后，采用统一特征空间映射方法，再用SVM分类.

2.2 结果与分析

nonUFS-SVM对每个类别的正确率和总正确率(总正确率为预测正确的样本数除以总样本数)，如表 2所示.

表2 nonUFS-SVM评估结果 Table 2 Evaluation results of nonUFS-SVM

%
标签	正确率	总正确率
相关	96.6	80.9
不相关	13.3	80.9

表选项

从表 2可以看出nonUFS-SVM对图文相关的样本有一定的识别能力，对于图文不相关的样本识别能力较低.

在nonUFS-SVM训练收敛时，训练总正确率为81.8%，其中对相关性的训练正确率为97.8%，不相关性的训练正确率为33%.由此可知，不相关性在训练过程中“欠拟合”，这导致训练好的识别模型对测试集中不相关样本预测能力较低.因此nonUFS-SVM并没有解决不相关性样本不平衡问题.

UFS-SVM在求解文本映射矩阵T_ti的过程中，遗传算法中相关参数以及映射矩阵值范围如表 3所示.T_si和T_ti惟一不同的是个体长度，T_si的个体长度为：16×39×6.

表3 T_ti特征映射参数表 Table 3 Parameters of feature mapping of T_ti

种群大小	100
最大遗传代数	1 000
个体长度	16×39×22
交叉概率	0.7
变异概率	0.1
映射矩阵值范围	[2^-5, 2⁵]

表选项

利用求得的映射矩阵T_ti和T_si，将图文微博的文本特征和社交特征映射至统一特征空间，从而生成图文微博的新特征向量(i, i′_t, i′_s)，将其输入支持向量机模型.

UFS-SVM对每个类别的正确率和总正确率，如表 4所示.

表4 UFS-SVM评估结果 Table 4 Evaluation results of UFS-SVM

%
标签	正确率	总正确率
相关	98.6	81.5
不相关	7.45	81.5

表选项

与nonUFS-SVM相比，UFS-SVM的正样本正确率提高了2%；在负样本预测方面，正确率降低了5.85%；在总正确率方面，与nonUFS-SVM相比，UFS-SVM正确率提高了0.6%.虽然在负样本的预测方面，UFS-SVM没有nonUFS-SVM表现好，但在总正确率方面，UFS-SVM优于nonUFS-SVM.

在UFS-SVM训练收敛时，训练总正确率为99.31%，其中相关和不相关的训练正确率分别为99.16%和99.77%，即在映射至统一特征空间后，虽然解决了nonUFS-SVM的负样本“欠拟合”问题，但UFS-SVM对负样本的预测能力仍然很低.对UFS-SVM模型和实验结果进行深入分析，产生以上问题的原因可能是：1) 文本预处理不准确，影响了不相关样本预测.比如“中国诗词大会诗词解析”，“中国诗词大会”为一个表示节目名的命名实体，利用分词工具得到分词结果却为“中国” “诗词”“大会”，“中国诗词大会”被分成了三个单独的单词，影响到了后续词性标注结果，进而使图文微博的文本特征抽取结果不准确；2) 图文微博相关与不相关的原因不同.图文微博相关的原因可以枚举，如：实物相关、场景相关、情绪相关和情感相关等，而不具有相关性的原因却有很多种，难以穷举，这导致难以学习到完备的不具有图文相关性的原因，从而导致图文关系识别模型对不具有图文关系的样本预测能力十分有限.

3 结论

本文首先从图文微博抽取多模态特征，包括图像特征、文本特征和社交特征；考虑到多模态特征的异构性，接着提出了基于遗传算法的统一特征映射方法，将文本特征和社交特征都映射至统一特征空间；最后在统一特征空间中实现了基于支持向量机的图文关系识别模型.实验结果证明了本文提出的面向微博图文关系识别的统一特征映射方法的有效性.

对于不具有图文相关性的图文微博实例，本文提出的方法表现仍不理想.未来将致力于解决语料不平衡和负样本的学习问题.考虑通过填充图文微博实例来解决数据不平衡问题，可以通过增强学习和特征选择来达到对不具有图文关系负样本的充分学习.

参考文献

[1]	丁兆云, 贾焰, 周斌, 等. 微博数据挖掘研究综述[J]. 计算机研究与发展, 2014, 51(4): 691-706. DING Z Y, JIA Y, ZHOU B, et al. Survey of data mining for microblogs[J]. Journal of Computer Research and Development, 2014, 51(4): 691-706. DOI:10.7544/issn1000-1239.2014.20130079

[2]	LI M, XUE X B, ZHOU Z H. Exploiting multi-modal interactions:A unified framework[C]//Proceedings of 21st International Joint Conference on Artificial Intelligence. San Francisco:Morgan Kaufmann Publishers Inc, 2009:1120-1125.

[3]	GAO Y, WANG M, ZHA Z J, et al. Visual-textual joint relevance learning for tag-based social image search[J]. IEEE Transactions on Image Processing, 2013, 22(1): 363-376. DOI:10.1109/TIP.2012.2202676

[4]	段喜萍, 刘家锋, 王建华, 等. 一种语义级文本协同图像识别方法[J]. 哈尔滨工业大学学报, 2014, 46(3): 49-53. DUAN X P, LIU J F, WANG J H, et al. A collaborative image recognition method based on semantic level of text[J]. Journal of Harbin Institute of Technology, 2014, 46(3): 49-53.

[5]	TRAN K, HE X, ZHANG L, et al. Rich Image Captioning in the Wild[DB/OL].[2017-01-03].http://www.cv-foundation.org/openaccess/content_cvpr_2016_workshops/w12/papers/Tran_Rich_Image_Captioning_CVPR_2016_paper.pdf.DOI:10.1109/CVPRW.2016.61.

[6]	刘知远, 张乐, 涂存超, 等. 中文社交媒体谣言统计语义分析[J]. 中国科学:信息科学, 2015, 45(12): 1536. LIU Z Y, ZHANG L, TU C C, et al. Statistical and semantic analysis of rumors in Chinese social media[J]. Scientia Sinica Informationis, 2015, 45(12): 1536. DOI:10.1360/N112015-00243

[7]	XU J, MEI T, YAO T, et al. MSR-VTT:A Large Video Description Dataset for Bridging Video and Language[DB/OL].[2017-01-03]. http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Xu_MSR-VTT_A_Large_CVPR_2016_paper.pdf. DOI:10.1109/CVPR.2016.571.

[8]	PAN Y W, MEI T, YAO T, et al. Jointly modeling embedding and translation to bridge video and language[DB/OL].[2017-01-03]. http://home.ustc.edu.cm/~panywei/paper/CVPR16-Yingwei.pdf. DOI:10.1109/CVPR.2016.497.

[9]	杜友田, 李谦, 周亚东, 等. 基于异质信息融合的网络图像半监督学习方法[J]. 自动化学报, 2012, 38(12): 1923-1932. DU Y T, LI Q, ZHOU Y D, et al. Web image semi-supervised learning method based on heterogeneous information fusion[J]. Acta Automatica Sinica, 2012, 38(12): 1923-1932. DOI:10.3724/SP.J.1004.2012.01923

[10]	BU S H, CHENG S G, LIU Z B, et al. Multimodal feature fusion for 3D shape recognition and retrieval[J]. IEEE Multimedia, 2014, 21(4): 38-46. DOI:10.1109/MMUL.2014.52

[11]	NATARAJAN P, WU S, VITALADEVUNI S, et al. Multimodal feature fusion for robust event detection in web videos[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington, D C:IEEE, 2012:1298-1305. DOI:10.1109/CVPR.2012.6247814.

[12]	OSKOUIE P, ALIPOUR S, AMIR-MASOUD E M. Multimodal feature extraction and fusion for semantic mining of soccer video:A survey[J]. Journal of Artificial Intelligence Review, 2014, 42(2): 173-210. DOI:10.1007/s10462-012-9332-4

[13]	SUK H I, LEE S W, SHEN D, et al. Hierarchical feature representation and multimodal fusion with deep learning for AD/MCI diagnosis[J]. NeuroImage, 2014, 101: 569-582. DOI:10.1016/j.neuroimage.2014.06.077

[14]	WANG Z, GUO J. Story similarity detection in broadcast domain based on multimodal feature fusion[J]. American Journal of Engineering and Technology Research, 2015, 15(1): 176.

[15]	CHANG C C, LIN C J. LIBSVM:A library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 27. DOI:10.1145/1961189.1961199