个性化图像检索和推荐的研究

引用本文

冀振燕, 姚伟娜, 皮怀雨. 个性化图像检索和推荐的研究[J]. 北京邮电大学学报, 2017, 40(3): 19-30. 复制到剪切板

JI Zhen-yan, YAO Wei-na, PI Huai-yu. Research on Personalized Image Retrieval and Recommendation[J]. JOURNAL OF BEIJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS, 2017, 40(3): 19-30. 复制到剪切板

Permissions

《北京邮电大学学报》编辑部所有

个性化图像检索和推荐的研究

冀振燕, 姚伟娜, 皮怀雨

北京交通大学软件学院, 北京 100044

作者简介: 冀振燕(1972-), 女, 副教授, Email:zhyji@bjtu.edu.cn.

收稿日期: 2016-11-20

基金项目: 国家自然科学基金项目（61272353）

摘要

为了解决信息过载的问题，个性化图像检索和推荐技术成为目前图像检索领域的新趋势，其不仅可提高检索的效率和准确率，还可满足用户的个性化需求.根据不同个性化信息的数据源，可将个性化图像检索和推荐分为基于内容的个性化图像检索和推荐与协同过滤个性化图像检索和推荐.对于基于内容的个性化图像检索和推荐，分析了用户兴趣获取、用户兴趣表示和个性化实现3个核心环节，并对所采用的关键技术进行了对比，指出了优缺点；对于协同过滤个性化图像检索和推荐，分析了基于用户、物品和模型的3种协同过滤方法.最后分析对比了基于内容和协同过滤2种个性化图像检索和推荐方法，并指出了未来的工作方向.

关键词: 个性化图像检索图像推荐基于内容协同过滤

中图分类号:TN929.53 文献标志码:A 文章编号:1007-5321(2017)03-0019-12 DOI:10.13190/j.jbupt.2017.03.002

Research on Personalized Image Retrieval and Recommendation

JI Zhen-yan, YAO Wei-na, PI Huai-yu

School of Software Engineering, Beijing Jiaotong University, Beijing 100044, China

Abstract

In order to solve the problem of information overload, personalized image retrieval and recommendation technology has become the new trend in image retrieval area. It can not only improve the efficiency and accuracy of retrieval, but also meet users' personalized requirements. Personalized image retrieval and recommendation can be divided into content-based personalization and collaborative-filtering-based personalization according to different sources of personalized information. Firstly the development of image retrieval are summarized. Then the key technologies of content-based personalized image retrieval and recommendation are analyzed from three aspects, user interest acquisition, user interest representation and personalization implementation. The key technologies are compared. Their advantages and disadvantages are pointed out. For collaborative-filtering-based personalized image retrieval and recommendation, user-based, item-based and model-based collaborative filtering methods are contrasted. At the end of the paper, the content-based methods and the collaborative filtering methods are discussed, and the future work is shaped.

Key words: personalized image retrieval image recommendation content-based collaborative filtering

随着数码相机、手机等电子设备的普及以及移动互联网和社交网络的蓬勃发展，互联网上的图像信息海量增长.

图像作为一种重要的信息载体，与文字信息相比具有很多优势，譬如图像所呈现出来的信息更直观、更丰富，不但能准确地体现出物体的形状，还能体现出颜色、纹理等信息.图像数据在互联网上的快速增长也带来了快速增长的图像信息检索的需求.如何在海量的图像信息中做有效、准确地搜索成为目前迫切需要解决的问题.

1 图像检索技术的分类

图像检索的相关研究始于20世纪70年代，经过几十年的发展，目前的图像检索技术主要分为7类.

1) 基于文本的图像检索

传统的图像检索系统通常采用基于文本的图像检索，首先根据图像语义对这些图像进行关键字人工标注，然后通过关键字匹配来进行查询.基于文本图像检索的实质是将图像检索转换为文本检索，此方法虽然能够取得一定的效果，但由于图像本身包含的信息非常丰富，人工标注带有强烈的主观性，导致无法用关键字准确全面地表达图像所包含的信息^[1].因此，该技术的关键是如何给出准确、规范、全面的文本标注，而文本标注的质量直接影响着图像检索的准确度.此外，图像的人工文本标注非常耗时耗力.

2) 基于内容的图像检索

基于内容的图像检索将图像按底层特征(如颜色、形状、纹理等^[2-3])进行索引.其检索过程主要分为3步：① 提取图像底层特征；② 设计特征融合方法；③ 相似度匹配，返回特征相似的结果.

图像的底层特征可以通过图像处理算法自动获得，避免了人工标注的主观性，节省了大量人力资源.通过视觉信息建立索引，大大提高了检索效率.最早成功应用基于内容的图像检索技术的是IBM的QBIC系统，此外比较著名的还有伊利诺伊大学的多媒体分析和检索系统、麻省理工学院的Photobook等^[1].

3) 基于语义的图像检索

基于内容的图像检索技术通常是根据图像的底层视觉特征进行检索，图像之间的相似性建立在图像底层视觉特征的相似性上，这对于“以图查图”的检索会很适用.但现实中，用户通常根据图像的高层语义来理解图像并判断其是否相似.而目前利用计算机视觉技术能够自动提取的底层视觉特征还无法直接准确地描述图像的语义内容，导致基于内容的图像检索准确性急剧下降，这种差异称为“语义鸿沟”.基于语义的图像检索就是要求计算机学习人类的逻辑推理能力，对提取的视觉特征加以分析，建立底层特征与高层语义之间的关联^[4]，从人的视角感知图像所表达的内容以达到检索目的.目前，很多学者已经进行了语义检索方面的研究，开发出了基于语义检索的系统，如Visengine^[5]，iFind^[6]等.

4) 基于上下文的图像检索

上下文是指任何能够间接为图像检索任务提供信息的内容，可以通过图像的标签、图像所嵌入的网页包含的其他媒体信息等获取.对于一幅图像中的某个物品，其他物品和场景及这些物品间的空间关系等也是它的上下文信息.从微观的角度，图像特征空间的上下文信息是指以某一特征点为中心的一定空间区域内的信息.在衡量特征间的相似度时引入空间上下文信息，能够提高结果准确度^[7].基于上下文的图像检索广泛地应用于基于Web的互联网图像检索中，与传统的图像检索相比，基于Web的互联网图像检索具有一定特殊性，因为互联网中图像都是嵌入在网页中的，网页中包含的其他文本或图像信息在图像的特征提取和分析中发挥重要作用.基于Web的互联网图像检索可以根据图像网页的上下文信息和网页的结构对图像进行检索.这种检索技术很大程度上依赖于自然语言处理技术和人工智能技术.

5) 基于示例的图像检索

基于示例的图像检索将多示例学习算法应用于图像检索领域.多示例学习将每个训练样本看作一个包，样本的每个特征作为一个示例，即包是示例的集合.每个包有一个训练标签，示例没有标签.若一个包至少包含一个正例，则为正包，否则为负包.多示例图像检索将每幅图片看作一个包，首先对图像进行分割等预处理，提取多维特征向量，每个特征向量作为一个示例；然后应用学习算法预测用户感兴趣的语义概念，并据此检索与之相似的包.常用的学习算法有多样性密度(DD, diversity density)算法、结合最大期望(EM, expectation maximization)算法与DD算法的EM-DD算法、引文最近邻、支持向量机(SVM, support vector machine)、神经网络等.由于图像包含的内容十分丰富，并且常常存在多义性，采用一个标签标记一个包导致系统无法获得更复杂的高层语义信息. Zhou等^[8]提出了多示例多标签(MIML, multi instance multi label)学习算法MIMLBoost和MIMLSVM，将MIML问题分别转化为多示例单标签问题和单示例多标签问题，并通过大量实验与传统监督学习、多示例学习、多标签学习进行对比，结果表明MIML算法在解决包含多重语义信息的复杂对象相关问题时优于其他3种方法.上述方法的问题是将每个包的多个标签同时赋予包中的所有示例，不考虑不同标签与图片的相关性，这与实际情况不符. Wu等^[9]提出了基于马尔科夫链的MIML算法，利用马尔科夫链预测标签对图片的重要性排序，大大提高了算法的准确率.由于传统监督学习的本质是单示例单标签问题，MIML问题实质上是监督学习的进化版本，因此MIML问题的研究方向可扩展至传统监督学习的增量学习等领域.

6) 多模态跨模态图像检索

随着移动互联网的发展，文字、图片、视频等多模态数据飞速增长，并促使多模态、跨模态图像检索需求大大增加.多模态图像检索即融合不同模态的检索，查询和待检索数据至少有一种相同模态，如将以视觉特征检索和以标签检索结果组合得到最终结果.跨模态图像检索即对不同模态的关系建模，实现模态间的检索，查询和待检索模态不必相同，如以文字搜索图片、以图片搜索视频等.与传统多模态检索^[10]不同，跨模态检索的关键在于将不同模态的数据映射到一个公共空间，对二者的关系建模.寻找公共空间有2种方式，一种是建立低层特征的关联，一种是建立高层语义抽象. Pereira等^[11]根据上述2种思路提出了相关匹配、语义匹配2种方法，及结合二者的语义相关匹配方法.通过实验对比发现语义抽象假设在跨模态检索任务中能更有效地缩减“语义鸿沟”的影响，取得更好的结果.传统的跨模态检索通常采用依赖领域知识的手工设计特征，“语义鸿沟”问题仍是该领域的难点.近年来，深度学习在多媒体信息特征表示方面取得突破进展，出现了大量将深度学习应用于跨模态检索的研究^[12-14].其中，将深度学习与大规模图像检索中常用的散列方法结合是目前的热门研究方向.同时，当前的研究主要集中在图像—文本检索领域，图像与视频、语音等其他多媒体信息的相互检索有待进一步研究.

7) 个性化图像检索与推荐

为了解决互联网图像过载问题，提高用户查询效率，可将个性化技术引入到图像检索系统中，采用图像分析与处理技术，结合用户的检索行为信息，提高图像检索的准确率和效率.

个性化图像检索是被动的图像获取方式，系统根据用户的输入和用户的个性化信息去获取所感兴趣的图像.个性化图像推荐是主动的图像获取方式，系统根据用户的个性化信息主动为用户推荐用户可能感兴趣的相关图像.

个性化图像检索与推荐综合考虑查询图像相关性和用户兴趣，使得图像检索结果具有用户针对性，更符合个人需求，因此，个性化图像检索与推荐受到越来越多的重视，现已成为新一代图像检索的发展趋势^[15].

2 个性化图像检索与推荐

个性化图像检索与推荐主要分为2类：基于内容的个性化图像检索与推荐、基于协同过滤的个性化图像检索与推荐.

2.1 基于内容的个性化图像检索与推荐

如图 1所示，基于内容的个性化图像检索与推荐所包含的关键技术主要有用户兴趣获取、用户兴趣表示和个性化的实现.首先，系统收集用户对图像添加的标签及浏览、点击、保存等操作信息，查询历史等，通过特征提取、语义关联等方法对这些信息进行处理得到用户兴趣信息；然后，采用适当的用户兴趣表示方法建立用户兴趣模型；最后，通过个性化图像检索方法得到检索结果返回给用户，同时收集用户对结果的反馈信息以优化检索结果.

图 1 基于内容的个性化图像检索与推荐系统结构

2.1.1 用户兴趣获取

用户兴趣信息的主要来源有用户对图像添加的标签、用户对图像的操作信息和用户对系统的反馈.针对不同的信息来源有不同的兴趣获取方法.

1) 基于标签的用户兴趣获取

近年来，社交网站已成为高效的信息交换平台，在这些平台上进行内容分享逐渐成为人们生活中的一部分.一些主流社交网站如Flickr、Instagram、微博、微信等积累了大量用户，为用户信息挖掘提供了丰富的数据.在内容呈现上，传统的按照时间顺序显示已无法满足用户的个性化需求，用户更希望看到他们认为重要的信息而不是系统认为重要的信息^[16].除了用户分享的内容之外，用户为这些内容添加的标签往往包含更多的个性化信息.图像检索系统如果能够充分利用这些标签挖掘用户感兴趣的图像类型，将大大提高检索效率. Sang等^[17]收集Flickr网站上用户分享的图片及标签等信息，为每位用户建立主题模型.主题模型将用户感兴趣的图像类型划分为若干主题，每个主题包含若干关键词(标签).检索过程中将查询图像映射到用户感兴趣的相关主题以获取包含兴趣信息的检索结果. Liu等^[18]提出了一种基于标签相关性的排序算法，该算法能够根据与查询标签的相似性自动对图像进行排序，并综合考虑图像视觉内容的相似性和语义相似性. Cheung等^[19]提出了一种基于目标识别的图像自动标注算法，采用标签直方图建立用户兴趣描述.

2) 基于用户操作的兴趣获取

用户对图像的操作信息包括检索历史、浏览、保存等，通常由系统记录，保存在日志文件中.这些对图像的操作信息包含了用户对图像的偏好.例如，用户的检索历史反映了其在一定时间内感兴趣的图像类型，用户保存某幅图像说明其对该图像是感兴趣的.通过获取这些操作信息，可以获得一组反映用户不同感兴趣程度的图像集.通过挖掘这些图像中的相似信息可以得到基于图像内容的用户兴趣描述.邱兆文等^[20]根据用户访问历史和行为日志将图像数据分为用户保存的图像、用户曾浏览的图像和用户未曾见过但可能感兴趣的图像，通过用户对这些图像的查询、浏览、保存等操作建立用户语义模型、用户兴趣模型和用户意图模型. Fan等^[21]采取一种交互式个性化检索方法，将检索结果可视化，通过用户对检索结果的点击行为获取用户感兴趣的图像类型，经过多次迭代缩小检索范围. Yu等^[22]提出了一种排序的学习算法，同时利用图像的视觉特征和用户点击特征来获得排序模型.

用户的浏览历史及用户对图像的操作信息中包含的用户兴趣信息通常隐藏在图像的底层特征中，不能直接用于建立用户兴趣模型，因此利用机器学习工具建立图像底层特征与查询概念间的关联^[23]. Zhang等^[24]采用二元线性SVM对每个概念进行一对多的分类，与传统方法的不同之处是采用结构化语义表示用户兴趣，对于每个概念，将其本身或其后继节点作为正样本，其余作为负样本.

Jayech等^[25]提出了一种树增广朴素贝叶斯分类器将人脸图像的底层特征与高层语义关联起来，得到给定类别时2类特征相互提供的信息.贝叶斯分类的基础是贝叶斯定理，朴素贝叶斯理论采用了条件独立假设，即在给定类的条件下各个维度的特征相互独立.显然这一假设在现实世界中通常不成立，因此该假设在简化计算的同时牺牲了一部分分类准确率.上述2种方法均依赖于大量标签数据，且当应用领域变化时需要新的标签样本进行训练. Kurtz等^[26]采用无监督的K-means算法对输入数据进行聚类，这一过程不需要标签对结果进行评估.无监督学习算法通过对相似样本聚类并最大化类间距离以发现输入数据可能存在的关系. Lin等^[27]提出了一种改进的快速K-means算法，将图像的像素点按照颜色空间分层，计算每层像素所属的聚类中心.该方法不仅提高了聚类效率还解决了随着样本增加需要重新计算聚类中心的问题.

近年来，随着大规模图像识别数据库ImageNet^[28]的建立与完善，以及计算机硬件的飞速发展，神经网络在图像分类识别领域取得了重大突破.在2012年的ImageNet图像分类比赛中，Alex Krizhevsky的研究小组凭借深度学习模型AlexNet^[29]取得冠军. AlexNet网络结构由5层卷积层和3层全连接层组成，采用Dropout训练策略，通过镜像映射和增加随机平移扰动以获得更多训练样本，减少过拟合，并以修正线性单元作为非线性的激活函数，大大降低了计算复杂度.深度学习所采用的特征是网络自动从大量训练数据中学习出来的，而非传统手工设计特征，实现了从像素级特征到抽象语义特征的逐层提取，具有强大的特征提取和表达能力，广泛应用于图像检索任务. Karpathy等^[30]提出了一种深度神经网络模型，提取描述图像的句子片段与图像区域的关联，从用户操作的上下文中获得其感兴趣的信息. Xia等^[31]采用深度卷积神经网络模型将图像特征提取和散列函数的学习过程结合起来，克服了传统手工提取特征无法表达准确语义信息的缺点. Zhao等^[32]利用卷积神经网络学习图像特征表示和保留多级语义相关度的散列函数，建立多标签图像到散列码的映射，从标签相似度中获得用户兴趣偏好.

3) 基于相关反馈的用户兴趣获取

传统基于内容图像检索系统通过收集用户对检索结果的反馈信息调整输出结果，改善由于图像底层特征和高层语义之间的“语义鸿沟”造成的偏差^[6].用户对系统的反馈即向系统提供明确的表示其感兴趣或不感兴趣的信息，包括向系统提供感兴趣或不感兴趣的具体描述、对检索结果的正反馈和负反馈、检查并修改系统对用户兴趣的描述等^[33].相关反馈技术通常与前2种方法结合使用，以提高对用户兴趣描述的准确性.在个性化检索的实现阶段，相关反馈技术也将发挥重要作用，在后文中将详细介绍.

除上述几种主要的获取途径外，用户本身的一些特征如年龄、性别、职业等人口统计信息也会作为参照信息来决定用户偏好；利用社交网络的特点，发现人与人之间的关联，从而根据相似用户的偏好来推测个性化信息^{[19, 34]}.

4) 用户兴趣获取方法对比

基于标签的用户兴趣获取不需要用户显式地参与到信息收集过程中，具有简单、快速、精确的优点.但通常情况下，用户主动添加的标签数据量非常小，这些标签有时并不能准确描述图像内容，如用户可能故意添加不相关的标签以吸引关注，甚至一些拼写错误也会严重干扰用户兴趣描述的准确性.基于用户操作的兴趣获取同样不需要用户的参与，但是历史数据不能反映用户兴趣的实时变化，其准确性也大打折扣.基于相关反馈的用户兴趣获取保证了系统动态更新用户兴趣，但多数情况下，用户宁愿得到不精确的查询结果，也不愿意向系统提供更加详细的描述，即相关反馈也面临数据稀疏性问题. 表 1对3种用户兴趣获取方法进行了对比.

表 1 用户兴趣获取方法的比较

2.1.2 用户兴趣表示

个性化图像检索常用的用户兴趣表示方法主要有向量表示法、主题模型表示法及本体表示法.

1) 向量表示法

向量表示法是指用一组关键词或图像视觉特征组成的向量表示用户兴趣信息.其中，关键词可以由用户直接输入，或通过学习算法得到，这与用户兴趣获取方式有关.图像包含的内容十分丰富，不同用户对同一幅图像关注的信息不可能完全一致.因此单纯采用关键词或底层特征描述一幅图像只能表示图像的一般特征，无法准确描述用户偏好.为了克服向量表示法的这一缺陷，邱兆文等^[20]采用了一种改进的向量表示法.该方法将用户兴趣模型表示成一系列特征及其相应权重组成的n维特征向量，对出现频率高的特征赋予较高权值，出现频率低的特征赋予较低权值.关键词的权值确定可采用词频-逆文档频率^[35]、Okapi BM25^[36]等方法.

向量表示法可反映每种特征的重要程度，是目前比较流行的用户兴趣表示方法.但是用户兴趣比较复杂，仅用一组特征难以准确、完整地表现用户兴趣.向量表示法更适合表达用户的短期兴趣.短期兴趣仅描述用户在一次检索中查找的内容，而长期兴趣是从每一次检索中搜集整合的用户兴趣信息^[37].因此，短期兴趣所包含的特征远远少于长期兴趣，便于用一组向量表示.

2) 主题模型表示法

当描述用户兴趣的关键词非常多时，采用向量表示法使得特征维数过大，降低了检索效率.而且，有时字面上毫不相关的2个词语可能包含某种语义关联，如手机、苹果、乔布斯等.如果单纯依靠关键词相似性进行检索，可能会导致结果出现偏差. Sang等^[17]采用主题模型表示用户兴趣，有效避免了上述问题.主题模型是对描述图像特征的关键词所隐含的主题进行建模的方法.主题是一组关键词的集合，同一关键词可出现在多个主题中，但在不同主题中出现的概率不同.计算机使用一定的数学方法对每个用户的语料库进行分析，计算每个标签对应每个主题的概率，通过建立用户特定主题模型，可以获得以概率表示的用户特定主题和用户主题偏好.

对于收集到的用户兴趣信息，建立作为其抽象表示的主题分布，通过一些距离公式计算图像间的语义距离，从而得到图像之间的相似性.主题模型解决了多义词的问题，如“苹果”可能表示水果或手机品牌，通过主题间的匹配可以得到它与其他关键词的相似度.主题模型的训练方法主要有概率隐语义分析和潜在狄利克雷分配^{[17, 38]}.

信息检索系统中常用的词袋模型^[39]也可以看作一种主题模型表示法.其将文档看作一组无序的单词的集合，忽略语法和词序.将词袋模型应用于图像数据，就产生了视觉词袋模型.将图像看作一系列“视觉单词”的集合，所谓“视觉单词”即图像的低维特征，通常采用尺度不变特征变换特征.提取用户感兴趣的图像的底层特征，通过聚类将相似的词汇合并，得到表示一类图像的基向量.然后用该基向量量化图像特征，用词频表示图像^[40].词袋模型既可表示图像的文本标签特征也可表示图像的视觉特征，使图像检索系统具有更好的可扩展性.虽然一般情况下词袋模型能够取得不错的结果，但它却忽略了图像的几何信息，如位置、方向等，而且无法表现图像中的背景、对象间的关系等语义信息^[41]. Yang等^[42]将图像分割为若干区域，计算各区域的视觉单词并连接起来构成一个完整的特征向量.这种做法整合了图像的空间信息，但加大了计算量，且适用范围较小. Liu^[43]提出了一种基于上下文的主题模型，用于处理长查询，即查询输入可以是任意长度的文本，而不再局限于图像本身或精简的几个词语.该模型可以从长查询中识别多个主题，利用“视觉单词”向用户返回与每个主题最相关的一组图像.

3) 本体表示法

本体是对概念化对象的精确描述^[18].简单来说，本体是对客观世界中抽象出来的某些概念的明确的形式化描述，它包含了事物的种类、性质等信息并且反映出事物间的关系.本体间的关系主要有Is-a、Part-of、Instance-of等.本体表示法的基本思想是通过一个本体概念向量来描述兴趣特征，这些本体通常采用树形层次结构的组织形式，树的每个节点表示了用户的一个兴趣类. Fan等^[21]建立了主题间基于概念本体论的单向Is-a层次关系.由于图像主题间的上下文关系非常复杂，因此在Is-a层次关系的基础上建立主题间的语义网络.用2个主题的语义相似性和信息量定义主题间的相关性.信息量与2个主题的共现概率有关，共现概率越大，信息量越大；语义相似性和信息量越大，主题间相关度越大. Deng等^[44]为图像的语义特征创建了结构化索引，采用一组概率表示的语义特征向量描述一幅图像，这些特征包括对象种类、从属关系、视觉特征描述等，其中种类作为最主要的特征决定了2个图像的相似度，即共享更低层次祖先的2个类别具有更高的相似性. Jiang等^[45]建立了基于用户本体的用户模型，不仅考虑概念和分类信息，还考虑了非分类信息，能够提供更加丰富和准确的用户兴趣表示.所谓用户本体，是对传统的对象本体以用户的视角进行描述，通过对概念间的关系强弱赋值，以表达用户的个性化信息.

对3种用户兴趣表示方法从3个方面进行了对比，如表 2所示.

表 2 用户兴趣表示方法的比较

在许多图像相关的任务中，有代表性的和识别力的特征表示方法非常重要.尤其是以用户为中心的检索或推荐任务中，不仅要考虑图像特征，还要关注用户兴趣和意图，因此需要更高效的表示方法.利用深度学习方法自动获取这种特征表示是目前的一个热门研究方向^[29]，主要方法可分为2类：① 直接将在大型图像数据库(如ImageNet)中预训练好的特征表示应用于新的图像检索任务；② 根据具体任务设计新的损失函数，重新训练网络得到适应目标任务的特征表示. Wan等^[46]通过大量实验对比了2类方法及传统手工特征在图像检索任务中的表现，结果表明深度学习特征表示优于传统手工设计特征，重新训练网络获得的特征明显优于直接使用预训练特征，但在计算复杂度和资源消耗方面后者具有明显优势.此外，深度学习特征表示在跨模态检索领域的应用也吸引了大量研究者的注意. Geng等^[47]采用一个深度模型，学习出将图像和用户特征结合起来的统一特征表示.具体实现方法是将异质的用户-图像网络转化为同质的低维特征，使得系统可以直接利用特征相似性进行推荐，克服了用户-图像数据稀疏问题和图像内容过于丰富带来的挑战. Lei等^[48]提出了双网深度网络，由2个子网分别将图像和用户偏好映射到相同的潜在语义空间，根据二者之间的距离进行决策，并在此基础上提出了比较深度学习方法对双网深度网络进行训练.随着移动互联网的发展，各种多媒体资源的交叉检索需求将大大增加，深度学习在该领域的应用有待进一步研究.

2.1.3 个性化的实现

个性化图像检索中个性化的实现方法主要有查询优化和结果优化，即对用户输入的查询信息进行调整或对用户得到的检索结果进行优化.

1) 相似性度量

个性化图像检索系统从2个方面考察图像的相似性，即底层特征距离和语义相似性.底层特征常用的距离度量有余弦距离、欧氏距离、基于位置的度量和直方图交叉等^{[45, 49]}.对于语义的相似性，Burdescu等^[49]通过比较查询图像与数据库图像的KL负距离衡量，Zhang等^[24]通过优化结构化语义网络中各节点的距离得到距离矩阵，使得相似语义节点距离最小. Kurtz等^[26]将视觉特征和语义特征的不相似性结合起来，采用Kurtz^[50]提出的分层语义距离比较高维特征之间的相似性.

2) 查询优化

由于用户通常不能对图像进行准确描述，而计算机自动提取的底层特征只是对图像的一般性描述，不包含任何个性化信息.因此，查询优化方法试图利用用户兴趣模型来对用户的查询添加或删除部分查询项，以获得更准确的描述.此外，查询优化也包含调整查询项的特征权值等.

Sang等^[17]将用户对图像添加的标签信息收集起来，为每个用户建立主题模型.在检索过程中，将查询图像映射到用户感兴趣的相关主题，以相关主题中包含的关键词作为查询的补充，达到扩展查询的目的.

相关反馈是图像检索领域常用的获取个性化检索结果的方法.典型的方法有根据用户反馈信息调整相应特征权值，根据用户反馈的正例和负例信息调整初始查询向量使其接近最佳查询向量，对相似的查询进行聚类，从这些类中选择具有代表性的查询建立多点查询. Su等^[33]提出了一种结合上述3种方法的基于浏览模式的相关反馈，克服了传统相关反馈方法冗余浏览等问题. Kovashka等^[51]通过请求用户对具有相对视觉属性的图片对进行选择，主动获取用户反馈.由于呈现给用户的图像对是经过系统筛选的，克服了传统被动反馈方法的不确定性.

3) 结果优化

对检索结果的优化主要有2种方法：① 利用个性化信息对检索结果重新排序，得到个性化检索结果；② 利用个性化信息对检索结果进行过滤，滤除用户不感兴趣的图像.

对检索结果重新排序的过程通常为提取检索结果的语义信息、与用户兴趣模型进行对比、将检索结果按照与用户兴趣相关度递减的顺序重新排序.对检索结果的过滤是指将检索结果按递减顺序重新排序后，将排序靠后的图像直接丢弃.对检索结果的过滤可看作对结果重排序的补充，在实际应用中也常常将2种方法结合起来，相互补充，达到更加准确的检索效果.显然，结果优化实际上属于分类问题.采用适当的学习算法训练用户兴趣模型是检索的关键.传统的机器学习算法如决策树、SVM、朴素贝叶斯等均有广泛应用^{[25, 52-53]}.

2.2 基于协同过滤的个性化图像检索与推荐

社交网络除了可以进行内容分享，还可以建立用户之间的关联.因此可以通过挖掘用户的相关性或图像本身的相关性来推测符合用户兴趣的图像，这种方法称为协同过滤.相关性通过用户对图像的评分矩阵来衡量，用户、物品和评分对应矩阵中的行、列、值.利用启发式方法或概率统计方法，根据已知的打分来推测未知的打分，从而实现个性化检索.基于协同过滤的个性化图像检索可以分为基于用户的推荐、基于物品的推荐和基于模型的推荐.

1) 基于用户的协同过滤

基于用户的协同过滤方法的基本思想是将与目标用户相似的用户喜欢的物品推荐给目标用户.与传统的基于人口统计信息(性别、年龄、职业等)的“相似”不同，这里所说的“相似用户”是基于用户对物品的打分数据计算的.具体方法为将用户-物品-评分矩阵的每一行看作一个用户，计算某用户与其他所有用户行向量的相似度，选取与该用户最相似的前N个用户，根据这些用户的打分情况进行预测和推荐^[54-55].其中，相似度的计算通常采用欧氏距离、Pearson相关性系数、余弦相似度等指标.

基于用户的方法不需要借助图像内容特征描述用户偏好，避免了人们对图像数据理解及描述上的“语义鸿沟”问题.对不同的用户，其最近邻是不同的，从而产生个性化推荐列表，在数据充分的情况下能够达到较高的准确率，因而得到了广泛应用.但随着用户规模和图像数量的不断增长，一些问题也逐渐显露.首先是冷启动问题，当系统加入一个新用户时，由于缺少该用户对系统内图片的打分数据，而无法找到与其品味相似的用户.其次是数据稀疏性问题，实际应用中，即使比较活跃的用户打过分的图片数量占系统中图片总量比例也较低，这导致基于最近邻的算法不能对某些用户做推荐，降低了算法的准确性.同时，最近邻算法的计算量随用户和图片数量的增加而增大，限制了系统的可扩展性.

2) 基于物品的协同过滤

基于物品的协同过滤基本思想是，为目标用户推荐与其过去喜欢的物品相似的物品. “相似物品”是以用户对物品的打分数据度量的而非物品本身的相似性.与基于用户的协同过滤方法类似，寻找相似物品的方法为将用户-物品-评分矩阵的每一列看作一个物品，计算某物品与其他物品的相似度，据此进行预测和推荐.

简单的预测方法是将与该物品相似度最高的前N个物品推荐给用户.复杂一点的方法是将物品的相似度作为权重对用户评分加权求和，求出的值即为用户对目标物品的评分.实际应用中，欧氏空间距离较远的2个评分向量可能有较高的相似度，因此直接对未经处理的用户评分加权求和可能造成误差较大的结果.为避免这一问题，应用线性回归模型对用户评分进行拟合，用近似的相似物品评分计算加权和^[56].

对于物品变化程度不大或用户数量远远大于物品数量的系统来说，基于物品的协同过滤方法计算简单，便于实现实时响应.相对于基于用户的协同过滤方法，系统的可解释性更好，因为用户对与其相似的用户的信任度远低于对其曾经偏爱的物品的信任度.另外，当用户兴趣发生变化时，系统可以快速做出调整.

基于物品的协同过滤方法仍然存在冷启动问题，当系统中加入新物品时，由于缺少用户行为数据而无法将其推荐给任何用户^[57].基于物品的协同过滤推荐与基于用户的协同过滤推荐方法相比，较少考虑不同用户的特点，在个性化上的表现较差.同时，数据稀疏性问题也影响系统性能.

基于用户和基于物品的协同过滤方法都采用了最近邻算法进行推荐，不同的是相似性的衡量标准是用户还是物品.近邻算法的计算复杂度随着用户或物品数量增长而变大，因此决定了2种方法的适用范围.对于图像数据相对稳定而用户数量大大超过图像数量的应用，基于物品的推荐效率更高；对于图像数量巨大且更新频繁的应用，基于用户的方法更具优势.

基于用户和基于物品的协同过滤方法在许多方面是互补的，实际应用中也很少单独使用一种方法，经常结合使用以获得更好的性能.

3) 基于模型的协同过滤

基于用户和基于物品的协同过滤推荐都依赖于用户对物品的评分，随着数据量的增长，2种方法都难以进行实时处理.基于模型的方法利用历史数据训练出一个模型，然后以此模型进行预测和推荐.该方法以用户和物品的特征为输入，用户对物品的评分为输出，利用奇异值分解、非负矩阵分解等矩阵分解技术，马尔科夫决策过程模型^[58]或贝叶斯分类、聚类、决策树等学习出一个模型并据此进行预测.类似于Sarwar等^[56]提出的线性回归方法拟合用户对目标物品的评分与对相似物品评分的关系，只是该模型的目的是直接预测目标评分而不是对相似评分的近似拟合.

这种方法可以解决基于历史数据的方法面临的冷启动问题，实现实时响应，并能更好地适应稀疏数据^[59]，但对用户新增的喜好反应迟钝，并且模型训练过程复杂费时.

2.3 个性化图像检索与推荐方法的对比

基于内容的个性化图像检索与推荐充分利用了基于内容的图像检索系统的方法，但仍然无法完全克服“语义鸿沟”对检索结果的影响.与基于内容的方法相比，基于协同过滤的个性化图像检索与推荐仅仅需要用户的历史打分数据，而不依赖于图像内容，因此检索过程无需添加标签等人工干预，适用于任何图像类型.基于协同过滤的方法充分利用了社交网络中用户之间的关联信息，但也存在许多基于内容的方法中不存在的问题，如冷启动^[60-61]、打分数据稀疏性问题、历史打分数据无法捕捉用户变化的兴趣爱好等^[62]. 表 3比较了2种方法的优劣.

表 3 基于内容的方法和协同过滤方法的比较

为了解决上述2种方法所存在的问题，可将基于内容的方法和协同过滤结合起来^{[61, 63-64]}. Widisinghe等^[65]采用基于上下文与协同过滤相结合的混合方法进行图像推荐，考虑了用户在不同环境下变化的兴趣偏好. Liu等^[66]采用混合的稀疏主题模型，该模型同时考虑图像内容处理和用户兴趣偏好，采用概率矩阵分解技术解决数据稀疏性问题.

混合方法大致可分为线性混合、顺序混合.线性混合即首先分别采用不同的方法计算得到不同排序结果，然后将它们组合起来得到最终结果，如加权融合、切换、混合.顺序混合包含2个步骤，首先采用一种推荐方法得到一组初步结果，然后在该结果基础上采用第2种方法得到最终精确结果.

3 未来工作

目前，对于个性化图像检索和推荐技术的研究取得了一定的成果，然而，要提高图像检索和推荐的准确率，使其能够应用于实际仍有许多需要解决的问题.

对于基于内容的个性化图像检索和推荐系统，如何减小“语义鸿沟”对结果的影响仍是需要探索的重要领域.一方面可以通过设计更加完善的特征提取算法，提取保留更多有用信息更富表达力的底层特征，为建立底层特征到高层语义的映射提供更加丰富的数据；另一方面，有代表性和识别力的特征表示方法在图像处理相关任务中也非常重要，尤其是在以用户为中心的检索和推荐任务中.如何将包含丰富用户个性化信息的文本数据(如用户评论等)和图像本身的特征结合起来，实现对用户兴趣特征的精确描述，还有待进一步研究.基于深度学习的特征提取方法以其强大的特征学习能力迅速超越了传统手工设计特征，但适应不同任务的网络结构和优化算法还有待进一步探索.在特征表示方面，基于深度学习的散列算法将不同模态的数据映射到高层语义空间，并以二值编码的形式存储，不仅保留了语义信息，而且大大提高了检索效率.通过优化网络结构、设计更加适应目标任务的损失函数，深度散列算法将进一步提高图像检索性能.

对于基于协同过滤的个性化图像检索和推荐系统，用户评分数据稀疏性和冷启动问题仍是限制其应用的主要障碍.在近邻选择上，如何根据用户的活跃程度、评分质量等指标选择具有影响力的用户或用户群；在计算相似用户时，如何加大有影响力用户(群)的作用，降低数据稀疏性带来的影响，使目标用户的近邻选择更加准确可靠，都是未来需要解决的问题.另外，还可以考虑采用与基于内容的方法相结合的混合方法，即利用图像视觉和语义等特征，结合用户的评论、访问历史等个性化信息对用户评分进行预测，最大限度地利用2种数据包含的信息挖掘用户意图.此外，充分利用基于规则的推荐、基于网络结构的推荐等，将多种推荐方法融合以改善推荐效果也是非常有价值的研究课题.

在大数据环境下，传统的个性化图像检索和推荐系统需要应对更高的准确性和实时性要求.如何从快速更新的数据中实时捕捉用户偏好的动态变化，以及获取用户兴趣信息时的隐私保护等问题都有待进一步研究.

4 结束语

图像检索技术可以分为基于文本的图像检索、基于内容的图像检索、基于语义的图像检索、基于上下文的图像检索、基于示例的图像检索、多模态跨模态图像检索和个性化的图像检索与推荐.个性化的图像检索与推荐技术又分为基于内容的图像检索与推荐、基于协同过滤的图像检索与推荐技术.基于内容的图像检索系统中，通常采用底层特征描述图像内容，而用户表达个性偏好的方式通常是对图像内容的文本描述，如标签等，因此个性化图像检索可以看作是将基于内容的图像检索与基于文本的图像检索结合起来的方式，从而不可避免地面临基于文本的图像检索和基于内容的图像检索的一些问题，如标签的不准确性、底层特征与高级语义间的“语义鸿沟”等.基于协同过滤的图像检索与推荐技术有效地克服了上述缺点，通过用户对图像的打分发现具有相似偏好的用户，利用这种相似性推测目标用户可能感兴趣的图像.协同过滤方法不需要任何关于图像的知识，仅需要用户评分数据，与被推荐的内容独立，因此可以适应任何图像类型并可扩展到多种信息的个性化推荐.但基于协同过滤的图像检索与推荐技术也面临冷启动问题，且只能检索已知的用户感兴趣的内容，不利于发现用户的兴趣变化.混合方法通过加权、切换、混合等方法将基于内容的方法与协同过滤结合起来，解决了部分二者存在的问题，提高了检索效率.

关于个性化图像检索和推荐，还有许多待解决的问题值得未来进一步深入研究.

参考文献

[1]	Datta R, Joshi D, Li Jia, et al. Image retrieval:ideas, influences, and trends of the new age[J]. ACM Computing Surveys, 2008, 40(2): 1–60.
[2]	Hiremath P, Pujari J. Content based image retrieval using color, texture and shape features[C]//International Conference on Advanced Computing and Communications. New York:IEEE, 2007:780-784.
[3]	陈慧婷, 覃团发, 唐振华, 等. 综合纹理统计模型与全局主颜色的图像检索方法[J]. 北京邮电大学学报, 2011, 34(S1): 100–103. Chen Huiting, Qin Tuanfa, Tang Zhenhua, et al. A method of image retrievals based on texture probability statistics and global dominant color[J]. Journal of Beijing University of Posts and Telecommunications, 2011, 34(S1): 100–103.
[4]	庄凌, 庄越挺, 吴江琴, 等. 一种基于稀疏典型性相关分析的图像检索方法[J]. 软件学报, 2012, 23(5): 1295–1304. Zhuang Ling, Zhuang Yueting, Wu Jiangqin, et al. Image retrieval approach based on sparse canonical correlation analysis[J]. Journal of Software, 2012, 23(5): 1295–1304.
[5]	Sarwar S, Qayyum Z U, Majeed S. Ontology based image retrieval framework using qualitative semantic image descriptions[J]. Procedia Computer Science, 2013, 22: 285–294. doi: 10.1016/j.procs.2013.09.105
[6]	Liu Ying, Zhang Dengsheng, Lu Guojun, et al. A survey of content-based image retrieval with high-level semantics[J]. Pattern Recognition, 2007, 40(1): 262–282. doi: 10.1016/j.patcog.2006.04.045
[7]	朱道广, 郭志刚, 赵永威. 基于空间上下文加权词汇树的图像检索方法[J]. 模式识别与人工智能, 2013, 26(11): 1050–1056. Zhu Daoguang, Guo Zhigang, Zhao Yongwei. Image retrieval with spatial context weighting based vocabulary tree[J]. Pattern Recognition and Artificial Intelligence, 2013, 26(11): 1050–1056. doi: 10.3969/j.issn.1003-6059.2013.11.008
[8]	Zhou Zhihua, Zhang Minling, Huang Shengjun, et al. Multi-instance multi-label learning[J]. Artificial Intelligence, 2008, 176(1): 2291–2320.
[9]	Wu Qingyao, Ng M K, Ye Yunming. Markov-miml:a markov chain-based multi-instance multi-label learning algorithm[J]. Knowledge and Information Systems, 2013, 37(1): 83–104. doi: 10.1007/s10115-012-0567-9
[10]	李志欣, 施智平, 陈宏朝, 等. 基于语义学习的图像多模态检索[J]. 计算机工程, 2013, 39(3): 258–263. Li Zhixin, Shi Zhiping, Chen Hongchao, et al. Multi-model image retrieval based on semantic learning[J]. Computer Engineering, 2013, 39(3): 258–263.
[11]	Pereira J C, Coviello E, Doyle G, et al. On the role of correlation and abstraction in cross-modal multimedia retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(3): 521–535. doi: 10.1109/TPAMI.2013.142
[12]	Feng Fangxiang, Li Ruifan, Wang Xiaojie. Deep correspondence restricted Boltzmann machine for cross-modal retrieval[J]. Neurocomputing, 2015, 154: 50–60. doi: 10.1016/j.neucom.2014.12.020
[13]	Jiang Qingyuan, Li Wujun. Deep cross-modal hashing[EB/OL]. arXiv preprint, 2016[2016-10]. https://arxiv.org/abs/1602.02255.
[14]	Cao Yue, Long Mingsheng, Wang Jianmin, et al. Deep visual-semantic Hashing for cross-modal retrieval[C]//The 22^nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco:ACM, 2016:1445-1454.
[15]	Ghorab M R, Zhou Dong, O'connor A, et al. Personalised information retrieval:survey and classification[J]. User Modeling and User-Adapted Interaction, 2013, 23(4): 381–443. doi: 10.1007/s11257-012-9124-1
[16]	Skowron M, Tkal M, Ferwerda B, et al. Fusing social media cues:personality prediction from Twitter and instagram[C]//The 25^th International Conference Companion on World Wide Web. Montréal:International World Wide Web Conferences Steering Committee, 2016:107-108.
[17]	Sang Jitao, Xu Changsheng, Lu Dongyuan. Learn to personalized image search from the photo sharing websites[J]. IEEE Transactions on Multimedia, 2011, 14(4): 963–974.
[18]	Liu Dong, Hua Xiansheng, Wang Meng, et al. Boost search relevance for tag-based social image retrieval[C]//IEEE International Conference on Multimedia and Expo. New York:IEEE, 2009:1636-1639.
[19]	Cheung M, She James. Bag-of-features tagging approach for a better recommendation with social big data[C]//The 4^th International Conference on Advances in Information Mining and Management. Berlin:Springer, 2014:83-88.
[20]	邱兆文, 张田文. 基于用户多媒体数据管理模型的个性化图像检索[J]. 电子学报, 2008, 36(9): 1746–1749. Qiu Zhaowen, Zhang Tianwen. Individuation image retrieval based on user multimedia data management model[J]. Acta Electronica Sinica, 2008, 36(9): 1746–1749.
[21]	Fan Jianping, Keim D A, Gao Yuli, et al. JustClick:personalized image recommendation via exploratory search from large-scale flickr images[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2009, 19(2): 273–288.
[22]	Yu Jun, Tao Dacheng, Wang Meng, et al. Learning to rank using user clicks and visual features for image retrieval[J]. IEEE Transactions on Cybernetics, 2015, 45(4): 767–779. doi: 10.1109/TCYB.2014.2336697
[23]	李志欣, 施志平, 李志清, 等. 图像检索中语义映射方法综述[J]. 计算机辅助设计与图形学学报, 2008, 20(8): 1085–1096. Li Zhixin, Shi Zhiping, Li Zhiqing, et al. A survey of semantic mapping in image retrieval[J]. Journal of Computer-Aided Design & Computer Graphics, 2008, 20(8): 1085–1096.
[24]	Zhang Hanwang, Zha Zhengjun, Yang Yang, et al. Attribute-augmented semantic hierarchy:towards bridging semantic gap and intention gap in image retrieval[C]//The 21^st ACM International Conference on Multimedia. New York:ACM, 2013:33-42.
[25]	Jayech K, Mahjoub M A. New approach using Bayesian network to improve content based image classification systems[J]. International Journal of Computer Science Issues, 2012, 7(6): 53–62.
[26]	Kurtz C, Depeursinge A, Napel S, et al. On combining image-based and ontological semantic dissimilarities for medical image retrieval applications[J]. Medical Image Analysis, 2014, 18(7): 1082–1100. doi: 10.1016/j.media.2014.06.009
[27]	Lin Chuenhorng, Chen Chiehchun, Lee H L, et al. Fast k-means algorithm based on a level histogram for image retrieval[J]. Expert Systems with Applications, 2014, 41(7): 3276–3283. doi: 10.1016/j.eswa.2013.11.017
[28]	Deng Jia, Dong Wei, Socher R, et al. Imagenet:a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami:IEEE Press, 2009:248-255.
[29]	Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. Nevada:[s.n.], 2012:1097-1105.
[30]	Karpathy A, Li Feifei. Deep visual-semantic alignments for generating image descriptions[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston:IEEE Press, 2015:3128-3137.
[31]	Xia Rongkai, Pan Yan, Lai Hanjiang, et al. Supervised Hashing for image retrieval via image representation learning[C]//The 28^th AAAI Conference on Artificial Intelligence. Québec City:AAAI Press, 2014:1-2.
[32]	Zhao Fang, Huang Yongzhen, Wang Liang, et al. Deep semantic ranking based Hashing for multi-label image retrieval[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston:IEEE Press, 2015:1556-1564.
[33]	Su Jahwung, Huang Weijyun, Yu Philip S, et al. Efficient relevance feedback for content-based image retrieval by mining user navigation patterns[J]. IEEE Transactions on Knowledge & Data Engineering, 2011, 23(3): 360–372.
[34]	Adomavicius G, Tuzhilin A. Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J]. IEEE Transactions on Knowledge & Data Engineering, 2005, 17(6): 734–749.
[35]	Paik J H. A novel TF-IDF weighting scheme for effective ranking[C]//The 36^th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM, 2013:343-352.
[36]	Whissell J S, Clarke C L. Improving document clustering using Okapi BM25 feature weighting[J]. Information Retrieval Journal, 2011, 14(5): 466–487. doi: 10.1007/s10791-011-9163-y
[37]	Zhang Jing, Zhou Li, Shen Lansun, et al. A personalized image retrieval based on user interest model[J]. International Journal of Pattern Recognition & Artificial Intelligence, 2010, 24(3): 401–419.
[38]	Zhou Dong, Lawless S, Wade V. Improving search via personalized query expansion using social media[J]. Information Retrieval, 2012, 15(3-4): 218–242. doi: 10.1007/s10791-012-9191-2
[39]	Zhang Yin, Jin Rong, Zhou Zhihua. Understanding bag-of-words model:a statistical framework[J]. International Journal of Machine Learning & Cybernetics, 2010, 1(1): 43–52.
[40]	Tu Nguyenanh, Dinh D L, Rasel M K, et al. Topic modeling and improvement of image representation for large-scale image retrieval[J]. Information Sciences, 2016, 366: 99–120. doi: 10.1016/j.ins.2016.05.029
[41]	Shekhar R, Jawahar C V. Word image retrieval using bag of visual words[C]//2012 IEEE 10^th IAPR International Workshop on Document Analysis Systems. New Jersey:IEEE Press, 2012:297-301.
[42]	Yang Jun, Jiang Yugang, Hauptmann A G, et al. Evaluating bag-of-visual-words representations in scene classification[C]//The International Workshop on Multimedia Information Retrieval. New York:ACM, 2007:197-206.
[43]	Liu Lei. Contextual topic model based image recommendation system[C]//IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology. New Jersey:IEEE Press, 2015:239-240.
[44]	Deng Jia, Berg A C, Li Feifei. Hierarchical semantic indexing for large scale image retrieval[C]//IEEE Conference on Computer Vision and Pattern Recognition. New Jersey:IEEE Press, 2011:785-792.
[45]	Jiang Xing, Tan An-hwee. Learning and inferencing in user ontology for personalized Semantic web search[J]. Information Sciences, 2009, 179(16): 2794–2808. doi: 10.1016/j.ins.2009.04.005
[46]	Wan Ji, Wang Dayong, Hoi S C H, et al. Deep learning for content-based image retrieval:a comprehensive study[C]//The 22^nd ACM International Conference on Multimedia. Orlando:ACM, 2014:157-166.
[47]	Geng Xue, Zhang Hanwang, Bian Jingwen, et al. Learning image and user features for recommendation in social networks[C]//IEEE International Conference on Computer Vision. Kerkyra:IEEE Press, 2015:4274-4282.
[48]	Lei Chenyi, Liu Dong, Li Weiping, et al. Comparative deep learning of hybrid representations for image recommendations[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE Press, 2016:2545-2553.
[49]	Burdescu D D, Mihai C G, Stanescu L, et al. Automatic image annotation and semantic based image retrieval for medical domain[J]. Neurocomputing, 2013, 109(8): 33–48.
[50]	Kurtz C, Beaulieu C F, Napel S, et al. A hierarchical knowledge-based approach for retrieving similar medical images described with semantic annotations[J]. Journal of Biomedical Informatics, 2014, 49(C): 227–244.
[51]	Kovashka A, Grauman K. Attribute pivots for guiding relevance feedback in image search[C]//IEEE International Conference on Computer Vision. Las Vegas:IEEE Press, 2013:297-304.
[52]	Tong Simon, Chang Edward. Support vector machine active learning for image retrieval[C]//The 9^th ACM International Conference on Multimedia. New York:ACM, 2001:107-118.
[53]	Rajendran P, Madheswaran M. Hybrid medical image classification using association rule mining with decision tree algorithm[J]. Computer Science, 2010, 3(10): 1173–1178.
[54]	杨恒宇, 李慧宗, 林耀进, 等. 协同过滤中有影响力近邻的选择[J]. 北京邮电大学学报, 2016, 39(1): 29–34. Yang Hengyu, Li Huizong, Lin Yaojin, et al. Influential neighbor selection in collaborative filtering[J]. Journal of Beijing University of Post and Telecommunications, 2016, 39(1): 29–34.
[55]	Zhao Shiwan, Du Nan, Nauerz A, et al. Improved recommendation based on collaborative tagging behaviors[C]//The 13^th International Conference on Intelligent User Interfaces. New York:ACM, 2008:413-416.
[56]	Sarwar B, Karypis G, Konstan J, et al. Item-based collaborative filtering recommendation algorithms[C]//The 10^th International Conference on World Wide Web. New York:ACM, 2001:285-295.
[57]	Zhou Ke, Yang Shuanghong, Zha Hongyuan. Functional matrix factorizations for cold-start recommendation[C]//The 34^th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM, 2011:315-324.
[58]	Thorat P B, Goudar R M, Barve S. Survey on collaborative filtering, content-based filtering and hybrid recommendation system[J]. International Journal of Computer Applications, 2015, 110(4): 31–36. doi: 10.5120/19308-0760
[59]	Ma Zhanyu, Leijon A. A model-based collaborative filtering method for bounded support data[C]//IEEE International Conference on Network Infrastructure and Digital Content. Beijing:IEEE Press, 2012:545-548.
[60]	Fernández-Tobías I, Braunhofer M, Elahi M, et al. Alleviating the new user problem in collaborative filtering by exploiting personality information[J]. User Modeling and User-Adapted Interaction, 2016, 26(2-3): 1–35.
[61]	Yang Chunfeng, Zhou Yipeng, Chen Liang, et al. Social-group-based ranking algorithms for cold-start video recommendation[J]. International Journal of Data Science & Analytics, 2016, 1(3-4): 165–175.
[62]	Candillier L, Meyer F, Boull M. Comparing state-of-the-art collaborative filtering systems[C]//International Workshop on Machine Learning and Data Mining in Pattern Recognition. Berlin Heidelberg:Springer, 2007:548-562
[63]	Sanchez F, Barrilero M, Uribe S, et al. Social and content hybrid image recommender system for mobile social networks[J]. Mobile Networks & Applications, 2012, 17(6): 782–795.
[64]	Lekakos G, Caravelas P. A hybrid approach for movie recommendation[J]. Multimedia Tools & Applications, 2008, 36(1-2): 55–70.
[65]	Widisinghe A, Ranasinghe D, Kulathilaka K, et al. PicSeek:collaborative filtering for context-based image recommendation[C]//International Conference on Information and Automation for Sustainability. Colombo:IEEE Press, 2010:225-232.
[66]	Liu Xianming, Tsai M H, Huang Thomas. Analyzing user preference for social image recommendation[EB/OL]. arXiv preprint, 2016[2016-10-10]. https://arxiv.org/abs/1604.07044.