中国卫生资源  2022, Vol. 25 Issue (1): 139-143  DOI: 10.13688/j.cnki.chr.2022.211151

引用本文  

姜轶岚, 夏寒, 金晓卿. 基于用户个性化需求的一站式信息搜索推送方法研究[J]. 中国卫生资源, 2022, 25(1): 139-143. DOI: 10.13688/j.cnki.chr.2022.211151

基金项目

上海市公共卫生体系建设三年行动计划(2020—2022年)重点学科建设项目“大数据与人工智能应用”(GWⅤ-10.1-XK05);上海市公共卫生体系建设三年行动计划(2020—2022年)学科带头人项目“大数据与人工智能应用”(GWⅤ-10.2-XD06);上海市公共卫生体系建设三年行动计划(2020—2022年)学科带头人项目“流行病学”(GWⅤ-10.2-XD20)

作者简介

姜轶岚,工程师,学士,主要从事卫生信息管理研究,jiangyilan@scdc.sh.cn

通信作者

夏寒,xiahan@scdc.sh.cn

文章历史

收稿日期:2021-09-28
修订日期:2021-12-31
基于用户个性化需求的一站式信息搜索推送方法研究
姜轶岚 , 夏寒 , 金晓卿     
上海市疾病预防控制中心,上海 200336
摘要:基于用户个性化需求的一站式信息搜索推送方法是在考虑信息使用者个体差异与信息需求差异的基础上,通过系统推荐和推送,主动向用户提供其需要的文献信息资源。同时,通过系统主动学习获取用户的兴趣变化挖掘用户潜在需求,随用户兴趣变化更新推送内容,使得信息服务更具有动态性和及时性,提升搜索推送的质量和效率。重点阐述基于个性化需求的一站式搜索推送对于信息资源获取、个体化信息推送的实现方法以及具体实施步骤。
关键词搜索引擎    信息推送    个性化需求    一站式    文献检索    
Keywords: search engine    information push    personalized need    one-stop    document search    

学术数据库是科研工作者获取学术文献资源、了解学术领域前沿技术的重要工具之一。随着信息技术的发展,国内外对学术数据库的研究也逐渐增多,包括数据库建设与评价研究、数据库收录内容的比较和数据库功能优化等[1]。限制于自身的学科特色,单一的学术数据库包含的专业领域有限,为满足不同目的和学科背景查询需求,许多高校图书馆或研究机构利用一站式搜索服务,以简化用户在多个学术数据库中搜索资料、跟踪文献的烦琐步骤。这类一站式搜索服务通常是将已购买或公开的学术数据库进行简单整合,用户通过关键词检索获取文献。然而,由于各数据库检索语句差异,基于关键字的查询方式仍然存在命中率低、资源重复等问题,在某些热门领域,文献资源信息过载,而在某些小众领域,搜索引擎推荐的文献往往并非所需要的文献,这两种情况都需要进一步人工筛选[2-3]

在大数据环境下,个性化推荐由于其根据用户需求、兴趣和行为模式开展有针对性的信息服务的特点,越来越受到关注[4]。个性化推荐可以显著提高信息服务质量和信息资源利用效率,已在多个领域的推荐系统中广泛使用[5]。将日益增加的学术数据库与个性化推荐相结合,满足用户面对海量文献时高效、精准的获取文献等需求,是目前创新学术信息资源检索的探索方向[6]

研究基于个性化需求的一站式信息搜索推送技术,在考虑信息使用者个体差异与需求差异的基础上,通过系统推荐和推送,主动向用户提供其可能需要的学术信息资源。此外,系统还可通过主动学习,获取用户的兴趣变化,挖掘用户潜在信息需求,随用户兴趣的变化更新推送内容,使得信息服务更具有动态性和及时性[7],提升搜索推送的质量和效率。

1 个性化信息管理

该信息搜索推送技术通过在服务端建立一个分布异构的统一检索平台,一方面对信息资源管理和检索系统进行标准化集成,另一方面也作为统一用户接口,向用户主动、有针对性地推送其可能感兴趣的文献数据资源。在功能上主要表现为对用户个性化信息收集和信息资源推送两方面[8]。有研究表明,不同的用户行为均能反映用户兴趣,尤其是用户浏览行为,如页面驻留时间、鼠标点击量和鼠标滚动时间等[9]。这些用户浏览行为可量化为用户兴趣度数值,通过对用户行为、需求偏好的结构化描述,以及对用户的检索行为连续追踪,并通过收集、整理、提取、分类、组织,得到其相关的特征项,从而构造出用户的兴趣模型,实现个性化信息收集的度量。

1.1 用户兴趣模型的构建

用户兴趣建模是指在服务端从当前用户对应的兴趣特征集与用户标识信息中提炼出可量化兴趣模型的过程。建模过程中不要求用户主动输入兴趣信息,而是对用户行为进行量化计算得到用户兴趣特征词,构建以用户标识和用户兴趣特征集两部分组成的“1+NX”逻辑数据模型。模型中的“1”是指用户标识,主要包括用户注册信息,如姓名、性别、年龄、职业和兴趣爱好等,这些信息内容相对稳定;模型中的N代表用户兴趣类别,X表示各类别中的用户兴趣特征词。用户兴趣模型构成见图 1


图 1 用户兴趣模型构成

第一,对用户行为按照时间维度(如停留时间)、频次维度(如访问次数、下载次数)和行为维度(查询关键词、浏览页面、访问频率等)进行分类;第二,采用手动归类的方法,按照用户个性化类目中父子关系的等级体系,得到用户个性化手动归类的特征词;第三,在不同的类目下,按照模型学习后得到类目下特征词,特征词为表示文本内容的词,依据不同层次可以划分为多个类别,底层特征词以字为基础,向上发展为词、短语、句子。

具体来说,手工分类得到用户个性化类目后,在各类目内,对收集的用户行为信息进行分析,得到用户行为序列集等参数,计算行为簇内的平均相似度和簇间相似度,并综合相似计算,分析挖掘用户兴趣特征词。以用户个性化手动归类的特征词以及前期用户兴趣模型学习后的特征词共同构成用户兴趣特征集,两者均为二元组的集合,均包括特征词以及特征词对应的权重。用户兴趣模型学习后的特征词权重默认为1;用户个性化手动归类的特征词的权重f(t),采用如下公式来计算

$ {\rm{f}}\left( t \right) = \frac{c}{{{2^{l + 1}}}}, l \in \left\{ {0, 1, 2} \right\} $

式中:l为特征词在分类体系结构中相差的层数,c的经验值设为1。借此,将用户个性化手动归类体系与读者兴趣模型联接起来。上述公式体现了用户个性化手动归类的分类体系中越靠近底层的分类标签,对读者兴趣的“贡献”越大。这与人们在对阅读文献进行分类时的直觉是相一致的。

通过用户行为的分析与挖掘,结合用户标识信息,推测用户的搜索需求,并预测用户搜索偏好。

1.2 用户兴趣模型的更新

随着用户研究的推进、主题的变更等,用户兴趣会同步变化。因此,用户兴趣模型需要不断更新,通过用户与系统之间进行不断的交互、学习与更新,及时精确跟踪用户需求,为其提供准确的个性化需求信息检索推送服务。在初始化时,用户兴趣特征集为一个空集,依据前述用户兴趣模型构成(图 1)中各项要素的实时变化,包括用户检索和浏览行为的变化,以及用户个性化手动归类体系的变化等来动态更新用户兴趣模型,把握用户需求变化,更新个性化服务。

1.3 信息资源推送

通常是以向量空间模型(vector space model,VSM)方法计算文本相似度来决策拟推送文献。该模型采用TF-IDF(terms frequency * inverse document frequency)加权方案,用特征项及其相应权值来表征信息的语义,新信息和用户兴趣模型都采用向量表示。在需要给用户推送新信息时,新信息和用户兴趣模型的相关程度通过上述向量空间模型运算来描述。

本系统考虑到余弦相似度相较于向量空间模型中距离度量要更加注重两个向量在方向上的不同[10],所以通过两向量间夹角的余弦值来对文本间的差异进行衡量,并计算其相似度。这样,为用户提供检索结果时,可按夹角余弦相似度由大到小的顺序对搜索结果重新排序,从而使得读者文献阅读兴趣建模及其个性化文献推荐更具有针对性。

2 实现步骤与效果

信息推送过程的实现核心流程是跟踪用户行为、获取用户的兴趣和需求、建立用户兴趣模型,然后针对用户标识信息进行智能分析,利用信息过滤匹配技术,自动并实时地搜集网络中符合用户需求的信息,最后将动态生成的结果在适当的时候以友好的方式向用户推送。因此,基于用户个性化需求的一站式信息搜索推送方法包括以下主要内容。

2.1 一站式搜索平台

研究提供的一站式搜索平台包的含学术数据库种类丰富,同时用户操作便捷。用户检索的操作步骤如下:

(1)用户在搜索框内输入需要查询的内容,选中搜索框下方的数据库,根据个人需求选择数据库进行检索,其中包含各大主流学术数据库,分为中文数据库(如百度学术、人大复印报刊、万方知识平台和中国知网等)和外文数据库(如PubMed、JAMA、Springer和World Scientific等),入口界面如图 2所示。


图 2 一站式搜索入口界面

(2)系统会根据用户输入的内容,在选择的数据库中同时进行检索,依据不同的搜索指令,从参与一站式检索的文献数据库中实时获取搜索结果。用户可根据自身需求,使用依据关键词得出的语义脑图或其他关键词对检索结果进行二次检索,或按照发布年份、作者、期刊和开放获取(OA)类型选择特定类型的学术资源。此外,如所检索学术资源为循证医学类,还可按需选择循证医学等级。例如,输入“肺炎”,结果如图 3所示。


图 3 一站式搜索结果界面

以上实施步骤的内部算法流程如图 4所示。首先,服务端接收用户创建的搜索请求,在解析为搜索表达式后,创建并发送搜索会话。其次,在客户端返回查询会话信息后,请求创建搜索表达式,服务端则判断是否支持该搜索范围与是否有效。最后,数据库处理服务端所发送的请求,服务端在接收检索结果后利用内部算法分析检索得到的文献,再将算法结果返回至客户端,最终用户获得的是整合完成的文献结果。


图 4 一站式搜索算法流程
2.2 个性化检索热词推荐

基于用户以往的检索和浏览行为的推荐算法,系统以热词云模式向用户推荐个性化热词入口(图 5)。根据推荐度不同,热词的大小不同,推荐程度越高的热词越显眼,点击热词云中的兴趣词,系统会直接进入到该兴趣词的搜索结果页面,快速锁定与用户既往研究领域相关联的关键词,降低用户检索成本。


图 5 个性化搜索热词云图
3 应用特点

基于用户个性化需求的一站式搜索推送技术不要求用户掌握复杂的信息检索技术,甚至不要求用户明确提出信息需求,不但能够准确有效地满足用户的个性化信息需要,还可以减少用户查询信息过程中的体力和脑力支出。这种推送模式除了能够主动采集、整理和发布信息外,还具有智能化的特征[11]

一方面,与传统单一的学术数据库搜索技术不同,本研究所提供的推送技术创新性地对用户需求进行了个性化定制。个性化定制的推送方法针对用户需求信息的差异,通过对用户标识信息和系统记录的用户访问习惯、偏好等信息的分析,向用户推荐其可能感兴趣的资源,提高检索效率与效果,以达到基于用户个性化需求的搜索推送,满足用户不同的文献资源需求[12]。目前,已有公共图书馆正逐步开展个性化推荐与数字图书馆相结合的技术,以利用数据挖掘等智能信息技术手段提升用户借阅体验[13],而学术数据库领域的应用则较少。相较于公共图书馆内主要以休闲阅读为主的用户需求,用户查询学术文献资源的目标更明确,同时,学术数据库内新文献的增加速度更快、种类更加繁杂。这就要求用户在每一次检索时都要辨别不同学术数据库中的文献资源,判断重复与更新内容,有着极高的学习成本。个性化定制依托用户既往检索行为,检索历史越久、内容越丰富,则个性化定制结果越准确,逐步降低用户学习成本,简化搜索过程。

另一方面,本研究所提出的技术推送连续有效,进一步优化个性化推送效果及检索服务。系统通过跟踪用户行为学习并记忆用户兴趣,建立个性化用户模型,将用户过去的信息搜索行为作为下一次搜索时的参考。这样,在搜索引擎“学习”了用户的行为特征后,其搜索结果会越来越符合用户的个性化需求[14],也可对获取的最新资料或更新结果进行过滤,保证用户连续、及时跟踪到希望关注的相关领域文献。多数科研工作者往往专精于某一特定领域,学术上的连贯性使得用户所查询的既往信息资源关联性更强,既使得搜索引擎的“学习”效果越来越好,又可以进一步满足用户在该领域内获取信息资源的需求,形成连续有效的推送循环。

“一站式”搜索推荐避免了用户在多个数据库中频繁操作检索或遗漏某些重要数据库内信息的麻烦,为用户提供全面的个性化服务奠定了基础[15]。目前多数一站式检索平台仅限于高校或研究机构本馆的资源,难以达成资源共享共建,其深度和广度有待进一步扩展,也增大了用户获取信息的难度[16]。研究创新性地推出一站式主动服务,实现“信息找人”的服务模式,并将推送的服务和资源汇集起来,使用户能够一步精确到位地得到所需要的信息资源,缩短了用户寻找信息的时间,使搜索引擎推送信息更为便利,从而提升信息资源利用的效率、质量和可信度[17]

4 结语

基于用户个性化需求的一站式信息搜索推送方法解决了目前一站式搜索平台信息过载、关键词搜索低效等问题,提高了用户学术信息资源搜索准确率和利用率,为后续相关研究提供了一定基础。后续将在现有技术基础上,继续研究信息过滤技术,根据用户需求对信息流进行动态过滤,提高获取信息的效率。通过构建过滤模型,结合智能算法将不相关的信息单元过滤掉,仅保存符合要求的信息,并在过滤模型中加入词的位置、顺序、权重等参数增强过滤的准确性,融合信息过滤技术,进一步提升用户个性化需求一站式搜索推送方法的适用性。

·作者声明本文无实际或潜在的利益冲突

参考文献
[1]
娄策群, 王雪莹, 李罗佶. 基于KANO模型的国内学术文献数据库的功能需求研究[J]. 图书馆学研究, 2020(3): 48-53.
[2]
何美琴, 陈刚. 区域高校图书馆一站式书目检索平台研究[J]. 情报科学, 2011, 29(4): 560-562.
[3]
何莹莹. 高校图书馆一站式知识服务模式研究[D]. 长春: 吉林大学, 2011.
[4]
丁浩, 艾文华, 胡广伟, 等. 融合用户兴趣波动时序的个性化推荐模型[J]. 数据分析与知识发现, 2021, 5(11): 45-58. DOI:10.11925/infotech.2096-3467.2021.0292
[5]
赵佳慧. 基于个性化搜索推荐的技术论坛的设计与实现[D]. 长春: 吉林大学, 2021.
[6]
晋高杰. 基于内容过滤的高校图书馆文献资源个性化推荐研究[D]. 天津: 河北工业大学, 2018.
[7]
林龙. 从iGoogle谈个性化信息推送服务[J]. 科技情报开发与经济, 2009, 19(3): 109-111. DOI:10.3969/j.issn.1005-6033.2009.03.056
[8]
袁银池, 王秀红, 金玉成. 基于用户阅读行为的主动推送微服务模式研究: 以专利文献为例[J]. 情报理论与实践, 2017, 40(1): 98-103.
[9]
李晨, 邹小筑. Web 2.0环境下搜索引擎的个性化服务模式研究[J]. 图书情报工作, 2013, 57(S1): 148-151.
[10]
谭静. 基于向量空间模型的文本相似度算法研究[D]. 成都: 西南石油大学, 2015.
[11]
王妙娅. 商业网站面向我国公众的个性化信息服务方式[J]. 情报科学, 2005, 23(2): 287-291. DOI:10.3969/j.issn.1007-7634.2005.02.032
[12]
李昕. 图书馆个性化信息服务分析[J]. 现代情报, 2007(4): 56-59. DOI:10.3969/j.issn.1008-0821.2007.04.019
[13]
邵必林. 知识图谱视角下我国图书馆个性化推荐研究趋势分析[J]. 图书馆工作与研究, 2021(2): 88-98.
[14]
张云瑾. 试论网络环境下的一站式个性化信息服务[J]. 福建师范大学学报(哲学社会科学版), 2004(5): 138-141, 145. DOI:10.3969/j.issn.1000-5285.2004.05.025
[15]
游大鸣, 闻年喜, 朱福萌. 构建军校图书馆"一站式"服务模式探讨[J]. 情报理论与实践, 2006, 29(2): 250-252. DOI:10.3969/j.issn.1000-7490.2006.02.032
[16]
解金兰, 王雅娟. 基于新门户建设的信息资源一站式检索服务研究: 以我国重点高校图书馆为例[J]. 情报理论与实践, 2013, 36(8): 62-65.
[17]
夏寒, 夏天, 徐建时. 基于区域卫生信息平台的疾病预防控制业务应用与数据共享[J]. 中国卫生统计, 2014, 31(6): 1087-1089.