大数据时代政府关于隐私保护的法律法规盛行,如《通用数据保护条例》(general data protection regulation)[1],数据在政策的限制下分散在不同的载体/组织中,因此保护隐私的机器学习在学术界和工业界都备受重视。在实现隐私保护机器学习的各种技术中,联邦学习(federated learning,FL)[2]受到高度重视,它最初由Google提出,目标是基于分布在每个用户手机上的数据学习一个统一的模型,用户的原始信息无需转移到中央服务器,从而实现了隐私保护。经证明,FL与在原始数据上学习到的传统模型相比,预测能力几乎相同[3]。
随着互联网和电子商务的迅猛发展,推荐系统成为企业提高市场竞争力的重要工具。其中,协同过滤 (collaborative filtering,CF) 是最著名的一种推荐算法[4],有2种实现方法:一种是基于近邻[5],另一种是基于矩阵分解[6]。其中基于近邻的协同过滤又分为基于用户的协同过滤和基于物品的协同过滤,分别依据用户消费行为上的相似性或消费产品间的相似性来实现个性化的产品推荐。一般来说,客户的历史信息越详细,推荐结果越准确。
由于没有足够多的客户数据,许多中小型公司无法获得满意的推荐模型。为了解决这个问题,通常采取的解决方案有:1) 请求另一家拥有庞大客户数据库的公司帮助;2) 与其他多家拥有相对较小客户数据库公司合作,共同创建一个大的数据库[7]。公司间无法简单地共享或允许彼此完全访问其数据库,因为这可能会造成客户隐私数据外泄。文献[8]表明,70%~89.5%的互联网用户认为个人隐私信息面临泄露风险。鉴于联邦学习处理数据孤岛和隐私保护问题的有效性和实用性,与联邦学习相结合的协同过滤推荐算法成为目前推荐系统领域的一个研究热点[9]。
冷启动是协同过滤算法应用中经常会遇到的问题,分为新用户冷启动、新项目冷启动、系统冷启动等。当系统中有新用户加入时,由于该用户在系统中没有历史评分数据,不能根据传统算法计算用户间的相似度,也就无法为其进行推荐,这就是协同过滤算法的新用户冷启动问题[10]。在现有的与联邦学习相结合的协同过滤推荐算法的研究中,对用户冷启动问题的研究比较少,因此对联邦学习协同过滤算法中用户冷启动问题的研究具有迫切的意义。
1 相关工作本文的研究是3个研究主题的交叉点:联邦学习、协同过滤推荐算法中的隐私保护问题和冷启动问题。
1.1 联邦学习随着信息革命的发展,海量的数据在不断产生,如何合理有效地利用这些数据成为一个热点方向。由于隐私政策的保护,很多数据不能被轻易地获取,数据间相互隔离,形成了一个个数据孤岛。如何建立数据孤岛间沟通的桥梁,打破数据之间的界限,成为一个热点方向。谷歌研究院提出了联邦学习的概念,即通过只在各节点间传递模型参数,而不分享模型间数据的方式训练一个共享的数据模型。联邦学习成为解决数据隐私保护的一个有利工具。联邦学习旨在满足数据隐私保护、数据安全和政府法规的前提下,进行数据的使用和建模。根据数据划分的方式,联邦学习可分为纵向联邦学习以及横向联邦学习[11]。迄今为止,有许多研究致力于联邦学习算法,以支持更多的机器学习模型,包括深度神经网络(deep neural network,DNN)[12]、梯度提升树(gradient boosting decision tree,GBDT)[13]、逻辑回归、支持向量机[14]。
本文主要关注在纵向联邦的场景下实现推荐系统的冷启动问题。
1.2 推荐系统的隐私保护推荐系统(recommendation systems, RS)收集和学习用户对一系列项目的偏好信息,并预测用户对新物品或项目的兴趣程度,产生推荐列表。用户的偏好信息可以是显性的(基本上是通过收集用户的评分)或隐性的(基本上是通过监测用户的交互记录,如访问过的网页、购买过的软件、阅读过的书籍和刷过的短视频等隐性推断关于某物品的兴趣程度)[15-17]。根据输入数据的类型,推荐模型主要分为协同过滤式推荐系统[17]、基于内容的推荐系统[18]和基于知识的推荐系统[19]。在实践中,推荐系统已经被广泛地应用于各种应用中,如电子商务[20-21]、娱乐[22-23]、新闻[24-25]和社交平台[26-27]。
由于个人对物品的偏好往往涉及到个人的隐私信息,长期以来,推荐系统中如何保护隐私信息受到许多学者关注。许多研究使用差分隐私的方法保护用户评价记录的隐私性[1]。联邦学习通过数据不出本地、仅传输用户梯度的方式,进一步保障用户的隐私不被窃取。联邦推荐系统可以与差分隐私、多方安全计算等技术结合,灵活有效地在不泄露用户隐私的前提下实现推荐系统性能的提升。
协同过滤是推荐系统中最常用、应用范围最广的算法之一,也是本文讨论的主要算法。针对协同过滤算法中的隐私保护问题,有多种方法可以解决。如文献[15]针对集中式数据,采用随机扰乱技术,提出了一个保护隐私的协同过滤推荐方案;文献[28]在差分隐私框架中提出了协同过滤算法;文献[29]使用同态加密计算协同过滤过程的中间值,中间值解密后通过奇异值分解和因子分析产生推荐建议;文献[30]提出了一种基于同态密码的协同过滤算法;文献[31]提出了一种新的兴趣点推荐隐私保护框,在联邦学习中采用安全聚合的策略来学习特征交互模型;文献[32]提出了一种新的分布式矩阵分解框架用于兴趣点推荐,该框架具有可扩展性,能够保护用户隐私。
1.3 协同过滤及其冷启动问题协同过滤是一种基于矩阵分解的推荐算法。在已知用户的历史评分矩阵
针对协同过滤算法中冷启动问题,文献[33]提出了一种基于协同矩阵分解的用户冷启动推荐算法,来处理用户冷启动问题。文献[34]将计算相似性的不对称方法与矩阵分解和基于典型性的协同过滤(tyco)相结合,实现了一种改进的电影推荐算法。然而目前对冷启动问题的研究一般基于单方数据库,具有一定的局限性,有少数学者对多方参与的协同过滤冷启动问题进行了探索。文献[35]引入联邦多视图矩阵分解方法,将联邦学习框架扩展到具有多个数据源的矩阵分解。经证明,该方法对于多数据源冷启动推荐有较好的预测效果。
本文提出的方法联合多方数据,打通了数据孤岛,在进行隐私保护的同时,解决了协同过滤中的冷启动问题。
2 纵向联邦协同过滤中的冷启动定义在本节中,对纵向联邦协同过滤中的冷启动问题给出正式的公式定义。
本文考虑采用基于纵向联邦学习的协同过滤方法。其中,联邦协同过滤可以由多方进行联合训练,为了方便起见,本文均以两方为例。假定联邦参与公司A、B都是半诚实的,这意味着他们会遵守协议,但也会尽可能地从执行中推断信息。因此在本文中,由于评分属于隐私信息,A、B双方均不能直接交换评分。在此假定A需要解决新用户冷启动问题,与B联合进行基于物品的协同过滤训练,最终A、B均能获得两方物品的相似度矩阵,B通过相似度矩阵与物品评分对A物品进行评分预测,将预测值排序并返回A推荐物品id。最终,在不泄露评分信息的情况下,A获得了针对新用户的物品推荐顺序。
如图1,机构A为了解决本地新用户的冷启动问题,与机构B进行合作。假设A与B是纵向联合,A与B共有用户
Download:
|
|
根据文献[36]提出的框架,协同过滤主要分为3个步骤:
1)物品相似度计算:根据评分信息,计算物品i与其他物品相似度;
2)邻近样本选择:这一步主要是为了提高推荐算法的效率和精确度;
3)预测推荐:对用户
1)计算物品相似度:为了计算A方物品与B方物品的相似度,采用皮尔森相关系数进行计算,令
$ {{\rm{sim}}_{ij}} = \frac{{\displaystyle\sum\limits_{u = {n^\prime } + 1}^n {\left( {{v_{ui}} - \overline {{v_i}} } \right)} \left( {{v_{uj}} - \overline {{v_j}} } \right)}}{{\sqrt {\displaystyle\sum\limits_{u = {n^\prime } + 1}^n {{{\left( {{v_{ui}} - \overline {{v_i}} } \right)}^2}} } \sqrt {\displaystyle\sum\limits_{u = {n^\prime } + 1}^n {\left( {{v_{u,j}} - \overline {{v_j}} } \right)} } }} $ |
式中:
$ {{\rm{sim}}_{ij}} = \sum\limits_{u = n' + 1}^n {{c_{ui}}} {c_{uj}} $ |
其中:
$ {c_{ui}} \!\!\!=\!\!\! \dfrac{{{v_{ui}} - {{\bar v}_i}}}{{\sqrt {\displaystyle\sum\limits_{u = n'\! +\! 1}^n \!\!{{{\left( {{v_{ui}} \!-\! {{\bar v}_i}} \right)}^2}} } }} $ | (1) |
$ {c_{uj}} \!\!\!=\!\!\! \dfrac{{{v_{uj}} - {{\bar v}_j}}}{{\sqrt {\displaystyle\sum\limits_{u = n'\! +\! 1}^n \!\!{{{\left( {{v_{uj}} \!-\! {{\bar v}_j}} \right)}^2}} } }} $ | (2) |
显然,计算
2)选择近邻:由于本文针对的是新用户的冷启动推荐问题,将所有物品都作为邻近样本,允许使用不相似的物品来进行计算,增加推荐覆盖率。
3)预测推荐:为了对机构A的新用户进行推荐,采用B机构里的评分信息进行预测:
$ {{\rm{pred}}_{ui}} = \frac{{\displaystyle\sum\limits_{j = {m^\prime } + 1}^m {{v_{uj}}} {{\rm{sim}}_{ij}}}}{{\displaystyle\sum\limits_{j = {m^\prime } + 1}^m {\left| {{{\rm{sim}}_{ij}}} \right|} }} $ |
式中:
文献[37]提出了一种基于第3方的一种安全内积计算协议。
为了计算
算法1 安全内积算法
多方 A、B以及第3方T;
输入 A:
输出 A:
1) T方随机产生2个随机向量
2) A将
3) B将
4) A计算可公开信息
5) B计算可公开信息
由于
Download:
|
|
为了使A、B双方能够在数据不泄露的情况下进行新用户的推荐,将协同过滤与安全内积相结合,构建联邦学习协同过滤冷启动解决算法。框架内容如图3所示,由受信任的第3方T以及A、B两方构成。如前文所述,假设A、B两方都是半诚实的,同时第3方T也不与A、B两方勾结。
Download:
|
|
联邦协同过滤冷启动算法的主要步骤包括:
1) 基于安全内积算法,A、B端根据式(1)、(2)在本地分别计算
2) 第3方T随机产生2个随机向量
3) A将
4) A分别计算
5) T计算
6) B根据
由图3中可看出,每一方并不能直接收到对方的原始评分,且由于增加了随机项,不能从中间结果进行对原数据的反推,因此达到了隐私保护的作用。
4 实验与结果 4.1 度量标准本文采用Top-N推荐,采用2种不同的评估方法进行模型评价。
1) 阈值击中评价
推荐评估指标采用精确率Precision、查全率Recall以及
$ {\rm{Precision}}=\dfrac{\displaystyle\sum_{u=1}^{{n}'}|{R}_{u}\cap {T}_{u}|}{\displaystyle\sum_{u=1}^{{n}'}\left|{R}_{u}\right|} $ |
$ {\rm{Recall}}=\dfrac{\displaystyle\sum_{u=1}^{{n}'}\left|{R}_{u}\cap {T}_{u}\right|}{\displaystyle\sum_{u=1}^{{n}'}\left|{T}_{u}\right|} $ |
$ F_1-{\rm{score}} = 2 \dfrac{{{{ {\rm{precision}} }} \times {{ {\rm{recall}} }}}}{{{{ {\rm{precision}} }} + {{ {\rm{recall}} }}}} $ |
式中:
2) 留一法 (leave-one-out)评价
对于测试集里的每个用户,都保留其最新一条评分信息进行验证。由于在评价过程中对每个用户都进行排序比较耗时,所以本位采用了常用的策略[35-36],即对于每个用户随机抽取30个没有评分的物品,并且对其评分预测排序。在此设定推荐个数为10,将该30个物品与最新评分物品的预测评分进行排序,若最新评分物品排在前10则视为击中。评估指标采用命中率 (hit ratio, HR)[37]以及归一化折现累计增益(normalized discounted cumulative gain,NDCG)来判断排序列表的性能。HR直观地衡量测试物品是否在前10,而NDCG根据击中的位置进行评估。
4.2 数据集本文实验采用GroupLens提供的网络开源数据集MovieLens 1M为例,整个数据集包括了6 040个电影用户对3 706部电影的1 000 209条评分,评分范围为1~5。由于本文针对基于物品协同过滤的冷启动问题,因此只取数据集中的用户−电影评分集作为实验数据。
该评分数据集均对用户及电影进行了ID处理,因此在进行计算过程中用户ID及电影ID不视为隐私数据。同时有较多数的电影只被极少数的用户进行评分,该部分电影对新用户的推荐起较少的作用,因此将用户评分率低于10%的电影进行删除,处理后的用户−电影数据维度为6 040 498。
为了衡量冷启动推荐的效果,将用户分割为2部分,新老用户比例为2:8,在新用户与老用户中的数据进行了纵向分割,随机分成A、B 2个部分,并且通过改变A、B的分配比例
第1个实验是通过变化A、B间分配比例P的取值来观察当联合多方数据训练模型时,取何值效果会比较理想。第2个实验中,将该算法和一个基于物品平均评分的无偏差推荐基线算法进行评估指标的比较。
1) 不同B机构比例的实验结果
令P代表B数据量在总数据量中的占比,当P越大时,代表B所拥有的信息越多。由于在实际场景中,两方机构所含有的物品特征不全是一致的,A可能会与规模较大的机构合作,也可能会与规模较小的机构合作。
从表1中可以看出当B的占比越大,无论阈值c取3或4(当用户评分>=阈值时,才算击中),对于A机构的冷启动推荐效果都更好,这与直观相符合,当外部提供的信息越多,对自身的帮助会越大。对于HR及NDCG,也可以看到随着B的占比上升,总体趋势也为上升。阈值c为4时召回率均大于阈值为3,这说明本文的方法对于高评分物品推荐的效果较好。
2) 基准算法与本文算法的结果对比
为验证方法可行性,采用一个基准算法来作对比。采用的基准算法为只取A方的数据对各个物品评分取平均,并将其平均分排序最高的前N个对新用户进行无偏差的推荐。本文以A、B机构均占50%,即
从表2结果可以发现,当阈值取3以及取4时,本文算法均比基准算法有一定的提高。当阈值取3,可以看到无论是精确度还是查全率都有一定的提升,其中F1值较基准算法提升了约7%。当阈值取4时,F1值较基准算法提升了约6%。
从表3中可以看到留一法的评估结果,相较基准算法,本文算法的击中率(HR)有较大的提升,约12.5%,但NDCG的提升效果较小,约9.6%。说明该算法对于推荐的击中效果有较大的提升,而对于击中的位置提升的效果较小。
5 结束语本文首先介绍了基于物品的协同过滤算法以及安全内积算法,并针对新用户的冷启动问题,提出了一种基于联邦学习的协同过滤冷启动解决算法。该算法针对某一方的新用户冷启动问题,通过与其他方数据进行联合,在不泄露信息的情况下进行相似矩阵的计算,最终解决冷启动问题。实验结果表明,本文提出的联邦学习冷启动方法在准确度均有一定的提升,同时实验证明当联合规模较大的数据进行联合训练时,对于本地的推荐效果会有较大的提升。该方法不仅提供了一种解决协同过滤冷启动的方法,也在运用联邦学习解决冷启动的方向带来了一定的启发。
[1] | ALBRECHT J P. How the GDPR will change the world[J]. European data protection law review, 2016, 2(3): 287–289. DOI:10.21552/EDPL/2016/3/4 (0) |
[2] | SHI E, CHAN T H H, RIEFFEL E, et al. Distributed private data analysis: lower bounds and practical constructions[J]. ACM transactions on algorithms, 2017, 13(4): 50. (0) |
[3] | KIM S, KIM J, KOO D, et al. Efficient privacy-preserving matrix factorization via fully homomorphic encryption: extended Abstract[C]//Proceedings of the 11th ACM on Asia Conference on Computer and Communications Security. Xi'an, China, 2016: 617–628. (0) |
[4] | SARWAR B, KARYPIS G, KONSTAN J, et al. Item-based collaborative filtering recommendation algorithms[C]//Proceedings of the 10th International Conference on World Wide Web. Hong Kong, China, 2001: 285–295. (0) |
[5] | HERLOCKER J L, KONSTAN J A, BORCHERS A, et al. An algorithmic framework for performing collaborative filtering[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. California, Berkeley, USA, 1999: 230–237. (0) |
[6] | KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8): 30-37. (0) |
[7] | RENNIE J D M, SREBRO N. Fast maximum margin matrix factorization for collaborative prediction[C]//Proceedings of the 22nd International Conference on Machine Learning. New York, USA, 2005: 713–719. (0) |
[8] | KOBSA A. Privacy-enhanced web personalization[M]. BRUSILOVSKY P, KOBSA A, NEJDL W. The Adaptive Web: Methods and Strategies of Web Personalization. Berlin: Springer, 2007: 628–670. (0) |
[9] | JECKMANS A, TANG Qiang, HARTEL P. Privacy-preserving collaborative filtering based on horizontally partitioned dataset[C]//Proceedings of 2012 International Conference on Collaboration Technologies and Systems. Denver, USA, 2012. (0) |
[10] | QIAO Yu, LI Lingjuan. Research on resolving strategies of the cold start problem of recommendation system [J]. Computer technology and development, 2018, 28(2): 83–87. (0) |
[11] | YANG Qiang, LIU Yang, CHEN Tianjian, et al. Federated machine learning: concept and applications[J]. ACM transactions on intelligent systems and technology, 2019, 10(2): 12. (0) |
[12] |
乔雨, 李玲娟. 推荐系统冷启动问题解决策略研究[J]. 计算机技术与发展, 2018, 28(2): 83-87. QIAO Yu, LI Lingjuan. Research on solution of solving cold start problem in recommender systems[J]. Computer technology and development, 2018, 28(2): 83-87. DOI:10.3969/j.issn.1673-629X.2018.02.019 (0) |
[13] | ZHAO Lingchen, NI Lihao, HU Shengshan, et al. InPrivate digging: enabling tree-based distributed data mining with differential privacy[C]//Proceedings of 2018 IEEE Conference on Computer Communications. Honolulu, USA, 2018: 2087–2095. (0) |
[14] | SMITH V, CHIANG C K, SANJABI M, et al. Federated multi-task learning[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, USA, 2017: 4427–4437. (0) |
[15] | HSU C C, YEH M Y, LIN Shude. A general framework for implicit and explicit social recommendation[J]. IEEE transactions on knowledge and data engineering, 2018, 30(12): 2228–2241. (0) |
[16] | CHEN Shulong, PENG Yuxing. Matrix factorization for recommendation with explicit and implicit feedback[J]. Knowledge-based systems, 2018, 158: 109–117. (0) |
[17] | JAWAHEER G, SZOMSZOR M, KOSTKOVA P. Comparison of implicit and explicit feedback from an online music recommendation service[C]//Proceedings of the 1st International Workshop on Information Heterogeneity and Fusion in Recommender Systems. New York, USA, 2010: 47–51. (0) |
[18] | PAZZANI M J, BILLSUS D. Content-based recommendation systems[M]. BRUSILOVSKY P, KOBSA A, NEJDL W. The Adaptive Web: Methods and Strategies of Web Personalization. Berlin, Heidelberg, Germany: Springer, 2007: 325–341. (0) |
[19] | BURKE R. Knowledge-based recommender systems[J]. Encyclopedia of library and information systems, 2000, 69(S32): 175-186. (0) |
[20] | WANG Jizhe, HUANG Pipei, ZHAO Huan, et al. Billion-scale commodity embedding for E-commerce recommendation in Alibaba[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. London, United Kingdom, 2018: 839–848. (0) |
[21] | HWANGBO H, KIM Y S, CHA K J. Recommendation system development for fashion retail E-commerce[J]. Electronic commerce research and applications, 2018, 28: 94–101. (0) |
[22] | HERLOCKER J L, KONSTAN J A, RIEDL J. Explaining collaborative filtering recommendations[C]//Proceedings of the 2000 ACM Conference on Computer Supported Cooperative Work. Pennsylvania, Philadelphia, USA, 2000: 241–250. (0) |
[23] | SUBRAMANIYASWAMY V, LOGESH R, CHANDRASHEKHAR M, et al. A personalised movie recommendation system based on collaborative filtering[J]. International journal of high performance computing and networking, 2017, 10(1/2): 54–63. (0) |
[24] | ZHENG E, KONDO G Y, ZILORA S, et al. Tag-aware dynamic music recommendation[J]. Expert systems with applications, 2018, 106: 244-251. DOI:10.1016/j.eswa.2018.04.014 (0) |
[25] | ZHENG Guanjie, ZHANG Fuzheng, ZHENG Zihan, et al. DRN: a deep reinforcement learning framework for news recommendation[C]//Proceedings of the 2018 World Wide Web Conference. Lyon, France, 2018: 167–176. (0) |
[26] | COLOMO-PALACIOS R, GARCÍA-PEÑALVO F J, STANTCHEV V, et al. Towards a social and context-aware mobile recommendation system for tourism[J]. Pervasive and mobile computing, 2017, 38: 505-515. DOI:10.1016/j.pmcj.2016.03.001 (0) |
[27] | GENTRY C. A fully homomorphic encryption scheme[D]. Palo Alto: Stanford University, 2009. (0) |
[28] | CANNY J. Collaborative filtering with privacy via factor analysis[C]//Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Tampere, Finland, 2002: 238–245. (0) |
[29] | CHEN Chaochao, ZHOU Jun, WU Bingzhe, et al. Practical privacy preserving POI recommendation[J]. ACM transactions on intelligent systems and technology, 2020, 11(5): 52. (0) |
[30] | CHEN Chaochao, LIU Ziqi, ZHAO Peilin, et al. Privacy preserving point-of-interest recommendation using decentralized matrix factorization[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, Louisiana, USA, 2018: 257–264. (0) |
[31] | ERKIN Z, BEYE M, VEUGEN T, et al. Efficiently computing private recommendations[C]//Proceedings of 2011 IEEE International Conference on Acoustics, Speech and Signal Processing. Prague, Czech Republic, 2011: 5864–5867. (0) |
[32] | KATARYA R, VERMA O P. Effective collaborative movie recommender system using asymmetric user similarity and matrix factorization[C]//Proceedings of 2016 International Conference on Computing, Communication and Automation. Noida, India, 2016: 71–75. (0) |
[33] | HERLOCKER J L, KONSTAN J A, BORCHERS A, et al. An algorithmic framework for performing collaborative filtering[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. California, Berkeley, USA, 1999: 230–237. (0) |
[34] | GASCON A, SCHOPPMANN P, BALLE B, et al. Secure linear regression on vertically partitioned datasets[J]. IACR cryptology ePrint archive, 2016, 2016: 892. (0) |
[35] | HARPER F M, KONSTAN J A. The movielens datasets: history and context[J]. ACM transactions on interactive intelligent systems, 2015, 5(4): 19. (0) |
[36] | KOREN Y. Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]//Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Nevada, Las Vegas, USA, 2008: 426–434. (0) |
[37] | NIKOLAENKO V, WEINSBERG U, IOANNIDIS S, et al. Privacy-preserving ridge regression on hundreds of millions of records[C]//Proceedings of 2013 IEEE Symposium on Security and Privacy. Berkeley, USA, 2013: 334–348. (0) |