您的位置 首页 元件

一种交融社会化标签的协同过滤引荐算法

推荐系统是为解决信息过载和发掘长尾物品而提出的一种有效的工具,它与搜索引擎相互配合,共同为用户提 供可靠便捷的服务。推荐系统可以应用在很多场合,比如电 影、音乐、图书、文章、新闻、网页和广告等领域

     引荐体系是为处理信息过载和开掘长尾物品而提出的一种有用的东西,它与搜索引擎相互合作,共同为用户提 供牢靠快捷的服务。引荐体系能够应用在许多场合,比方电 影、音乐、图书、文章、新闻、网页和广告等范畴。代表性 网站有亚马逊、Netflix、豆瓣、LastFM、YouTube、Facebook 以及淘宝等。引荐体系能够供给个性化的引荐,满意用户随 时改变和差异化的需求
     社会化标签作为Web2.0开展的产品,是一种十分有用 的网络资源安排东西。社会化标签有两方面的意义:榜首, 表明用户的喜好;第二,表明物品的语义。经过标签用户和 物品能够联系起来。运用社会化标签能够安排网站内容,推 荐物品以及标签。社会化标签除了这些功用外,还能够与现 有的引荐体系合作,发生愈加有用的引荐,这是本文所要研 究的内容,运用社会化标签信息,在经典的依据评分的引荐 体系上发生更好的引荐作用。将社会化标签和评分相交融的算法也是引荐体系范畴 研讨的一个抢手方向。Tso-Sutter提出了
一种能够将标签交融 于规范的协同过滤算法,他直接将标签当作二值化数据,作 为用户的特征向量或物品的特征向量。Bogers和Van Den Bosh 经过核算标签的重合度,来表明用户或物品之间的类似度。Gemmel提出了加权的混合引荐算法,他将依据图的标签推
荐算法和依据用户和物品的协同过滤算法相结合,经过加权核算二者的盛行度发生引荐。
Gedikli和Jannach运用标签来表明用户喜爱或不喜爱的物品具有的特征,经过对标签的评分能够得到用户终究对物品的评分。Yi zhen在评分矩阵上运用了PMF发生引荐,将 标 签 信 息 加 入 到PMF的正则化项 中,在模型生成的 过 程 中 融 入 了 标

图1  标签扩展评分矩阵
签的信息。此外,还有愈加杂乱的办法。Yueshen Xu和JianweiYin提出了一种能够把UGC(User Generated Content)信息和 评分结合的办法,UGC包括标签和谈论,所运用的办法是 CTR(Collaborative Topic Regression),该办法于2011年被Wang 和Blei提出,是结合PMF和LDA的一种混合模型,CTR不仅可 以被用来做评分猜测,还能够获取物品描绘中的隐变量。
本文结合现有的依据内存的引荐算法,提出了一种整 合隐语义向量的标签交融算法,下面将要点介绍该算法以及 相关的一些内容,终究对算法的有用性进行验证。

1  相关引荐算法
1.1  依据内存的算法
1.1.1 依据用户的协同过滤算法
依据用户的协同过滤算法的思维是:具有相同喜好的 用户会挑选相同的物品。该算法包括两个进程:a.找到和目 标用户喜好类似的用户调集;b.找出这个调会集用户喜爱但 是方针用户没有购买的物品。每一个用户能够看作是n维向量,每一个物品的评分作 为向量的元素,这样用户的类似度就能够转换为核算向量的 类似度。下面是三种常见的类似度核算的办法。

其间(1)是欧式间隔,(2)是余弦夹角,(3)是Pearson相联系数。ru,i 为用户u对物品i的评分,    和  别离是用户u和用 户v在各自所评物品集上的均值。在核算取得方针用户的类似用户集后,便可依据类似用户猜测待引荐物品的评分。评分的核算公式为式(4)。

其间 S (u , K ) 表明方针用户u的K个类似用户, 表明对物品 i评过火的用户调集,终究的类似用户是这两个调集的交集。 ru 和 rn 别离表明用户u和用户n在各自评分集上的均值。该公式 的意义是对一切类似用户对物品i的评分作加权均匀。
1.1.2   依据物品的协同过滤算法
依据物品的协同过滤算法分为两个进程:a. 依据用户已 评分过的物品别离找出每个物品的K个类似度最高的物品。 b.找出用户未做点评的物品猜测其分数。核算方针物品的类似物品是将每个物品看作是一个m维 向量,每个用户的评分是向量中的项。核算类似度公式和依据用户的引荐算法类似,这儿要弥补的是一种批改的余弦类似度(Adjust Cosine Similarity),如公式(5)所示。该公式被Sarwar在MovieLens上证明是最佳的类似度核算办法,但是在其他的数据会集,该公式纷歧定是最优的。

运用公式(6)能够猜测待引荐物品的评分,该公式的含 义是对类似物品的评分作加权均匀。其间, S (u , K ) 表明和物 品i类似的K个物品的调集, N (u ) 表明用户u评过火的物品。 ri 表明物品i的均匀分。

1.2  隐因子模型
隐因子模型(LFM)的中心思维是经过隐含的特征将用户 和物品联系起来。关于剖析用户行为背面的意义以及物品的 分类有很好的作用。

LFM的思维很简略,将评分矩阵R分解为两个低维的矩 阵P和Q,如式(7)所示,针对每一个评分,引进隐变量l。然 后经过最小化均方差错学习P、Q矩阵,如式(8)所示,为了下降算法优化参数。

2 交融标签的协同引荐算法
2.1  标签扩展评分矩阵
传统的评分矩阵是<用户,物品,评分>这是一个二维 的联系,而标签矩阵<用户,物品,标签>是一个三维的关 系,由于用户能够给一个物品打多个标签,而评分只要一 个。要运用依据评分的办法,必须将三维的标签矩阵转化为 二维矩阵。图1为转化的联系图,能够将其转化为两个二维 矩阵。其间水平方向将用户打过的标签作为用户向量的一部 分,笔直方向将标记过物品的标签作为物品向量的一部分。 关于UserTag和ItemTag向量中的值,运用TF-IDF(Term Frequency-Inverse Document Frequency)表明,如公式(9),这儿将UserTag和ItemTag看作是文档。

其间TFij 为词频,描绘的是第i个标签在文档j中所占的份额, IDFi 为逆文档频率, ni 为第i个关键词在N篇文档中出 现的次数,所以 ni 越大 IDFi 越小。二者的乘积 wij 界说为第i个标签在文档j中的权值。一个标签在一篇文档中呈现的频率越高对权值的奉献越大,在一切文档中呈现的频率越高对 权值的奉献越小。这样有了权值的界说,就能够把一个文档表明为向量 d j  = (w1 j , w 2 j ,…, w kj ) 。
2.2  提取隐语义
接下来提取标签的隐语义,所运用的模型是LMF,需 要式(10)来提取用户和物品中的隐语义。

终究得到 Pu  = ( pu1 , …, puK ) 和 Pi  = ( pi1 , …, piK ) 向量,它们别离表明了用户的偏好隐语义和物品的特征隐语义。
2.3 评分和隐语义整合
将标签信息的格局转换为评分的格局,然后能够运用 评分的协同引荐算法,将用户或物品的评分向量和标签向,物品向量表明为 i = (r i ,…, r i , pi ,…, pi  ) ,p是隐变量,它的个数为K。整合 后,能够运用新的用户向量核算用户的类似度,或运用新物
品向量核算物品的类似度。这儿将这两个办法称为usertagCF和itemtagCF。

2.4 模型学习和引荐
所提的算法运用了协同过滤中依据内存和依据模型的 算法, L MF需求练习, 详细的练习进程在1.2节中已有介 绍,这儿需求阐明的是影响引荐的两个参数,一个是用户或 物品的街坊个数K,另一个是用户或物品的隐变量个数F。

3  试验设计与试验成果

3.1 评测目标
本文挑选均方根差错(RMSE)和均匀绝对差错(MAE)作 为点评的首要规范。

RMSE和MAE是评分猜测问题的两个常用目标。其间T为测验集, rui 是实践的评分, rui 是猜测的评分。
3.2  试验设计
(1)试验数据
试验选用的数据集是MovieLens 最新的100k数据集,
该数据集包括706名用户对8570部电影的100023 个评分以及
2488 个标签,时刻规模为1996年4月2日到2015年3月30日。 (2)算法完成 依据标签数据集计算UserTag和ItemTag中的TF-IDF值,
运用该标签数据练习LFM模型,参数设置为学习率0.15,步 长0.04,经过屡次迭代后获取用户或物品的特征向量p,将p 与用户或物品的评分向量交融,本算法运用的类似度公式为 Pearson类似度。
算法的完成进程中涉及到两个重要的参数,一个是用 户或物品的街坊数目K,另一个是LFM模型中的隐变量个数 F。这两个变量的取值不同,对终究的RMSE和MAE会形成 不同的影响。
3.3 试验成果 (1)userCF和usertagCF的成果比较 依据用户的协同过滤和将标签和评分交融后的协同过
滤比较成果如表1所示,能够发现,跟着K的改变RMSE和
MAE都在减小, user tag CF在K=40时功能就现已开端改进 了,跟着K值的增大,能够看到提高逐渐添加。表2为不同F 值下usertagCF的成果比照,能够发现F=5左右时,RMSE和 MAE的值都是最小的,阐明隐变量不是越多越好。
(2) itemCF和itemtagCF的比较 表3为依据物品的协同过滤算法在交融标签前后的成果
比较,能够发现,跟着K的增大,RMSE和MAE都在减小,也 是在K=40的时分功能开端改进。表4为不同F值对itemtagCF的 影响。随F值的增大,功能在逐渐改进。与usertagCF不同,F 值在较大的情况下仍能提高功能,这是由于测验的数据会集 物品的数目约为用户数意图12倍,假如要对物品向量发生影 响,物品的隐语义数目应高于用户隐语义数目。

4  结束语
本文提出了一种将社会化标签和评分相交融的办法,该算法相较于依据模型的办法,具有完成简略、运转较快的长处。经过试验证明,该算法能够有用地较少猜测差错。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/xinpin/yuanjian/205664.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部