一种交融社会化标签的协同过滤引荐算法

引荐体系是为处理信息过载和开掘长尾物品而提出的一种有用的东西，它与搜索引擎相互合作，共同为用户提供牢靠快捷的服务。引荐体系能够应用在许多场合，比方电影、音乐、图书、文章、新闻、网页和广告等范畴。代表性网站有亚马逊、Netflix、豆瓣、LastFM、YouTube、Facebook 以及淘宝等。引荐体系能够供给个性化的引荐，满意用户随时改变和差异化的需求
社会化标签作为Web2.0开展的产品，是一种十分有用的网络资源安排东西。社会化标签有两方面的意义：榜首，表明用户的喜好；第二，表明物品的语义。经过标签用户和物品能够联系起来。运用社会化标签能够安排网站内容，推荐物品以及标签。社会化标签除了这些功用外，还能够与现有的引荐体系合作，发生愈加有用的引荐，这是本文所要研究的内容，运用社会化标签信息，在经典的依据评分的引荐体系上发生更好的引荐作用。将社会化标签和评分相交融的算法也是引荐体系范畴研讨的一个抢手方向。Tso-Sutter提出了
一种能够将标签交融于规范的协同过滤算法，他直接将标签当作二值化数据，作为用户的特征向量或物品的特征向量。Bogers和Van Den Bosh 经过核算标签的重合度，来表明用户或物品之间的类似度。Gemmel提出了加权的混合引荐算法，他将依据图的标签推
荐算法和依据用户和物品的协同过滤算法相结合，经过加权核算二者的盛行度发生引荐。
Gedikli和Jannach运用标签来表明用户喜爱或不喜爱的物品具有的特征，经过对标签的评分能够得到用户终究对物品的评分。Yi zhen在评分矩阵上运用了PMF发生引荐，将标签信息加入到PMF的正则化项中，在模型生成的过程中融入了标

图1 标签扩展评分矩阵
签的信息。此外，还有愈加杂乱的办法。Yueshen Xu和JianweiYin提出了一种能够把UGC(User Generated Content)信息和评分结合的办法，UGC包括标签和谈论，所运用的办法是 CTR(Collaborative Topic Regression)，该办法于2011年被Wang 和Blei提出，是结合PMF和LDA的一种混合模型，CTR不仅可以被用来做评分猜测，还能够获取物品描绘中的隐变量。
本文结合现有的依据内存的引荐算法，提出了一种整合隐语义向量的标签交融算法，下面将要点介绍该算法以及相关的一些内容，终究对算法的有用性进行验证。

1 相关引荐算法
1.1 依据内存的算法
1.1.1 依据用户的协同过滤算法
依据用户的协同过滤算法的思维是：具有相同喜好的用户会挑选相同的物品。该算法包括两个进程：a.找到和目标用户喜好类似的用户调集；b.找出这个调会集用户喜爱但是方针用户没有购买的物品。每一个用户能够看作是n维向量，每一个物品的评分作为向量的元素，这样用户的类似度就能够转换为核算向量的类似度。下面是三种常见的类似度核算的办法。

其间(1)是欧式间隔，(2)是余弦夹角，(3)是Pearson相联系数。ru,i 为用户u对物品i的评分，和别离是用户u和用户v在各自所评物品集上的均值。在核算取得方针用户的类似用户集后，便可依据类似用户猜测待引荐物品的评分。评分的核算公式为式(4)。

其间 S (u , K ) 表明方针用户u的K个类似用户，表明对物品 i评过火的用户调集，终究的类似用户是这两个调集的交集。 ru 和 rn 别离表明用户u和用户n在各自评分集上的均值。该公式的意义是对一切类似用户对物品i的评分作加权均匀。
1.1.2 依据物品的协同过滤算法
依据物品的协同过滤算法分为两个进程：a. 依据用户已评分过的物品别离找出每个物品的K个类似度最高的物品。 b.找出用户未做点评的物品猜测其分数。核算方针物品的类似物品是将每个物品看作是一个m维向量，每个用户的评分是向量中的项。核算类似度公式和依据用户的引荐算法类似，这儿要弥补的是一种批改的余弦类似度(Adjust Cosine Similarity)，如公式(5)所示。该公式被Sarwar在MovieLens上证明是最佳的类似度核算办法，但是在其他的数据会集，该公式纷歧定是最优的。

运用公式(6)能够猜测待引荐物品的评分，该公式的含义是对类似物品的评分作加权均匀。其间， S (u , K ) 表明和物品i类似的K个物品的调集， N (u ) 表明用户u评过火的物品。 ri 表明物品i的均匀分。

1.2 隐因子模型
隐因子模型(LFM)的中心思维是经过隐含的特征将用户和物品联系起来。关于剖析用户行为背面的意义以及物品的分类有很好的作用。

LFM的思维很简略，将评分矩阵R分解为两个低维的矩阵P和Q，如式(7)所示，针对每一个评分，引进隐变量l。然后经过最小化均方差错学习P、Q矩阵，如式(8)所示，为了下降算法优化参数。

2 交融标签的协同引荐算法
2.1 标签扩展评分矩阵
传统的评分矩阵是<用户，物品，评分>这是一个二维的联系，而标签矩阵<用户，物品，标签>是一个三维的关系，由于用户能够给一个物品打多个标签，而评分只要一个。要运用依据评分的办法，必须将三维的标签矩阵转化为二维矩阵。图1为转化的联系图，能够将其转化为两个二维矩阵。其间水平方向将用户打过的标签作为用户向量的一部分，笔直方向将标记过物品的标签作为物品向量的一部分。关于UserTag和ItemTag向量中的值，运用TF-IDF(Term Frequency-Inverse Document Frequency)表明，如公式(9)，这儿将UserTag和ItemTag看作是文档。

其间TFij 为词频，描绘的是第i个标签在文档j中所占的份额， IDFi 为逆文档频率， ni 为第i个关键词在N篇文档中出现的次数，所以 ni 越大 IDFi 越小。二者的乘积 wij 界说为第i个标签在文档j中的权值。一个标签在一篇文档中呈现的频率越高对权值的奉献越大，在一切文档中呈现的频率越高对权值的奉献越小。这样有了权值的界说，就能够把一个文档表明为向量 d j = (w1 j , w 2 j ,…, w kj ) 。
2.2 提取隐语义
接下来提取标签的隐语义，所运用的模型是LMF，需要式(10)来提取用户和物品中的隐语义。

终究得到 Pu = ( pu1 , …, puK ) 和 Pi = ( pi1 , …, piK ) 向量，它们别离表明了用户的偏好隐语义和物品的特征隐语义。
2.3 评分和隐语义整合
将标签信息的格局转换为评分的格局，然后能够运用评分的协同引荐算法，将用户或物品的评分向量和标签向，物品向量表明为 i = (r i ,…, r i , pi ,…, pi ) ，p是隐变量，它的个数为K。整合后，能够运用新的用户向量核算用户的类似度，或运用新物
品向量核算物品的类似度。这儿将这两个办法称为usertagCF和itemtagCF。

2.4 模型学习和引荐
所提的算法运用了协同过滤中依据内存和依据模型的算法， L MF需求练习，详细的练习进程在1.2节中已有介绍，这儿需求阐明的是影响引荐的两个参数，一个是用户或物品的街坊个数K，另一个是用户或物品的隐变量个数F。

3 试验设计与试验成果

3.1 评测目标
本文挑选均方根差错(RMSE)和均匀绝对差错(MAE)作为点评的首要规范。

RMSE和MAE是评分猜测问题的两个常用目标。其间T为测验集， rui 是实践的评分， rui 是猜测的评分。
3.2 试验设计
(1)试验数据
试验选用的数据集是MovieLens 最新的100k数据集，
该数据集包括706名用户对8570部电影的100023 个评分以及
2488 个标签，时刻规模为1996年4月2日到2015年3月30日。 (2)算法完成依据标签数据集计算UserTag和ItemTag中的TF-IDF值，
运用该标签数据练习LFM模型，参数设置为学习率0.15，步长0.04，经过屡次迭代后获取用户或物品的特征向量p，将p 与用户或物品的评分向量交融，本算法运用的类似度公式为 Pearson类似度。
算法的完成进程中涉及到两个重要的参数，一个是用户或物品的街坊数目K，另一个是LFM模型中的隐变量个数 F。这两个变量的取值不同，对终究的RMSE和MAE会形成不同的影响。
3.3 试验成果 (1)userCF和usertagCF的成果比较依据用户的协同过滤和将标签和评分交融后的协同过
滤比较成果如表1所示，能够发现，跟着K的改变RMSE和
MAE都在减小， user tag CF在K=40时功能就现已开端改进了，跟着K值的增大，能够看到提高逐渐添加。表2为不同F 值下usertagCF的成果比照，能够发现F=5左右时，RMSE和 MAE的值都是最小的，阐明隐变量不是越多越好。
(2) itemCF和itemtagCF的比较表3为依据物品的协同过滤算法在交融标签前后的成果
比较，能够发现，跟着K的增大，RMSE和MAE都在减小，也是在K=40的时分功能开端改进。表4为不同F值对itemtagCF的影响。随F值的增大，功能在逐渐改进。与usertagCF不同，F 值在较大的情况下仍能提高功能，这是由于测验的数据会集物品的数目约为用户数意图12倍，假如要对物品向量发生影响，物品的隐语义数目应高于用户隐语义数目。

4 结束语
本文提出了一种将社会化标签和评分相交融的办法，该算法相较于依据模型的办法，具有完成简略、运转较快的长处。经过试验证明，该算法能够有用地较少猜测差错。

扫一扫打开手机网站

微信扫一扫关注我们

一种交融社会化标签的协同过滤引荐算法

联系我们

微信扫一扫关注我们

为您推荐

车载以太网传输性能测试原理分析

多核架构高性能电机控制芯片

开关电源设计之Buck电路电感、电容值的选取

设计基于超级电容器的简单而紧凑的UPS

AMD FPGA的MicroBlaze固化过程详解

SMT表面贴装对PCB板有哪些要求

联系我们

微信扫一扫关注我们