4 数据集 16
4。1 数据集简介 16
4。2 数据集内容 16
4。3 文件MovieLens 100k。arff的内容 17
4。4 数据集用途 17
5 实验结果 18
5。1 非个性化推荐算法与协同过滤的对比分析 18
5。2 综合均值优化前后 18
5。3 基于用户协同过滤与基于物品的协同过滤 19
结 论 21
致 谢 22
参 考 文 献 23
1 引言
1。1目的
缓解稀疏性最简单的一个方法是进行稀疏矩阵缺省值的填充,常见的有填充中数、众数以及平均值等方法,这些虽可以达到一定的效果,但是,并没有体现出用户之间的差异性,所以,最终所得结果,即用户对某物品的预测评分与该用户的实际评分有较大的差距。而本文提出的综合均值优化方法,却是有效地避免了无差异性这一缺点,使得最终的推荐结果也更加准确。最后,在公共数据集Movielens 100k上证明了本文所提算法具有满意的性能。
1。2 背景
近些年来互联网成为我们工作学习离不开的有效工具,它提供了一个平台,为企业提供有关信息,产品和方便的服务。而伴随着这种信息数量的迅速增加,随之而来的一大挑战是,确保准确的信息可以被准确并且迅速地传递给客户。而个性化推荐是提高用户体验和对网站忠诚度的一条可取之道。[1,2]
我们主要有三种按照不同的数据分析方法的推荐方法,即基于规则的,基于内容和协同过滤。在这三种方法之中,协同过滤(CF)只需要过去的用户行为的数据(例如用户给某物品的打分),基于此便能快捷方便地作出有效的个性化推荐。CF又可以分成两个方法:基于邻域的方法和隐语义模型。邻域方法[3]又可分为基于用户和基于物品。User-CF和Item-CF分别试图找到志趣相投的用户或类似物品,并基于最近的邻居集的对某物品的评分,预测目标用户对该物品的打分。而隐语义模型尝试使用像矩阵分解技术等级的隐语义图案来计算用户的评分。协同过滤(CF) [4]算法取得了巨大的成功,目前为止,是应用最为广泛的一种推荐算法,CF在用户偏好是相对静态的情况下表现更加良好,CF也是本文所采用的推荐算法(主要是基于用户)。
领域方法可以是用户相关或者物品相关的。这两种方法都试图以评分为基础找出兴趣相似的用户和相似的物品,并且以最为相近的用户评分为基础,预测出某用户对某个未评价过的物品的评分。而隐语义方法主要是使用像矩阵分解技术等方法在评级基础上获得用户的共同兴趣。论文网
然而,协同过滤算法也不可避免地拥有一些缺点。他们在获得由于数据稀少而快速动态变化的推荐系统中有纷繁复杂的细节,并且它很难找出需求变化的的原因。一般来说,每个用户的兴趣习惯都是不同的,并且用户偏好变化模式不能通过一些简单功能来完整地描述。
此外,CF方法通常面临冷启动危机,这种危机在动态情况下被放大,尤其是产生新用户和新产品的时候。
在这个信息过载的时代,成千上万个产品中有评分的物品数量很少,因此,评分矩阵的稀疏性,对个性化推荐系统来说,无疑是一个不小的挑战。