1。3 概述
在本文中,我们提出了一种新的缺省值的填充方法——综合均值优化填充方法。首先,这种方法弥补了填补平均数而忽略用户评分差异的缺点,并且也不会出现“多众数”和“无众数”的问题。综合均值优化评分主要是分成两部分——优化后的目标物品的用户评分和优化后的目标物品的物品评分。而进行稀疏矩阵填充之后的实验结果表明,该算法在Movielens 100k数据集上是有效的,推荐质量也显著优于以前的算法。
本文的主要目的可以总结如下:
(1) 以User-CF算法为例,做出一个完整的个性化推荐系统,了解算法的具体步骤和详细内容;
(2) 由于目前信息社会的快速发展,使的所得的评分矩阵更加稀疏,所以,为了缓解稀疏性,可以选用适当的填充方法进行填充;
(3) 在公共数据集MovieLens 100k进行实验验证,比较实验结果。
2 推荐系统及推荐算法介绍
2。1 推荐系统的概念和定义
2。1。1什么是推荐系统
随着信息技术的不断发展和互联网时代的到来,人们获得信息的途径增多了,获得信息的数量也在飞快地增长。在这个时代,虽然人们可以快速便捷地获取信息,但另一方面也面临着很大的困难:在铺天盖地的信息中找到符合自己需要或是感兴趣的信息,成为了一件极其困难的事。而推荐系统的最成功之处便是很好地解决了信息量大和搜寻困难的矛盾,因此,推荐系统的主要作用就是联系用户和物品的纽带,对用户来说,能够使得他们发现感兴趣的物品,对物品来说,能够使得它们被推送给对它有兴趣的用户,从而使得用户和物品获得“双赢”。
为了解决信息过载(information overloading)的问题,早前已有无数科学家和工程师就信息过载的问题提出了天才的解决方案,其中最成功的当属分类目录(如:搜狐)和搜索引擎(如:Google)。但是,这两者都有其不足和缺陷,分类目录只能覆盖部分较为热门的分类,搜索引擎只能解决用户提供关键字的需求。而当用户没有具体需求的时候,推荐系统可以帮助他们发现自己喜欢的新内容或新物品。所以从一定意义上来说,解决用户没有明确需求的推荐系统和解决用户有明确需求的搜索引擎是两个互补的工具[5]。
而对物品来说,推荐系统可以有效地将一些长尾物品展示给合适的用户[6],即将一些不热门但是却符合用户兴趣的物品展示给用户,在电子商务中,长尾(或是不热门)商品占据了很大比例,因此这部分商品的销售总利润有一定可能性会超过热门商品带来的利润。热门商品往往是因为大部分用户的普遍需求,而不热门商品则是因为小部分用户的需求导致。因此,个性化推荐系统发掘长尾的能力在电子商务中就显得尤为重要,而要想推荐系统发掘长尾,就需要充分地研究用户的偏好,而这正是推荐系统研究人员致力于达到的。
综上所述,推荐系统主要是利用发掘用户的曾经的行为(如对某物品的评分等数据),利用用户的历史信息,发现符合用户偏好的需求,然后便能够将某些目标用户喜欢但是此前并未浏览或发现过的物品展示给该用户。
2。1。2个性化推荐系统的应用
和搜索引擎不同,个性化推荐系统要达到的目的是给用户推荐他们可能有兴趣的商品,所以为此需要以他们过去的历史行为作为依据,因此推荐系统基本都是以应用的形式存在于网站。个性化推荐系统最重要的作用,便是通过分析用户的历史行为数据,即网站存储的日志内容,给不同的用户推送不同的符合用户兴趣的内容信息和物品[7]。