基于地理标注数据挖掘的个性化推荐方法研究(3)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

基于地理标注数据挖掘的个性化推荐方法研究(3)

表示地理标注照片 p 拍摄时的经度。

旅游景点:在这篇论文中,一个旅游景点 tl 被定义为经常被用户参观并拍照的一个特定地理 区域,例如一个公园、一个博物馆等。

1。2。2 问题定义

这篇论文的研究问题可以定义为:假设有一个地理标注的照片集 P={P1,P2,。,Pu,。Pn},其中 Pu 是用户 u 所拍摄的照片集,任务是利用这些照片定位并描述旅游景点,且基于一个查询 Q=

(up,topK,t,w)进行符合查询条件时间 t 与天气 w 的个性化旅游景点推荐。

2 方法 

本论文提出的矩阵分解结合用户相似性的方法的框架如图 2。1 所示。首先利用地理标注 照片之间的空间邻近度来发现旅游景点,其次用相应的名称和各旅游景点流行的参观情境来 简要地描述各旅游景点,接着建立用户对旅游景点的偏好矩阵,然后对用户对旅游景点的偏 好矩阵进行矩阵分解以实现对矩阵的填充生成用户对旅游景点的评分矩阵,最后基于补全的 用户对旅游景点的评分矩阵计算用户—用户相似性来发现具有相似偏好的用户。为了对目标 用户做出目标城市内的旅游景点推荐,首先需要找到与目标用户在旅游景点偏好方面最为相 似的 N 个用户,然后利用协同过滤对旅游景点进行排序,过滤掉不符合查询条件(游玩时间 与天气情况)的旅游景点,最终返回前 topK 个旅游景点作为目标用户在目标城市的推荐结果。 

方法框架图

2。1 发现旅游景点 由于人们通常会在旅游景点区域范围内拍摄大量的照片,因此发现旅游景点可以看做是

一个识别经常被拍照的地点的聚类问题。例如 meanshift 和 k-means 这样的聚类算法已经被用 来对照片进行聚类,它们都是通过利用照片的地理标签来识别出旅游景点[13,27]。 

DBSCAN[28]相比较于其他的聚类算法来说有着以下的优点:(1)需要最少的领域知识来 决定算法中必要的参数(不需要事先确定簇的数量,而往往需要大量的领域知识才能事先确 定一个合理的簇的数量值)并且能够识别出任意形状的簇;(2)可以过滤掉异常点并且对于

大规模的数据仍然保持着较高的效率。 基于上述提及的这些优点,在这篇论文中,DBSCAN 被用来利用照片的地理标签对照片

进行聚类以发现旅游景点。在这一步骤结束之后,可以获得一个旅游景点集 TL={tl1,tl2,…,tln}, 其中的每个元素 tl={Pl,gl},Pl 是该旅游景点对应的照片集的簇,gl 是簇 Pl 的中心的坐标。 

在这篇论文中,DBSCAN 的工作的具体流程如下: 

(1)将所有照片点标记为未访问 

(2)随机选取一个未访问过的照片点 p 

(3)标记照片点 p 为已访问 

(4)如果照片点 p 的ε-邻域内有至少 MinPts 个照片点,转到(5),否则转到(13) 

(5)创建一个新簇 tl,并将照片点 p 加入簇 tl 中 

(6)令 N 为照片点 p 的ε-邻域内的照片点集 

(7)对于 N 中的每一个照片点 p’,执行(8)~(11)步 

(8)如果照片点 p’未访问,转到(9),否则转到(11) 

(9)标记照片点 p’为已访问 

(10)如果照片点 p’的ε-邻域内有至少 MinPts 个照片点,将这些照片加入 N 中 

(11)如果照片点 p’目前还不在任何一个簇中,将照片点 p’加入簇 tl 中 

(12)输出 tl  (责任编辑:qin)