随着大数据的爆发,挖掘商业数据的用户偏好也体现了它的重要性。本文通过数据挖掘工具R,对商业数据进行分析研究用户的偏好。根据得到的用户偏好特征,判断这些偏好行为特征是否有实际意义、是否有价值、是否可行等等。数据挖掘的最终有价值的结果就是给决策者提供辅助决策条件[9][10][11]。数据挖掘会在未来几年会很流行,对于自己而言比较喜欢数学也对数据挖掘产生很大兴趣,通过本论文的研究工作,在数据挖掘认识和相关挖掘技术方面对我今后从事这个行业有了更大的帮助。
1。3 国内外现状
1。3。1 商业数据分析
1。3。2 数据挖掘用户偏好
1。3。3 评述
1。4 相关理论与技术介绍
1。4。1 用户偏好数据挖掘
用户偏好就是用户购买商品和体验服务时根据自己偏向与对商品或者服务的认知、心里作用下的感受以及理性判断所做出的选择[16]。在我们平常生活中“偏好”无处不在,有时是自觉地使用着,有时不自觉的使用着。人们就是通过自己的偏好对事物做出决定,或者使用偏好表达自己的喜好等等[17][18]。但是有时用户偏好可能并没有体现在实际的选择,只是用户一种潜在的心理反应或者想法[19]。如何挖掘用户偏好就需要对用户产生的数据信息用数据挖掘工具进行分析,数据挖掘技术是为分析大量复杂用户数据,挖掘用户偏好价值提供了良好的技术支持[20]。
1。4。2 决策树文献综述
决策树从字面看,决策就是简单易理解便于决策,树就是树型结构。决策树也是分类算法的一种,决策树分为回归和分类两种,本文主要使用分类决策树对数据进行分析。决策树只有一个根节点,内部中的每个节点表示一个属性条件,有几个叶节点就说明有几个类别,也就是一个树枝就是一个结果,当然在必要时决策树的树枝根据需求可以控制的[21][22][23]。
1。4。3 K-均值聚类算法
K-均值算法是典型的聚类算法,是基于每个样本对象间距离的算法。距离是评价样本对象相似性的指标,如果两个样本对象间的距离越近,那么可以说这两个样本对象相似度越大。反之越小。基本原理是,开始随机选择K个对象作为中心点进行聚类,欧式定理是算法核心基础,也就是根据距离近的样本对象相似的准则,将这些样本中的对象归为相应的类中。计算得到相应类别中所有样本对象的平均值并且当作新的中心点。K-均值是一种递代算法,直到每个聚类的中心和类别中样本与中心点距离平方和不变,算法才会结束。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标[24]。
1。4。4 Apriori关联算法
该算法首先在函数默认参数下找到所有的频繁项集,然后根据给定的参数值生成符合的规则。主要通过参数支持度、置信度和提升度的最小阈值来控制生成规则。只有大于规定的参数值的规则留下来并且数据挖掘关联效果是依次提高的。支持度会保留双向条件的关联规则,置信度只会保留单向关联规则,而提升度会发现一些有趣的关联规则[25][26]。
1。5 本文主要研究内容
本文通过R语言多案列研究商业数据的用户偏好挖掘,首先阐述商业数据和数据挖掘现状;其次介绍了本文应用相关的算法理论;第三论述了本文的主要研究内容;第四本文研究三个数据来源的用户偏好,包括多国非商店在线数据、葡萄牙一家银行营销的数据和R语言包中的杂货店顾客交易购买数据,第一个数据购买交易包括了发生在2010。12。01和2011。12。09之间的所有的购买记录。第二个数据是银行通过手机和电话营销的数据。对不同的数据使用不同的挖掘方法研究用户偏好;最后分析并且评价得到的结果。以下几个方面是本文主要研究的内容: