2。3。1 数据清理文献综述
本次设计中,由于位置信息涉及用户和商品的隐私问题,为了保护消费者的隐私,平台提供的大部分数据是缺少位置信息的,具体缺失情况如表2。4表2。5所示。提供的位置信息也是由经过平台自己的保密空间哈希算法生成的,如mtobc7a,哈希值所代表的精度范围约为的矩形。属性的缺失在很多领域都是一个情况复杂的问题,对于构造预测模型来说,缺失值会造成以下几个问题:丢失信息隐含的价值;降低预测模型的稳定性;可能会使程序陷入混乱。
处理缺失值的方法有很多,例如删除元组,人工填写,使用常量代替,使用最可能的值填充缺失值等等。由于本次设计数据集数量巨大缺失样本太多,且位置信息空间哈希算法并不对外公布,所以删除元组,人工填写以及使用最可能的值填充缺失值是难以进行实际操作的,所以最终采取的措施是使用常量字符串“0000000”来填补所有位置的地理信息的缺失值,然后通过比较地理信息的前缀(如mtobc7a的前缀为m,mt,……,mtobc7a)来获取地理信息之间的距离关系。
表2。4 用户行为样本位置信息缺失值统计表
位置信息缺失 位置信息非缺失 合计
数量 15911010 7380017 23291027
比例 68。32% 31。68% 100%
表2。5 商品样本位置信息缺失值统计表
位置信息缺失 位置信息非缺失 合计
数量 417508 203410 620918
比例 67。24% 32。76% 100%
2。3。2 数据规约
由于提供的数据集数据数量比较大,用户数量(20000)商品子集(620918)=1。24种可能性,这可能导致很难在规定的时间内进行处理,为了减少处理时间本次设计只考虑了用户与商品子集发生的交互行为。用户访问的时间规律作为移动数据更为丰富的场景数据,分析了用户与商品交互日期与测试日的时间差对样本召回率的影响,结果如图3。1所示。发现浏览、收藏、购物车的召回率随着距离测试日的时间差的增长急剧下降,这说明,距离测试日较远的日期发生的交互行为,对测试日是否发生购买行为的影响不大。召回率在七天之后变化逐渐变小且逐渐趋向于0,因此,此次设计主要考虑时间差小于等于7天的样本。根据我们日常生活网上购物的经验,浏览的数目常常会远大于其它行为数目,我们绘制了每天发生的收藏、购物车、购买等交互行为和购买交互行为日均频数的饼状图,如图3。2所示。
通过对图3。3的观察发现浏览的样本远远大于收藏和购物车的样本,又由于浏览样本的召回率在第一天后从16%下降到6%,因此在实验中只保留了时间差在1天以内的浏览样本。
按照消费团体来看,很多用户有一定的购物针对性,所以为了进一步提高模型训练的时间排除了一下两类用户:
(1)一个月内与商品子集从没发生过任何交互行为的用户;来:自[优E尔L论W文W网www.youerw.com +QQ752018766-
(2)一个月内浏览数量远远大于收藏、购物车、购买的用户。
综上所述,过滤过后的样本为特定用户对商品子集在时间差小于七天的收藏、购买、购物车交互样本与时间差小于1天的浏览交互样本的并集。经过样本筛选,将数据集筛选到一个合适的范围,既可以提高模型的性能,也可以缩短计算的时间。