字段 字段说明 提取说明
item_id 商品标识 字段脱敏
item_geohash 商品的位置空间标识,可以为空 经纬度经保密算法生成
item_category 商品分类标识 字段脱敏
表2。2 用户与商品交互行为
字段 字段说明 提取说明
user_id 用户标识 抽样&字段脱敏
item_id 商品标识 字段脱敏
behavior_type 用户对商品的行为类型 浏览(1)、收藏(2)、
加购物车(3)、购买(4)
user_geohash 用户位置的空间标识,可以为空 经纬度经保密算法生成
item_category 商品分类标识 字段脱敏
time 行为发生时间 精确到小时级别
本次设计使用的数据容量如表2。3所示:
表2。3 数据容量
用户数量 商品数量 商品子集数量 交互数量
20000 4758484 620918 23291027
2。2 算法框架
本次算法研究的过程可以分为数据预处理、特征工程、单模型预测以及模型融合四部分。其算法框架流程如图2。1所示。
图2。1 算法框架图
1。数据预处理
由于数据集中数据量比较大,单纯的直接进行运算,需要很长的时间。且数据集中的很多数据对提高最终模型的性能并不会有大的贡献,少数离群点可能会使模型的性能下降。数据预处理可以对数据集中的数据进行一定的处理和筛选,提高模型的高效性和准确性。
2。特征工程
“数据和特征决定了模型的上限,而算法只是在逼近这个上限。”本次设计的特征工程主要分为两个部分:特征构造和特征选择。特征构造从原始数据集中提取各种特征,这些特征反应了隐藏在数据背后的价值;而特征选择则是从构造的特征集中选择最优的特征作为最终分类器的输入,帮助分类器进行分类,提高分类器的性能。
3。单模型预测
在单模型预测部分,使用Logistic Regression、Random Forest和Gradient Boosting Decision Tree三种算法构造预测模型进行预测,分析比较了单模型预测的结果,并为最终的模型融合提供判断。
4。模型融合
单个模型的预测效果可能是有限的,通过对各种单模型的预测结果的融合,往往可以取长补短,使模型的预测效果有很好的提升。本次算法研究使用Bagging技术以及其它的模型融合方法对三种单模型进行融合,尽可能的提高模型的性能。
2。3 数据预处理
现实世界中的数据往往是质量不高的,因而从实际生活中收集到的数据通常是数量巨大的、不完整的(存在缺失值)、不正确或者含噪声的以及杂乱的(由于缺乏数据结构的统一定义和标准,数据存在较大的差别)[8,9],低质量的数据可能会降低最终模型的质量。数据预处理可以提高数据的准确性、完整性和一致性,主要包括数据清理、数据集成、数据规约和数据变换等技术[10]。其中数据清理主要进行重复数据和缺失值的处理;数据集成则是将来自多个异构数据源的数据整合成结构一致的数据进行存储;数据归约对数据进行简化,提高模型的效率;而数据变换的主要任务是将数据变换成适合使用的形式,如数据归一化等。淘宝平台提供的数据具有统一的数据格式,因此,本次设计为提高数据的质量着重进行了数据清理和数据归约这两部分的设计。