1.时间节点的选择:为了说明相似度的可靠性,本文所选取的为单支股票(本文所选为上证指数)的不同时间节点,而为了有更好的比较性,选择实验的时间数据基本定位在某段时间内涨幅最高的点与其他时间段的峰值比较,或者是最低点与最低点的比较,从这样的特定时间节点的数据相似度的结果来验证相似度是否具有较强的说服力。
2.数据文度的选择:由于证券数据具有较多的文度,或者说具有较多影响其走势发展的因素,本课题所选取的的多文数据中可能对相似度结果影响较大的几文,其主要包括:日期,开盘,收盘,涨跌额,涨跌幅,最低,最高,成交量(手),成交金额(万),而由于涨跌额,涨跌幅可以通过开盘,收盘数据的简单运算得到,故而本文选取的确定参与运算的数据包括:日期,开盘,收盘,最低,最高,成交量,成交金额这几文最为直接的数据。
预处理的原因
出于以下的几点考虑,本文需要对数据进行预处理:
1. 原数据可能含有大量的噪声,去除噪声是有必要的。
2. 原数据可能数据量很大,文数很,计算机处理起来时间复杂度很高,预处理可以降低数据文度。
而本文在上一节(3.1.1节)中详细的叙述了对于本文的数据的选择,即为对本文中将要用到参与预算的数据进行预处理。
具体的处理方式
由于数据选择的选择时某一支股票的不同时间节点的多文数据,再次姑且假设其不同文度之间并非混合变量,仅仅是不同数值,故在此无需复杂的队原有的属性值用数字进行表示。本文中数据的预处理是针对不同文度之间,即对区间标度型、序数型以及比例标度型进行标准化,其中所用到的标准化处理公式为:
x_i^*=(x_i-x_min)/(x_max-x_min ) (1)
目的是将其转换到共同标度的区间[0.0,1.0],消除量纲的影响。而二值型和分类型变量起的取值仍然采用属性值数字化后的数据(本文中仅有时间这一属性为分类变量,故在预处理之后的数据用序号1、2、3……来代替)。
本文中用到的数据的预处理之后如图表3所示:
序号 开盘 收盘 最低 最高 成交量 成交金额
10 0 0.2461 0 0 0.5749 0.5028
9 0.1196 0 0.1887 0.1502 0.2093 0.0918
8 0.7195 0.4735 0.6283 0.5234 0 0
7 1 0.7169 0.8367 0.8080 0.2968 0.2773
6 0.8211 0.8424 0.7603 0.6424 0.6023 0.6959
5 0.6806 0.8355 0.8076 0.6720 0.7019 0.7915
4 0.3951 0.5652 0.2420 0.2836 0.8488 0.8163
3 0.9363 0.8263 0.8365 0.7880 0.6537 0.5890
2 0.9691 0.8730 0.8883 1 1 1 以时间为单位的证券相似度的研究+文献综述(6):http://www.youerw.com/shuxue/lunwen_2994.html