建立决策支持和数据挖掘的第一步需要先对整个项目的业务规则进行分析,这包括:理解原有数据库的设计思想,明确数据挖掘的目标和目的,查询数据库中有哪些数据对数据挖掘过程有意义。由于数据在轨道交通AFC中央数据库中以动态增量形式存放在数据表中,每隔一段时期,数据量就会变的非常庞大,致使系统开销加大、效率减慢,甚至产生非正常宕机现象。这时,需要以人工干预的形式导出到系统外部备份。另一方面,大量的数据即使导出到系统外,仍然占用大量空间。在进行数据挖掘过程时,同样需要对这些历史沉积数据进行一次数据压缩。轨道交通AFC系统的数据挖掘目标是为轨道交通决策者提供更好的数据支持和对数据库蕴含的模式进行挖掘及发现。因此,在对客流进行数据挖掘时,客流进出站记录、行程、所持票卡类型以及储值票的扣款记录等均是挖掘的对象。根据一定时期内,客流在各个车站的流动情况,可以大致分析出每一个车站的车站客流类型,从而为每一个车站不同时间段的乘客流量进行分析研究,为疏导不同类型客流提供依据。基于聚类和分类分析的数据挖掘过程以时间、站点和客流作为分析对象,对客流量进行简单的统计聚合后存放到数据仓库或多文立方体数据库中,数据在聚合前需要进行数据集成、数据清理等数据预处理工作。数据挖掘将数据进行建模和分析计算后,可以通过报表形式输出到客户端,客户可以随时随地的调用报表进行查询和了解。另外,客户还可以通过报表具有的相关功能将结果转化、保存为其他格式文件,以备查询之用。
3. 数据分析方法
3.1 数据仓库
1991年,美国的W.H.Inmon在《Building the Data Warehouse》一书中,正式提出了数据仓库的概念及其相关内容。将数据仓库定义为“数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合”[16][17]。从这个定义中,我们可以概括出数据仓库的四个基本特征,即面向主题、集成性、稳定性和随时间变化的。
设计和构建一个数据仓库一般包含下述三方面的工作:
l)数据仓库构成
数据仓库系统一般是由数据获取、数据仓库管理和查询分析工具三大部分组成的。在数据仓库体系中,数据的流程从后台处理开始,经过中间的存储管理,以前台的用户访问工具结束,其他如数据仓库管理工具、安全系统、元数据等贯穿整个流程。
在数据仓库体系结构中,后端的数据获取部分,确定数据抽取规则和方法,从外部数据源获取数据,经过数据抽取、清理、转换和集成后装载到数据仓库中的数据存储和管理部分,利用数据库管理系统的功能,负责数据仓库的管理,包括数据存储组织、数据文护、数据分发等前端的查询分析工具部分,面向决策用户,通过查询检索、多文分析和数据挖掘等工具实现提取信息、分析数据和挖掘数据,以统一的、集成的和丰富的信息来支持企业决策。
表3—1从八个方面介绍了数据仓库的构成。
表3-l数据仓库构成及其功能描述
数据源 包括企业的内部数据,如各种生产系统数据库OLAP系统的操作型数据,以及外部数据。如市场调查报告、外部文档等
数据处理工具 从数据源中抽取数据,对数据进行检验、分析、整理和重新组织,装载到数据仓库的目标数据库中,利用时间驱动或者时间驱动进行更新
数据建模工具 建立面向主题的信息模型,描述数据检验、整理的需求和过程,可以利用该工具,对数据的析取、清除、汇总和重组等过程进行调整和优化 轨道交通自动售检票系统AFC数据分析(6):http://www.youerw.com/zidonghua/lunwen_2395.html