1)数据整合
(1)格式统一
①收集到的原始数据有的是在excel表格中,有的是在word文档中,它们存在的形式不统一,为了更好的进行数据分析挖掘以及可视化,选择把word文档中的数据转换成excel表格的形式进行体现。
②对历年研究生入学前的数据属性的字母名称一一辨别所代表的实际含义,转化为以汉字表示的方式,与其他数据属性的名字格式保持一致。
(2)同类数据汇总
同一分类的数据如入学数据、培养数据、答辩数据以及优秀论文数据等,他们不同年份的数据存储在不同的表中,因此需要把它们各自独立的的数据按年份进行整合。
(3)不同类数据进行关联
不论是入学数据还是培养数据,这些数据都是记录了学生的在校信息,因此就可以通过年份、专业以及姓名对不同类数据的每一条记录进行关联。最后关联的结果就是形成一张信息较完备的表,这张表上的一条记录就可以显示一个学生的有关入学信息、培养信息、导师信息和答辩信息等。
(4)不同类学生分离
学术型研究生(下文简称学硕)和专业学位研究生(下文简称专硕)的培养要求不同,此时就需要先理清楚各个学院哪些专业是学术型的哪些专业又是专业型的;并据此在整合后的信息表上按照学术型和专业型的专业把他们的数据分开,存放在不同的表中,形成学硕和专硕两张信息表,其有利于对两类学生的各类数据进行比较分析研究。
2)数据处理文献综述
(1)空缺值的处理
在整理好的表中会出现某些学生的某一个或多个属性值缺失的情况。对于缺失较少的记录,就使用与缺失值同类属性的其它数据的平均值进行填充,如一个2010级的学硕的学位课成绩缺失,那么就用2010级其它学硕的学位课成绩的平均值进行填充;对于缺失较多的记录,就直接舍弃该条记录。如一个学生只有入学时的信息,而其它信息都缺失,就直接舍弃该条记录。
(2)多余属性的舍弃
在本文进行可视化数据挖掘分析时,某些属性是没用的或是不代表任何实际意义的就可以舍掉。如对研究生入学前数据中的学生编号、证件号、本科学校地址、本科学校和专业代码等字段属性进行了舍弃;除此之外,对研究生培养成绩数据中的思想品德考核、科研能力评议、论文评阅情况和建议授予学位表决情况等字段属性进行了舍弃;这些属性值对本文的研究没有价值。
(3)数据转换
在表中某一类数据会有不同的表现形式,如学位课成绩有的是具体的分数,而有的是优良中及格和不及格。本文对数据的转换就是将优良中及格和不及格类型的数据按优为95分、良为85分、中为75分、及格为65分以及不及格为55分的规则进行转换。
(4)数据离散化
根据本文的研究内容需要对某些数据进行离散。如对学位课、选修课和答辩成绩进行离散的具体做法为将连续值的成绩划分为五个区间;60分以下的区间用不及格表示,60-70分的区间用及格表示,70-80分的区间用中表示,80-90分的区间用良表示,90-100分的区间用优表示。
3。3 研究模型
首先,研究JKD的研究生和导师规模以及各学院的生师比,以了解学校整体研究生和导师的现状;其次,对研究生在校期间的学位课、选修课和答辩的成绩进行分析,并对专硕和学硕的这三者的成绩进行对比研究;再次,对研究生入学时的成绩、所修学分与入学后的培养成绩间的关系分别进行分析研究;最后,分析导师与研究生之间的关系,包括导师时效内的或是兼职的、导师所带专业的数目、学硕与专硕都带的导师和只带专硕的导师和导师与考研分数等对研究生答辩成绩的影响。针对研究对象所涉及的信息间的关系建立研究模型如图3-1所示。