2。3 本章小结
为开展后续的数据挖掘与分析研究,本章对数据挖掘与数据可视化的基本理念与方法进行了简要阐述。
3 现状分析、数据收集整理与研究模型论文网
3。1 JKD研究生教育规模与需求分析
3。1。1 JKD研究生教育规模
JKD拥有12个硕士学位授权一级学科,48个硕士学位授权点;有工程硕士、农业推广硕士、工商管理硕士、会计硕士和公共管理硕士等5个专业硕士学位培养类型,其中工程硕士有11个培养领域。学校拥有硕士研究生导师630余人。自2000年以来,JKD的研究生招生培养人数在迅速增长,到2016年研究生招收人数已达到850人左右,是2000年招生人数的20倍左右。
3。1。2 JKD研究生教育需求分析
JKD一直注重研究生教育质量的培养,积极推动学位与研究生教育改革发展,破除发展障碍,并努力建立充满活力的人才培养体系,培养学生创新精神,提高科技创新能力,为各方面创新提供高素质人才、知识和技术支撑。为进一步提高研究生教育质量,需要找到能提高研究生教育质量和效益的方法,通过数据挖掘分析可以很好的解决这一问题。随着信息技术的发展,多年来学校数据库中积累了大量有关研究生和导师各方面的数据,对这些数据进行挖掘分析,就可以发现不同类型学生的发展规律及研究生和导师之间究竟存在着何种关系等,并可据此对JKD的研究生的培养有针对性的提出相关建议,最后达到提升JKD研究生教育质量和效益的效果。
3。2 数据收集与预处理
3。2。1 数据收集
本文研究所要涉及到的是有关JKD的历年研究生在入学前的数据、入学后培养和答辩的数据、优秀论文数据、创新工程数据以及与导师有关的数据。在老师的帮助下主要从以下三个方面进行数据的收集。
1)从JKD的研究生招生部门的研究生数据库中收集历年研究生入学前的信息,包括本科院校、本科专业、考研各门成绩等数据。
2)从JKD的研究生培养部门处收集研究生的课程培养信息,包括学位课平均成绩、选修课平均成绩以及所修学分等数据。
3)从JKD的研究生学位部门处收集研究生的导师、论文、答辩及优秀论文及创新工程与获奖等信息,包括导师职位、导师专业、毕业论文题目以及答辩平均成绩,优秀论文等数据。
从以上三个方面,首先,收集到了JKD从2009年到 2015年的研究生入学信息, 7张表,共4647条数据。其次,收集到了2000级到2013级研究生培养信息,共14张表,2张文档,共5066条数据;同时还收集2003年到2014年有关研究生教材建设和精品课程的2张文档。再次,收集到了从1999级到2012级研究生的学位数据,其涉及27张表,4张文档,共5396条数据。此外,还收集到了2001年到2015年研究生的省优秀论文获奖的数据, 涉及1张表,15条数据,2000年到2015年研究生校优秀论文获奖的数据,涉及1张表,123条数据;2001年到2015年研究生创新工程获奖方面的数据,涉及1张表,共120条数据。最后,收集到有关导师的数据,涉及1张表,共631条数据。
3。2。2 数据预处理
这些来自不同部门,不同数据库的研究生及导师队伍的数据是杂乱无章的。首先,格式不统一,如有些研究生入学前数据的属性名称都是用一些字母代替的,这就很难辨认这些字母代表的具体信息,除此之外,有些年份的学院名称是缩写的,而有的则是全称。其次,收集来的原始数据是分散的,不利于后面的研究分析,如每年的汇总数据是分散在多张表上的。再次,多种数据之间没有进行关联,如学生的入学信息、入学后培养信息、答辩信息与导师信息等都各自成表,不利于后面进行数据间关系的研究分析。最后,有些数据的某些属性值是空缺的,为了研究的进行就要根据情况对这些空缺值进行处理。针对以上的问题需要进行如下的数据预处理: