R语言其强大的软件包是其最大的优势,其中内置有许多的专门面向专业统计人员的功能包,只要某种统计分析技术存在,几乎必存在某一R软件包与之对应,做回归分析中,仅一个lm()函数即可实现求参数及做检验功能,加之R软件的获得及使用都是免费的,省时省力又省钱.
1.3国内外研究现状及存在的问题
R语言作为诞生于上个世纪八九十年代的统计软件,它在机器学习领域和数据分析领域应用已经越来越广泛,随着时间的流逝,R语言也逐渐吸引了来自其他各方面领域的人才,而且R语言在图表和图形方面的功能是其他任何一款软件都比不上的,现如今已经有许多主流机器学习算法把R语言作为主要实现手段。R语言其强大的软件包是其最大的优势,其中内置有许多的专门面向专业统计人员的功能包,只要某种统计分析技术存在,几乎一定会存在某一R软件包与它相对应,做回归分析中,仅一个lm()函数即可实现求参数及做检验功能。R语言起源于国外,其发展在国外比较成熟但在中国发展却不那么看好。
R语言在国内第一个里程碑为2008年在中国人民大学举办的第一届R语言会议,当时有包括一些在R语言领域比较活跃的100多人参加了会议。虽然会议成功举办,R语言的发展一直是不愠不火的,在最近几年R语言却随着大数据活了起来。大家发现它不仅仅是一个统计画图软件,它更有可能成为大数据时代下一个不可缺少的分析研究工具。如今,第七届中国R语言会议已经成功在中国人民大学成功举办,越来越多年轻的统计爱好者加入到了R语言的大家庭中,不少商业公司也将R语言植入到公司的产品开发与应用当中,其在中国的发展越来越成熟,应用越来越广泛,学习R语言的氛围也越来越好。R语言因为其灵活、开源、包容的特性,受到了学界和业界的认可和青睐,R语言在未来一定会发挥更大的作用[20]。
R语言研究不足:这个软件并不是人人都能接触到的,相对要比较小众,有些人即使接触过但也不一定知道它的真正用途。虽然R语言在现代生活中尤其应用领域非常广泛,但是面对信息大爆炸的当代,R语言在具体问题分析时仍然需要不断更新发展其分析模型和参数,这需要广大的相关专家学者尤其国内的专家学者深入研究。
1.4本文的主要内容
本文主要使用R语言对影响商品房房价的因素进行多元回归分析,采用最小二乘法构建数学模型,通过分析模型发现各解释变量间存在严重的序列相关性问题,然后通过一系列解决方法解决问题,还另举例研究了异方差问题,具体内容包括:
(1)数据的处理
(2)回归模型的建立
(3)利用一系列方法解决序列相关及多重共线性问题
(4)另举例研究R语言在异方差中的作用
1.5本文结构安排
第一章绪论.
第二章回归分析理论回归.
第三章SPSS软件在回归分析中的应用.第四章结论总结
第二章 回归分析的理论回顾
2.1回归分析概述
回归分析是确定两种或两种以上自变量之间相互依存的定量关系之间的一种统计分析方法,引用非常广泛。
回归分析的主要内容为:
①通过研究一组数据,来确定其中一些变量的定量关系,通过建立数学模型以估计其中的未知参数。我们经常用最小二乘法来估计未知参数。
②对上述我们所估计的定量关系进行检验。
③在多个解释变量共同影响着一个被解释变量的关系中,判断哪个解释变量的影响是显著的,哪些解释变量的影响是不显著的,将影响较显著的解释变量带入模型中,而剔除影响相对不显著的解释变量,通常用逐步回归、向前或向后回归分析等方法。