2 线性回归分析介绍
2.1 回归分析概述
回归分析是应用非常广泛的数量分析方法之一.它用于分析事物彼此之间的统计关系,侧重于对各变量之间的数量变化规律的考察,且通过线性回归方程的形式反映和描述出这种关系,帮助人们准确了解变量受其他变量影响的程度,进一步为预测结果提供科学依据.而利用样本数据得到回归线的方法一般有局部平均和函数拟合两种方法.回归分析的一般步骤可以分为五步:首先,确定回归方程中的解释变量和被解释变量;其次,确定回归模型;再次,建立回归方程;然后,对回归方程进行各种检验;最后,利用回归方程进行预测.
2.2 线性回归分析和线性回归模型
观察被解释变量 和多个解释变量 的散点图,当发现 与 之间呈现出显著的线性关系时,则采用线性回归分析的方法,建立 关于 的线性回归模型.
多元线性回归模型是指含有多个解释变量的线性回归模型,用于揭示被解释变量与其他多个解释变量之间的线性关系.
多元线性回归的数学模型是:
上式(1)是一个p元线性回归模型,其中有p个解释变量.它表明被解释变量 的变化可由两个部分解释:第一部分,由p个解释变量 的变化引起的 的线性变化部分,即 ;第二部分,由其他随机因素引起的y的变化部分,即 .
, ,… , 都是模型中的未知参数,分别称为回归常数和偏回归系数. 称为随机误差,也是一个随机变量,同样满足 , 的要求.如果对式(1)两边求期望,则有
式(2)称为多元线性回归方程.
2.3 回归方程的统计检验
通过样本数据建立的回归方程一般不能立即用于对实际问题的分析和预测,通常要进行各种统计检验,主要包括回归方程的拟合优度检验、回归方程的显著性检验、回归系数的显著性检验、残差分析等.
2.3.1 拟合优度检验
拟合优度检验从对被解释变量y取值变化的成因分析入手.正如式(1)表明的那样,y的各观测值之间的差异(或与其均值的差异)主要由两方面原因造成:一是由解释变量 取值不同造成的;二是由其他随机因素造成的.当所有样本点都落在回归线上时,回归方程的拟合优度一定是最高的.此时 的SST(总方差)中其实只包含SSA(组间离差平方和)部分,而没有SSE(组内离差平方和).由此可知:在 的SST(总方差)中,如果SSA(组间离差平方和)所占的比例远大于SSE(组内离差平方和)所在占的比例,也就是说,回归方程能够解释的变差所占的比例较大,那么回归方程的拟合优度较高.
2.3.2 回归方程的显著性检验
在回归方程的显著性检验中采用方差分析的方法,研究在SST中SSA相对于SSE来说是否占较大的比例. 如果占有较大比例,则表示 与 全体的线性关系明显,利用线性模型反映 与所有 的关系是恰当的;反之,如果占有较小比例,则表示 与 全体的线性关系不明显,利用线性模型反映 与所有 的关系是不恰当的.回归方程的显著性检验采用的检验统计量正是基于这种思想构造的.
3 前期工作准备源/自:优尔:`论~文'网www.youerw.com
3.1 因素猜想
由于餐厅就餐人数的多少直接关系到餐厅的收益与发展,因而我们需要了解是什么原因会导致餐厅就餐人数的增减,只有深入了解原因才能更好的把握时机做出相应的改善,确保餐厅的可持续发展.经过在餐厅几天的观察了解,猜想餐厅就餐人数可能与食物品种,食物价格,餐厅卫生,餐厅的环境设施,食物的分量以及餐厅的服务态度等因素有关,而由于好多因素属于定性变量无法用具体数值描述,所以可以通过对这些因素进行打分,从而转化为定量变量,用分数的高低来体现影响因素关系的大小.