1.1 研究现状
1.2 背景知识
统计学的研究内容大体上包括描述性统计和推断性统计两部分。描述性统计主要通过收集、处理、汇总,把数据用图表描述出来,并结合实际问题进行概括和分析;推断性统计主要考虑到一些实际问题的可测性及测量难度,以小见大,以样本反映总体,抽取部分样本进行测量,然后根据样本数据的特征推断总体的特征。推断性统计的方法很多,应用也十分广泛。下面我们先简单回顾概率论与数理统计的一些知识。
设 为随机变量,对任意的 ,令 ,则称 为随机变量 的分布函数。分布函数 具有以下性质:
(1) 为不减函数,即任取 ,则有 ;
(2) 为左连续函数,即 ;
(3) 满足归一性: , 。
随机变量 的分布函数为 ,若存在非负函数 ,使得对任意实数 ,都有 ,则称 为连续型随机变量, 为概率密度函数。 具有以下性质:
(1) ;
(2) ;
(3)任取 , ;
(4)在 的连续点处,有 。
概率密度函数能够反映随机变量的统计特征以及分布情况,并能计算相应的期望、方差等数字特征,进而更好的研究该随机变量的实际意义。常见的连续型随机变量有:
均匀分布 ;
正态分布 ;
指数分布 。
在实际问题中,有些分布函数的参数未知,这时就需要根据样本数据估计总体,对总体的分布进行推断是反映总体特征的根本。典型的统计推断是参数估计与假设检验,大致步骤是从根据实际问题假定分布族开始的,事先假定总体的分布情况,抽取样本数据,然后通过样本数据计算必要的统计量,进而估计出总体分布中的参数,最后通过假设检验研究其估计的可信度。常用的参数估计方法有矩估计法和极大似然估计法。
矩估计法:设总体 的分布函数 中有 个未知参数 ,假设 的 阶原点矩 存在,并记 ,记 ,其中 。令 ,解得的 就是 的矩估计量。
极大似然估计法:设总体 的概率密度函数为 , 为总体中的一个样本,相应的观察值为 ,定义样本的似然函数为
,
使 最大的 称为 的极大似然估计量。
然而,随着研究问题的复杂化以及数据量的膨胀,事先对总体做出必要的具体的假定越来越困难,不仅需要大量的背景知识,而且探索性问题的研究中总体的信息较为匮乏,例如在影响因素很多的经济学问题和社会问题。这就使得我们不能明确的假定出总体的分布形式,或者对总体的假定不合理从而造成损失,这时我们就要用到非参数统计方法,即不假设总体分布的具体形式,尽量从数据本身获取必要信息,进而估计出分布的结构。
2 非参数密度估计方法
概率分布是统计推断的核心,从某种意义上看,联合概率密度提供了关于所要分析变量的全部信息,有了联合密度,则可以回答变量子集之间的任何问题。概率密度函数的非参数估计方法就是在尽可能少的假定密度函数 的情况下来对 进行估计,记估计量为 ,而估计结果的质量将取决于带宽或窗宽 ,所以选择合适的 很关键。
2.1 直方图密度估计
直方图密度估计是最简单的非参数密度估计方法,应用广泛,类似于用直方图来描述数据的频率,因此而得名。
2.1.1 基本概念
以一元随机变量为例,假设在区间 上有 个数据 ,将区间 划分为 , 那么有 令 为落在 中的数据个数[2]。 概率密度函数的非参数估计及R语言图形展示(2):http://www.youerw.com/shuxue/lunwen_29784.html