正态分布的研究
定义
正态分布(Normal Distribution)又名高斯分布(Gaussian Distribution),是现代社会中被大量运用的一种概率分布。
若随机变量X服从一个位置参数为μ、尺度参数为σ的概率分布,记为:
其概率密度函数为:
其曲线如下:
若一个指标受到许多因素的影响,并且其中任何一个因素都不对其产生决定性的影响,那么该指标的值很可能近似于正态分布。
- 独立同分布的随机变量;随机变量多次平均稳定后的概率服从正态分布
- N个正态分布的变量的线性组合也服从正态分布。
- 二项分布的极限分布是正态分布
- 当样本量N趋于无穷时,其极限分布都有正态的形式
类型:
- 严格正态分布:一般只会出现在理想的物理系统中,例如热力学系统中最大熵原理导致理想气体分子的速度服从正态分布
- 近似正态分布:如果一些变量服从相似的分布并且相关性较弱,那么它们的平均值就是近似正态分布的
- 假设正态分布:多数情况下,可以假设变量的分布服从正态分布;比如说误差分析
推导
假设已知随机变量X服从参数为n和p的二项分布,记作X ~ B(n,p),那么其概率密度函数为
求X落在二项分布中心点一定范围的概率$P_d = P(|X-np| \leq d)$
证明:
考虑p=1/2的情形,代入二项分布概率密度函数可得
使用上式的结果,并在二项概率累加求和的过程中近似的使用定积分代替求和,很容易就能得到
从而证得二项分布的极限分布是正态分布
中心极限定理
设随机变量 $ X_n (n=1,2,\cdots) $服从参数为 p 的二项分布,则对任意的x, 恒有
中心极限定理:中心极限定理说的是变量的观测值的平均数标准化后的极限分布是正态
误差分布曲线
误差的一些定性描述:
- 误差是对称分布的;误差分布函数f(x)关于零点对称分布,概率密度随|x|增加而减小
- 大的误差出现频率低,小的误差出现频率高
设真值为$\theta$,$x_1,\cdots,x_n$为n次独立测量值,每次测量的误差为$e_i = x_i - \theta$,假设误差$e_i$的密度函数为$f(e)$,则测量值的联合概率为n个误差的联合概率,记为
假设误差分布导出的极大似然估计 = 算术平均值,则取$L(\theta)$达到最大值的$\hat{\theta} = \hat{\theta}(x_1,\cdots,x_n)$作为$\theta$的估计值,即
对(1)式两边同时取对数得
求导得
为求极大似然估计,令
整理后得到
令$g(x) = {f^\prime (x) \over f(x)}$
由于上面我们假设极大似然估计的解$\theta$等于算术平均$\bar{x}$,带入(5)得到
(6)式中取n=2,有
由于定性中指出f(x)是关于零点对称分布,所以f(x)应满足g(x) = g(-x),所以此时有$x_1 - \bar{x} = -(x_2 - \bar{x})$,并且$x_1,x_2$是任意的,有此得到
(6)式中再取n=m+1,并且要求$x1=\cdots=x_m = -x , x_m+1 = mx$,则有$\bar{x} = 0$,
并且
所以得到
而满足上式的唯一的连续函数只有$g(x) = cx$,积分后从而进一步可以求解出
由于$f(x)$是概率分布函数,把$f(x)$正规化后可得到正态分布密度函数$N(0,{\varrho}^2)$
由$\int_{-\infty}^{\infty} f(x)dx = 1 $(概率密度函数的面积=1
),所以定有c<0,取$c=-{1 \over \sigma^2}$,则有$M={1 \over \sqrt{2\pi}\sigma}$ ,所以
则$(e_1,\cdots,e_n)$的联合概率分布为
要使得这个概率最大,必须使得$\sum_{i=1}^n (e_i)^2$取最小值,这正好就是最小二乘法的要求