无偏样本方差(Unbiased Sample Variance)

Last Updated: 2024-03-23 14:49:37 Saturday

-- TOC --

假设有一组采样数据\(x_i\),数量为\(n\),通过这组数据计算无偏方差:

基本上采样均值就按算术平均值计算。

\(\bar{x}=\cfrac{\sum_{i}x_i}{n}\)

\(s^2=\cfrac{\sum_{i}(x_i-\bar{x})^2}{n-1}\)

问题:为什么计算无偏方差式子的分母是\(n-1\)?

假设\(\mu\)是总体(population)的均值,\(\sigma^2\)是总体的方差。

\(E(\bar{x})=\mu\)

\(\begin{aligned} Var(\bar{x})&=Var(\cfrac{\sum_{i}x_i}{n})\\ &=\cfrac{1}{n^2}Var(\sum_{i}x_i)\\ &=\cfrac{1}{n^2}\sum_{i}Var(x_i)\\ &=\cfrac{n\sigma^2}{n^2}=\cfrac{\sigma^2}{n} \end{aligned}\)

这两个值与中心极限定理(CLT)内容对应。

算术平均值是使MSE(Mean Square Error)最小的值,所以:

\(\cfrac{\sum_{i}(x_i-\bar{x})^2}{n} \le \cfrac{\sum_{i}(x_i-\mu)^2}{n}\)

观察这个不等式会发现,如果分母使用\(n\),得到的方差偏小,此时叫做有偏方差。

具体小了多少呢?

\(E\left(\cfrac{\sum_{i}(x_i-\mu)^2}{n}\right)=\sigma^2\)

\(\begin{aligned} E\left(\cfrac{\sum_{i}(x_i-\bar{x})^2}{n}\right)&=\cfrac{1}{n}\cdot E\left(\sum_{i}((x_i-\mu)+(\mu-\bar{x}))^2\right) \\ &=\cfrac{1}{n}\cdot E\left(\sum_{i}(x_i-\mu)^2+\sum_{i}2(x_i-\mu)(\mu-\bar{x})+n(\mu-\bar{x})^2\right) \\ &=\cfrac{1}{n}\cdot E\left(\sum_{i}(x_i-\mu)^2-2n(\bar{x}-\mu)^2+n(\bar{x}-\mu)^2\right) \\ &=\cfrac{1}{n}\cdot E\left(\sum_{i}(x_i-\mu)^2-n(\bar{x}-\mu)^2\right) \\ &=\cfrac{1}{n}\cdot E(n\sigma^2-\sigma^2) \\ &=\cfrac{n-1}{n}\cdot\sigma^2 \end{aligned}\)

所以,无偏样本方差的期望:

\(E(s^2)=\sigma^2\)

这就是无偏样本方差分母是\(n-1\)的原因。

以上证明的一个关键形式变化为:

\(\sum_{i}(x_i-\mu)=n\cdot(\bar{x}-\mu)\)

本文链接:https://cs.pynote.net/math/202403189/

-- EOF --

-- MORE --