Last Updated: 2024-03-23 14:49:37 Saturday
-- TOC --
假设有一组采样数据\(x_i\),数量为\(n\),通过这组数据计算无偏方差:
基本上采样均值就按算术平均值计算。
\(\bar{x}=\cfrac{\sum_{i}x_i}{n}\)
\(s^2=\cfrac{\sum_{i}(x_i-\bar{x})^2}{n-1}\)
问题:为什么计算无偏方差式子的分母是\(n-1\)?
假设\(\mu\)是总体(population)的均值,\(\sigma^2\)是总体的方差。
\(E(\bar{x})=\mu\)
\(\begin{aligned} Var(\bar{x})&=Var(\cfrac{\sum_{i}x_i}{n})\\ &=\cfrac{1}{n^2}Var(\sum_{i}x_i)\\ &=\cfrac{1}{n^2}\sum_{i}Var(x_i)\\ &=\cfrac{n\sigma^2}{n^2}=\cfrac{\sigma^2}{n} \end{aligned}\)
这两个值与中心极限定理(CLT)内容对应。
算术平均值是使MSE(Mean Square Error)最小的值,所以:
\(\cfrac{\sum_{i}(x_i-\bar{x})^2}{n} \le \cfrac{\sum_{i}(x_i-\mu)^2}{n}\)
观察这个不等式会发现,如果分母使用\(n\),得到的方差偏小,此时叫做有偏方差。
具体小了多少呢?
\(E\left(\cfrac{\sum_{i}(x_i-\mu)^2}{n}\right)=\sigma^2\)
\(\begin{aligned} E\left(\cfrac{\sum_{i}(x_i-\bar{x})^2}{n}\right)&=\cfrac{1}{n}\cdot E\left(\sum_{i}((x_i-\mu)+(\mu-\bar{x}))^2\right) \\ &=\cfrac{1}{n}\cdot E\left(\sum_{i}(x_i-\mu)^2+\sum_{i}2(x_i-\mu)(\mu-\bar{x})+n(\mu-\bar{x})^2\right) \\ &=\cfrac{1}{n}\cdot E\left(\sum_{i}(x_i-\mu)^2-2n(\bar{x}-\mu)^2+n(\bar{x}-\mu)^2\right) \\ &=\cfrac{1}{n}\cdot E\left(\sum_{i}(x_i-\mu)^2-n(\bar{x}-\mu)^2\right) \\ &=\cfrac{1}{n}\cdot E(n\sigma^2-\sigma^2) \\ &=\cfrac{n-1}{n}\cdot\sigma^2 \end{aligned}\)
所以,无偏样本方差的期望:
\(E(s^2)=\sigma^2\)
这就是无偏样本方差分母是\(n-1\)的原因。
以上证明的一个关键形式变化为:
\(\sum_{i}(x_i-\mu)=n\cdot(\bar{x}-\mu)\)
本文链接:https://cs.pynote.net/math/202403189/
-- EOF --
-- MORE --