Motivation:已知数据,反推背后的模型参数
前面概率论是"已知分布,预测数据长什么样";现在数理统计反过来——我们拿到了数据,想知道它服从什么分布、参数是多少。
比如:测了 100 个零件的尺寸,想知道这批零件的平均长度 $\mu$ 和波动程度 $\sigma^2$ 是多少?
这就是参数估计要解决的问题。
用一个具体的数值去估计未知参数。
思想:用样本矩去"匹配"总体矩。
| 总体矩 | 样本矩 | 估计方式 |
|---|---|---|
| 一阶原点矩 $E(X) = \mu$ | 样本均值 $\bar X = \frac{1}{n}\sum X_i$ | $\hat \mu = \bar X$ |
| 二阶中心矩 $D(X) = \sigma^2$ | 样本方差 $S^2 = \frac{1}{n}\sum (X_i-\bar X)^2$ | $\hat \sigma^2 = S^2$ |
📄 优点:简单直观,几乎所有分布都能用
📄 缺点:不一定充分利用了分布的全部信息(因为矩估计法只关心"矩"(均值、方差等),不关心数据具体服从什么分布。它把复杂的数据分布"压缩"成了几个数字,自然会丢失信息。)
思想:既然观测到了这组数据,那就找最可能产生这组数据的参数值。
📄 似然函数
$$ L(\theta) = \prod_{i=1}^n f(X_i; \theta) $$
即:在参数 $\theta$ 下,观测到当前样本的联合概率密度。
📄 对数似然
$$ \ell(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(X_i; \theta) $$
MLE 就是求使 $\ell(\theta)$ 最大的 $\hat \theta$: