参数估计 | Notion

Motivation：已知数据，反推背后的模型参数

前面概率论是"已知分布，预测数据长什么样"；现在数理统计反过来——我们拿到了数据，想知道它服从什么分布、参数是多少。

比如：测了 100 个零件的尺寸，想知道这批零件的平均长度 $\mu$ 和波动程度 $\sigma^2$ 是多少？

这就是参数估计要解决的问题。

1. 点估计

用一个具体的数值去估计未知参数。

思想：用样本矩去"匹配"总体矩。

总体矩	样本矩	估计方式
一阶原点矩 $E(X) = \mu$	样本均值 $\bar X = \frac{1}{n}\sum X_i$	$\hat \mu = \bar X$
二阶中心矩 $D(X) = \sigma^2$	样本方差 $S^2 = \frac{1}{n}\sum (X_i-\bar X)^2$	$\hat \sigma^2 = S^2$

📄 优点：简单直观，几乎所有分布都能用

📄 缺点：不一定充分利用了分布的全部信息（因为矩估计法只关心"矩"（均值、方差等），不关心数据具体服从什么分布。它把复杂的数据分布"压缩"成了几个数字，自然会丢失信息。）

思想：既然观测到了这组数据，那就找最可能产生这组数据的参数值。

📄 似然函数

$$ L(\theta) = \prod_{i=1}^n f(X_i; \theta) $$

即：在参数 $\theta$ 下，观测到当前样本的联合概率密度。

📄 对数似然

$$ \ell(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(X_i; \theta) $$

MLE 就是求使 $\ell(\theta)$ 最大的 $\hat \theta$：