概率统计

“概率论是关于不确定性的数学，统计学是从数据中提取知识的科学。” —— 统计学家布拉德利·埃弗伦

概率统计是处理随机现象和不确定性的数学工具。在数学建模中，它帮助我们量化不确定性、分析随机过程、从数据中推断规律，是现代数据科学和机器学习的理论基础。

概率论基础

概率空间

基本概念

样本空间（Sample Space）：所有可能结果的集合，记作 \(\Omega\)。

事件（Event）：样本空间的子集，通常用大写字母 \(A, B, C\) 表示。

事件域（σ-代数）：满足一定条件的事件集合 \(\mathcal{F}\)：

\(\Omega \in \mathcal{F}\)
若 \(A \in \mathcal{F}\)，则 \(A^c \in \mathcal{F}\)
若 \(A_1, A_2, \ldots \in \mathcal{F}\)，则 \(\bigcup_{i=1}^{\infty} A_i \in \mathcal{F}\)

概率测度：函数 \(P: \mathcal{F} \rightarrow [0,1]\)，满足概率公理。

概率公理

公理1（非负性）：对任意事件 \(A\)，\(P(A) \geq 0\)

公理2（归一性）：\(P(\Omega) = 1\)

公理3（可列可加性）：对于两两互不相交的事件序列 \({A_i}\)： \[P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)\]

概率的基本性质

空集概率：\(P(\emptyset) = 0\)
补集概率：\(P(A^c) = 1 - P(A)\)
单调性：若 \(A \subseteq B\)，则 \(P(A) \leq P(B)\)
加法公式：\(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)
包含排斥原理： \[P(A_1 \cup A_2 \cup \cdots \cup A_n) = \sum_{i} P(A_i) - \sum_{i<j} P(A_i \cap A_j) + \cdots + (-1)^{n+1} P(A_1 \cap \cdots \cap A_n)\]

条件概率与独立性

条件概率

事件 \(A\) 在事件 \(B\) 发生条件下的概率： \[P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad P(B) > 0\]

乘法公式

\[P(A \cap B) = P(A|B)P(B) = P(B|A)P(A)\]

一般形式： \[P(A_1 \cap A_2 \cap \cdots \cap A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1 \cap A_2) \cdots P(A_n|A_1 \cap \cdots \cap A_{n-1})\]

全概率公式

设 \({B_i}\) 是样本空间的一个分割，则对任意事件 \(A\)： \[P(A) = \sum_{i} P(A|B_i)P(B_i)\]

贝叶斯定理

\[P(B_j|A) = \frac{P(A|B_j)P(B_j)}{\sum_{i} P(A|B_i)P(B_i)}\]

意义：

\(P(B_j)\)：先验概率
\(P(B_j|A)\)：后验概率
\(P(A|B_j)\)：似然函数

独立性

两事件独立：\(P(A \cap B) = P(A)P(B)\)

等价条件：

\(P(A|B) = P(A)\)（当 \(P(B) > 0\)）
\(P(B|A) = P(B)\)（当 \(P(A) > 0\)）

多事件独立：

两两独立：任意两个事件独立
相互独立：任意子集的交事件概率等于各事件概率的乘积

古典概型与几何概型

古典概型

条件：

有限个等可能的基本事件
每个基本事件发生的概率相等

概率计算： \[P(A) = \frac{\text{事件A包含的基本事件数}}{\text{基本事件总数}} = \frac{|A|}{|\Omega|}\]

排列组合

排列数：从 \(n\) 个不同元素中取 \(r\) 个元素的排列数 \[A_n^r = P_n^r = \frac{n!}{(n-r)!}\]

组合数：从 \(n\) 个不同元素中取 \(r\) 个元素的组合数 \[C_n^r = \binom{n}{r} = \frac{n!}{r!(n-r)!}\]

重要公式：

\(\binom{n}{r} = \binom{n}{n-r}\)
\(\binom{n}{r} = \binom{n-1}{r-1} + \binom{n-1}{r}\)
\((x+y)^n = \sum_{k=0}^n \binom{n}{k} x^k y^{n-k}\)

几何概型

当样本空间是连续的几何区域时： \[P(A) = \frac{\text{区域A的测度}}{\text{样本空间的测度}}\]

测度可以是长度、面积、体积等。

随机变量

随机变量的概念

定义：随机变量是定义在概率空间上的实值函数： \[X: \Omega \rightarrow \mathbb{R}\]

分布函数： \[F(x) = P(X \leq x), \quad x \in \mathbb{R}\]

性质：

单调性：\(F(x)\) 单调不减
右连续性：\(F(x+0) = F(x)\)
极限性：\(\lim_{x \to -\infty} F(x) = 0\)，\(\lim_{x \to +\infty} F(x) = 1\)

离散型随机变量

概率质量函数

\[p(x_i) = P(X = x_i), \quad i = 1, 2, \ldots\]

性质：

\(p(x_i) \geq 0\)
\(\sum_i p(x_i) = 1\)

常见离散分布

1. 伯努利分布 \(B(1, p)\) \[P(X = k) = \begin{cases} p & k = 1 \ 1-p & k = 0 \end{cases}\]

2. 二项分布 \(B(n, p)\) \[P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \ldots, n\]

3. 几何分布 \(\text{Geo}(p)\) \[P(X = k) = (1-p)^{k-1} p, \quad k = 1, 2, \ldots\]

4. 泊松分布 \(\text{Poisson}(\lambda)\) \[P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots\]

泊松近似：当 \(n\) 很大，\(p\) 很小，\(np = \lambda\) 适中时： \[B(n, p) \approx \text{Poisson}(\lambda)\]

连续型随机变量

概率密度函数

如果存在非负函数 \(f(x)\) 使得： \[F(x) = \int_{-\infty}^x f(t) dt\]

则称 \(f(x)\) 为概率密度函数。

性质：

\(f(x) \geq 0\)
\(\int_{-\infty}^{+\infty} f(x) dx = 1\)
\(P(a < X \leq b) = \int_a^b f(x) dx\)

常见连续分布

1. 均匀分布 \(U(a, b)\) \[f(x) = \begin{cases} \frac{1}{b-a} & a \leq x \leq b \ 0 & \text{其他} \end{cases}\]

2. 指数分布 \(\text{Exp}(\lambda)\) \[f(x) = \begin{cases} \lambda e^{-\lambda x} & x \geq 0 \ 0 & x < 0 \end{cases}\]

无记忆性：\(P(X > s+t | X > s) = P(X > t)\)

3. 正态分布 \(N(\mu, \sigma^2)\) \[f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\]

标准正态分布 \(N(0, 1)\)： \[\varphi(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}\]

标准化：若 \(X \sim N(\mu, \sigma^2)\)，则 \(Z = \frac{X-\mu}{\sigma} \sim N(0, 1)\)

4. 伽马分布 \(\text{Gamma}(\alpha, \beta)\) \[f(x) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}, \quad x > 0\]

其中 \(\Gamma(\alpha) = \int_0^{\infty} t^{\alpha-1} e^{-t} dt\) 是伽马函数。

5. 卡方分布 \(\chi^2(n)\) \[f(x) = \frac{1}{2^{n/2}\Gamma(n/2)} x^{n/2-1} e^{-x/2}, \quad x > 0\]

6. t分布 \(t(n)\) \[f(x) = \frac{\Gamma((n+1)/2)}{\sqrt{n\pi}\Gamma(n/2)} \left(1 + \frac{x^2}{n}\right)^{-(n+1)/2}\]

7. F分布 \(F(m, n)\) \[f(x) = \frac{\Gamma((m+n)/2)}{\Gamma(m/2)\Gamma(n/2)} \left(\frac{m}{n}\right)^{m/2} \frac{x^{m/2-1}}{(1 + \frac{m}{n}x)^{(m+n)/2}}, \quad x > 0\]

随机变量的数字特征

数学期望

离散型： \[E[X] = \sum_i x_i P(X = x_i)\]

连续型： \[E[X] = \int_{-\infty}^{+\infty} x f(x) dx\]

性质：

线性性：\(E[aX + bY] = aE[X] + bE[Y]\)
常数：\(E[c] = c\)
独立性：若 \(X, Y\) 独立，则 \(E[XY] = E[X]E[Y]\)

方差

\[\text{Var}(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2\]

性质：

\(\text{Var}(aX + b) = a^2 \text{Var}(X)\)
若 \(X, Y\) 独立，则 \(\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)\)

标准差：\(\sigma(X) = \sqrt{\text{Var}(X)}\)

高阶矩

k阶原点矩：\(\mu_k = E[X^k]\)

k阶中心矩：\(\nu_k = E[(X - E[X])^k]\)

偏度（Skewness）： \[\text{Skew}(X) = \frac{E[(X - \mu)^3]}{\sigma^3}\]

峰度（Kurtosis）： \[\text{Kurt}(X) = \frac{E[(X - \mu)^4]}{\sigma^4}\]

协方差和相关系数

协方差： \[\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y]\]

相关系数： \[\rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X)\text{Var}(Y)}}\]

性质：

\(-1 \leq \rho(X, Y) \leq 1\)
\(|\rho(X, Y)| = 1\) 当且仅当 \(X, Y\) 线性相关
\(\rho(X, Y) = 0\) 称为不相关

多维随机变量

联合分布

离散型： \[p(x_i, y_j) = P(X = x_i, Y = y_j)\]

连续型： \[F(x, y) = P(X \leq x, Y \leq y) = \int_{-\infty}^x \int_{-\infty}^y f(u, v) dudv\]

边际分布

离散型： \[p_X(x_i) = \sum_j p(x_i, y_j)\]

连续型： \[f_X(x) = \int_{-\infty}^{+\infty} f(x, y) dy\]

条件分布

离散型： \[P(X = x_i | Y = y_j) = \frac{p(x_i, y_j)}{p_Y(y_j)}\]

连续型： \[f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)}\]

独立性

随机变量 \(X, Y\) 独立当且仅当： \[f(x, y) = f_X(x) f_Y(y)\]

对所有 \(x, y\) 成立。

大数定律与中心极限定理

收敛性概念

依概率收敛

\[X_n \xrightarrow{P} X \iff \lim_{n \to \infty} P(|X_n - X| > \epsilon) = 0, \quad \forall \epsilon > 0\]

几乎必然收敛

\[X_n \xrightarrow{a.s.} X \iff P(\lim_{n \to \infty} X_n = X) = 1\]

依分布收敛

\[X_n \xrightarrow{d} X \iff \lim_{n \to \infty} F_n(x) = F(x)\]

在 \(F(x)\) 的连续点处成立。

大数定律

弱大数定律（辛钦大数定律）

设 \({X_n}\) 独立同分布，且 \(E[X_1] = \mu\) 存在，则： \[\frac{1}{n} \sum_{i=1}^n X_i \xrightarrow{P} \mu\]

强大数定律（柯尔莫哥洛夫强大数定律）

设 \({X_n}\) 独立同分布，且 \(E[X_1] = \mu\) 存在，则： \[\frac{1}{n} \sum_{i=1}^n X_i \xrightarrow{a.s.} \mu\]

贝努利大数定律

设 \(S_n\) 是 \(n\) 次独立重复试验中事件 \(A\) 发生的次数，\(P(A) = p\)，则： \[\frac{S_n}{n} \xrightarrow{P} p\]

中心极限定理

独立同分布中心极限定理（Lindeberg-Lévy定理）

设 \({X_n}\) 独立同分布，\(E[X_1] = \mu\)，\(\text{Var}(X_1) = \sigma^2 < \infty\)，则： \[\frac{\sum_{i=1}^n X_i - n\mu}{\sigma\sqrt{n}} \xrightarrow{d} N(0, 1)\]

棣莫弗-拉普拉斯定理

设 \(S_n \sim B(n, p)\)，则当 \(n \to \infty\) 时： \[\frac{S_n - np}{\sqrt{np(1-p)}} \xrightarrow{d} N(0, 1)\]

李雅普诺夫中心极限定理

对于独立但不同分布的随机变量序列，在满足李雅普诺夫条件下，标准化的和仍趋向于标准正态分布。

应用举例

质量控制

在生产过程中，产品的某项指标 \(X \sim N(\mu, \sigma^2)\)。通过样本均值 \(\bar{X}\) 来监控过程：

控制图：

中心线：\(\mu\)
控制限：\(\mu \pm 3\frac{\sigma}{\sqrt{n}}\)

原理：由中心极限定理，\(\bar{X} \sim N(\mu, \frac{\sigma^2}{n})\)

民意调查

估计支持率 \(p\)，样本量为 \(n\)，样本支持率为 \(\hat{p}\)：

置信区间（近似）： \[\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

参数估计

点估计

矩估计法

原理：用样本矩估计总体矩

k阶样本矩： \[A_k = \frac{1}{n} \sum_{i=1}^n X_i^k\]

步骤：

建立总体矩与参数的关系
用样本矩代替总体矩
解方程得到参数估计

例子：正态分布 \(N(\mu, \sigma^2)\)

\(E[X] = \mu \Rightarrow \hat{\mu} = \bar{X}\)
\(\text{Var}(X) = \sigma^2 \Rightarrow \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2\)

最大似然估计法

似然函数： \[L(\theta) = \prod_{i=1}^n f(x_i; \theta)\]

对数似然函数： \[\ell(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(x_i; \theta)\]

最大似然估计： \[\hat{\theta} = \arg\max_\theta L(\theta) = \arg\max_\theta \ell(\theta)\]

求解方法： \[\frac{d\ell(\theta)}{d\theta} = 0\]

例子：指数分布 \(\text{Exp}(\lambda)\) \[f(x; \lambda) = \lambda e^{-\lambda x}, \quad x > 0\] \[\ell(\lambda) = n\ln\lambda - \lambda\sum_{i=1}^n x_i\] \[\frac{d\ell}{d\lambda} = \frac{n}{\lambda} - \sum_{i=1}^n x_i = 0\] \[\hat{\lambda} = \frac{n}{\sum_{i=1}^n x_i} = \frac{1}{\bar{x}}\]

贝叶斯估计

贝叶斯公式： \[\pi(\theta|x) = \frac{f(x|\theta)\pi(\theta)}{m(x)}\]

其中：

\(\pi(\theta)\)：先验分布
\(\pi(\theta|x)\)：后验分布
\(f(x|\theta)\)：似然函数
\(m(x) = \int f(x|\theta)\pi(\theta)d\theta\)：边际分布

点估计：

后验均值：\(\hat{\theta}_B = E[\theta|x]\)
后验中位数：使 \(P(\theta \leq \hat{\theta}_B|x) = 0.5\)
后验众数：使 \(\pi(\theta|x)\) 最大

估计量的评价标准

无偏性

\[E[\hat{\theta}] = \theta\]

例子：

\(\bar{X}\) 是 \(\mu\) 的无偏估计
\(S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\) 是 \(\sigma^2\) 的无偏估计

有效性

在所有无偏估计中，方差最小的估计称为有效估计。

Cramér-Rao不等式： \[\text{Var}(\hat{\theta}) \geq \frac{1}{nI(\theta)}\]

其中 \(I(\theta) = E\left[-\frac{\partial^2 \ln f(X;\theta)}{\partial \theta^2}\right]\) 是Fisher信息量。

一致性

\[\hat{\theta}_n \xrightarrow{P} \theta \quad \text{或} \quad \hat{\theta}_n \xrightarrow{a.s.} \theta\]

区间估计

置信区间

对于参数 \(\theta\)，如果随机区间 \([\hat{\theta}_L, \hat{\theta}_U]\) 满足： \[P(\hat{\theta}_L \leq \theta \leq \hat{\theta}_U) = 1 - \alpha\]

则称其为 \(\theta\) 的置信度为 \(1-\alpha\) 的置信区间。

正态总体的区间估计

均值 \(\mu\) 的置信区间（\(\sigma\) 已知）： \[\bar{X} \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\]

均值 \(\mu\) 的置信区间（\(\sigma\) 未知）： \[\bar{X} \pm t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}\]

方差 \(\sigma^2\) 的置信区间： \[\left[\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\right]\]

大样本置信区间

当样本量较大时，基于中心极限定理： \[\hat{\theta} \pm z_{\alpha/2} \sqrt{\text{Var}(\hat{\theta})}\]

假设检验

基本概念

假设的陈述

原假设：\(H_0: \theta = \theta_0\)

备择假设：

双侧：\(H_1: \theta \neq \theta_0\)
单侧：\(H_1: \theta > \theta_0\) 或 \(H_1: \theta < \theta_0\)

两类错误

第一类错误（α错误）：拒绝真的 \(H_0\) \[\alpha = P(\text{拒绝}H_0 | H_0\text{为真})\]

第二类错误（β错误）：接受假的 \(H_0\) \[\beta = P(\text{接受}H_0 | H_1\text{为真})\]

功效（Power）： \[1 - \beta = P(\text{拒绝}H_0 | H_1\text{为真})\]

检验统计量与拒绝域

检验统计量：\(T = T(X_1, X_2, \ldots, X_n)\)

拒绝域：使得拒绝 \(H_0\) 的 \(T\) 值的集合

临界值：拒绝域的边界

单个正态总体的检验

均值的检验

1. Z检验（\(\sigma\) 已知） \[H_0: \mu = \mu_0 \quad \text{vs} \quad H_1: \mu \neq \mu_0\]

检验统计量： \[Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}} \sim N(0, 1)\]

拒绝域：\(|Z| > z_{\alpha/2}\)

2. t检验（\(\sigma\) 未知） \[H_0: \mu = \mu_0 \quad \text{vs} \quad H_1: \mu \neq \mu_0\]

检验统计量： \[t = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} \sim t(n-1)\]

拒绝域：\(|t| > t_{\alpha/2}(n-1)\)

方差的检验

\[H_0: \sigma^2 = \sigma_0^2 \quad \text{vs} \quad H_1: \sigma^2 \neq \sigma_0^2\]

检验统计量： \[\chi^2 = \frac{(n-1)S^2}{\sigma_0^2} \sim \chi^2(n-1)\]

拒绝域：\(\chi^2 < \chi^2_{1-\alpha/2}(n-1)\) 或 \(\chi^2 > \chi^2_{\alpha/2}(n-1)\)

两个正态总体的检验

均值差的检验

等方差情况： \[H_0: \mu_1 = \mu_2 \quad \text{vs} \quad H_1: \mu_1 \neq \mu_2\]

检验统计量： \[t = \frac{\bar{X}_1 - \bar{X}_2}{S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)\]

其中 \(S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}\)

不等方差情况（Welch检验）： \[t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}}\]

自由度： \[\nu = \frac{(\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2})^2}{\frac{S_1^4}{n_1^2(n_1-1)} + \frac{S_2^4}{n_2^2(n_2-1)}}\]

方差比的检验

\[H_0: \sigma_1^2 = \sigma_2^2 \quad \text{vs} \quad H_1: \sigma_1^2 \neq \sigma_2^2\]

检验统计量： \[F = \frac{S_1^2}{S_2^2} \sim F(n_1-1, n_2-1)\]

拒绝域：\(F < F_{1-\alpha/2}(n_1-1, n_2-1)\) 或 \(F > F_{\alpha/2}(n_1-1, n_2-1)\)

非参数检验

符号检验

用于检验中位数： \[H_0: M = M_0 \quad \text{vs} \quad H_1: M \neq M_0\]

检验统计量：正号的个数 \(S^+ \sim B(n, 0.5)\)

Wilcoxon符号秩检验

考虑差值的大小信息：

计算 \(|X_i - M_0|\) 并排秩
赋予符号得到符号秩
计算正符号秩和 \(W^+\)

Mann-Whitney U检验

用于两样本位置参数的比较： \[U = n_1 n_2 + \frac{n_1(n_1+1)}{2} - R_1\]

其中 \(R_1\) 是第一组样本的秩和。

p值方法

p值：在 \(H_0\) 成立条件下，观察到当前检验统计量值或更极端值的概率。

决策规则：

若 \(p < \alpha\)，拒绝 \(H_0\)
若 \(p \geq \alpha\)，不拒绝 \(H_0\)

优点：

提供了证据强度的度量
不依赖于预先设定的显著性水平

方差分析

单因素方差分析

模型

\[X_{ij} = \mu + \alpha_i + \epsilon_{ij}\]

其中：

\(i = 1, 2, \ldots, k\)（处理组数）
\(j = 1, 2, \ldots, n_i\)（第i组样本量）
\(\alpha_i\) 是第i个处理效应
\(\epsilon_{ij} \sim N(0, \sigma^2)\) 独立

假设

\[H_0: \alpha_1 = \alpha_2 = \cdots = \alpha_k = 0\] \[H_1: \text{至少有一个} \alpha_i \neq 0\]

平方和分解

总平方和： \[SS_T = \sum_{i=1}^k \sum_{j=1}^{n_i} (X_{ij} - \bar{X}_{..})^2\]

组间平方和： \[SS_A = \sum_{i=1}^k n_i (\bar{X}{i.} - \bar{X}{..})^2\]

组内平方和： \[SS_E = \sum_{i=1}^k \sum_{j=1}^{n_i} (X_{ij} - \bar{X}_{i.})^2\]

关系：\(SS_T = SS_A + SS_E\)

F检验

\[F = \frac{MS_A}{MS_E} = \frac{SS_A/(k-1)}{SS_E/(N-k)} \sim F(k-1, N-k)\]

其中 \(N = \sum_{i=1}^k n_i\)

拒绝域：\(F > F_\alpha(k-1, N-k)\)

双因素方差分析

无交互作用模型

\[X_{ij} = \mu + \alpha_i + \beta_j + \epsilon_{ij}\]

有交互作用模型

\[X_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta){ij} + \epsilon{ijk}\]

其中 \((\alpha\beta)_{ij}\) 是交互作用效应。

回归分析

一元线性回归

模型

\[Y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \quad i = 1, 2, \ldots, n\]

其中 \(\epsilon_i \sim N(0, \sigma^2)\) 独立。

最小二乘估计

最小化残差平方和： \[Q(\beta_0, \beta_1) = \sum_{i=1}^n (Y_i - \beta_0 - \beta_1 x_i)^2\]

解得： \[\hat{\beta}1 = \frac{\sum{i=1}^n (x_i - \bar{x})(Y_i - \bar{Y})}{\sum_{i=1}^n (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}}\]

\[\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{x}\]

回归方程的显著性检验

假设： \[H_0: \beta_1 = 0 \quad \text{vs} \quad H_1: \beta_1 \neq 0\]

F检验： \[F = \frac{SS_R/1}{SS_E/(n-2)} = \frac{MS_R}{MS_E} \sim F(1, n-2)\]

决定系数： \[R^2 = \frac{SS_R}{SS_T} = 1 - \frac{SS_E}{SS_T}\]

其中：

\(SS_T = \sum_{i=1}^n (Y_i - \bar{Y})^2\)（总平方和）
\(SS_R = \sum_{i=1}^n (\hat{Y}_i - \bar{Y})^2\)（回归平方和）
\(SS_E = \sum_{i=1}^n (Y_i - \hat{Y}_i)^2\)（残差平方和）

参数的置信区间

\[\hat{\beta}1 \pm t{\alpha/2}(n-2) \sqrt{\frac{MS_E}{S_{xx}}}\]

\[\hat{\beta}0 \pm t{\alpha/2}(n-2) \sqrt{MS_E \left(\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}}\right)}\]

预测

点预测：\(\hat{Y}_0 = \hat{\beta}_0 + \hat{\beta}_1 x_0\)

均值的置信区间： \[\hat{Y}0 \pm t{\alpha/2}(n-2) \sqrt{MS_E \left(\frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}\right)}\]

个体值的预测区间： \[\hat{Y}0 \pm t{\alpha/2}(n-2) \sqrt{MS_E \left(1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{xx}}\right)}\]

多元线性回归

模型

\[\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon}\]

其中： \[\mathbf{Y} = \begin{pmatrix} Y_1 \ Y_2 \ \vdots \ Y_n \end{pmatrix}, \quad \mathbf{X} = \begin{pmatrix} 1 & x_{11} & \cdots & x_{1p} \ 1 & x_{21} & \cdots & x_{2p} \ \vdots & \vdots & \ddots & \vdots \ 1 & x_{n1} & \cdots & x_{np} \end{pmatrix}, \quad \boldsymbol{\beta} = \begin{pmatrix} \beta_0 \ \beta_1 \ \vdots \ \beta_p \end{pmatrix}\]

最小二乘估计

\[\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y}\]

性质：

\(E[\hat{\boldsymbol{\beta}}] = \boldsymbol{\beta}\)（无偏性）
\(\text{Cov}(\hat{\boldsymbol{\beta}}) = \sigma^2(\mathbf{X}^T\mathbf{X})^{-1}\)

回归诊断

残差分析：

残差：\(e_i = Y_i - \hat{Y}_i\)
标准化残差：\(r_i = \frac{e_i}{\sqrt{MS_E}}\)
学生化残差：\(t_i = \frac{e_i}{\sqrt{MS_E(1-h_{ii})}}\)

异常值检测：

杠杆值：\(h_{ii} = (\mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T)_{ii}\)
Cook距离：\(D_i = \frac{r_i^2}{p+1} \cdot \frac{h_{ii}}{1-h_{ii}}\)

概率统计在建模中的应用

蒙特卡罗方法

基本思想

利用随机抽样解决数学问题，特别是求解复杂的积分和优化问题。

简单蒙特卡罗积分

估计积分 \(I = \int_a^b g(x) dx\)：

在 \([a,b]\) 上均匀抽样：\(x_i \sim U(a, b)\)
计算：\(\hat{I} = (b-a) \frac{1}{n} \sum_{i=1}^n g(x_i)\)

理论基础：\(E[\hat{I}] = I\)，\(\text{Var}(\hat{I}) = \frac{(b-a)^2}{n} \text{Var}(g(X))\)

重要性抽样

当被积函数在某些区域值较大时，使用重要性抽样提高效率：

\[\int g(x) f(x) dx = \int \frac{g(x) f(x)}{h(x)} h(x) dx = E_{h}\left[\frac{g(X) f(X)}{h(X)}\right]\]

选择合适的重要性函数 \(h(x)\) 可以减小方差。

马尔可夫链蒙特卡罗（MCMC）

Metropolis-Hastings算法：

给定当前状态 \(x^{(t)}\)
从提议分布 \(q(x^|x^{(t)})\) 中产生候选状态 \(x^\)
计算接受概率：\(\alpha = \min\left(1, \frac{\pi(x^) q(x^{(t)}|x^)}{\pi(x^{(t)}) q(x^*|x^{(t)})}\right)\)
以概率 \(\alpha\) 接受 \(x^*\)，否则保持 \(x^{(t)}\)

Gibbs抽样：对于多维分布，逐个从条件分布中抽样。