回归分析概述

回归分析是统计学中最基本、最重要的分析方法之一，它研究变量之间的依赖关系，通过建立数学模型来描述因变量与自变量之间的定量关系，从而实现对因变量的预测和解释。

回归分析基本概念

回归分析的核心思想是：利用观测数据，建立因变量与自变量之间的统计模型，揭示变量间的内在规律。

什么是回归分析

回归分析（Regression Analysis）是一种确定两个或两个以上变量之间相互依赖的定量关系的统计分析方法。其基本思想是：虽然自变量 \( x \) 与因变量 \( y \) 之间的关系并不是确定性的，但可以通过统计方法找到一个最优的函数关系来近似描述它们之间的依赖关系。

设因变量为 \( Y \)，自变量为 \( x_1, x_2, \ldots, x_p \)，则回归模型的一般形式为：

\[ Y = f(x_1, x_2, \ldots, x_p) + \varepsilon \]

其中 \( f(\cdot) \) 是回归函数，\( \varepsilon \) 是随机误差项，通常假设 \( E(\varepsilon) = 0 \)，\( \text{Var}(\varepsilon) = \sigma^2 \)。

回归分析的基本要素

因变量（响应变量）\( Y \)：需要预测或解释的目标变量
自变量（解释变量）\( x_1, x_2, \ldots, x_p \)：用于解释或预测因变量的变量
回归系数 \( \beta_0, \beta_1, \ldots, \beta_p \)：描述自变量对因变量影响程度的参数
随机误差 \( \varepsilon \)：模型未能解释的随机波动部分

回归分析的基本假设

经典回归分析通常需要满足以下假设条件：

线性假设：因变量与自变量之间存在线性关系
独立性假设：观测值之间相互独立，即 \( \text{Cov}(\varepsilon_i, \varepsilon_j) = 0 \)（\( i \neq j \)）
正态性假设：误差项服从正态分布，即 \( \varepsilon_i \sim N(0, \sigma^2) \)
等方差假设：误差项具有相同的方差，即 \( \text{Var}(\varepsilon_i) = \sigma^2 \) 为常数
无多重共线性假设：自变量之间不存在精确的线性关系

回归分析的基本步骤

确定因变量和自变量
收集样本数据
确定回归模型的形式
估计模型参数
对模型进行检验
利用模型进行预测或解释

回归与相关分析的区别

回归分析与相关分析都研究变量之间的关系，但二者在研究目的、方法和适用场景上存在本质差异。

二者的主要区别

比较维度	回归分析	相关分析
研究目的	建立变量间的数学模型	衡量变量间的关联程度
变量地位	区分因变量和自变量	变量地位对等
因果方向	具有方向性（从自变量到因变量）	无方向性
结果形式	回归方程	相关系数
应用目标	预测和控制	描述关联强度

二者的联系

相关分析是回归分析的前提和基础，通常先进行相关分析判断变量间是否存在显著关系
回归分析中的决定系数 \( R^2 \) 等于相关系数的平方（在一元线性回归中）
两种方法常结合使用，相互补充

决定系数的定义为：

\[ R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}} = 1 - \frac{\sum_{i=1}^{n}(y_i - \hat{y}i)^2}{\sum{i=1}^{n}(y_i - \bar{y})^2} \]

回归模型分类

根据不同的分类标准，回归模型可分为多种类型。最常见的分类方式是按照自变量个数和函数形式进行划分。

按自变量个数分类

一元回归

一元回归模型只包含一个自变量，最简单的一元线性回归模型为：

\[ Y = \beta_0 + \beta_1 x + \varepsilon \]

其中 \( \beta_0 \) 为截距项，\( \beta_1 \) 为斜率，表示 \( x \) 每变化一个单位时 \( Y \) 的平均变化量。

多元回归

多元回归模型包含两个或两个以上的自变量，一般形式为：

\[ Y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p + \varepsilon \]

用矩阵形式表示为：

\[ \mathbf{Y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\varepsilon} \]

其中：

\[ \mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \ 1 & x_{21} & x_{22} & \cdots & x_{2p} \ \vdots & \vdots & \vdots & \ddots & \vdots \ 1 & x_{n1} & x_{n2} & \cdots & x_{np} \end{pmatrix}, \quad \boldsymbol{\beta} = \begin{pmatrix} \beta_0 \ \beta_1 \ \vdots \ \beta_p \end{pmatrix} \]

按函数形式分类

线性回归

线性回归是指因变量与参数之间呈线性关系的回归模型。需要注意的是，“线性“是指对参数的线性，而非对自变量的线性。例如，以下模型仍属于线性回归：

\[ Y = \beta_0 + \beta_1 x + \beta_2 x^2 + \varepsilon \]

因为它对参数 \( \beta_0, \beta_1, \beta_2 \) 是线性的。

非线性回归

非线性回归是指因变量与参数之间呈非线性关系的回归模型。常见的非线性模型包括：

指数模型：

\[ Y = \beta_0 e^{\beta_1 x} + \varepsilon \]

幂函数模型：

\[ Y = \beta_0 x^{\beta_1} + \varepsilon \]

Logistic 增长模型：

\[ Y = \frac{K}{1 + e^{-(\beta_0 + \beta_1 x)}} + \varepsilon \]

其中 \( K \) 为增长上限。

其他分类方式

按因变量类型分类

连续型回归：因变量为连续变量（如普通线性回归）
Logistic 回归：因变量为二分类或多分类变量
Poisson 回归：因变量为计数数据
有序回归：因变量为有序分类变量

按估计方法分类

普通最小二乘回归（OLS）
加权最小二乘回归（WLS）
广义最小二乘回归（GLS）
岭回归（Ridge Regression）
LASSO 回归
弹性网络回归（Elastic Net）

最小二乘法原理

最小二乘法（Ordinary Least Squares, OLS）是回归分析中最经典、最基本的参数估计方法，其核心思想是使残差平方和最小化。

基本原理

对于线性回归模型 \( Y = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon} \)，最小二乘法的目标是找到参数向量 \( \hat{\boldsymbol{\beta}} \) 使得残差平方和最小：

\[ \hat{\boldsymbol{\beta}} = \arg\min_{\boldsymbol{\beta}} \sum_{i=1}^{n} (y_i - \hat{y}i)^2 = \arg\min{\boldsymbol{\beta}} (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}) \]

一元线性回归的最小二乘估计

对于一元线性回归 \( Y = \beta_0 + \beta_1 x + \varepsilon \)，设残差平方和为：

\[ Q(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i)^2 \]

分别对 \( \beta_0 \) 和 \( \beta_1 \) 求偏导并令其为零，解得：

\[ \hat{\beta}1 = \frac{\sum{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}} \]

\[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} \]

多元线性回归的最小二乘估计

利用矩阵微分可得正规方程（Normal Equations）：

\[ \mathbf{X}^T \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{Y} \]

当 \( \mathbf{X}^T \mathbf{X} \) 可逆时，参数的最小二乘估计为：

\[ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y} \]

最小二乘估计的性质

在经典假设下，OLS 估计量具有以下优良性质：

无偏性：\( E(\hat{\boldsymbol{\beta}}) = \boldsymbol{\beta} \)
最小方差性（Gauss-Markov 定理）：在所有线性无偏估计中，OLS 估计量具有最小方差
一致性：当样本量趋于无穷时，\( \hat{\boldsymbol{\beta}} \xrightarrow{P} \boldsymbol{\beta} \)

Gauss-Markov 定理表明：在满足 \( E(\boldsymbol{\varepsilon}) = \mathbf{0} \)、\( \text{Var}(\boldsymbol{\varepsilon}) = \sigma^2 \mathbf{I}_n \) 的条件下，OLS 估计量是最佳线性无偏估计量（BLUE）。

参数估计的方差与显著性检验

OLS 估计量的协方差矩阵为：

\[ \text{Var}(\hat{\boldsymbol{\beta}}) = \sigma^2 (\mathbf{X}^T \mathbf{X})^{-1} \]

其中 \( \sigma^2 \) 的无偏估计为：

\[ \hat{\sigma}^2 = \frac{SS_{\text{res}}}{n - p - 1} \]

t 检验（单个系数检验）：检验 \( H_0: \beta_j = 0 \)，统计量为：

\[ t_j = \frac{\hat{\beta}_j}{\text{SE}(\hat{\beta}_j)} \sim t(n - p - 1) \]

F 检验（整体显著性检验）：检验 \( H_0: \beta_1 = \beta_2 = \cdots = \beta_p = 0 \)，统计量为：

\[ F = \frac{SS_{\text{reg}} / p}{SS_{\text{res}} / (n - p - 1)} \sim F(p, n - p - 1) \]

回归诊断概述

回归诊断是检验回归模型假设是否成立、识别异常观测值和模型缺陷的重要步骤。良好的回归诊断是保证分析结论可靠性的关键。

残差分析

残差是实际观测值与模型预测值之差，是进行回归诊断的基本工具。

残差的定义

普通残差：\( e_i = y_i - \hat{y}_i \)

标准化残差：

\[ r_i = \frac{e_i}{\hat{\sigma}\sqrt{1 - h_{ii}}} \]

其中 \( h_{ii} \) 是帽子矩阵 \( \mathbf{H} = \mathbf{X}(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T \) 的第 \( i \) 个对角元素。

学生化残差：

\[ t_i = \frac{e_i}{\hat{\sigma}{(i)}\sqrt{1 - h{ii}}} \]

其中 \( \hat{\sigma}_{(i)} \) 是删除第 \( i \) 个观测后的残差标准差估计。

残差图分析

残差与拟合值图：检验线性假设和等方差假设
残差正态概率图（Q-Q 图）：检验正态性假设
残差与自变量图：检验模型设定是否正确
残差序列图：检验独立性假设，识别自相关

Durbin-Watson 检验

用于检测残差的一阶自相关：

\[ DW = \frac{\sum_{i=2}^{n}(e_i - e_{i-1})^2}{\sum_{i=1}^{n} e_i^2} \]

当 \( DW \approx 2 \) 时无自相关；\( DW < 2 \) 正自相关；\( DW > 2 \) 负自相关。

多重共线性

多重共线性是指自变量之间存在高度线性相关关系，这会导致参数估计不稳定、标准误增大等问题。

多重共线性的表现

回归系数的符号与预期不符
单个系数的 t 检验不显著，但整体 F 检验显著
增删一个变量导致其他系数剧烈变化
参数估计的标准误异常大

多重共线性的诊断

方差膨胀因子（VIF）：

\[ VIF_j = \frac{1}{1 - R_j^2} \]

其中 \( R_j^2 \) 是以 \( x_j \) 为因变量对其余自变量回归所得的决定系数。判断标准：

\( VIF_j < 5 \)：共线性不严重
\( 5 \leq VIF_j < 10 \)：中等共线性
\( VIF_j \geq 10 \)：严重共线性

条件数：

\[ \kappa = \sqrt{\frac{\lambda_{\max}}{\lambda_{\min}}} \]

当 \( \kappa > 30 \) 时认为存在严重的多重共线性。

多重共线性的处理方法

剔除变量法：删除引起共线性的冗余变量
主成分回归：将原始变量转化为正交的主成分
岭回归：添加 \( L_2 \) 惩罚项

\[ \hat{\boldsymbol{\beta}}_{\text{ridge}} = (\mathbf{X}^T\mathbf{X} + \lambda \mathbf{I})^{-1} \mathbf{X}^T \mathbf{Y} \]

LASSO 回归：添加 \( L_1 \) 惩罚项，具有自动变量选择功能

\[ \hat{\boldsymbol{\beta}}{\text{LASSO}} = \arg\min{\boldsymbol{\beta}} \left{ \sum_{i=1}^{n}(y_i - \mathbf{x}i^T \boldsymbol{\beta})^2 + \lambda \sum{j=1}^{p} |\beta_j| \right} \]

异方差

异方差（Heteroscedasticity）是指误差项的方差不是常数，即 \( \text{Var}(\varepsilon_i) = \sigma_i^2 \) 随观测值变化而变化。

异方差的后果

OLS 估计量仍然无偏，但不再是最有效的（不再是 BLUE）
参数的标准误估计有偏，导致 t 检验和 F 检验失效
置信区间和预测区间不可靠

异方差的诊断方法

Breusch-Pagan 检验：将残差平方对自变量回归，统计量为：

\[ BP = nR^2_e \sim \chi^2(p) \]

White 检验：将残差平方对自变量、自变量的平方及交叉项回归：

\[ e_i^2 = \alpha_0 + \alpha_1 x_{1i} + \alpha_2 x_{2i} + \alpha_3 x_{1i}^2 + \alpha_4 x_{2i}^2 + \alpha_5 x_{1i} x_{2i} + v_i \]

统计量 \( nR^2 \sim \chi^2(q) \)，其中 \( q \) 为辅助回归中自变量的个数。

异方差的处理方法

加权最小二乘法（WLS）：

\[ \hat{\boldsymbol{\beta}}_{\text{WLS}} = (\mathbf{X}^T \mathbf{W} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{W} \mathbf{Y} \]

其中 \( \mathbf{W} = \text{diag}(1/\sigma_1^2, 1/\sigma_2^2, \ldots, 1/\sigma_n^2) \)。

稳健标准误：使用 Huber-White 异方差一致协方差矩阵估计

\[ \widehat{\text{Var}}(\hat{\boldsymbol{\beta}}) = (\mathbf{X}^T\mathbf{X})^{-1} \left( \sum_{i=1}^{n} e_i^2 \mathbf{x}_i \mathbf{x}_i^T \right) (\mathbf{X}^T\mathbf{X})^{-1} \]