判别分析概述

判别分析（Discriminant Analysis）是多元统计分析中一种重要的分类方法，其核心思想是根据已知类别的训练样本建立判别准则，然后将未知类别的新样本按照该准则归入某一类别。判别分析广泛应用于医学诊断、金融风控、模式识别等领域。

基本概念

总体与类别

在判别分析中，总体（Population）是指研究对象的全体，每个总体对应一个类别。

设有 \( k \) 个总体 \( G_1, G_2, \ldots, G_k \)，每个总体 \( G_i \) 具有 \( p \) 维特征向量：

\[ \mathbf{x} = (x_1, x_2, \ldots, x_p)^T \]

每个总体 \( G_i \) 的分布可以用概率密度函数 \( f_i(\mathbf{x}) \) 来描述，其均值向量和协方差矩阵分别为：

\[ \boldsymbol{\mu}_i = E(\mathbf{x} | \mathbf{x} \in G_i), \quad \boldsymbol{\Sigma}_i = \text{Cov}(\mathbf{x} | \mathbf{x} \in G_i) \]

在实际问题中，总体的分布参数通常是未知的，需要通过训练样本来估计。

训练样本

训练样本（Training Sample）是已知类别归属的观测数据，用于建立判别规则。

假设从第 \( i \) 个总体 \( G_i \) 中抽取了 \( n_i \) 个样本，记为：

\[ \mathbf{x}{i1}, \mathbf{x}{i2}, \ldots, \mathbf{x}_{in_i}, \quad i = 1, 2, \ldots, k \]

总样本量为 \( n = \sum_{i=1}^{k} n_i \)。训练样本的质量直接影响判别规则的优劣，要求：

训练样本应具有代表性，能反映总体的真实分布特征
各类别的样本量应适当，一般要求 \( n_i \geq p + 1 \)
训练样本的类别标记必须准确无误

利用训练样本可以计算各类别的样本均值向量和样本协方差矩阵：

\[ \bar{\mathbf{x}}i = \frac{1}{n_i} \sum{j=1}^{n_i} \mathbf{x}_{ij} \]

\[ \mathbf{S}i = \frac{1}{n_i - 1} \sum{j=1}^{n_i} (\mathbf{x}_{ij} - \bar{\mathbf{x}}i)(\mathbf{x}{ij} - \bar{\mathbf{x}}_i)^T \]

判别规则

判别规则（Discriminant Rule）是将样本空间划分为若干互不相交区域的准则，每个区域对应一个类别。

形式化地，判别规则是一个映射 \( d: \mathbb{R}^p \to {1, 2, \ldots, k} \)，将 \( p \) 维观测向量 \( \mathbf{x} \) 映射到类别标号。判别规则将样本空间 \( \mathbb{R}^p \) 划分为 \( k \) 个互不相交的区域：

\[ R_1, R_2, \ldots, R_k, \quad \bigcup_{i=1}^{k} R_i = \mathbb{R}^p, \quad R_i \cap R_j = \emptyset ; (i \neq j) \]

当新样本 \( \mathbf{x}_0 \) 落入区域 \( R_i \) 时，就判定 \( \mathbf{x}_0 \) 属于第 \( i \) 个总体 \( G_i \)。

一个好的判别规则应满足：

误判概率尽可能小
具有良好的稳健性
计算简便，易于实施

判别分析的主要方法

距离判别法

距离判别法（Distance Discriminant）的基本思想是将新样本判归距离最近的类别，即“近朱者赤“的原则。

距离判别法通常采用马氏距离（Mahalanobis Distance）作为度量标准。样本 \( \mathbf{x} \) 到第 \( i \) 个总体 \( G_i \) 的马氏距离定义为：

\[ D_i^2(\mathbf{x}) = (\mathbf{x} - \boldsymbol{\mu}_i)^T \boldsymbol{\Sigma}_i^{-1} (\mathbf{x} - \boldsymbol{\mu}_i) \]

马氏距离相比欧氏距离的优势在于消除了各变量量纲的影响、考虑了变量之间的相关性，并且对坐标的线性变换具有不变性。

当 \( k = 2 \) 且两总体协方差矩阵相等（\( \boldsymbol{\Sigma}_1 = \boldsymbol{\Sigma}_2 = \boldsymbol{\Sigma} \)）时，判别函数为：

\[ W(\mathbf{x}) = (\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2)^T \boldsymbol{\Sigma}^{-1} \mathbf{x} - \frac{1}{2}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2)^T \boldsymbol{\Sigma}^{-1} (\boldsymbol{\mu}_1 + \boldsymbol{\mu}_2) \]

当 \( W(\mathbf{x}) \geq 0 \) 时判入 \( G_1 \)，否则判入 \( G_2 \)。对于多总体情形，判别规则推广为：

\[ d(\mathbf{x}) = i \quad \text{若} \quad D_i^2(\mathbf{x}) = \min_{1 \leq j \leq k} D_j^2(\mathbf{x}) \]

实际应用中总体参数用样本统计量代替，合并协方差矩阵为：

\[ \mathbf{S}p = \frac{1}{n - k} \sum{i=1}^{k} (n_i - 1) \mathbf{S}_i \]

Fisher 判别法

Fisher 判别法的核心思想是投影降维：寻找一个最优的投影方向，使得投影后各类别之间的区分度最大。

Fisher 判别通过寻找线性组合 \( y = \mathbf{a}^T \mathbf{x} \) 将 \( p \) 维数据投影到低维空间，选择投影方向 \( \mathbf{a} \) 使得 Fisher 准则函数最大化：

\[ J(\mathbf{a}) = \frac{\mathbf{a}^T \mathbf{B} \mathbf{a}}{\mathbf{a}^T \mathbf{W} \mathbf{a}} \]

其中组间离差矩阵和组内离差矩阵分别为：

\[ \mathbf{B} = \sum_{i=1}^{k} n_i (\bar{\mathbf{x}}_i - \bar{\mathbf{x}})(\bar{\mathbf{x}}_i - \bar{\mathbf{x}})^T \]

\[ \mathbf{W} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (\mathbf{x}_{ij} - \bar{\mathbf{x}}i)(\mathbf{x}{ij} - \bar{\mathbf{x}}_i)^T \]

最大化 Fisher 准则等价于求解广义特征值问题 \( \mathbf{B} \mathbf{a} = \lambda \mathbf{W} \mathbf{a} \)。对于两总体情形，最优投影方向为：

\[ \mathbf{a}^* = \mathbf{W}^{-1}(\bar{\mathbf{x}}_1 - \bar{\mathbf{x}}_2) \]

当类别数 \( k > 2 \) 时，\( \mathbf{W}^{-1}\mathbf{B} \) 的非零特征值个数最多为 \( \min(k-1, p) \)，对应的特征向量构成判别空间的基：

\[ y_l = \mathbf{a}_l^T \mathbf{x}, \quad l = 1, 2, \ldots, \min(k-1, p) \]

Bayes 判别法

Bayes 判别法在距离判别的基础上引入了先验概率和误判损失，使判别规则在总期望损失最小的意义下达到最优。

设各总体的先验概率为 \( \pi_i = P(G_i) \)，误判损失为 \( C(j|i) \)，则总期望损失为：

\[ \text{ECM} = \sum_{i=1}^{k} \sum_{j \neq i} C(j|i) \pi_i P(j|i) \]

根据 Bayes 定理，后验概率为：

\[ P(G_i | \mathbf{x}) = \frac{\pi_i f_i(\mathbf{x})}{\sum_{l=1}^{k} \pi_l f_l(\mathbf{x})} \]

当误判损失相等时，Bayes 判别简化为最大后验概率准则：

\[ d(\mathbf{x}) = \arg\max_{i} \pi_i f_i(\mathbf{x}) \]

当各总体服从多元正态分布且协方差矩阵相等时，判别函数为线性判别函数：

\[ \delta_i(\mathbf{x}) = \boldsymbol{\mu}_i^T \boldsymbol{\Sigma}^{-1} \mathbf{x} - \frac{1}{2} \boldsymbol{\mu}_i^T \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu}_i + \ln \pi_i \]

当协方差矩阵不等时，判别函数为二次判别函数：

\[ \delta_i(\mathbf{x}) = -\frac{1}{2} \ln |\boldsymbol{\Sigma}_i| - \frac{1}{2}(\mathbf{x} - \boldsymbol{\mu}_i)^T \boldsymbol{\Sigma}_i^{-1}(\mathbf{x} - \boldsymbol{\mu}_i) + \ln \pi_i \]

先验概率的确定方法包括：根据经验主观设定、以样本比例估计 \( \hat{\pi}_i = n_i / n \)、或采用等先验假设 \( \pi_i = 1/k \)。

逐步判别法

逐步判别法（Stepwise Discriminant Analysis）通过变量选择，从众多指标中筛选出对分类贡献显著的变量子集，建立简洁有效的判别函数。

包含过多无关变量可能导致判别效果下降（维数灾难）、模型过于复杂、计算量增大。逐步判别法采用以下策略：

前进法：从空模型出发，每步加入一个使判别能力提升最大的变量
后退法：从全模型出发，每步剔除一个对判别贡献最小的变量
逐步法：结合前进和后退，每步加入变量后检查是否有变量需要剔除

常用的变量选择统计量为 Wilks’ Lambda：

\[ \Lambda = \frac{|\mathbf{W}|}{|\mathbf{T}|} = \frac{|\mathbf{W}|}{|\mathbf{B} + \mathbf{W}|} \]

\( \Lambda \) 值越小表示组间差异越大。偏 F 统计量用于评估变量的额外判别贡献：

\[ F_{\text{partial}} = \frac{\Lambda_{\text{without}} - \Lambda_{\text{with}}}{\Lambda_{\text{with}}} \cdot \frac{n - k - p}{k - 1} \]

当偏 F 值大于进入阈值 \( F_{\text{in}} \) 时选入变量，小于剔除阈值 \( F_{\text{out}} \) 时剔除变量。

判别效果评价

建立判别规则后，必须对其分类性能进行评价，以确定模型的可靠性和实用性。

回判率

回判（Resubstitution）是将训练样本重新代入判别函数进行分类，统计正确分类的比例。

回判正确率定义为：

\[ \hat{P}{\text{correct}} = \frac{\sum{i=1}^{k} n_{ii}}{n} \]

其中 \( n_{ii} \) 为第 \( i \) 类样本中被正确判别的个数。回判率的局限性在于：训练数据同时参与了模型建立和评价，回判率往往过于乐观，不能作为模型泛化能力的可靠估计。

交叉验证

交叉验证（Cross-Validation）通过反复划分训练集和验证集来评估模型的泛化性能。

留一法交叉验证（LOOCV）：每次留出一个样本作为验证样本，用剩余 \( n - 1 \) 个样本建立判别规则，重复 \( n \) 次：

\[ \hat{P}{\text{CV}} = \frac{1}{n} \sum{j=1}^{n} I(d_{-j}(\mathbf{x}_j) = y_j) \]

其中 \( d_{-j} \) 表示去掉第 \( j \) 个样本后建立的判别规则，\( I(\cdot) \) 为示性函数。

K 折交叉验证：将样本随机分为 \( K \) 个子集，常用 \( K = 5 \) 或 \( K = 10 \)，在计算效率和估计偏差之间取得平衡。

混淆矩阵

混淆矩阵（Confusion Matrix）是评价分类性能的核心工具，详细展示了各类别之间的分类结果。

对于 \( k \) 类问题，混淆矩阵为 \( k \times k \) 的矩阵 \( \mathbf{C} = (c_{ij}) \)，其中 \( c_{ij} \) 表示实际属于第 \( i \) 类而被判为第 \( j \) 类的样本数。

二分类混淆矩阵

	预测为正类	预测为负类
实际正类	TP（真正例）	FN（假负例）
实际负类	FP（假正例）	TN（真负例）

常用评价指标

总体正确率：

\[ \text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN} \]

灵敏度/召回率：

\[ \text{Sensitivity} = \frac{TP}{TP + FN} \]

特异度：

\[ \text{Specificity} = \frac{TN}{TN + FP} \]

精确率：

\[ \text{Precision} = \frac{TP}{TP + FP} \]

F1 分数：

\[ F_1 = \frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} \]

Kappa 系数

Cohen’s Kappa 系数衡量判别结果与随机分类之间的一致性改善程度：

\[ \kappa = \frac{P_o - P_e}{1 - P_e} \]

其中 \( P_o \) 为观察一致率，\( P_e \) 为期望一致率。Kappa 系数的解释标准：

\( \kappa < 0.20 \)：一致性较差
\( 0.20 \leq \kappa < 0.40 \)：一致性一般
\( 0.40 \leq \kappa < 0.60 \)：一致性中等
\( 0.60 \leq \kappa < 0.80 \)：一致性较好
\( \kappa \geq 0.80 \)：一致性很好

ROC 曲线与 AUC

对于二分类问题，ROC 曲线以假正率为横轴、真正率为纵轴绘制：

\[ \text{AUC} = \int_0^1 \text{TPR}(t) , d\text{FPR}(t) \]

AUC 值越接近 1，判别效果越好；AUC = 0.5 相当于随机猜测。对于多分类问题，可采用 One-vs-Rest 策略分别计算各类别的 AUC 值。

各方法的比较与选择

方法	适用条件	优点	局限性
距离判别	各类协方差相等	直观简单、计算方便	未考虑先验信息
Fisher 判别	不要求正态性	降维效果好、几何意义清晰	仅适用于线性可分
Bayes 判别	已知或可估计分布	理论最优、可融入先验	依赖分布假设
逐步判别	变量较多	自动选变量、模型简洁	可能遗漏重要交互