老码农和你一起学AI系列：系统化特征工程-特征选择

特征选择是机器学习模型优化的关键环节，能有效解决维度灾难、噪声干扰、可解释性差和训练效率低四大痛点。本文系统介绍了四种核心方法：过滤法（IV值、相关系数法、卡方检验）快速筛选特征，包裹法（RFE）基于模型性能精准选择，嵌入法（Lasso、树模型重要性）同步完成训练与筛选，降维法（PCA）重构特征空间。不同方法各具优势，实际应用需根据数据类型、模型特点和业务需求灵活组合，建议先用过滤法初步筛选，再结

chilavert318

1210人浏览 · 2025-09-13 16:37:52

chilavert318 · 2025-09-13 16:37:52 发布

在机器学习流程中，“特征选择” 是连接数据预处理与模型训练的核心环节 —— 一份数据可能包含上百个特征，但并非所有特征都能为模型 “赋能”，无效特征反而会成为 “累赘”。本节将系统讲解特征选择的必要性与四大核心方法，尤其聚焦风控领域的 “IV 值” 与数据压缩利器 “PCA”，帮你建立 “选对特征 = 模型成功一半” 的认知。

一、为什么要做特征选择？——4 个核心痛点解决

在深入方法前，我们先明确 “为什么不能直接用所有特征训练模型”。想象两个场景：

包含 100 个特征的客户数据训练随机森林，原本 10 分钟能完成的训练，因冗余特征拖到 30 分钟，且模型在测试集上准确率从 85% 降到 78%；
用 “月消费额”“季消费额”“年消费额”（三者相关系数 0.98）训练线性回归，模型系数混乱，无法解释 “到底哪个指标影响消费决策”。

这两个场景揭示了特征选择的 4 大核心价值：

1. 降维：缓解 “维度灾难”

高维数据在空间中会极度稀疏 —— 比如 10 个二值特征有 2¹⁰=1024 种组合，而 100 个二值特征有 2¹⁰⁰种组合（远超宇宙原子总数）。即使有海量数据，也无法覆盖所有组合，模型难以学习规律。特征选择通过减少特征数量，让数据重新 “聚集”，降低模型学习难度。

2. 减噪：提升模型泛化能力

数据中常存在 “噪声特征”（如预测 “是否购买” 时的 “用户 IP 尾号”），这类特征与目标变量无关，却会干扰模型对真实规律的学习，导致 “训练集表现好、测试集表现差” 的过拟合问题。特征选择能剔除噪声，让模型聚焦核心规律。

3. 提升可解释性：让模型 “说得清”

金融、医疗等领域对模型可解释性要求极高。比如银行的信贷审批模型，不仅要能 “拒绝贷款”，还要能解释 “因负债比例过高拒绝”。若模型包含上百个特征，即使预测准确，也无法定位关键影响因素；筛选后保留 10-20 个核心特征，业务人员能轻松理解决策逻辑。

4. 缩短训练时间：提高开发效率

模型训练时间与特征数量正相关 —— 线性模型训练时间随特征线性增加，树模型随特征呈指数级增加。比如包含 500 个特征的 XGBoost 训练 1 小时，筛选后 50 个特征仅需 10 分钟，大幅提升调参迭代效率。

二、过滤法：用 “特征自身质量” 快速筛选

过滤法（Filter Method）是最基础的特征选择方法，核心逻辑是：不依赖具体模型，仅通过 “特征与目标变量的关联程度” 筛选特征。计算速度快，适合作为 “第一步筛选”，快速剔除明显无效的特征。常见方法包括 IV 值、相关系数法、卡方检验。

1. IV 值（信息价值）：风控领域的 “黄金指标”

IV 值（Information Value）是风控、信贷场景的核心筛选工具，专门衡量特征对 “好坏样本” 的区分能力 ——“好样本” 指正常用户（如未违约），“坏样本” 指异常用户（如违约），IV 值越高，特征的风险区分能力越强。

（1）IV 值的计算逻辑：从 WOE 到 IV

IV 值的计算需分 3 步，核心依赖 WOE（证据权重），我们用 “征信查询次数”（数值型特征）为例拆解：

步骤 1：数值型特征分箱（类别型特征跳过）

IV 值需要将连续特征转为离散区间（分箱），避免单个数值样本过少导致结果波动。常用 “等频分箱”（每个区间样本数相同），比如将 “征信查询次数” 分为 5 个区间：[0,1)、[1,3)、[3,5)、[5,8)、[8+)。

步骤 2：计算每个区间的 WOE 值

WOE 衡量 “区间内好坏样本分布与全局分布的差异”，公式为：

WOE = ln( (区间好样本数/全局好样本数) / (区间坏样本数/全局坏样本数) )

假设全局好样本 1000 个、坏样本 500 个，某区间好样本 180 个、坏样本 120 个：

区间好样本比例 = 180/1000=0.18
区间坏样本比例 = 120/500=0.24
WOE=ln(0.18/0.24)=ln(0.75)≈-0.288

WOE 的含义很直观：

WOE>0：区间好样本比例高于全局（该区间用户风险低）；
WOE<0：区间坏样本比例高于全局（该区间用户风险高）；
绝对值越大：区间对 “好坏样本” 的区分能力越强。

步骤 3：计算 IV 值

IV 值是每个区间 “（好样本比例差 ×WOE）” 的总和，公式为：

IV = Σ [ (区间好样本比例 - 区间坏样本比例) × WOE ]

沿用上例，该区间的贡献为：(0.18-0.24)×(-0.288)=0.017，将 5 个区间的贡献相加，得到 “征信查询次数” 的 IV 值。

（2）IV 值的结果解释：从 “无价值” 到 “强预测”

行业内对 IV 值有明确的判断标准，直接指导特征取舍：

IV 值范围	特征预测能力	处理建议
IV < 0.02	无预测能力	直接剔除，这类特征对目标变量无区分力（如 “用户星座”）
0.02 ≤ IV < 0.1	弱预测能力	特征数量少时可保留观察，数量多时优先剔除（如 “用户职业” 对违约的影响）
0.1 ≤ IV < 0.3	中等 - 强预测能力	核心保留特征，是模型的主要组成部分（如 “月收入稳定性”）
0.3 ≤ IV < 0.5	极强预测能力	关键特征，需重点分析业务含义（如 “近 3 个月征信查询次数”）
IV ≥ 0.5	异常高预测能力	先验证数据是否泄露（如 “是否逾期” 直接关联 “是否违约”），无异常则作为顶级特征

注意：IV 值并非越高越好。若 IV≥0.5，需警惕 “数据泄露”—— 比如用 “未来 30 天是否逾期” 预测 “未来 30 天是否违约”，IV 值极高，但实际预测时无法获取该特征，属于无效特征。

（3）IV 值的适用场景

风控领域：信贷审批、欺诈检测（筛选 “负债比例”“征信记录” 等风险特征）；
二元分类任务：如 “用户是否流失”“患者是否患病”，快速定位核心影响因素；
初步筛选：作为特征选择的 “第一道筛子”，先剔除 IV<0.02 的特征，减少后续计算量。

2. 相关系数法：衡量线性关联

相关系数法适用于数值型目标变量（回归任务） 或数值型特征与分类目标的关联分析，核心是计算 “特征与目标变量的相关系数”，筛选线性关联强的特征。

常见的两种相关系数：

皮尔逊相关系数：衡量 “线性相关程度”，取值 [-1,1]。绝对值越近 1，线性关联越强（如 “月收入” 与 “月消费额” 相关系数 0.8）；
斯皮尔曼相关系数：衡量 “单调相关程度”，不要求线性关系（如 “学历等级”（1 = 小学，4 = 研究生）与 “月收入” 相关系数 0.6，体现 “学历越高收入越高” 的趋势）。

应用步骤：

计算每个特征与目标变量的相关系数；
设定阈值（如绝对值≥0.3），保留高于阈值的特征；
剔除高度相关的冗余特征（如 “月消费额” 与 “年消费额” 相关系数 0.95，仅保留前者）。

优缺点：

优点：计算简单，能快速筛选线性关联特征；
缺点：无法捕捉非线性关联（如 “年龄” 与 “疾病风险” 呈 U 型关系，相关系数接近 0，但实际关联强）。

3. 卡方检验：衡量类别特征关联

卡方检验（Chi-Square Test）专门用于类别型特征与类别型目标变量的关联分析，核心逻辑是：检验 “特征类别分布是否与目标类别分布独立”—— 若独立，则特征无预测价值；若不独立，则特征有价值。

核心思想：假设特征与目标独立，那么 “特征某一类别的目标分布” 应与 “全局目标分布” 一致；若存在显著差异，则说明特征与目标相关。

应用步骤：

构建 “特征 - 目标” 列联表（如 “性别”（男 / 女）与 “是否购买”（是 / 否）的 2×2 表）；
计算卡方统计量（衡量 “实际观测值” 与 “理论期望值” 的差异）；
根据卡方统计量计算 p 值：p 值越小，“特征与目标独立” 的假设越不成立，特征预测能力越强；
设定 p 值阈值（如 p<0.05），保留低于阈值的特征。

优缺点：

优点：针对性处理类别特征，能有效筛选关联特征；
缺点：对样本量敏感（样本量过小时结果不可靠），无法衡量关联强度（仅能判断 “是否相关”）。

三、包裹法：用 “模型性能” 精准筛选

包裹法（Wrapper Method）与过滤法的核心区别是：依赖具体模型，通过 “模型性能变化” 判断特征价值。它将特征选择视为 “模型优化的一部分”，通过迭代添加 / 删除特征，找到让模型性能最优的特征子集。虽然计算成本高，但筛选出的特征针对性更强。

递归特征消除（RFE）：逐步 “淘汰” 无效特征

RFE（Recursive Feature Elimination）是最常用的包裹法，核心逻辑是 “迭代淘汰”：从所有特征开始，每次训练模型后剔除 “重要性最低” 的特征，重复至保留预设数量的特征。

RFE 的详细步骤（以随机森林为例）

初始化：将 50 个特征全部纳入候选集；
第一次训练：用 50 个特征训练随机森林，计算每个特征的重要性（如节点不纯度减少量）；
特征淘汰：剔除重要性最低的 10%（5 个）特征，剩余 45 个；
迭代：用 45 个特征重新训练，再剔除 5 个，重复至剩余 20 个特征；
确定最优：若未预设数量，通过交叉验证选择 “模型 AUC 最高” 时的特征子集（如 18 个特征时 AUC 最高）。

RFE 的优缺点与适用场景

优点：能根据模型特性筛选特征（如树模型偏好非线性特征，RFE 会优先保留），筛选出的子集模型性能优异；
缺点：计算成本高（需多次训练模型），对模型选择敏感（用逻辑回归和随机森林筛选的子集可能差异大）；
适用场景：特征数量适中（50-200 个）、有足够计算资源，且后续建模与 RFE 使用相同模型（如 RFE + 随机森林筛选后，仍用随机森林建模）。

四、嵌入法：“模型训练与特征选择同步进行”

嵌入法（Embedded Method）是 “过滤法” 与 “包裹法” 的折中方案：将特征选择嵌入模型训练过程，通过模型自身的正则化或重要性机制，自动筛选特征。无需多次训练，兼顾效率与效果。

1. Lasso 回归：用正则化 “压缩” 无效特征

Lasso（L1 正则化回归）是线性模型的 “特征筛选利器”，核心是在损失函数中加入 “特征系数绝对值之和”，迫使无效特征的系数压缩至 0。

Lasso 的核心公式

Lasso 的损失函数为：

Loss = 均方误差（预测值-真实值） + α × Σ|特征系数|

α：正则化强度 ——α 越大，更多特征系数会被压缩至 0；
若特征对目标无价值，模型会将其系数设为 0（相当于自动剔除）。

应用步骤

特征标准化：Lasso 对尺度敏感，需将所有特征转为 “均值 0、方差 1”；
交叉验证选 α：用不同 α 训练 Lasso，选择使交叉验证 AUC 最高的 α；
筛选特征：保留系数非零的特征（如 “月收入” 系数 0.3，“星座” 系数 0，剔除 “星座”）。

优缺点

优点：一次训练完成筛选，效率高；能同时解决多重共线性（如 “月消费” 与 “年消费”，仅保留一个）；
缺点：仅适用于线性模型，无法处理非线性特征；高度相关特征中仅保留一个，无法判断哪个更优。

2. 树模型特征重要性：从分裂过程看价值

随机森林、XGBoost 等树模型，在训练中会自动计算 “特征重要性”——特征越能减少节点不纯度（如 Gini 系数、信息熵），重要性越高。

随机森林特征重要性的计算逻辑

对每棵决策树，计算每个特征在 “所有分裂节点” 的 “不纯度减少量”（如 Gini 增益）；
单棵树中，该特征的重要性 = 所有分裂节点的不纯度减少量之和；
森林中，该特征的重要性 = 所有树的重要性平均值。

应用步骤

训练随机森林模型；
提取特征重要性得分（如 “负债比例” 得分 0.2，“职业” 得分 0.01）；
保留得分高于阈值（如 0.02）的特征，或按得分排序保留前 20 个。

优缺点

优点：能捕捉非线性关联，适用于所有特征类型；一次训练即可获取重要性，效率高；
缺点：对取值多的特征有偏向性（如 “城市” 有 50 个类别，重要性可能被高估）；无法判断特征冗余（两个高度相关特征可能都得高分为）。

五、降维法：从 “筛选特征” 到 “重构特征”

前面的方法都是 “特征筛选”（从原有特征选子集），而降维法是 “特征重构”—— 通过数学变换，将高维特征转化为低维 “综合特征”，核心代表是 PCA（主成分分析）。

PCA（主成分分析）：最大化保留信息的 “压缩工具”

PCA 的核心思想是：将高维数据投影到低维空间，使投影后的数据 “方差最大化”—— 即保留数据的主要信息。比如将 “身高”“体重”（相关系数 0.9）转化为 “体型指数”（1 个综合特征），保留原有信息的 90% 以上。

PCA 的核心原理（简化版）

数据标准化：将所有特征转为 “均值 0、方差 1”，避免尺度差异主导结果（如 “收入” 万元级、“年龄” 十位数）；
计算协方差矩阵：衡量特征间的线性相关程度（协方差正 = 正相关，负 = 负相关，0 = 无关）；
特征值与特征向量：
- 特征向量：代表 “投影方向”（新的综合特征方向）；
- 特征值：代表 “该方向的方差大小”（特征值越大，保留的信息越多）；
选择主成分：按特征值从大到小排序，选择前 k 个主成分（通常保留累计方差解释比例≥80% 的主成分）。

主成分的含义与应用场景

主成分是原有特征的线性组合，比如：

原始特征：身高（x₁）、体重（x₂）；
第一主成分（PC1）：0.7x₁ + 0.7x₂（代表 “体型大小”，身高体重越高，PC1 越大）；
第二主成分（PC2）：-0.7x₁ + 0.7x₂（代表 “体型胖瘦”，身高高但体重轻时，PC2 越大）。

应用场景：

数据可视化：将 10 维特征降至 2 维，用散点图观察数据聚类趋势；
模型加速：将 1000 个像素特征降至 50 维，再训练分类器；
噪声去除：前几个主成分保留主要信息，后续主成分多为噪声，仅保留前 k 个可去噪。

PCA 的局限性

损失可解释性：主成分是线性组合，无法对应具体业务指标（如 “PC1” 无法解释为 “收入”）；
依赖线性关系：无法处理非线性特征（如 “年龄” 与 “风险” 的 U 型关系）；
对异常值敏感：异常值的方差大，会主导主成分方向，需先处理异常值。

最后小结

不同方法各有优劣，实际项目中需结合 “数据类型”“模型类型”“业务需求” 选择，或组合使用：

场景条件	推荐方法组合	不推荐方法
数据量大、特征多（>200）	过滤法（IV / 相关系数）→ 降维法（PCA）	包裹法（计算成本高）
风控 / 金融（需可解释性）	过滤法（IV 值）→ 嵌入法（树模型重要性）	PCA（损失解释性）
线性模型（逻辑回归）	过滤法（相关系数）→ 嵌入法（Lasso）	RFE（针对树模型）
树模型（XGBoost）	过滤法（IV）→ 包裹法（RFE）	PCA（无需重构特征）
快速初步筛选	过滤法（IV / 相关系数）	包裹法 / 嵌入法（慢）