老码农和你一起学AI系列：系统化特征工程-特征编码

摘要：特征选择是机器学习中解决"维度灾难"的关键技术，通过筛选高价值特征实现降维、减噪、提升可解释性和训练效率。本文系统解析四大方法：过滤法（IV值/相关系数/卡方检验）：快速评估特征与目标的统计关联，IV值在风控领域广泛应用，通过WOE分箱量化特征区分能力；包裹法（如RFE）：依赖模型迭代淘汰低重要性特征，计算成本高但效果优；嵌入法（Lasso/树模型）：将特征选择融

chilavert318

441人浏览 · 2025-09-11 08:00:00

chilavert318 · 2025-09-11 08:00:00 发布

在机器学习项目中，我们常面临 “特征过多” 的困境 —— 一份客户行为数据可能包含上百个特征，从基本信息（年龄、性别）到行为记录（点击次数、消费频率），再到衍生指标（近 30 天活跃度、客单价）。但并非所有特征都能为模型 “添砖加瓦”，无效特征不仅会增加计算负担，还可能引入噪声，导致模型过拟合。特征选择正是解决这一问题的关键技术，它通过筛选出最具 “预测价值” 的特征，实现降维、减噪、提升模型可解释性与缩短训练时间的目标。今天我们将系统讲解特征选择的四大核心方法，尤其聚焦风控领域常用的 IV 值，掌握从海量特征中 “淘沙取金” 的能力。

一、4 个核心价值

在深入方法前，我们先明确特征选择的必要性。想象两个场景：

用包含 50 个特征的数据集训练随机森林，原本 10 分钟能完成的训练，因无效特征增加到 30 分钟，且模型准确率不升反降；
用包含高度相关特征（如 “月消费额” 和 “年消费额”）的数据集训练线性回归，模型系数难以解释，无法判断核心影响因素。

这两个场景揭示了特征选择的四大核心价值：

1. 降维：缓解 “维度灾难”

当特征维度过高时，数据在高维空间中会变得极度稀疏（“维度灾难”），模型难以找到数据的分布规律。例如，10 个二值特征的组合有 2¹⁰=1024 种可能，而 100 个二值特征的组合则有 2¹⁰⁰种 —— 这个数量远超宇宙中原子的总数，即使有海量数据也无法覆盖所有组合。特征选择通过减少特征数量，让数据重新 “聚集”，降低模型学习难度。

2. 减噪：提升模型泛化能力

数据集中常存在 “噪声特征”—— 这些特征与目标变量无关，甚至存在随机波动。例如，预测用户是否购买商品时，“用户注册时的 IP 尾号” 就是典型的噪声特征。若将这类特征纳入模型，会干扰模型对真实规律的学习，导致模型在训练集上表现优异（过拟合），但在测试集上准确率骤降。特征选择能剔除噪声特征，让模型聚焦于核心规律，提升泛化能力。

3. 提升可解释性：让模型 “说得清”

在金融、医疗等领域，模型的可解释性至关重要。例如，银行的信贷审批模型不仅要能预测 “是否放贷”，还要能解释 “为什么拒绝该用户”。若模型包含上百个特征，即使预测准确，也难以定位关键影响因素（如 “收入稳定性” 还是 “征信记录” 是主要拒贷原因）。特征选择后，仅保留 10-20 个核心特征，模型逻辑更清晰，业务人员能轻松理解决策依据。

4. 缩短训练时间：提高开发效率

模型训练时间与特征数量正相关 —— 特征越多，数据预处理（如编码、归一化）和模型计算（如矩阵乘法、树分裂）的耗时越长。例如，逻辑回归的训练时间随特征数量线性增加，而随机森林的训练时间随特征数量呈指数级增加。特征选择能显著减少计算量，让模型迭代速度提升数倍，尤其在需要频繁调参的场景中，能大幅提高开发效率。

二、过滤法

过滤法（Filter Method）是最基础的特征选择方法，核心逻辑是：不依赖具体模型，仅通过特征与目标变量的 “关联程度” 或 “自身分布特性” 筛选特征。由于不涉及模型训练，过滤法计算速度快，适合作为特征选择的 “第一步”，快速剔除明显无效的特征。常见的过滤法包括 IV 值、相关系数法、卡方检验。

1. IV 值（信息价值）：风控领域的 “黄金指标”

IV 值（Information Value）是风控、信贷等领域最常用的特征选择指标，核心作用是衡量特征对 “好坏样本” 的区分能力。在风控场景中，“好样本” 通常指 “未违约用户”，“坏样本” 指 “违约用户”；IV 值越高，说明该特征越能区分用户的风险水平，预测能力越强。

（1）IV 值的计算逻辑：从 WOE 到 IV

IV 值的计算依赖 WOE（Weight of Evidence，证据权重），而 WOE 又依赖 “好坏样本的分布”。整个计算过程分为 4 步：

步骤 1：对数值型特征分箱（类别型特征跳过此步）

IV 值的计算需要将特征划分为若干 “区间”（分箱），每个区间视为一个 “类别”。例如，将 “月收入” 分为 [0,5k)、[5k,10k)、[10k,20k)、[20k+) 四个区间。分箱的核心原则是 “每个区间内的样本分布相对均匀”，常用方法有：

等频分箱：每个区间包含相同数量的样本（如每个区间 1000 条样本）；

等距分箱：每个区间的数值范围相同（如 “月收入” 每 5k 为一个区间）；

卡方分箱：基于卡方检验，将 “对目标变量分布影响相似” 的区间合并，避免区间内样本分布差异过大。

步骤 2：计算每个区间的 “好坏样本数”

对每个区间，统计该区间内的 “好样本数（Good）” 和 “坏样本数（Bad）”：

好样本数（Good）：该区间内目标变量为 “正常” 的样本数（如未违约用户数）；

坏样本数（Bad）：该区间内目标变量为 “异常” 的样本数（如违约用户数）。

同时计算全局的 “总好样本数（Total Good）” 和 “总坏样本数（Total Bad）”—— 即整个数据集中的正常样本数和异常样本数。

步骤 3：计算每个区间的 WOE 值

WOE 的本质是 “该区间内好坏样本的分布与全局分布的差异”，公式为：

WOE = ln( (Good / Total Good) / (Bad / Total Bad) )

分子（Good/Total Good）：该区间内好样本占全局好样本的比例；

分母（Bad/Total Bad）：该区间内坏样本占全局坏样本的比例；

ln：自然对数，用于将 “比例比” 转化为 “差值”，便于后续计算。

WOE 的含义非常直观：

若 WOE > 0：该区间内好样本比例高于全局好样本比例（如某区间 WOE=0.5，说明该区间用户的 “正常概率” 高于整体水平）；

若 WOE <0：该区间内坏样本比例高于全局坏样本比例（如某区间 WOE=-0.3，说明该区间用户的 “违约概率” 高于整体水平）；

WOE 的绝对值越大：该区间对 “好坏样本” 的区分能力越强。

步骤 4：计算 IV 值

IV 值是每个区间的 “（好样本比例差 × WOE）” 之和，公式为：

IV = Σ [ (Good / Total Good - Bad / Total Bad) × WOE ]

其中，“Good/Total Good - Bad/Total Bad” 是 “该区间与全局的好坏样本比例差”，乘以 WOE 后，能放大 “区分能力强的区间” 对 IV 值的贡献。

（2）IV 值的结果解释：从 “无价值” 到 “强预测”

IV 值的大小直接反映特征的预测能力，行业内有明确的判断标准：

IV 值范围	特征预测能力	处理建议
IV < 0.02	无预测能力	直接剔除该特征
0.02 ≤ IV < 0.1	弱预测能力	若特征数量少，可保留观察；若特征多，优先剔除
0.1 ≤ IV < 0.3	中等预测能力	核心保留特征，是模型的主要组成部分
0.3 ≤ IV < 0.5	强预测能力	关键核心特征，需重点分析其业务含义
IV ≥ 0.5	极强预测能力（需警惕）	先验证数据是否存在异常（如特征与目标变量直接关联，如 “是否违约” 本身的衍生特征），若数据正常，可作为顶级特征

注意：IV 值并非越高越好。若 IV ≥ 0.5，需先检查特征是否存在 “数据泄露”—— 例如，在预测 “用户是否违约” 时，若特征是 “用户上月是否逾期”（而逾期是违约的直接前兆），IV 值会极高，但这类特征可能在实际预测时无法获取（如预测未来 30 天是否违约，无法提前知道上月是否逾期）。

（3）IV 值的应用场景

IV 值的优势在于 “兼顾预测能力与业务解释性”，因此在以下场景中被广泛应用：

风控领域：信贷审批、欺诈检测（如通过 “月收入稳定性”“征信查询次数” 的 IV 值，筛选出最能区分风险的特征）；

分类任务：尤其是二元分类（如 “是否患病”“是否流失”），能快速定位核心影响因素；

特征预处理：作为特征选择的 “第一道筛子”，先通过 IV 值剔除 IV<0.02 的无价值特征，再用其他方法进一步筛选。

2. 相关系数法

相关系数法适用于数值型目标变量（回归任务） 或数值型特征与分类目标变量的关联分析，核心逻辑是：通过计算 “特征与目标变量的相关系数”，筛选出线性关联强的特征。

常见的相关系数有两种：

皮尔逊相关系数（Pearson Correlation）：衡量特征与目标变量的 “线性相关程度”，取值范围为 [-1,1]。绝对值越接近 1，线性关联越强；接近 0 则无线性关联。例如，“月收入” 与 “月消费额” 的皮尔逊相关系数为 0.8，说明两者呈强正相关。

斯皮尔曼相关系数（Spearman Correlation）：衡量特征与目标变量的 “单调相关程度”，不要求线性关系。例如，“学历等级”（1 = 小学，2 = 中学，3 = 大学）与 “月收入” 的斯皮尔曼相关系数为 0.6，说明学历越高，收入整体呈上升趋势（即使不是严格线性）。

应用步骤：

计算每个特征与目标变量的相关系数；
设定阈值（如绝对值≥0.3），保留相关系数高于阈值的特征；
若存在高度相关的特征（如 “月消费额” 和 “年消费额” 的相关系数为 0.95），仅保留其中一个（避免多重共线性）。

优缺点：

优点：计算简单，能快速筛选出线性关联强的特征；

缺点：无法捕捉非线性关联（如 “年龄” 与 “疾病风险” 呈 U 型关系，相关系数可能接近 0，但实际关联很强），且不适用于类别型特征。

3. 卡方检验

卡方检验（Chi-Square Test）适用于类别型特征与类别型目标变量的关联分析，核心逻辑是：通过检验 “特征的类别分布是否与目标变量的类别分布独立”，判断特征是否有预测价值。

核心思想：若特征与目标变量独立（无关联），则 “特征某一类别的样本中，目标变量各类别的比例” 应与 “全局目标变量各类别的比例” 一致；若存在显著差异，则说明特征与目标变量相关。

应用步骤：

构建 “特征 - 目标” 的列联表（如 “性别”（男 / 女）与 “是否购买”（是 / 否）的 2×2 列联表）；
计算卡方统计量：衡量 “实际观测值” 与 “理论期望值（假设独立时的分布）” 的差异；
根据卡方统计量计算 p 值：p 值越小，说明 “特征与目标变量独立” 的假设越不成立，特征的预测能力越强；
设定 p 值阈值（如 p<0.05），保留 p 值低于阈值的特征。

优缺点：

优点：专门针对类别型特征，能有效筛选出与目标变量相关的类别特征；

缺点：对样本量敏感（样本量过小时，检验结果不可靠），且无法衡量关联强度（仅能判断 “是否相关”，不能判断 “相关程度”）。

三、包裹法

包裹法（Wrapper Method）与过滤法的核心区别是：依赖具体模型，通过 “模型性能变化” 判断特征的价值。它将特征选择视为 “模型优化的一部分”，通过不断添加 / 删除特征，观察模型性能（如准确率、AUC）的变化，最终筛选出最优特征子集。由于涉及多次模型训练，包裹法计算成本高，但筛选出的特征针对性更强，预测效果通常优于过滤法。最常用的包裹法是递归特征消除（RFE）。

递归特征消除（RFE）：逐步 “淘汰” 无效特征

RFE（Recursive Feature Elimination）的核心逻辑是 “迭代淘汰”：从所有特征开始，每次训练模型后，剔除 “重要性最低” 的部分特征，重复这一过程，直到保留预设数量的特征。

详细步骤：

初始化：将所有特征纳入候选集；
模型训练：用当前候选集训练模型，计算每个特征的重要性（如线性模型的系数绝对值、树模型的特征重要性）；
特征淘汰：剔除重要性最低的 k 个特征（k 可自定义，如每次淘汰 10%）；
重复迭代：将剩余特征作为新的候选集，回到步骤 2，直到候选集特征数量达到预设值（如保留 20 个特征）；
确定最优：若未预设特征数量，可通过交叉验证，选择 “模型性能最高” 时的特征子集。

示例：用 RFE 筛选随机森林模型的特征

初始候选集：50 个特征；
第一次训练：随机森林在 50 个特征上训练，计算特征重要性，剔除 10 个重要性最低的特征，剩余 40 个；
第二次训练：用 40 个特征训练，剔除 8 个重要性最低的特征，剩余 32 个；
迭代 10 次后，剩余 20 个特征，此时模型 AUC 达到最高，停止迭代，保留这 20 个特征。

优缺点：

优点：能根据模型特性筛选特征（如树模型偏好非线性特征，RFE 会优先保留这类特征），筛选出的特征子集模型性能优异；

缺点：计算成本高（需多次训练模型），且对模型选择敏感（用不同模型筛选出的特征子集可能差异很大）。

适用场景：

特征数量适中（如 50-200 个），有足够计算资源；

对模型性能要求高，愿意为更好的效果付出更多计算成本；

后续建模将使用与包裹法相同的模型（如用 RFE + 随机森林筛选的特征，后续仍用随机森林建模）。

四、嵌入法

嵌入法（Embedded Method）是介于过滤法和包裹法之间的方法，核心逻辑是：将特征选择嵌入到模型训练过程中，通过模型自身的正则化或特征重要性机制，自动筛选特征。它既不需要像过滤法那样 “先筛选再训练”，也不需要像包裹法那样 “多次训练淘汰特征”，而是 “一次训练完成特征选择”，兼顾了计算效率和模型性能。常见的嵌入法包括基于 Lasso 的特征选择和基于树模型的特征重要性。

1. Lasso 回归：通过正则化 “压缩” 无效特征

Lasso 回归（L1 正则化回归）是线性模型的一种，核心是在损失函数中加入 “特征系数绝对值之和” 的正则化项，迫使模型对 “无价值特征” 的系数压缩至 0，从而实现特征选择。

核心公式：

Lasso 回归的损失函数为：

Loss = Σ(y_i - Σ(w_j x_ij))² + α × Σ|w_j|

第一项：均方误差（衡量模型预测值与真实值的差异）；

第二项：L1 正则化项（α 为正则化强度，w_j 为特征 j 的系数）；

α 越大：正则化强度越强，更多特征的系数会被压缩至 0。

特征选择逻辑：

若特征 j 对目标变量有预测价值，模型会保留其系数（w_j≠0）；

若特征 j 是噪声特征，模型会将其系数压缩至 0（w_j=0），相当于自动剔除该特征。

应用步骤：

对特征进行归一化（Lasso 对特征尺度敏感，需确保所有特征在同一量级）；
用不同的 α 值训练 Lasso 模型，通过交叉验证选择最优 α（如使 AUC 最高的 α）；
保留系数非零的特征，剔除系数为零的特征。

优缺点：

优点：一次训练完成特征选择，计算效率高；能同时实现降维和防止多重共线性；

缺点：仅适用于线性模型，无法处理非线性特征；当存在高度相关的特征时，可能仅保留其中一个（无法判断哪个更优）。

2. 基于树模型的特征重要性：从分裂过程看价值

随机森林、XGBoost、LightGBM 等树模型，在训练过程中会自动计算 “特征重要性”，核心逻辑是：衡量特征在 “减少节点不纯度”（如 Gini 系数、信息熵）中的贡献 —— 特征越能减少不纯度，说明其对样本分类 / 回归的帮助越大，重要性越高。

以随机森林为例，特征重要性的计算方式为：

对每棵决策树，计算每个特征在 “所有分裂节点” 上的 “不纯度减少量”（如 Gini 增益）；
对单棵树，将该特征的所有分裂节点的不纯度减少量求和，作为该特征在该树中的重要性；
对森林中所有树，计算该特征重要性的平均值，作为最终的特征重要性。

应用步骤：

训练树模型（如随机森林）；
提取每个特征的重要性得分；
设定阈值（如重要性得分≥0.01），保留得分高于阈值的特征；或按重要性排序，保留前 N 个特征。

优缺点：

优点：能捕捉非线性关联，适用于各类特征（数值型、类别型）；计算效率高，一次训练即可获取重要性；

缺点：可能存在 “偏向性”（如对取值多的类别特征或数值特征，重要性可能被高估）；且无法判断特征间的冗余（如两个高度相关的特征，可能都被赋予高重要性）。

五、降维法

前面的过滤法、包裹法、嵌入法都属于 “特征筛选”—— 从原有特征中选择子集；而降维法（Dimensionality Reduction）则是 “特征重构”—— 通过数学变换，将原有高维特征转化为低维的 “综合特征”，从而实现降维。最常用的降维法是主成分分析（PCA）。

主成分分析（PCA）：最大化保留信息的 “特征压缩”

PCA 的核心思想是：将高维空间中的数据投影到低维空间，使得投影后的数据 “方差最大化”—— 即保留数据的主要信息。例如，将 2 个高度相关的特征（如 “身高” 和 “体重”）转化为 1 个综合特征（“体型指数”），这个综合特征能保留原有两个特征的大部分信息。

（1）PCA 的核心原理

PCA 的数学过程可简化为 3 步：

数据标准化：将所有特征转换为均值为 0、方差为 1 的标准正态分布（避免量级差异大的特征主导方差，如 “收入”（万元级）和 “年龄”（十位数））；
计算协方差矩阵：衡量特征间的线性相关程度（协方差为正表示正相关，为负表示负相关，为 0 表示无关）；
计算特征值和特征向量：

特征向量：代表 “投影方向”（即新的综合特征的方向）；
特征值：代表 “该方向上的方差大小”（特征值越大，该方向保留的信息越多）；
选择主成分：按特征值从大到小排序，选择前 k 个特征向量作为 “主成分”，将原始数据投影到这 k 个主成分上，得到低维数据。

（2）主成分的含义与解释

PCA 的主成分是原有特征的线性组合，例如：

原始特征：身高（x₁）、体重（x₂）；

第一主成分（PC1）：0.7x₁ + 0.7x₂（系数为正，说明身高和体重越高，PC1 越大，可理解为 “体型大小”）；

第二主成分（PC2）：-0.7x₁ + 0.7x₂（系数一正一负，说明 “身高高但体重轻” 或 “身高矮但体重重” 时，PC2 越大，可理解为 “体型胖瘦”）。

但随着主成分数量增加，后续主成分的物理含义会越来越模糊（如第三主成分可能无法用具体业务指标解释），这也是 PCA 的主要局限性。

（3）PCA 的应用场景

PCA 的核心价值是 “数据压缩” 和 “可视化”，而非 “特征选择”，因此适用于以下场景：

数据可视化：将高维数据降至 2-3 维，便于观察数据分布（如用 PCA 将 10 个特征降至 2 维，绘制散点图查看是否有聚类趋势）；
模型预处理：当特征数量极多（如上千个），且特征间高度相关时，用 PCA 将特征降至几十维，再输入模型训练（如图像识别中，将像素特征降至低维后再训练分类器）；
噪声去除：PCA 的前几个主成分保留了数据的主要信息，后续主成分多为噪声，因此仅保留前 k 个主成分，可实现噪声去除。

（4）PCA 的局限性

损失可解释性：主成分是原有特征的线性组合，无法对应具体业务指标（如 “PC1” 无法解释为 “收入” 或 “年龄”），因此在需要可解释性的场景（如风控、医疗）中很少使用；

依赖线性关系：PCA 仅能捕捉线性关联，无法处理非线性特征（如 “年龄” 与 “风险” 的 U 型关系）；

对异常值敏感：异常值的方差通常很大，会主导主成分的方向，导致降维结果偏离真实数据分布（需先处理异常值）。

六、特征选择方法的选择指南

不同特征选择方法各有优劣，在实际项目中，需根据 “数据类型”“模型类型”“业务需求” 选择合适的方法，或组合使用多种方法。以下是一份实用的选择指南：

场景条件	推荐方法组合	不推荐方法
数据量大、特征多（>200）	过滤法（IV / 相关系数）→ 降维法（PCA）	包裹法（计算成本高）
风控 / 金融领域（需可解释性）	过滤法（IV 值）→ 嵌入法（树模型重要性）	降维法（PCA，损失可解释性）
线性模型（逻辑回归 / 线性回归）	过滤法（相关系数）→ 嵌入法（Lasso）	包裹法（针对树模型的 RFE）
树模型（随机森林 / XGBoost）	过滤法（IV / 卡方）→ 包裹法（RFE）	降维法（PCA，无需重构特征）
类别型特征为主	过滤法（卡方检验 / IV 值）→ 嵌入法（树模型重要性）	相关系数法（不适用于类别特征）
需快速筛选（初步探索）	过滤法（IV / 相关系数）	包裹法 / 嵌入法（计算慢）

示例工作流：某银行信贷审批模型的特征选择

初步筛选：用 IV 值剔除 IV<0.02 的无价值特征（如 “用户星座”），保留 50 个特征；
剔除冗余：计算特征间的相关系数，剔除相关系数 > 0.8 的冗余特征（如保留 “月收入”，剔除 “年收入”），保留 30 个特征；
模型筛选：用随机森林训练，提取特征重要性，保留前 20 个重要性最高的特征；
最终优化：用 Lasso 回归进一步筛选，剔除系数为 0 的特征，最终保留 15 个核心特征（如 “收入稳定性”“征信查询次数”“负债比例”）。

最后小结

特征选择不是 “选择最复杂的方法”，而是 “选择最适合当前场景的方法”。通过本文的学习，我们可以提炼出 3 个核心原则：

先过滤，后包裹 / 嵌入：过滤法计算快，能快速剔除明显无效的特征，减少后续方法的计算量；包裹法 / 嵌入法针对性强，能进一步筛选出优质特征。两者结合，兼顾效率与效果。
结合业务场景判断：技术指标（如 IV 值、特征重要性）是参考，但最终需结合业务逻辑。例如，某特征 IV 值高，但在实际审批时无法获取（如 “未来 30 天收入”），则需剔除；反之，某特征 IV 值中等，但业务上是核心指标（如 “征信记录”），则需保留。
避免过度筛选：特征并非越少越好。若过度剔除特征，可能丢失关键信息（如剔除 “负债比例” 这一核心特征），导致模型性能下降。通常建议保留 10-50 个核心特征，具体数量需通过交叉验证确定（选择模型性能最高时的特征数量）。

掌握特征选择技术，能让你从 “海量数据” 中快速定位核心信息，构建更高效、更可靠、更易解释的机器学习模型。无论是风控、金融、医疗还是互联网领域，特征选择都是提升模型价值的关键一步。未完待续........

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

构建系统化测试体系的工程实践

在数字化时代，软件质量保障已从被动检测演进为主动预防。通过构建基于ISO 25010的质量属性体系，结合AI驱动的测试工程实践，企业能够实现从"缺陷发现"到"风险预测"的质变。未来的质量工程师将不仅是测试用例的编写者，更是系统可靠性的架构师和质量风险的决策者。附录：质量属性测试工具全景图fill:#333;color:#333;color:#333;fill:none;质量属性功能UTF可靠性Ch

2048 AI社区

视频缺BGM？10个免版权音效网站商用无需署名

2048 AI社区

LangChain和llama_index有什么区别

LangChain和LlamaIndex是AI开发中的两个重要工具，但定位不同：LlamaIndex专注于数据索引和查询优化，适合快速构建知识库问答系统；而LangChain是应用编排框架，擅长整合多种工具构建复杂AI应用。两者并非竞争关系，在项目中常协同使用：LlamaIndex处理数据查询，LangChain负责整体流程编排。开发者可根据需求选择单独使用或组合使用，初学者建议从LlamaInd