评分卡中的PSI指标
PSI(Population Stability Index,群体稳定性指数)是用来衡量两个群体分布差异的指标。在风控建模中,它主要用于监控模型分数的稳定性,确保模型在生产环境中的表现与开发时保持一致。PSI核心作用:衡量两个群体分布的差异程度计算公式PSI∑Ai−Ei×lnAiEiPSI∑Ai−Ei×lnAiEi解读标准0.1:非常稳定0.1−−0.25:一般稳定0.25:不稳定主要应
文章目录
1 PSI基本定义
PSI(Population Stability Index,群体稳定性指数) 是用来衡量两个群体分布差异的指标。在风控建模中,它主要用于监控模型分数的稳定性,确保模型在生产环境中的表现与开发时保持一致。
核心应用场景:
- 模型监控:比较训练集(预期分布)与测试集/上线后样本(实际分布)的差异
- 特征监控:监控单个特征的分布变化
- 时间窗口比较:比较不同时间段的客群分布
- 模型迭代验证:新模型与旧模型分数分布的对比
2 PSI的计算公式
2.1 基本公式
对于每个分箱(bin):
PSI i = ( A i − E i ) × ln ( A i E i ) \text{PSI}_i = (A_i - E_i) \times \ln\left(\frac{A_i}{E_i}\right) PSIi=(Ai−Ei)×ln(EiAi)
总体PSI:
PSI = ∑ i = 1 n PSI i \text{PSI} = \sum_{i=1}^{n} \text{PSI}_i PSI=i=1∑nPSIi
其中:
- A i A_i Ai:实际分布中第i组的占比
- E i E_i Ei:预期分布(基准分布)中第i组的占比
- n n n:分箱数量
2.2 计算步骤
- 确定分箱:将分数分成若干组(通常10-20组)
- 计算占比:计算每组在预期分布和实际分布中的占比
- 逐组计算PSI:对每组计算 ( A i − E i ) × ln ( A i / E i ) (A_i - E_i) \times \ln(A_i/E_i) (Ai−Ei)×ln(Ai/Ei)
- 求和:将所有组的PSI值相加
3 PSI的解读标准
| PSI值范围 | 稳定性评估 | 建议行动 |
|---|---|---|
| < 0.1 | 非常稳定 | 无需关注 |
| 0.1 - 0.25 | 一般稳定 | 需要监控 |
| 0.25 - 0.5 | 不稳定 | 调查原因 |
| > 0.5 | 非常不稳定 | 必须采取行动 |
注意:这些是经验阈值,实际应用中可根据业务场景调整:
- 保守场景(金融风控):PSI > 0.1 就需关注
- 宽松场景:PSI > 0.25 才需关注
4 PSI计算示例
示例数据:信用评分模型
| 分数段 | 训练集占比(E) | 测试集占比(A) |
|---|---|---|
| 0-500 | 0.05 | 0.10 |
| 501-600 | 0.15 | 0.20 |
| 601-650 | 0.20 | 0.15 |
| 651-700 | 0.25 | 0.30 |
| 701-750 | 0.20 | 0.15 |
| 751-800 | 0.15 | 0.10 |
逐步计算:
-
第一组 (0-500):
PSI 1 = ( 0.10 − 0.05 ) × ln ( 0.10 / 0.05 ) = 0.05 × ln ( 2 ) = 0.05 × 0.693 = 0.03465 \text{PSI}_1 = (0.10 - 0.05) \times \ln(0.10/0.05) = 0.05 \times \ln(2) = 0.05 \times 0.693 = 0.03465 PSI1=(0.10−0.05)×ln(0.10/0.05)=0.05×ln(2)=0.05×0.693=0.03465 -
第二组 (501-600):
PSI 2 = ( 0.20 − 0.15 ) × ln ( 0.20 / 0.15 ) = 0.05 × ln ( 1.333 ) = 0.05 × 0.2877 = 0.014385 \text{PSI}_2 = (0.20 - 0.15) \times \ln(0.20/0.15) = 0.05 \times \ln(1.333) = 0.05 \times 0.2877 = 0.014385 PSI2=(0.20−0.15)×ln(0.20/0.15)=0.05×ln(1.333)=0.05×0.2877=0.014385 -
第三组 (601-650):
PSI 3 = ( 0.15 − 0.20 ) × ln ( 0.15 / 0.20 ) = − 0.05 × ln ( 0.75 ) = − 0.05 × ( − 0.2877 ) = 0.014385 \text{PSI}_3 = (0.15 - 0.20) \times \ln(0.15/0.20) = -0.05 \times \ln(0.75) = -0.05 \times (-0.2877) = 0.014385 PSI3=(0.15−0.20)×ln(0.15/0.20)=−0.05×ln(0.75)=−0.05×(−0.2877)=0.014385 -
第四组 (651-700):
PSI 4 = ( 0.30 − 0.25 ) × ln ( 0.30 / 0.25 ) = 0.05 × ln ( 1.2 ) = 0.05 × 0.1823 = 0.009115 \text{PSI}_4 = (0.30 - 0.25) \times \ln(0.30/0.25) = 0.05 \times \ln(1.2) = 0.05 \times 0.1823 = 0.009115 PSI4=(0.30−0.25)×ln(0.30/0.25)=0.05×ln(1.2)=0.05×0.1823=0.009115 -
第五组 (701-750):
PSI 5 = ( 0.15 − 0.20 ) × ln ( 0.15 / 0.20 ) = 0.014385 ( 同第三组 ) \text{PSI}_5 = (0.15 - 0.20) \times \ln(0.15/0.20) = 0.014385 \quad (\text{同第三组}) PSI5=(0.15−0.20)×ln(0.15/0.20)=0.014385(同第三组) -
第六组 (751-800):
PSI 6 = ( 0.10 − 0.15 ) × ln ( 0.10 / 0.15 ) = − 0.05 × ln ( 0.6667 ) = − 0.05 × ( − 0.4055 ) = 0.020275 \text{PSI}_6 = (0.10 - 0.15) \times \ln(0.10/0.15) = -0.05 \times \ln(0.6667) = -0.05 \times (-0.4055) = 0.020275 PSI6=(0.10−0.15)×ln(0.10/0.15)=−0.05×ln(0.6667)=−0.05×(−0.4055)=0.020275 -
总PSI:
PSI = 0.03465 + 0.014385 + 0.014385 + 0.009115 + 0.014385 + 0.020275 = 0.107195 \text{PSI} = 0.03465 + 0.014385 + 0.014385 + 0.009115 + 0.014385 + 0.020275 = 0.107195 PSI=0.03465+0.014385+0.014385+0.009115+0.014385+0.020275=0.107195
解读:PSI ≈ 0.107,属于"一般稳定"范围,需要监控但无需立即行动。
5 PSI的优缺点
优点:
- 计算简单:只需要分组占比
- 解释性强:单一数值反映分布差异程度
- 广泛应用:金融风控领域的标准指标
- 对异常值不敏感:基于分组占比,不受极端值影响
缺点:
- 依赖分组:不同分组方式可能导致不同结果
- 可能掩盖局部问题:总体PSI低但某个分组差异大
- 只反映分布差异:不反映模型性能变化
- 需要足够样本:小样本时不可靠
6 PSI在模型监控中的应用
6.1 监控策略
| 监控维度 | 频率 | 阈值 | 行动方案 |
|---|---|---|---|
| 模型分数PSI | 每日/每周 | > 0.1 | 分析原因,检查特征 |
| 特征PSI | 每周/每月 | > 0.25 | 特征工程,重新评估 |
| 时间窗口PSI | 每月/每季度 | > 0.25 | 考虑模型重训 |
| 模型版本PSI | 每次部署 | > 0.5 | 暂停部署,深入分析 |
6.2 与其他指标结合
完整监控体系应包含:
- PSI:监控分布稳定性
- KS/AUC:监控模型区分能力
- 坏账率:监控实际业务表现
- 通过率:监控策略效果
6.3 PSI异常的处理流程
PSI异常报警
↓
确认数据质量
↓
分析异常原因
├── 数据采集问题
├── 客群变化
├── 策略调整
└── 季节性因素
↓
评估影响程度
├── 模型性能是否下降?
├── 业务指标是否受影响?
└── 是否需要立即干预?
↓
制定应对措施
├── 调整模型阈值
├── 重新训练模型
├── 更新特征工程
└── 调整业务策略
7 总结
PSI是模型监控中不可或缺的指标:
- 核心作用:衡量两个群体分布的差异程度
- 计算公式: PSI = ∑ ( A i − E i ) × ln ( A i / E i ) \text{PSI} = \sum (A_i - E_i) \times \ln(A_i/E_i) PSI=∑(Ai−Ei)×ln(Ai/Ei)
- 解读标准:
- < < < 0.1:非常稳定
- 0.1 − - − 0.25:一般稳定
- > > > 0.25:不稳定
- 主要应用:
- 模型分数稳定性监控
- 特征分布变化监控
- 时间窗口对比
- 优点:计算简单,解释性强,广泛接受
- 局限:依赖分箱,可能掩盖局部问题
- 最佳实践:
- 与KS/AUC等指标结合使用
- 建立定期监控机制
- 制定明确的行动阈值
在实际工作中,PSI应作为模型健康度仪表盘的核心指标之一,与其他业务指标和模型指标一起,构建完整的模型监控体系。当PSI异常时,需要深入分析根本原因,而不是简单调整阈值或重新训练模型。
更多推荐



所有评论(0)