【论文解读】BatteryAgent:一种基于“数值-语义”桥梁的电池故障可解释性诊断新范式

导读:深度学习在电池故障诊断中表现出色,但其“黑盒”特性和二分类范式限制了实际应用中的可解释性与维护指导价值。近日,清华大学自动化系计算能源团队在 arXiv 发布论文 《BatteryAgent: Synergizing Physics-Informed Interpretation with LLM Reasoning for Intelligent Battery Fault Diagnosis》。该研究提出了一种分层式智能体框架,巧妙地建立了“数值特征”与“语义推理”之间的桥梁,利用 DeepSeek-R1 大模型实现了从被动检测到主动、可解释诊断的跨越。

论文地址arXiv:2512.24686


1. 研究背景与痛点

锂离子电池(LIBs)是电动汽车的核心组件,但其热失控风险始终是行业痛点。目前的电池故障诊断主要面临两大挑战:

  1. 可解释性缺失:现有的数据驱动方法(如CNN、Transformer)虽然检测精度高,但往往是“黑盒”模型,无法解释判定依据。
  2. 诊断维度单一:现有模型大多局限于“正常/异常”的二分类,无法提供具体的故障根因(如内短路、容量衰减)或后续的维护建议。

虽然大语言模型(LLM)具备强大的推理能力,但直接将原始时序电压/电流数据输入LLM会面临Token成本高昂数值计算能力弱以及幻觉风险等问题。

针对上述问题,本文提出了 BatteryAgent 框架,其核心思想是:用物理机理特征压缩数据,用可解释ML模型量化贡献,用LLM完成最终的逻辑推理。


2. BatteryAgent 核心架构

BatteryAgent 采用三层递进架构,如图1所示:

在这里插入图片描述

图1 BatteryAgent 分层架构示意图

图注解读
这是一个闭环的“感知-归因-推理”系统,共包含三层:

  1. 左侧(物理感知层):将电压(V)、电流(I)、温度(T)等原始传感器数据,通过物理知识库转化为具有明确电化学含义的机理特征(Feature Matrix),实现了数据的物理降维。
  2. 中间(检测与归因层):使用 GBDT 模型进行初步的二分类(正常/异常),并利用 SHAP 解释器计算出 Top-k 个对当前预测贡献最大的特征(例如 T m i n T_{min} Tmin 或电压一致性),形成了“数值锚点” 。
  3. 右侧(推理与诊断层):这是系统的“大脑”。DeepSeek-R1 Agent 接收结构化的 Prompt(包含机理规则 + SHAP数值证据 + 输出模板),通过“数值-语义桥梁”生成包含故障根因和维护建议的自然语言报告 。

2.1 物理感知层 (Physics Perception Layer)

为了避免端到端学习带来的物理意义缺失,该层基于电化学原理设计并筛选了10个关键特征,将高频时序数据降维为紧凑的特征向量。特征分为三类:

  • 历史使用特征
    • f c y c f_{cyc} fcyc:累计循环次数(老化指标)
    • f c c f_{cc} fcc:恒流充电阶段占比(极化程度指标)
    • f s o c f_{soc} fsoc:最大SOC(过充风险)
  • 电压特性特征
    • f v r f_{vr} fvr:包-单体电压比(一致性指标)
    • f c o r r f_{corr} fcorr:电压相关系数(单体演化同步性)
    • f v 0 f_{v0} fv0:初始电压最小值
    • f β f_{\beta} fβ:电压斜率
  • 热动力学特征
    • f Δ T f_{\Delta T} fΔT:最大温差(局部热点)
    • f T ˙ f_{\dot{T}} fT˙:最大温升速率
    • f T e n d f_{T_{end}} fTend:充电结束温度

2.2 检测与归因层 (Detection & Attribution Layer)

该层负责“定量分析”。

  • 分类器:采用梯度提升决策树(GBDT/LightGBM)进行高精度故障分类。
    *可解释性归因:引入 SHAP (SHapley Additive exPlanations) 值来量化每个物理特征对预测结果的贡献度。

    对于特征 f j f_j fj,其SHAP值 ϕ j \phi_j ϕj 满足局部准确性:
    f ( F ) = ϕ 0 + ∑ j ϕ j f(F) = \phi_0 + \sum_{j} \phi_j f(F)=ϕ0+jϕj
    系统选取 Top-k 个高贡献特征( w j w_j wj)传递给下一层,为LLM提供“数值锚点” 。

2.3 推理与诊断层 (Reasoning & Diagnosis Layer)

这是本文的核心创新点——“数值-语义桥梁” (Numeric-to-Semantic Bridge)
该层利用 DeepSeek-R1 作为 Agent 核心,通过结构化 Prompt 将数值分析转化为自然语言诊断。

Prompt 结构设计
P = [ Rules ] + [ SHAP ] + [ Template ] \mathcal{P} = [\text{Rules}] + [\text{SHAP}] + [\text{Template}] P=[Rules]+[SHAP]+[Template]

  1. [Rules] 知识库:注入专家知识,定义特征与故障类型的映射关系(例如: f Δ T f_{\Delta T} fΔT 异常可能对应热失控或热管理失效)。
  2. [SHAP] 证据链:输入GBDT的预测结果 y ^ \hat{y} y^ 以及 Top-k 特征的 SHAP 贡献值。
  3. [Template] 输出规范:要求输出包含 Diagnosis Result(诊断结果)、Root Cause(根因分析)、Maintenance Advice(维护建议)。

3. 实验结果与分析

实验基于大规模实车数据集(Zhang et al., Nature Comm.2023),包含347辆车、超69万个充电片段。

3.1 SOTA 对比

BatteryAgent 在各项指标上均超越了现有的深度学习模型(如 BatteryBERT)和时序大模型(如 TimesFM, Chronos)。

方法 AUROC 平均运营成本 (CNY) 说明
BatteryAgent 98.6% 93 Cost 降低 59.4%
BatteryBERT 94.5% 229 专用预训练模型
DyAD 88.6% 850 动态深度学习
TimesFM 79.4% 1050 时序基础模型
Chronos 78.7% 1090 时序基础模型

数据来源:论文 Table III

分析:通用的时序大模型(Time-LLM等)在特定领域的故障检测上表现一般,证明了**领域知识注入(Domain Knowledge Injection)**的必要性。

3.2 消融实验:为什么要结合 LLM + SHAP?

作者通过消融实验证明了每个组件的重要性:

  • w/o SHAP:去掉SHAP归因,LLM 缺乏数值锚点,导致“幻觉”,误报率上升。
  • w/o Rules:去掉机理规则,模型无法将特征映射到物理故障,漏报率显著增加。
  • Only LGBM:仅使用 GBDT,虽有分类能力,但无法处理边界样本,假阴性(False Negative)高达49个(BatteryAgent仅1个)。
    在这里插入图片描述
    图2 消融实验中的分类分布对比((a) 真实异常样本 vs (b) 真实正常样本)

图注解读
此图展示了不同模型在处理“难样本”时的分类分布。特别需要注意的是对“Warning(灰色)”类别的解读:

  1. 标签的局限性:原始数据集采用的是粗粒度的二分类标签,即故障车辆的所有充电片段都被标记为“Abnormal”,无论其实际处于故障早期还是晚期。这意味着 Ground Truth 并不完全代表当前的物理状态。
  2. Warning 的有效性:LLM输出的 “Warning” 被视为一种有效的中间态预测。它成功捕捉到了故障演进的**“过渡阶段(Transitional Phase)”**——即异常特征已经出现但尚未达到临界阈值的状态。
  3. 性能优势
  • BatteryAgent(最顶行):表现最佳。在100个异常样本中正确检出99个,在100个正常样本中正确识别78个,并将剩余22个模棱两可的样本归类为“Warning”,实现了极低的误报率和漏报率。
  • w/o SHAP / w/o Rules:移除SHAP归因或规则库后,模型的不确定性(灰色)显著增加,且对异常样本的漏报增多(红色条变短)。

3.3 案例研究:多维诊断能力

尽管训练数据只有“0/1”标签,BatteryAgent 依然展现出了细粒度的诊断能力。
Vehicle 405 为例,Agent 诊断出其主要故障为 内短路 (Internal Short Circuit)热失控风险 (Thermal Runaway),并给出了高置信度的严重性评分。这与电化学原理高度一致:内短路往往导致局部产热,进而诱发热失控风险。
在这里插入图片描述

图3 车辆405在50个连续充电片段中的故障严重程度画像

图注解读
这张雷达图展示了 BatteryAgent 进行细粒度诊断的能力。图中六个轴代表六种不同的故障类型(如内短路、热失控、容量衰减等),刻度 0-5 代表严重程度。

  • 红线(均值):车辆405在“内短路 (Internal Short Circuit)”维度得分高达 3.68,在“热失控 (Thermal Runaway)”维度得分 2.79,而其他维度得分很低。
  • 灰色阴影(标准差):阴影区域很窄,说明模型在连续50次充电过程中的诊断结果非常稳定(Standard Deviation 仅为 0.48-0.86)。
  • 物理一致性:这与电化学原理高度吻合——内短路(ISC)通常会引起局部产热,从而继发热失控(TR)风险。模型成功捕捉到了这种因果链条。

4. 总结与展望

BatteryAgent 的提出标志着电池故障诊断从“被动报警”向“主动智能诊断”的转变。其主要贡献在于:

  1. 可解释性:通过 SHAP + LLM,让黑盒模型“开口说话”,给出有理有据的分析。
  2. 高性能:在 AUROC 达到 98.6% 的同时,大幅降低了实际运营中的误报/漏报成本。
  3. 泛化性:无需细粒度标注数据,利用 LLM 的推理能力即可实现多故障类型的根因定位。

这种 “Physics features + Interpretable ML + LLM Reasoning” 的范式,也为其他工业领域的复杂系统诊断提供了极具价值的参考。


参考文献

  • S. Zhou, J. Wang, R. Liu, Y. Wang, B. Su, and B. Jiang*, BatteryAgent: Synergizing Physics-Informed Interpretation with LLM Reasoning for Intelligent Battery Fault Diagnosis, arXiv preprint arXiv:2512.24686, 2025.
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐