前言

船用柴油机作为船舶推进系统的核心部件,燃烧室因工作环境恶劣成为故障高发区域,传统故障诊断方法要么因故障样本不足泛化能力差,要么因缺乏故障机理领域知识导致模型可解释性弱。近期研读了《Thermodynamic simulation-assisted random forest: Towards explainable fault diagnosis of combustion chamber components of marine diesel engines》一文,该文提出的TSRF(热力学仿真辅助随机森林) 方法,将热力学仿真的故障特征作为先验知识融入智能诊断模型,兼顾了诊断精度与可解释性,为船用柴油机燃烧室故障诊断提供了新的思路。本文将以读书笔记的形式,梳理该论文的核心研究内容、方法设计与实验结论,供相关领域开发者和研究者参考。

一、研究背景与现存问题

1.1 研究意义

柴油机燃烧室由缸盖、缸套、活塞等部件组成,其故障会严重影响发动机性能与船舶航行安全,通过监测热力学参数实现故障诊断,能为设备维护、维修方案优化提供关键依据。

1.2 传统方法的局限性

目前船用柴油机故障诊断方法主要分为模型基、数据驱动、混合方法三类,各方法的优劣势论文中通过 Table 1 进行了清晰总结,核心问题如下:

  • 模型基方法:物理解释清晰,但灵活性差,难以处理复杂非线性系统;
  • 数据驱动方法:适应性强、适合大数据场景,但高度依赖数据质量和数量,模型可解释性差(黑箱问题);
  • 混合方法:精度和可解释性相对提升,但模型复杂度高、计算成本大,且未对物理模型与数据模型融合后的决策过程做详细分析。

1.3 本文研究目标

针对上述问题,提出 TSRF 方法,通过热力学仿真构建故障模型提取先验特征,结合SHAP(沙普利加性解释) 实现特征选择与模型可解释性分析,最终基于随机森林(RF)完成燃烧室故障的高精度诊断,并从局部和全局视角解释模型决策过程。

二、核心研究方法:TSRF 框架设计

TSRF 的整体框架以热力学仿真数据驱动融合为核心,分为热力学故障建模、SHAP 基特征选择、RF 分类、SHAP 可解释性分析四个关键步骤,论文中 Fig.1 展示了 TSRF 的完整结构。

2.1 船用柴油机一维热力学模型构建

论文构建了包含进排气歧管、涡轮增压器、中冷器、6 个气缸的一维热力学模型(论文 Fig.2),清晰展示模型的系统边界、监测点、管路布局等核心结构。该模型的发动机核心参数如表 2 所示(缸径 620mm、行程 2658mm、6 缸直列、二冲程、额定功率 2900kW 等),为后续故障仿真奠定了基础。

2.2 燃烧室 5 类故障的热力学建模

论文将燃烧室健康状态分为正常(F0)和 5 类典型故障(F1-F5),通过参数微调的方式复现故障特征,替代传统微观材料属性模拟的复杂方法,实现故障的快速仿真,各故障的微调参数与故障机理如下(核心参数见论文 Table5):

  1. 缸盖开裂(F1):微调缸盖表面温度,裂纹导致热耗散效率下降,局部热失控;
  2. 活塞烧蚀(F2):微调活塞表面温度分布 + 窜气质量流量,烧蚀导致活塞 - 缸套密封失效,窜气加剧;
  3. 缸套磨损(F3):微调缸套孔径 + 窜气质量流量,磨损导致孔径增大,密封性能下降;
  4. 活塞环磨损(F4):微调窜气质量流量,环表面材料退化导致密封失效,窜气增加;
  5. 活塞环粘滞(F5):微调缸套孔径 + 缸套表面温度 + 窜气质量流量,积碳、润滑不足导致环运动受阻,热阻增大且磨损加速。

2.3 基于 Tree SHAP 的热力学参数选择

2.3.1 特征选择的必要性

柴油机热力学参数繁多,全面监测不切实际,需筛选与故障高度相关的核心参数,平衡监测成本与故障识别能力。

2.3.2 SHAP 与传统特征选择方法的对比

论文对比了卡方检验、递归特征消除(RFE)、基尼指数和 SHAP 四种方法,核心差异见论文 Table3。SHAP 作为模型无关的可解释性方法,不仅能量化参数重要性,还能揭示参数的方向影响、交互作用和样本分布,远优于传统方法。

2.3.3 Tree SHAP 算法原理

针对 RF 这类树基模型,论文采用Tree SHAP优化 SHAP 值计算,避免了传统 SHAP 枚举所有参数组合的高计算成本,仅沿决策树的有效决策路径计算边际贡献,大幅提升效率。核心公式包括边际贡献计算、SHAP 值平均计算、Tree SHAP 专用计算式。

2.3.4 特征选择流程
  1. 从故障仿真结果中提取 14 个潜在诊断价值的热力学参数;
  2. 将参数输入 RF 进行预识别;
  3. 计算各参数的 SHAP 值,按重要性排序;
  4. 筛选累计贡献度最高的 8 个核心参数作为诊断特征。

论文原图 Fig.3展示了 SHAP 基参数选择的完整流程,帮助理解 “预识别 - SHAP 量化 - 特征筛选 - 重识别” 的闭环逻辑。

2.4 随机森林分类模型设计

2.4.1 热力学参数离散化

RF 的基础是决策树,而决策树适用于离散特征,因此需对温度、压力等连续热力学参数进行离散化处理:通过计算相邻参数值的中位数确定候选分割点,以信息增益为指标选择最优分割点,将连续参数转化为离散特征。

2.4.2 随机森林核心设置

基尼指数为特征选择准则(公式 10),通过集成多个独立决策树降低单树的偏差和方差,最终通过投票法输出故障分类结果(公式 9)。

三、实验设计与模型验证

3.1 实验数据来源与预处理

  1. 测试数据集:来自国内船舶设备制造商的主机传感器系统,通过自研 DCM 模块采集 6 个月的运行时序数据,经去重、插值、异常修正、特征筛选后用于模型校准;
  2. 实验数据集:从柴油机模型完整运行周期的仿真结果中提取,每类健康状态含 120 个样本,经最小 - 最大归一化消除量纲影响后,按 7:3 划分为训练集和测试集。

3.2 热力学模型有效性验证

论文选取发动机稳定运行阶段的关键热力学参数,对比仿真值与实验值的偏差,结果见论文 Table4。所有参数的偏差均小于 5%,验证了热力学模型的可靠性,为后续故障仿真提供了数据基础。

3.3 故障仿真结果

对 14 个热力学参数在 6 类健康状态下的变化规律进行仿真,论文 Fig.6 (a-n) 展示了各参数随曲轴转角的变化曲线,能直观观察到不同故障下参数的差异化特征,为后续特征选择和诊断提供了物理依据。

四、实验结果与分析

4.1 核心参数筛选结果

论文计算了 14 个参数在 6 类健康状态下的 SHAP 值,通过热图、堆叠柱状图、占比图展示参数重要性(论文 Fig.7 (a-c))。最终筛选出涡轮增压器后排气温度(P14)、缸套壁热流(P05)、窜气热流(P06)、窜气质量流量(P07) 等 8 个核心参数,为后续故障诊断的核心特征。

4.2 模型诊断性能对比

4.2.1 模型超参数优化

采用网格搜索 + 5 折交叉验证对 KNN、SVM、RF 三种模型进行超参数调优,最优参数见论文 Table7。

4.2.2 不同模型的性能对比

对比三种模型在原始参数集SHAP 筛选后的最优参数集上的诊断性能,评价指标包括精确率、召回率、F1 分数、准确率(论文 Table8)。核心结论:

  • 所有模型在最优参数集上的性能均大幅提升,验证了 SHAP 特征选择的有效性;
  • TSRF(RF+SHAP)在最优参数集上的平均诊断准确率达 99.07%,显著优于 KNN(94.44%)和 SVM(94.44%)。
4.2.3 不同特征选择方法的性能对比

以 RF 为分类模型,对比卡方检验、RFE、基尼指数、SHAP 四种特征选择方法的诊断准确率(论文 Table9)。SHAP 方法的准确率(99.07%)高于其他方法,再次验证了其在特征选择上的优越性。

4.2.4 混淆矩阵与 Precision-Recall 曲线

论文 Fig.8 和 Fig.9 分别展示了三种模型在原始参数集和最优参数集上的混淆矩阵、Precision-Recall 曲线。结果显示,TSRF 对各类故障的识别能力均表现优异,仅对活塞环磨损(F4)和粘滞(F5)的区分略有下降(两类故障均为活塞环相关,系统影响模式相似)。

4.3 基于热力学模型的 TSRF 可解释性分析

论文以活塞环磨损(F4) 为典型故障案例,从局部单样本全局全样本两个视角,结合热力学机理对 TSRF 的决策过程进行解释,是本文的核心创新点之一。

4.3.1 局部解释:单样本瀑布图分析

采用SHAP 瀑布图(论文 Fig.11 (a))分析单个 F4 样本的参数贡献。瀑布图能清晰展示每个参数对模型预测的正负贡献及大小:部分样本中 P14、P04 的低值对 F4 预测产生负向影响,结合热力学机理可知,活塞环磨损加剧窜气,本应使 P14、P04 升高,而样本中低值与先验知识矛盾,导致模型预测精度略有下降。

4.3.2 全局解释:蜂群图 + 交互图 + 依赖图
  1. 蜂群图(Fig.11 (b)):展示所有 F4 样本的参数 SHAP 值分布,发现 P11、P12、P07、P06 的低值是模型识别 F4 的关键特征;
  2. 交互图(Fig.11 (c)):计算 SHAP 交互值,筛选出 6 个影响最大的参数交互对,揭示参数间的协同作用;
  3. 依赖图(Fig.11 (d)):以 P11-P12、P06-P07 为例,验证了参数间的正相关关系,与热力学基本原理一致:活塞环磨损导致 P11 降低,进而使正相关的 P12 同步降低;窜气是 F4 的核心特征,而 P06、P07 与窜气程度负相关,其低值成为 F4 的典型识别指标。

4.4 关键结论

通过 SHAP 分析结合热力学机理,论文确定了对燃烧室故障诊断贡献最大的三个核心参数:涡轮增压器排气温度、窜气热流、缸套壁热流,为船用柴油机燃烧室故障的实际监测和诊断提供了明确的参数选择依据。

五、研究结论与未来展望

5.1 论文核心结论

  1. 提出的参数微调方法能快速复现船用柴油机燃烧室 5 类故障的热力学特征,相比传统微观模拟方法,效率更高、热力学参数分析范围更广;
  2. SHAP在热力学参数选择中表现优异,不仅能量化参数重要性,还能揭示参数交互作用,远优于传统特征选择方法;
  3. TSRF 方法在自建故障数据集上的平均诊断准确率达 99.07%,优于 KNN、SVM 等传统机器学习方法;
  4. 结合 SHAP 的局部 + 全局双视角解释,实现了 TSRF 模型决策过程的可解释性,同时结合热力学机理,明确了核心诊断参数的物理意义。

5.2 未来研究方向

  1. 考虑复杂海洋工况对模型的影响,进一步提升 TSRF 的泛化能力;
  2. 优化故障参数设置,融入不同故障严重程度,实现故障的精细分类;
  3. 将深度学习等先进模型与多区热力学模型、详细化学动力学模型融合,兼顾预测精度与物理可解释性。

六、读书笔记总结

这篇论文的核心价值在于将热力学仿真的故障机理先验知识与随机森林的大数据学习能力结合,同时通过 SHAP 实现了特征选择与模型可解释性的双重目标,为工业设备故障诊断的 “高精度 + 可解释” 发展提供了思路。

参考文献

[1] C. Luo, M. Zhao*, X. Fu, S. Zhong, S. Fu, K. Zhang, X. Yu. Thermodynamic simulation-assisted random forest: Towards explainable fault diagnosis of combustion chamber components of marine diesel engines[J]. Measurement, 2025, 251: 117252.

原作者的代码及数据:https://ts-rf.github.io/zh-CN/

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐