当热力学遇见随机森林:一种破解船舶柴油机故障诊断“黑箱”的新思路
在工业 4.0 的浪潮下,船舶柴油机的运维模式正从基于经验的判断向智能化预测性维护转型。然而,工程实践中往往面临两座难以逾越的“大山”:一是高价值故障样本的极端稀缺,二是AI模型天然存在的“黑箱”属性导致工程人员缺乏信任。发表于。
摘要
在工业 4.0 的浪潮下,船舶柴油机的运维模式正从基于经验的判断向智能化预测性维护转型。然而,工程实践中往往面临两座难以逾越的“大山”:一是高价值故障样本的极端稀缺,二是AI模型天然存在的“黑箱”属性导致工程人员缺乏信任。发表于 Measurement 期刊的研究成果《Thermodynamic simulation-assisted random forest: Towards explainable fault diagnosis of combustion chamber components of marine diesel engines》,提出了一种名为“热力学模拟辅助随机森林”(TSRF)的混合诊断框架。该研究巧妙地融合了物理机理建模与数据驱动算法,不仅在小样本下实现了较高的诊断精度,还尝试构建一种能够融合热力学先验知识的可解释性AI诊断技术路线。
1. 研究内容与方法综述
本研究主要针对船舶柴油机燃烧室组件在故障诊断中面临的样本稀缺性与模型不可解释性难题,提出了“热力学模拟辅助随机森林”(TSRF)诊断框架。
研究团队首先构建了某型船用二冲程柴油机的一维热力学仿真模型,并利用实船数据采集模块(DCM)获取的运行数据对模型进行了校准,确保仿真误差控制在5%以内。随后,基于物理失效机理,通过微调关键系统参数(如缸径、表面传热特性、窜气间隙等),在仿真环境中复现了五种典型的燃烧室故障模式:气缸盖裂纹(F1)、活塞烧蚀(F2)、气缸套磨损(F3)、活塞环磨损(F4)和活塞环粘着(F5),从而生成了包含均衡故障样本的增强数据集。

在方法论层面,论文采用随机森林作为核心分类器,并引入了博弈论中的 SHapley Additive exPlanations(SHAP)方法进行特征工程。研究并未直接输入所有热力学参数,而是通过计算 Tree SHAP 值量化各参数对故障预测的边际贡献,筛选出如增压器后排气温度(P14)、气缸套壁面热流(P05)等高价值特征,剔除了冗余变量。最终,建立了一种“双视角”解释机制,将 SHAP 提供的特征重要性与热力学模型的物理规律相互印证,验证了数据驱动模型决策逻辑的合理性。
2. 研究创新点摘要
本研究在船舶动力智能运维领域主要做出了三点实质性改进:
- 基于参数微调的“软”故障建模: 突破了传统破坏性实验的高成本限制,提出了一种通过微调宏观热力学参数来等效表征复杂故障的方法,有效解决了故障数据稀缺的问题。
- 引入 Tree SHAP 的量化特征工程: 摒弃了传统的统计学特征筛选方法,利用 SHAP 值量化各热力学参数对模型决策的边际贡献,精准捕捉参数间的非线性交互作用。
- 机理与数据互证的双视角解释框架: 构建了“热力学机理+机器学习归因”的闭环验证思路,利用可视化工具打开算法黑箱,并用物理规律验证其决策逻辑的合理性。
3. 热力学故障建模

该创新点的核心在于利用一维(1D)系统仿真模型来近似三维物理故障的热力学后果。作者建立了一个包含进排气管网、涡轮增压器及气缸的完整系统模型,并通过调整边界条件与几何参数的等效值来模拟故障:
- 气缸盖裂纹(F1):在1D模型中无法直接模拟裂纹几何形态,而是将其等效为表面温度的异常升高(从246.85℃升至346.85℃),以反映裂纹导致的局部散热恶化与热集中效应。
- 气缸套/活塞环磨损(F3/F4):通过微调缸径并配合窜气质量流量的增加,模拟由磨损间隙增大引起的漏气现象。
- 活塞环粘着(F5):作为复合故障,通过同时调整窜气量和活塞表面温度(模拟导热受阻)来表征。
该方法规避了真实破坏性实验的高昂成本,为机器学习模型提供了均衡的训练数据(每类120个样本)。相 比三维 CFD 仿真单次计算耗时数小时,一维模型可实现秒级响应,适合批量生成数据。必须指出,一维模型对故障的描述是“集总参数”层面的近似。它无法反映故障的空间分布(如裂纹的具体位置或磨损的偏磨情况),也难以捕捉故障发生瞬间的高频压力波动态。模型将复杂的微观物理变化简化为全气缸统一的“温度”或“流量”参数,这种简化在处理早期微弱故障时可能会丢失关键特征。

4. 特征选择:Tree SHAP 的“慧眼”
面对仿真输出的 14 个热力学监测参数,通过 Tree SHAP 算法进行筛选是提升模型效率的关键一步。Tree SHAP 利用树模型的结构特性,将特征贡献度的计算复杂度从指数级降低至多项式级别。
筛选逻辑并非简单地看参数波动大小,而是计算特征加入集合前后,模型输出值的边际贡献。结果显示,P14(增压器后排气温度)、P06(窜气热流) 等参数对故障判断具有决定性作用,而一些看似重要的常规参数(如 P01 气缸压力)在特定故障区分任务中贡献反而较小。

相比传统的卡方检验或递归特征消除(RFE),SHAP 的核心优势在于能够捕捉非线性交互作用。柴油机的热力学系统高度耦合(例如窜气量会直接改变排气温度),SHAP 能够识别出“当特征 A 处于特定范围时,特征 B 才变得重要”这种复杂的条件依赖关系,这更符合热力系统的物理本质。

SHAP 解释的是“模型对数据的看法”,而非绝对的物理真理。这种方法存在模型依赖性——如果基础 RF 模型因训练数据偏差学习到了错误的规律,SHAP 也会如实反映这种偏差。因此,SHAP 的有效性严格受限于仿真数据的物理保真度。
5. 双视角可解释性诊断框架
研究者没有止步于高准确率,而是尝试建立一种交叉验证机制:
- 数据视角:利用 SHAP 瀑布图解剖单个样本的预测过程。例如,针对一个被判定为“活塞环磨损(F4)”的样本,模型明确指出是因为 P06(窜气热流)和 P07(窜气质量)出现了特定的数值分布,才将其归类为故障。
- 机理视角: 研究者将上述数据归因与热力学原理进行比对。既然模型认为 P06 的变化是判断 F4 的关键,那么这是否符合物理常识?答案是肯定的——活塞环磨损必然导致窜气增加,进而改变热流分布。

这种交叉验证机制充当了模型的“逻辑校验器”,提升了工程人员对“黑箱”模型的信任度。同时,依赖图能够定量给出参数影响模型决策的阈值区间,为设定报警阈值提供了参考。解释过程可能存在后验确认偏差,即研究者可能倾向于寻找符合已知物理规律的解释,而忽略那些难以用物理直觉解释的高维特征交互。此外,SHAP 反映的是相关性贡献而非因果性,在指导具体维修决策时需谨慎区分。
6. 综合讨论:模型性能与实验设计
在实验对比中,RF 模型在经过 SHAP 特征筛选后的仿真数据集上表现优异(99.07%),优于 KNN 和 SVM。混淆矩阵显示,RF 最初在识别 F5(活塞环粘着)时存在混淆,但在应用 SHAP 剔除噪声特征后,识别率有一定提升。这反映了在高维热力学数据中,合理的特征降维能有效缓解“维数灾难”。

此外:在实验的数据方面,该实验的数据采集(DCM)经过了滑动平均去噪等规范预处理,仿真模型误差控制在5%以内,实验流程规范,数据基础扎实。
总结
《热力学模拟辅助随机森林》一文展示了将物理先验知识通过一维仿真注入机器学习流程的可行性。该研究通过“仿真生成数据 -> SHAP 筛选特征 -> RF 诊断 -> 机理辅助解释”的技术链路,在一定程度上缓解了纯数据驱动方法在工业现场面临的数据匮乏和可解释性差的问题。Tree SHAP 作为特征选择工具,在提升模型精度的同时增强了结果的物理可读性。尽管存在一维建模对空间特征的简化、以及故障演化程度考虑不足等局限,但该研究为数字孪生技术在船舶智能运维中的应用提供了一个有参考价值的思路。未来若能结合三维 CFD 仿真修正一维参数映射,并引入时序模型处理故障演化过程,将进一步提升其实用价值。
论文标题:Thermodynamic simulation-assisted random forest: Towards explainable fault diagnosis of combustion chamber components of marine diesel engines
刊载期刊:Measurement (Elsevier), 2025
DOI:10.1016/j.measurement.2025.117252
完整资源包(包含论文、代码及数据):https://ts-rf.github.io/zh-CN/
C. Luo, M. Zhao, X. Fu, S. Zhong, S. Fu, K. Zhang, X. Yu. Thermodynamic simulation-assisted random forest: Towards explainable fault diagnosis of combustion chamber components of marine diesel engines [J]. Measurement, 2025, 251: 117252.
更多推荐



所有评论(0)