这次在新加坡出差,期间分别参与了李杰教授在新加坡国立大学和南洋理工大学的讲座,他的主题都是和“AI factory”有关。期间他反复提到一个观点,让我深有共鸣:目前制造业很多数据“useful but not usable"(有用但不可用)。

图片

这也是我们和许多制造企业管理者交流时,大家共同头疼的问题。

一方面对AI赋能抱有很高期待,另一方面在持续投入上又难免捉襟见肘。今天,我想系统地聊聊,为什么我们车间里躺着大量“有用”的数据,却始终“用不起来”,以及破局的关键在哪里。

01 为什么制造业数据“多但不可用”?

制造业数据的“大”更多是“ volume(规模)”的堆砌,而非“ value(价值)”的沉淀,核心障碍集中在五个方面。

1、数据本身的“先天不足”

1)非结构化/半结构化问题

车间里的数据形式五花八门:有的是设备运行的一连串数值,有的是表格,有的是文本日志,还有设计图纸、工艺图片甚至监控视频。

比如,PLC控制器采集的温度原始信号可能是一串0-4095的数字,需要换算才能变成我们熟悉的摄氏度;维修记录写着“设备A异响,更换轴承”,但并没有明确标注“异响”对应的是哪种故障类型。

这些原始数据就像未经加工的原材料,需要经过整理、标注和转换,AI模型才能“读懂”。

2)数据质量参差:噪声、缺失与不一致

传感器可能会受到干扰,比如温度值突然从25℃跳到100℃;设备停机时,往往没有记录具体原因,导致关键信息空白;不同系统采集数据的频率也不一致。

这些“脏”数据如果直接丢给AI,它无法自动分辨和清洗。

3)缺乏业务语义标注

数据本身是冰冷的数字,需要业务知识给它注入灵魂。

比如,一条生产线的“压力值12MPa”,如果没有备注“安全红线是15MPa”,AI就无法判断当前是否危险。

“良品率95%”这个结果,如果没有关联到当时的原材料批次、设备参数等信息,AI也就无法追溯问题根源。

2、数据整合的“孤岛壁垒”

制造业的生产流程涉及不同系统,如MES管订单、ERP管物料、QMS管质量、SCADA管设备、PLM管工艺,缺乏有效整合的话,无法形成完整的业务视图。

1)系统间数据不连通

比如,MES里客户订单提前了,但SCADA系统不知道这个变化,AI如果只分析设备数据,就无法预判订单变更对设备负荷的影响。

PLM里更新了焊接工艺要求,如果MES没有同步,AI也无法判断当前生产是否合规。

2)语义不一致的“同名异义”

都是“良品率”,但不同部门考核口径可能不同:生产部门看最终检验合格率,设备部门可能更关注工序过程中的一次合格率。

同样是“压力”,也需要明确是哪种计量标准。这种不一致会给AI分析带来很大困扰。

3、业务经验的“缺失断层”

制造业的决策需要“数据+领域知识”的结合,而大模型如果没有融入这些知识,即使拿到数据也无法做出符合实际的决策。

1)工艺中的“硬性约束”未被告知

在高风险的工业场景中,比如半导体制造,有很多“必须怎么做”的硬性规定(如“烘箱必须先升温到180℃再保温”)。

如果这些规则没有明确地告诉AI,它可能会基于数据相关性,给出一个看似合理但实际违规的建议(如“直接升温到200℃”)。

这类偏离属于大模型的“知识盲区”与“幻觉”范畴,在缺乏外部知识注入、规则引擎或运行时校验时,模型难以可靠地自我发现并遵守此类隐性约束。

2)决策目标未对齐

如果只告诉AI要提高“产量”,它可能会建议你拼命开足马力,但结果可能是能耗飙升、质量下降。

因为工厂的真正目标往往是质量、成本、交付期的综合平衡。当AI不理解多目标优化时,它的“最优解”可能反而导致总成本上升。

4、通用大模型与工业数据的“适配鸿沟”

大模型是通用型工具,而工业数据是专用的、场景化的,一个属于“通才”,一个属于“专才”,两者的适配存在三大矛盾。

1)数据格式“对不上”

通用AI习惯处理固定格式的数据,但工业数据多是长度不一的时序数据,关键信息往往藏在长期的变化趋势里。简单裁剪或填充都会让信息失真。

2)通用模型缺乏对工业场景的理解

通用大模型缺少机理、工艺约束、设备指纹与质量因果知识,它可能会把“轴承磨损的前兆”当作“正常波动”,也无法理解“不同工艺下参数合理性”的差异。

简单来说,通用大模型是“门外汉”,看不懂工业数据的“专业语言”。

3)实时性要求未满足

生产预警常需毫秒—秒级响应,而大模型推理存在时延与抖动,直接用于控制高风险设备,稳定性还不足。

5. 算力与成本的“投入偏差”

本地部署大模型需要高性能GPU/TPU集群和边缘计算能力,多数制造业企业(尤其是中小企业)缺乏足够的算力资源,此外,大模型的训练/推理成本高,投入产出比低。

02 怎么让制造业数据“用起来”

第一步:数据治理——让数据“可信任、可访问”

数据治理是激活数据的基础,目标是解决“数据脏、乱、散”的问题。

关于“数据采集,数据清洗,数据标准化,数据整合”是个苦活累活,一个步骤少不了,当前很多企业的IT不具备这些能力,必须找专业服务商做,但是专业服务商未必懂你的业务,因此必要的试错需要有,但是不能半途而废,是需要持续性投入去做的。

第二步:场景定义——明确“用数据解决什么问题”

不要为了用数据而用数据,一定要从具体的业务痛点出发,关于场景定义需满足“三可”原则。

  • 可量化:如“降低10%设备停机时间”;

  • 可验证:如“用历史数据测试模型准确率”;

  • 可落地:如“模型输出能对接维修系统”。

常见的高价值场景通常集中在以下几个领域。

  • 研发与工艺设计:生成式设计(AIGC + CAE)、工艺参数智能寻优、数字孪生仿真与闭环、质量根因分析(RCA)、供应链联动设计等;

  • 生产制造与设备运维:智能排产与调度、预测性维护(PdM)、机器人柔性装配/喷涂/搬运、能耗与碳排管理等);

  • 质量检测与追溯:在线全检与分级分拣、过程质量预警、供应链质量协同等;

  • 供应链与物流:需求预测与计划协同、智能补货与库存优化、智慧物流与路径优化、供应商风险画像等。

第三步:标注与特征工程——让数据“有语义、有价值”

工业数据的核心是“专业语义”,需要通过标注和特征工程,将“原始数据”转化为“模型能理解的信号”。

比如,明确要识别的缺陷类型/故障模式,标注出关键数据区间,位置/尺寸/时序等,遵循“筛选—清洗—分类—注释—标记—质检”闭环。

这个过程需要领域专家制定标准,专业标注员执行,并建立质检流程,确保数据“饲料”的高质量。

第四步:模型选型与微调——让模型“适配工业场景”

优先选择为工业场景优化过的专业模型,而不是通用的AI大模型。然后,用我们自己工厂的标注数据对这个模型进行“微调”,让它更适应我们的具体场景。这就好比请了一位行业专家,再对他进行我们公司的上岗培训。

如时序数据可以选Transformer-based时序模型(如TimeGPT、GPT-TS)或LSTM;视觉数据可以选工业视觉大模型(如CLIP工业版、Segment Anything Model(SAM)的工业适配版);文本数据可以选领域大模型(如基于BERT的“工艺文档理解模型”)。用本地标注数据对模型进行迁移学习或 fine-tuning,提升场景适配性。

第五步:验证与优化——确保模型“可靠、可用”

模型训练完成后,需通过离线验证、在线验证或业务验证等多维度验证确保效果,验证通过后,还需要持续优化模型,包括但不限于数据迭代、参数调优、模型压缩与加速、监控与警告及MLOps与合规等等。

第六步:应用集成与闭环——让模型“驱动决策”

最后一步是将模型嵌入业务流程,实现“数据→模型→决策→行动”的闭环。

将模型对接到对应的业务系统。

  • 预测性维护:对接EAM/CMMS,AI预测到设备故障风险,直接在企业资产管理系统里自动生成维修工单和备件清单。联动SCADA/PLC做降载/停机保护(需受控授权)。

  • 质量缺陷:对接MES和QMS,AI发现质量缺陷,实时触发MES调整工艺参数,或控制PLC进行产品分拣。

  • 决策支持:向运营/工艺/质量等管理者提供带原因分析的建议,辅助决策。

同时,要建立监控和回退机制,确保AI决策在受控范围内,风险可控。

制造业的数据,不是“多”就有价值

数据治理是基础,场景定义是方向,模型适配是关键,应用闭环是价值。

我们可以充分利用已有的开源模型进行本地化部署,结合已有的数字化解决方案,整合单点智能体的能力,让制造业的海量数据真正“活”起来,驱动决策与增长。

制造业的智能体落地,切忌大而全,可以关注曼姐的文章#“十字心法”系列,先梳理清楚核心业务流程。智能体融入流程,在实践中不断学习和进化,从而像滚雪球一样,逐步释放出真正的生产力。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐