为什么制造业数据用不起来

制造业数据"有用但不可用"的困境与破局之道当前制造业面临数据价值难以释放的核心矛盾：一方面企业积累了大量生产数据，另一方面这些数据存在质量差、标准乱、系统割裂等问题，导致AI应用难以落地。主要表现为：1）数据先天不足（非结构化、噪声多、缺乏标注）；2）系统孤岛严重；3）业务知识断层；4）通用大模型与工业场景不匹配；5）算力成本过高。破局需要六步走：数据治理夯实基础→明确高价

海岸线科技

251人浏览 · 2025-11-26 09:00:00

海岸线科技 · 2025-11-26 09:00:00 发布

这次在新加坡出差，期间分别参与了李杰教授在新加坡国立大学和南洋理工大学的讲座，他的主题都是和“AI factory”有关。期间他反复提到一个观点，让我深有共鸣：目前制造业很多数据“useful but not usable"（有用但不可用）。

这也是我们和许多制造企业管理者交流时，大家共同头疼的问题。

一方面对AI赋能抱有很高期待，另一方面在持续投入上又难免捉襟见肘。今天，我想系统地聊聊，为什么我们车间里躺着大量“有用”的数据，却始终“用不起来”，以及破局的关键在哪里。

01 为什么制造业数据“多但不可用”？

制造业数据的“大”更多是“ volume（规模）”的堆砌，而非“ value（价值）”的沉淀，核心障碍集中在五个方面。

1、数据本身的“先天不足”

1）非结构化/半结构化问题

车间里的数据形式五花八门：有的是设备运行的一连串数值，有的是表格，有的是文本日志，还有设计图纸、工艺图片甚至监控视频。

比如，PLC控制器采集的温度原始信号可能是一串0-4095的数字，需要换算才能变成我们熟悉的摄氏度；维修记录写着“设备A异响，更换轴承”，但并没有明确标注“异响”对应的是哪种故障类型。

这些原始数据就像未经加工的原材料，需要经过整理、标注和转换，AI模型才能“读懂”。

2）数据质量参差：噪声、缺失与不一致

传感器可能会受到干扰，比如温度值突然从25℃跳到100℃；设备停机时，往往没有记录具体原因，导致关键信息空白；不同系统采集数据的频率也不一致。

这些“脏”数据如果直接丢给AI，它无法自动分辨和清洗。

3）缺乏业务语义标注

数据本身是冰冷的数字，需要业务知识给它注入灵魂。

比如，一条生产线的“压力值12MPa”，如果没有备注“安全红线是15MPa”，AI就无法判断当前是否危险。

“良品率95%”这个结果，如果没有关联到当时的原材料批次、设备参数等信息，AI也就无法追溯问题根源。

2、数据整合的“孤岛壁垒”

制造业的生产流程涉及不同系统，如MES管订单、ERP管物料、QMS管质量、SCADA管设备、PLM管工艺，缺乏有效整合的话，无法形成完整的业务视图。

1）系统间数据不连通

比如，MES里客户订单提前了，但SCADA系统不知道这个变化，AI如果只分析设备数据，就无法预判订单变更对设备负荷的影响。

PLM里更新了焊接工艺要求，如果MES没有同步，AI也无法判断当前生产是否合规。

2）语义不一致的“同名异义”

都是“良品率”，但不同部门考核口径可能不同：生产部门看最终检验合格率，设备部门可能更关注工序过程中的一次合格率。

同样是“压力”，也需要明确是哪种计量标准。这种不一致会给AI分析带来很大困扰。

3、业务经验的“缺失断层”

制造业的决策需要“数据+领域知识”的结合，而大模型如果没有融入这些知识，即使拿到数据也无法做出符合实际的决策。

1）工艺中的“硬性约束”未被告知

在高风险的工业场景中，比如半导体制造，有很多“必须怎么做”的硬性规定（如“烘箱必须先升温到180℃再保温”）。

如果这些规则没有明确地告诉AI，它可能会基于数据相关性，给出一个看似合理但实际违规的建议（如“直接升温到200℃”）。

这类偏离属于大模型的“知识盲区”与“幻觉”范畴，在缺乏外部知识注入、规则引擎或运行时校验时，模型难以可靠地自我发现并遵守此类隐性约束。

2）决策目标未对齐

如果只告诉AI要提高“产量”，它可能会建议你拼命开足马力，但结果可能是能耗飙升、质量下降。

因为工厂的真正目标往往是质量、成本、交付期的综合平衡。当AI不理解多目标优化时，它的“最优解”可能反而导致总成本上升。

4、通用大模型与工业数据的“适配鸿沟”

大模型是通用型工具，而工业数据是专用的、场景化的，一个属于“通才”，一个属于“专才”，两者的适配存在三大矛盾。

1）数据格式“对不上”

通用AI习惯处理固定格式的数据，但工业数据多是长度不一的时序数据，关键信息往往藏在长期的变化趋势里。简单裁剪或填充都会让信息失真。

2）通用模型缺乏对工业场景的理解

通用大模型缺少机理、工艺约束、设备指纹与质量因果知识，它可能会把“轴承磨损的前兆”当作“正常波动”，也无法理解“不同工艺下参数合理性”的差异。

简单来说，通用大模型是“门外汉”，看不懂工业数据的“专业语言”。

3）实时性要求未满足

生产预警常需毫秒—秒级响应，而大模型推理存在时延与抖动，直接用于控制高风险设备，稳定性还不足。

5. 算力与成本的“投入偏差”

本地部署大模型需要高性能GPU/TPU集群和边缘计算能力，多数制造业企业（尤其是中小企业）缺乏足够的算力资源，此外，大模型的训练/推理成本高，投入产出比低。

02 怎么让制造业数据“用起来”

第一步：数据治理——让数据“可信任、可访问”

数据治理是激活数据的基础，目标是解决“数据脏、乱、散”的问题。

关于“数据采集，数据清洗，数据标准化，数据整合”是个苦活累活，一个步骤少不了，当前很多企业的IT不具备这些能力，必须找专业服务商做，但是专业服务商未必懂你的业务，因此必要的试错需要有，但是不能半途而废，是需要持续性投入去做的。

第二步：场景定义——明确“用数据解决什么问题”

不要为了用数据而用数据，一定要从具体的业务痛点出发，关于场景定义需满足“三可”原则。

可量化：如“降低10%设备停机时间”；
可验证：如“用历史数据测试模型准确率”；
可落地：如“模型输出能对接维修系统”。

常见的高价值场景通常集中在以下几个领域。

研发与工艺设计：生成式设计（AIGC + CAE）、工艺参数智能寻优、数字孪生仿真与闭环、质量根因分析（RCA）、供应链联动设计等；
生产制造与设备运维：智能排产与调度、预测性维护（PdM）、机器人柔性装配/喷涂/搬运、能耗与碳排管理等）；
质量检测与追溯：在线全检与分级分拣、过程质量预警、供应链质量协同等；
供应链与物流：需求预测与计划协同、智能补货与库存优化、智慧物流与路径优化、供应商风险画像等。

第三步：标注与特征工程——让数据“有语义、有价值”

工业数据的核心是“专业语义”，需要通过标注和特征工程，将“原始数据”转化为“模型能理解的信号”。

比如，明确要识别的缺陷类型/故障模式，标注出关键数据区间，位置/尺寸/时序等，遵循“筛选—清洗—分类—注释—标记—质检”闭环。

这个过程需要领域专家制定标准，专业标注员执行，并建立质检流程，确保数据“饲料”的高质量。

第四步：模型选型与微调——让模型“适配工业场景”

优先选择为工业场景优化过的专业模型，而不是通用的AI大模型。然后，用我们自己工厂的标注数据对这个模型进行“微调”，让它更适应我们的具体场景。这就好比请了一位行业专家，再对他进行我们公司的上岗培训。

如时序数据可以选Transformer-based时序模型（如TimeGPT、GPT-TS）或LSTM；视觉数据可以选工业视觉大模型（如CLIP工业版、Segment Anything Model（SAM）的工业适配版）；文本数据可以选领域大模型（如基于BERT的“工艺文档理解模型”）。用本地标注数据对模型进行迁移学习或 fine-tuning，提升场景适配性。

第五步：验证与优化——确保模型“可靠、可用”

模型训练完成后，需通过离线验证、在线验证或业务验证等多维度验证确保效果，验证通过后，还需要持续优化模型，包括但不限于数据迭代、参数调优、模型压缩与加速、监控与警告及MLOps与合规等等。

第六步：应用集成与闭环——让模型“驱动决策”

最后一步是将模型嵌入业务流程，实现“数据→模型→决策→行动”的闭环。

将模型对接到对应的业务系统。

预测性维护：对接EAM/CMMS，AI预测到设备故障风险，直接在企业资产管理系统里自动生成维修工单和备件清单。联动SCADA/PLC做降载/停机保护（需受控授权）。
质量缺陷：对接MES和QMS，AI发现质量缺陷，实时触发MES调整工艺参数，或控制PLC进行产品分拣。
决策支持：向运营/工艺/质量等管理者提供带原因分析的建议，辅助决策。

同时，要建立监控和回退机制，确保AI决策在受控范围内，风险可控。

制造业的数据，不是“多”就有价值

数据治理是基础，场景定义是方向，模型适配是关键，应用闭环是价值。

我们可以充分利用已有的开源模型进行本地化部署，结合已有的数字化解决方案，整合单点智能体的能力，让制造业的海量数据真正“活”起来，驱动决策与增长。

制造业的智能体落地，切忌大而全，可以关注曼姐的文章#“十字心法”系列，先梳理清楚核心业务流程。智能体融入流程，在实践中不断学习和进化，从而像滚雪球一样，逐步释放出真正的生产力。