1. 为什么工业需要 AI 推理部署

在现代工业中,AI 技术已经深入到 制造业质检、医疗影像分析、安防交通、能源环保、自动驾驶与机器人 等多个环节。其核心目标是:

  • 低延迟:实时检测和反馈(流水线质检、机器人避障)。

  • 高可靠:7×24 小时稳定运行。

  • 可移植:能运行在工控机、嵌入式设备、边缘服务器等多样硬件上。

  • 易集成:能与工业软件(Qt、PLC、数据库)无缝结合。

因此,工业 AI 部署更强调 推理阶段的效率和稳定性,而不是训练时的灵活性。


2. 工业部署的常见模型类型

工业里常见的任务和对应模型大致可以分为以下几类:

类型 主要应用 常见模型
分类 (Classification) 合格/不合格,零件种类,病灶良恶性 ResNet, MobileNet, EfficientNet, ViT
目标检测 (Object Detection) 缺陷检测,零件计数,安防检测 YOLO 系列, Faster R-CNN, SSD, DETR
分割 (Segmentation) 缺陷区域勾画,医疗肿瘤分割,道路/车道线 UNet, DeepLab, Mask R-CNN, SegFormer
关键点检测 (Keypoints/Pose) 焊点定位,人体姿态,机器人抓取点 HRNet, OpenPose, YOLO-Pose
OCR (文本检测/识别) 序列号识别,车牌识别,药瓶标签 DBNet+CRNN, SVTR
异常检测 (Anomaly Detection) 小样本缺陷,异常温度/波形监控 AutoEncoder, GAN, PatchCore
时间序列预测 设备寿命预测,能源消耗预测 LSTM, GRU, Transformer (Informer)
多模态模型 图像+传感器/文本联合分析 CLIP, Vision-Language 模型

👉 在实际工业落地中,质检/安防主要用检测+分割,医疗主要用分割+分类,预测维护用时序模型,OCR广泛用于零件和车牌识别。


3. 工业 AI 的部署方式

工业 AI 推理部署主要有以下几种方式:

3.1 本地/端侧推理(最主流)

  • 形式:模型直接部署在工控机、嵌入式板卡、智能相机中。

  • 优点:低延迟,网络断开也能跑,数据不外传更安全。

  • 缺点:设备算力有限,需轻量化模型。

  • 典型硬件:树莓派、Jetson Nano/Orin、NPU 相机、X86 工控机。

3.2 边缘服务器推理

  • 形式:厂区/车间机柜放置 GPU 服务器,设备通过局域网发送数据,集中推理。

  • 优点:兼顾性能与集中运维,延迟可控(ms 级)。

  • 缺点:依赖局域网,布设成本高。

3.3 云端/服务端推理

  • 形式:客户端采集 → 网络传输 → 云端/中心服务器推理 → 返回结果。

  • 优点:算力集中,模型升级快。

  • 缺点:延迟高,依赖网络,不适合强实时场景。

3.4 其他常见变体

  • Split Computing:前几层在端侧跑,特征上传,后几层在服务器跑。

  • 推理服务框架:Triton/KServe 做集中编排、动态批处理、A/B 测试。

  • 流式处理集成:Flink/Spark Streaming 中嵌入模型推理算子。

  • 专用硬件:FPGA/ASIC/NPU 板卡用于超低延迟任务。

  • 联邦学习:端侧只上传梯度/统计量,服务端聚合更新模型,适合隐私场景。

👉 工业实践常用 混合架构:端侧小模型快速筛选,边缘/云端大模型复核。


4. 嵌入式设备能跑模型吗?

答案是

  • 低端 MCU:跑 TinyML(简单分类/关键字检测)。

  • ARM SoC + NPU:常见嵌入式板卡(全志、瑞芯微、树莓派+NPU),能跑 YOLOv5s/YOLOv8n 等轻量模型。

  • 高端嵌入式 (Jetson/昇腾/寒武纪):几十 TOPS 算力,可以跑 YOLOv8m/l、Transformer 小模型,广泛用于无人机、机器人。

工业里的关键点是:不是所有场景都需要大算力,很多质检/检测任务轻量模型就够用。真正算力吃紧的场景(自动驾驶、3D 医疗分割)才需要 GPU 服务器。


5. 为什么 C++ + ONNX Runtime (ORT) 是主流

  1. 高性能:ORT 针对 CPU/GPU/NPU 做了算子优化;C++ 更贴近底层,适合实时。

  2. 跨平台:支持 Windows/Linux/ARM/Android/iOS,覆盖工控机与嵌入式。

  3. 模型标准化:ONNX 作为统一格式,解耦训练框架与部署。

  4. 稳定可靠:微软主导,已经在 Office/Teams/Azure 等大规模产品中应用。

  5. 生态友好:能挂接 CUDA/TensorRT/OpenVINO,加速与兼容性兼顾。

  6. 易集成:工业上常用的 C++/Qt/OpenCV 生态能直接与 ORT 对接。

👉 在工业场景里,C++ + ORT 已经成为事实上的默认方案
TensorRT(NVIDIA GPU)、OpenVINO(Intel 平台)、TFLite/ncnn(移动端)则作为补充。


6. 不同任务下的 C++ + ORT 部署差异

虽然 ORT 的调用骨架(Session 创建 → 输入张量 → Run → 输出张量)是通用的,但 预处理和后处理要根据任务和模型具体定制

任务 预处理 后处理 注意事项
分类 Resize/归一化/布局转换 [N,C] softmax/sigmoid → Top-K 类别映射
检测 (YOLOv5) letterbox、RGB、NCHW 输出 4+1+C,conf = obj×cls,NMS 确认是否含 obj 列
检测 (YOLOv8) letterbox、RGB、NCHW 输出 4+C,conf = maxCls,NMS 没有 obj 列
分割 (语义) resize/letterbox [N,C,H,W] → argmax → 映射回原图 类别调色板
分割 (实例) resize 框 + mask → 还原到原图 Mask 与框对齐
关键点检测 resize/归一化 heatmap 峰值/回归坐标 → 映射回原图 坐标缩放
OCR resize/归一化 检测:DB/EAST → box;识别:CTC 解码 需两阶段流水线
异常检测 normalize 重建误差/特征距离阈值 阈值可配置
时间序列 标准化/滑窗 [N,T,C] 序列预测 输出反归一化

7. 工业部署的工程化建议

  • 配置驱动:用 JSON/YAML 定义模型输入/输出配置,减少硬编码。

  • 模块化设计:预处理、后处理写成插件/适配器,换模型只需换配置。

  • 监控与热更新:推理服务要支持日志、指标采集(Prometheus/Grafana)、模型版本热切换。

  • 混合架构:端侧跑小模型快速响应,边缘/云端跑大模型做复核与训练闭环。


8. 总结

  • 工业 AI 部署的核心诉求是 低延迟、稳定性、跨平台性

  • 主流任务涵盖 分类、检测、分割、关键点、OCR、异常检测、时序预测、多模态

  • 部署方式包括 端侧推理、边缘推理、云端推理,现实中往往是混合使用。

  • 嵌入式设备算力已经足够跑轻量模型,端侧推理在工业中占主流。

  • C++ + ONNX Runtime 是当前工业部署的事实标准,既能跑在嵌入式,也能扩展到 GPU/服务器。

  • 不同任务需要定制化预处理与后处理,但核心推理框架是一致的。

👉 对于想进入工业 AI 部署的开发者,学会 C++ + ORT + OpenCV/Qt 集成,并掌握不同任务的预处理/后处理套路,就已经具备了进入实际项目的能力。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐