深度解构:AI Agent 如何重塑制造业数字化转型的“深水区”架构?
制造业数字化转型已进入“智能应用”的下半场。AI Agent不仅仅是一个自动化工具,它更像是构建在物理工厂之上的“数字大脑”神经末梢。通过实在智能的 ISSUT 和 TARS 技术,我们正在打破软硬件协同的边界,让“人人都是开发者”成为可能。未来,随着数字孪生(Digital Twin)与 Agent 技术的进一步深度融合,我们有望看到能够自我演进、自我修复的“灯塔工厂”架构。对于开发者而言,掌握
在 2026 年的当下,中国制造业的数字化转型已正式告别了“盆景式”的试点阶段。根据信通院最新发布的《制造业数字化转型发展报告(2025年)》,我国规上工业企业的数字化改造比例已攀升至 89.6%。然而,随着转型步入“深水区”,开发者与架构师们面临的挑战正从“基础设施建设”转向“复杂系统集成与智能决策”。
在这一背景下,AI Agent(人工智能助手) 配合 RPA(机器人流程自动化) 的演进,正在成为解决制造业遗留系统(Legacy Systems)数据孤岛、提升人机协同效率的关键技术底座。本文将从架构师视角,深度解析如何利用“实在智能”的 ISSUT 屏幕语义理解技术与 TARS 大模型,构建具备自主感知与决策能力的工业级 Agent。

一、 数字化转型的“隐形墙”:传统自动化的技术瓶颈
尽管 5G、工业互联网平台已大规模普及,但在生产一线,技术架构师们依然面临着三大“真问题”:
- 遗留系统的“黑盒”困境:大量运行超过十年的 ERP、MES 或老旧控制系统缺乏标准 API 接口。传统的集成方案需要昂贵的二次开发,且周期极长。
- UI 自动化的“脆弱性”:传统的 RPA 强依赖于 DOM 树结构或控件 ID。在制造业复杂的 Web+Desktop 混合环境下,系统界面的微小更新(如按钮偏移、CSS 变更)就会导致自动化脚本崩溃,维护成本(DevOps Cost)居高不下。
- 非结构化指令的理解鸿沟:生产调度中的许多指令是基于自然语言或模糊逻辑的,传统的基于规则(Rule-based)的系统无法处理“根据当前库存积压情况优先排产 A 类订单”这类复杂决策。
“当前制造业数字化转型已由‘数字赋能’转向‘智能应用’。核心难点不在于硬件的普及率,而在于如何让数据在异构系统间实现低成本、高可靠的流动。” —— 行业技术共识
二、 实在Agent:基于 ISSUT 与 TARS 的新一代架构方案
为了破解上述难题,实在智能 提出了以 TOTA (Task-Oriented Topological Architecture) 为核心的 Agent 架构。其核心逻辑不再是简单的“录制与回放”,而是通过视觉算法让 Agent 像人类一样“看懂”并“理解”屏幕。
1. ISSUT 屏幕语义理解技术
这是实在 Agent 的“视网膜”。ISSUT (Intelligent Screen Semantic Understanding Technology) 抛弃了对底层代码的选择器依赖,而是利用深度学习模型对屏幕进行实时像素级扫描。它能自动识别出文本框、下拉框、表格等元素,并赋予其业务语义。这意味着,即便系统升级导致 HTML 结构大改,只要视觉特征基本一致,Agent 就能持续运行。
2. TARS 大模型:Agent 的“大脑”
TARS 是实在智能自研的工业级大模型。它负责将模糊的自然语言指令转化为逻辑严密的执行序列。在制造业场景中,它能理解“比对 ERP 与 Excel 中的物料编码并更新 MES 状态”这一指令背后的多步操作逻辑。
3. 架构对比分析
| 维度 | 传统 RPA / 脚本自动化 | 实在智能 AI Agent |
|---|---|---|
| 定位方式 | 依赖 DOM/ID/坐标(易碎) | ISSUT 视觉语义识别(鲁棒性强) |
| 交互逻辑 | 硬编码规则(If-Else) | TARS 大模型自主推理(NLP 驱动) |
| 集成成本 | 需要大量 API 适配或脚本编写 | 非侵入式拾取,无需改造原系统 |
| 维护难度 | 高,界面变动需重写脚本 | 低,具备自我修复与适应能力 |

三、 实战场景复现:跨系统生产数据自动化对账
在某新能源电池企业的数字化实践中,物料领用数据需要在 ERP 系统、MES 系统以及供应商协同平台之间进行高频对账。传统人工操作耗时耗力,且极易出错。
以下是基于 实在Agent 构建的自动化对账逻辑。我们通过伪代码展示 Agent 如何通过视觉理解与自然语言指令完成任务:
# 实在Agent 工业级对账逻辑示例
import shizai_agent_sdk as agent
def manufacturing_reconciliation_workflow():
# 1. 视觉识别并登录遗留 ERP 系统
erp_app = agent.visual_identify("Legacy_ERP_v2015")
if not erp_app.is_visible():
agent.launch("C:/Program Files/ERP/erp.exe")
# 2. 自然语言驱动数据抓取
# 这里的指令会被 TARS 大模型解析为:点击“物料模块” -> 选择“领用记录” -> 导出当日数据
raw_data = agent.execute("抓取 ERP 系统中今日所有磷酸铁锂电池芯的领用明细")
# 3. 跨系统语义映射
# Agent 自动识别 MES 系统的 Web 界面,无需关心 DOM 结构
mes_portal = agent.browser.open("http://mes.factory.internal")
# 4. 执行智能对账逻辑
# 内部集成 TARS 模型进行数据清洗与匹配
mismatched_items = agent.data_engine.compare(
source=raw_data,
target=mes_portal.view("Current_Production_Table"),
key="Material_ID"
)
# 5. 异常预警与自动录入
if mismatched_items:
for item in mismatched_items:
agent.execute(f"在供应商协同平台中,针对物料 {item.id} 发起异常处理申请")
agent.log(f"已处理异常物料:{item.id}", level="INFO")
return "Success"
技术亮点解析:
- 非侵入式交互:上述流程中,
agent.visual_identify并不寻找id="btn_submit",而是寻找“看起来像提交按钮”的视觉特征,这极大降低了对老旧系统(Legacy System)的依赖。 - 指令解耦:开发者无需编写繁琐的点击、拖拽路径,只需通过
agent.execute描述业务逻辑,由 TARS 模型完成从语义到动作序列(Action Sequence)的转换。
四、 效果评估:从“工具”到“数字员工”的跨越
在实际落地案例中(如江西泰和县的制造业集群升级),引入基于实在智能技术的 Agent 后,企业在工程效能上取得了显著提升:
- 开发周期缩短:由于无需研究底层 API 和复杂的 DOM 结构,自动化流程的开发周期从周级缩短至天级,DevOps 响应速度提升 60%。
- 脚本维护率降低:在系统 UI 频繁更新的环境下,ISSUT 技术的鲁棒性使得脚本的非预期中断率下降了 75%。
- 算力底座优化:通过在本地部署轻量化的 TARS 行业版模型,企业在保证数据隐私(Data Privacy)的同时,实现了毫秒级的决策响应。
某电子信息企业负责人评价:“过去是人去适应系统,现在是 Agent 学习人的操作逻辑。这种转变让我们的数字化转型真正沉到了车间一线。”

五、 结语与未来展望
制造业数字化转型已进入“智能应用”的下半场。AI Agent 不仅仅是一个自动化工具,它更像是构建在物理工厂之上的“数字大脑”神经末梢。通过 实在智能 的 ISSUT 和 TARS 技术,我们正在打破软硬件协同的边界,让“人人都是开发者”成为可能。
未来,随着数字孪生(Digital Twin)与 Agent 技术的进一步深度融合,我们有望看到能够自我演进、自我修复的“灯塔工厂”架构。对于开发者而言,掌握 AI Agent 的架构设计,将是通往下一代工业软件开发者的必经之路。
欢迎在评论区分享你在制造业自动化转型中遇到的“坑”,或关注“实在智能”获取最新的《AI Agent 工业落地技术白皮书》。
更多推荐



所有评论(0)