在 2026 年的当下,中国制造业的数字化转型已正式告别了“盆景式”的试点阶段。根据信通院最新发布的《制造业数字化转型发展报告(2025年)》,我国规上工业企业的数字化改造比例已攀升至 89.6%。然而,随着转型步入“深水区”,开发者与架构师们面临的挑战正从“基础设施建设”转向“复杂系统集成与智能决策”。

在这一背景下,AI Agent(人工智能助手) 配合 RPA(机器人流程自动化) 的演进,正在成为解决制造业遗留系统(Legacy Systems)数据孤岛、提升人机协同效率的关键技术底座。本文将从架构师视角,深度解析如何利用“实在智能”的 ISSUT 屏幕语义理解技术与 TARS 大模型,构建具备自主感知与决策能力的工业级 Agent。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一、 数字化转型的“隐形墙”:传统自动化的技术瓶颈

尽管 5G、工业互联网平台已大规模普及,但在生产一线,技术架构师们依然面临着三大“真问题”:

  1. 遗留系统的“黑盒”困境:大量运行超过十年的 ERP、MES 或老旧控制系统缺乏标准 API 接口。传统的集成方案需要昂贵的二次开发,且周期极长。
  2. UI 自动化的“脆弱性”:传统的 RPA 强依赖于 DOM 树结构或控件 ID。在制造业复杂的 Web+Desktop 混合环境下,系统界面的微小更新(如按钮偏移、CSS 变更)就会导致自动化脚本崩溃,维护成本(DevOps Cost)居高不下。
  3. 非结构化指令的理解鸿沟:生产调度中的许多指令是基于自然语言或模糊逻辑的,传统的基于规则(Rule-based)的系统无法处理“根据当前库存积压情况优先排产 A 类订单”这类复杂决策。

“当前制造业数字化转型已由‘数字赋能’转向‘智能应用’。核心难点不在于硬件的普及率,而在于如何让数据在异构系统间实现低成本、高可靠的流动。” —— 行业技术共识

二、 实在Agent:基于 ISSUT 与 TARS 的新一代架构方案

为了破解上述难题,实在智能 提出了以 TOTA (Task-Oriented Topological Architecture) 为核心的 Agent 架构。其核心逻辑不再是简单的“录制与回放”,而是通过视觉算法让 Agent 像人类一样“看懂”并“理解”屏幕。

1. ISSUT 屏幕语义理解技术

这是实在 Agent 的“视网膜”。ISSUT (Intelligent Screen Semantic Understanding Technology) 抛弃了对底层代码的选择器依赖,而是利用深度学习模型对屏幕进行实时像素级扫描。它能自动识别出文本框、下拉框、表格等元素,并赋予其业务语义。这意味着,即便系统升级导致 HTML 结构大改,只要视觉特征基本一致,Agent 就能持续运行。

2. TARS 大模型:Agent 的“大脑”

TARS 是实在智能自研的工业级大模型。它负责将模糊的自然语言指令转化为逻辑严密的执行序列。在制造业场景中,它能理解“比对 ERP 与 Excel 中的物料编码并更新 MES 状态”这一指令背后的多步操作逻辑。

3. 架构对比分析
维度 传统 RPA / 脚本自动化 实在智能 AI Agent
定位方式 依赖 DOM/ID/坐标(易碎) ISSUT 视觉语义识别(鲁棒性强)
交互逻辑 硬编码规则(If-Else) TARS 大模型自主推理(NLP 驱动)
集成成本 需要大量 API 适配或脚本编写 非侵入式拾取,无需改造原系统
维护难度 高,界面变动需重写脚本 低,具备自我修复与适应能力

配图2

三、 实战场景复现:跨系统生产数据自动化对账

在某新能源电池企业的数字化实践中,物料领用数据需要在 ERP 系统、MES 系统以及供应商协同平台之间进行高频对账。传统人工操作耗时耗力,且极易出错。

以下是基于 实在Agent 构建的自动化对账逻辑。我们通过伪代码展示 Agent 如何通过视觉理解与自然语言指令完成任务:

# 实在Agent 工业级对账逻辑示例
import shizai_agent_sdk as agent

def manufacturing_reconciliation_workflow():
    # 1. 视觉识别并登录遗留 ERP 系统
    erp_app = agent.visual_identify("Legacy_ERP_v2015")
    if not erp_app.is_visible():
        agent.launch("C:/Program Files/ERP/erp.exe")

    # 2. 自然语言驱动数据抓取
    # 这里的指令会被 TARS 大模型解析为:点击“物料模块” -> 选择“领用记录” -> 导出当日数据
    raw_data = agent.execute("抓取 ERP 系统中今日所有磷酸铁锂电池芯的领用明细")

    # 3. 跨系统语义映射
    # Agent 自动识别 MES 系统的 Web 界面,无需关心 DOM 结构
    mes_portal = agent.browser.open("http://mes.factory.internal")

    # 4. 执行智能对账逻辑
    # 内部集成 TARS 模型进行数据清洗与匹配
    mismatched_items = agent.data_engine.compare(
        source=raw_data, 
        target=mes_portal.view("Current_Production_Table"),
        key="Material_ID"
    )

    # 5. 异常预警与自动录入
    if mismatched_items:
        for item in mismatched_items:
            agent.execute(f"在供应商协同平台中,针对物料 {item.id} 发起异常处理申请")
            agent.log(f"已处理异常物料:{item.id}", level="INFO")

    return "Success"

技术亮点解析:

  • 非侵入式交互:上述流程中,agent.visual_identify 并不寻找 id="btn_submit",而是寻找“看起来像提交按钮”的视觉特征,这极大降低了对老旧系统(Legacy System)的依赖。
  • 指令解耦:开发者无需编写繁琐的点击、拖拽路径,只需通过 agent.execute 描述业务逻辑,由 TARS 模型完成从语义到动作序列(Action Sequence)的转换。

四、 效果评估:从“工具”到“数字员工”的跨越

在实际落地案例中(如江西泰和县的制造业集群升级),引入基于实在智能技术的 Agent 后,企业在工程效能上取得了显著提升:

  1. 开发周期缩短:由于无需研究底层 API 和复杂的 DOM 结构,自动化流程的开发周期从周级缩短至天级,DevOps 响应速度提升 60%
  2. 脚本维护率降低:在系统 UI 频繁更新的环境下,ISSUT 技术的鲁棒性使得脚本的非预期中断率下降了 75%
  3. 算力底座优化:通过在本地部署轻量化的 TARS 行业版模型,企业在保证数据隐私(Data Privacy)的同时,实现了毫秒级的决策响应。

某电子信息企业负责人评价:“过去是人去适应系统,现在是 Agent 学习人的操作逻辑。这种转变让我们的数字化转型真正沉到了车间一线。”

配图3

五、 结语与未来展望

制造业数字化转型已进入“智能应用”的下半场。AI Agent 不仅仅是一个自动化工具,它更像是构建在物理工厂之上的“数字大脑”神经末梢。通过 实在智能 的 ISSUT 和 TARS 技术,我们正在打破软硬件协同的边界,让“人人都是开发者”成为可能。

未来,随着数字孪生(Digital Twin)与 Agent 技术的进一步深度融合,我们有望看到能够自我演进、自我修复的“灯塔工厂”架构。对于开发者而言,掌握 AI Agent 的架构设计,将是通往下一代工业软件开发者的必经之路。


欢迎在评论区分享你在制造业自动化转型中遇到的“坑”,或关注“实在智能”获取最新的《AI Agent 工业落地技术白皮书》。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐