从“脚本驱动”到“意图驱动”:制造企业数字化转型的 AI Agent 架构重构
ISSUT技术的核型在于其融合了计算机视觉与深度学习。它通过卷积神经网络(CNN)对屏幕截图进行实时分析,识别出按钮、输入框、表格等组件,并赋予其语义标签。这意味着,无论一个 ERP 系统是用 Delphi、Java Swing 还是最新的 React 编写的,Agent 看到的都是“搜索按钮”或“订单编号输入框”。这种智能融合拾取技术极大地提升了脚本的通用性和鲁棒性。制造企业的数字化转型已经进入
在 2025 年的工业语境下,制造业数字化转型已不再是“选答题”,而是关乎生存的“必答题”。根据《制造业数字化转型发展报告(2025年)》,我国规上工业企业数字化改造比例已逼近 90%。然而,在光鲜的数字化普及率背后,技术架构师们正面临着前所未有的挑战:遗留系统(Legacy Systems)的“烟囱式”孤岛、高昂的 API 开发成本,以及传统 RPA 脚本在面对动态 UI 时的脆弱性。
本文将从架构师视角出发,深度解析如何利用实在智能的 TARS 大模型 与 ISSUT(屏幕语义理解技术),构建新一代 AI Agent 架构,实现制造企业从“自动化”向“智能化”的跨越式演进。

一、 数字化转型的“深水区”:传统自动化的技术瓶颈
在过去十年的数字化浪潮中,制造企业堆叠了大量的 ERP、MES、PLM 及 WMS 系统。尽管这些系统解决了业务线上化的问题,但随之而来的“技术债”也日益沉重:
“当前的痛点在于:80% 的工业软件缺乏标准化的 API 接口,且 UI 界面更新频繁。传统的基于 DOM 树或控件 ID 的 RPA 脚本,在系统升级后极易崩溃,导致运维成本(Maintenance Cost)甚至超过了开发收益。” —— 行业技术共识
核心挑战主要集中在以下三个维度:
- 非侵入式交互的局限性:传统 RPA 依赖底层的 HTML/CSS 选择器或特定的驱动协议。一旦软件界面重构,定位符失效,整个自动化链路即刻断裂。
- 长路径决策缺失:传统的“If-Then”逻辑难以处理复杂的生产调度异常。例如,当物料缺货时,系统需要自动触发供应商寻源、比价及订单生成,这涉及多步骤的逻辑推理。
- 开发门槛与交付周期:依赖 Python 或 C# 编写复杂的自动化脚本,使得业务部门与 IT 部门之间存在巨大的沟通鸿沟,DevOps 循环效率低下。
二、 实在智能 AI Agent:基于 ISSUT 的全新架构范式
为了解决上述问题,实在智能引入了 ISSUT(Intelligent Screen Semantic Understanding Technology,屏幕语义理解技术)。这一技术彻底改变了人机交互的底层逻辑:它不再尝试从代码层面“解析”界面,而是像人类一样通过视觉“看懂”界面。
1. TOTA 架构:面向任务的拓扑结构
实在智能 Agent 采用了 TOTA (Task-Oriented Topological Architecture)。在该架构中,Agent 不再执行死板的线性脚本,而是基于意图进行动态规划。
- 感知层:利用 ISSUT 技术,通过计算机视觉(CV)算法对屏幕元素进行多模态特征提取。
- 决策层:依托自研的 TARS 大模型,将复杂的业务指令拆解为一系列原子操作(Atomic Operations)。
- 执行层:通过非侵入式的方式模拟鼠标键盘操作,实现跨系统的数据流转。
2. 技术对比:传统 RPA vs. 实在 Agent
| 维度 | 传统 RPA | 实在智能 AI Agent |
|---|---|---|
| 定位机制 | 依赖 DOM/控件 ID | ISSUT 屏幕语义识别 |
| 鲁棒性 | 界面微调即报错 | 具备视觉容错能力 |
| 逻辑构建 | 硬编码逻辑分支 | TARS 大模型 自然语言驱动 |
| 集成方式 | 侵入性较高/依赖驱动 | 完全非侵入式 |
| 维护成本 | 随系统升级呈指数级增长 | 极低(自适应界面变化) |

三、 核心技术深度解析:为什么是 ISSUT 与 TARS?
1. ISSUT 的视觉拾取原理
ISSUT 技术的核型在于其融合了 计算机视觉 与 深度学习。它通过卷积神经网络(CNN)对屏幕截图进行实时分析,识别出按钮、输入框、表格等组件,并赋予其语义标签。
这意味着,无论一个 ERP 系统是用 Delphi、Java Swing 还是最新的 React 编写的,Agent 看到的都是“搜索按钮”或“订单编号输入框”。这种智能融合拾取技术极大地提升了脚本的通用性和鲁棒性。
2. TARS 大模型的意图对齐
TARS 大模型 是专为工业和政企场景优化的垂直领域模型。它解决了通用大模型在执行逻辑上的“幻觉”问题。通过 NLP(自然语言处理)技术,TARS 能够理解“帮我对比上周的生产能耗数据并生成分析报告”这类模糊指令,并将其转化为确定的工作流。
四、 实战场景复现:离散制造企业的自动化排产辅助
假设我们需要为一个中型制造企业构建一个“自动化排产数据对账 Agent”。该任务需要跨越旧版 ERP(无 API)和基于 Web 的新版 MES 系统。
1. 执行逻辑设计
Agent 需要完成以下链路:
- 登录旧版 ERP,提取生产计划。
- 打开 MES,核对实际排产进度。
- 计算差异,并自动在钉钉/企业微信推送异常预警。
2. 伪代码逻辑展示(基于 Agent 思路)
# 实在Agent 任务编排伪代码示例
import shizai_agent_sdk as agent
def manufacturing_reconciliation_task():
# 1. 启动并定位 ERP 系统(利用 ISSUT 视觉识别,无需关注底层控件)
erp_app = agent.visual_identify("Legacy_ERP_System")
if not erp_app.exists():
agent.log("ERP 系统未运行,正在启动...")
erp_app.launch("C:/Program Files/ERP/erp.exe")
# 2. 提取数据:通过自然语言指令引导 Agent 识别表格
# TARS 大模型将指令转化为:点击"报表" -> 选择"日计划" -> 抓取 Table 元素
plan_data = agent.execute_intent("抓取今日所有待执行的生产计划表格数据")
# 3. 跨系统操作:MES 系统对账
mes_web = agent.open_browser("https://mes.internal.corp")
mes_web.wait_for_element("Dashboard_Overview")
# 逻辑判断:TARS 大模型自主分析数据差异
for item in plan_data:
actual_progress = mes_web.query_status(item['order_id'])
if actual_progress < item['target_threshold']:
# 4. 异常自动推送
agent.notify_user(
channel="DingTalk",
message=f"警告:订单 {item['order_id']} 进度滞后,当前:{actual_progress}%"
)
# 启动 Agent 任务
if __name__ == "__main__":
manufacturing_reconciliation_task()
在这个过程中,开发者无需编写任何 find_element_by_xpath 或处理复杂的 iframe 嵌套。ISSUT 确保了即使 ERP 系统的 UI 缩放比例发生变化,Agent 依然能精准点击。
五、 工程效能评估:数字化转型的量化收益
从技术架构师的角度来看,引入 AI Agent 带来的不仅是效率提升,更是研发模式的变革。
- 开发周期(Time-to-Market):通过自然语言指令和视觉拾取,自动化流程的开发时间从周级缩短至天级。
- 运维成本(OpEx):由于摆脱了对 DOM 结构的依赖,系统升级导致的脚本崩溃率降低了 85% 以上。
- 系统生命周期延长:无需对 Legacy System 进行昂贵的接口改造,通过 Agent 即可实现数据的实时打通,变相延长了旧系统的服役价值。
根据某汽车零部件制造企业的实测数据,部署实在智能 Agent 后,其供应链协同效率提升了 40%,而 IT 团队在自动化脚本维护上的投入减少了 70%。

六、 结语:迈向“人人都是开发者”的智能时代
制造企业的数字化转型已经进入了以 AI Agent 为核心的 2.0 时代。通过 ISSUT 解决“看不见”的问题,通过 TARS 大模型 解决“听不懂”的问题,实在智能正在为制造业构建一种全新的“数字底座”。
未来的工厂,每一个车间组长、每一位财务人员,都可能成为 Agent 的“指令发起者”。作为技术架构师,我们的职责不再是编写死板的代码,而是构建能够理解意图、具备视觉感知力的智能体。
欢迎在评论区分享你在制造业自动化落地中遇到的“坑”,或者对 AI Agent 架构的看法。如需深入了解 TARS 大模型及 ISSUT 拾取技术的开发者文档,请关注我们的技术专栏。
更多推荐



所有评论(0)