从“聊天”到“办事”:深度解析实在智能 AI Agent 如何重构企业数字化转型底层架构
摘要:2025年企业数字化转型进入"智能自动化"新阶段,传统RPA方案面临UI适配脆弱、系统孤岛和决策能力不足三大瓶颈。实在智能推出基于TARS大模型和ISSUT屏幕语义理解技术的AI Agent解决方案,通过视觉识别界面元素、自然语言任务拆解和动态拓扑执行架构,实现高鲁棒性的非侵入式自动化。该方案相比传统RPA具备零代码开发、跨系统适配和智能决策等优势,可将开发效率提升60%
在 2025 年的今天,企业数字化转型已从单纯的“信息化建设”演进至“智能自动化”的深水区。过去十年,我们见证了 RPA(机器人流程自动化)在标准化流程中的爆发,但随着业务逻辑复杂化及遗留系统(Legacy Systems)的堆积,传统自动化方案的弊端日益凸显。
2025 年被公认为 AI 从“Chat 时代”向“Agent 时代”跨越的元年。企业不再满足于一个能写文案的对话框,而是需要一个能自主规划、感知环境、并能直接在各类复杂软件 UI 上执行操作的“数字员工”。实在智能(Intelligence Shared) 推出的 AI Agent,正是通过自研 TARS 大模型 与 ISSUT 屏幕语义理解技术,为企业提供了一种高鲁棒性、非侵入式的数字化转型新范式。

一、 数字化转型的技术瓶颈:为什么传统方案“带不动”了?
在深度调研多个行业的数字化进程后,我们发现开发者和架构师普遍面临以下三大技术痛点:
- UI 自动化的“脆弱性”难题:传统的 RPA 强依赖于底层 HTML 的 DOM 结构或 Windows 控件树(Selector)。一旦系统升级导致 ID 变化或前端框架重构(如从 Vue2 迁移到 Vue3),自动化脚本会大面积崩溃,导致极高的 DevOps 维护成本。
- 跨系统的数据孤岛与 API 缺失:大量政企遗留系统、CS 架构软件甚至没有开放 API。通过数据库底层打通风险极高,而传统的模拟点击在面对动态验证码、复杂表格时力不从心。
- 长链条决策的缺失:传统自动化是“If-This-Then-That”的线性逻辑,无法处理“根据财务报表异常自动发起询价并对比供应商”这种需要逻辑推理和动态规划的复杂场景。
根据 Gartner 的最新报告,超过 60% 的企业 RPA 项目因为维护成本超过了节省的成本而陷入停滞。市场急需一种能够“像人一样理解屏幕、像人一样思考决策”的 Agent 架构。
二、 实在智能 Agent 的核心架构:TARS + ISSUT + TOTA
实在智能之所以能打破上述瓶颈,核心在于其构建了一套闭环的 Agent-Native 技术栈。
1. ISSUT:屏幕语义理解的“视觉之眼”
ISSUT (Intelligent Software Screen Understanding Technology) 是实在智能的护城河技术。不同于 Selenium 或传统 RPA 依赖代码定位,ISSUT 利用深度学习算法(目标检测、OCR、布局分析)对软件界面进行实时语义分割。
- 视觉对齐:它能识别出“这是一个登录按钮”或“这是一个搜索框”,无论其底层代码是
<div>还是<span>。 - 非侵入式交互:无需系统接口,通过视觉信号即可实现对任何自研软件、老旧系统的操作,真正实现了“所见即所得”的自动化。
2. TARS 大模型:Agent 的“逻辑大脑”
实在智能自研的 TARS 大模型 针对企业级指令进行了深度微调(SFT)。它不仅具备强大的 NLP 能力,更重要的是它拥有 思维链(CoT) 推理能力,能够将模糊的自然语言指令拆解为可执行的原子步骤。
3. TOTA:任务导向拓扑架构
TOTA (Task-Oriented Topological Architecture) 是实在 Agent 的执行引擎。它将任务建模为动态拓扑图,当环境发生变化(如弹出意外窗口)时,Agent 能够通过感知层反馈,实时调整执行路径,实现自动纠错和异常处理。
三、 技术对比:传统 RPA vs. 实在 Agent
| 维度 | 传统 RPA (Rule-based) | 实在智能 AI Agent (Goal-based) |
|---|---|---|
| 定位逻辑 | 依赖 DOM/Selector,极易失效 | ISSUT 视觉语义识别,高鲁棒性 |
| 开发方式 | 拖拽式组件+复杂脚本编写 | 自然语言指令 (LCHG),零代码门槛 |
| 异常处理 | 预设 Try-Catch,覆盖范围有限 | 自研 TARS 大模型 动态推理与自愈 |
| 系统适配 | 需针对每个 App 适配插件 | 全场景适配(Web, Desktop, Legacy) |
| 决策能力 | 线性逻辑,无法处理非结构化数据 | 支持跨文档、跨系统的综合逻辑推理 |

四、 实战场景复现:自动化跨系统对账
假设一个典型场景:财务人员需要从一个 老旧 CS 架构的进销存系统 提取数据,在 网页版银行后台 下载流水,最后在 Excel 中完成比对并发送邮件。
在传统模式下,这需要编写数百行 Python 脚本并处理复杂的窗口切换。而在实在 Agent 架构下,逻辑层可以抽象为如下伪代码流程:
# 伪代码示例:基于实在智能 TARS 大模型的 Agent 执行逻辑
class FinanceAgent:
def __init__(self):
self.brain = TARS_Model.load("enterprise-v5")
self.vision = ISSUT_Engine()
def run_recon_task(self, prompt):
# 1. 语义拆解:将自然语言转化为任务流
# Prompt: "对比进销存系统和银行流水,找出差异并邮件告知经理"
plan = self.brain.plan_task(prompt)
for step in plan:
# 2. 视觉感知:ISSUT 识别当前屏幕状态
current_ui = self.vision.analyze_screen()
# 3. 跨系统操作
if step.target == "Legacy_ERP":
# ISSUT 定位“导出”按钮,无需 API
self.vision.click_element("Export_Button", semantic_label="导出报表")
elif step.target == "Bank_Web":
# 自动处理动态验证码与登录
self.vision.input_text("Search_Bar", step.params["date_range"])
# 4. 逻辑处理:利用大模型处理非结构化数据对比
if step.action == "Compare_Data":
diff_report = self.brain.reasoning(data_a, data_b)
return diff_report
# 实例化并执行
agent = FinanceAgent()
agent.run_recon_task("抓取本月未结清账单并核对银行流水")
关键点解析:
visual_identify替代了find_element_by_xpath,即使前端代码变了,只要按钮长得像“导出”,Agent 就能找到它。brain.plan_task实现了从“过程驱动”向“目标驱动”的转变。
五、 工程效能评估:数字化转型的“提速器”
引入实在 Agent 后,企业的工程效能提升主要体现在以下几个维度:
- 开发周期缩短:由于支持自然语言对话生成流程,非技术背景的业务人员(LOB)也能参与自动化建设,开发效率提升 60% 以上。
- 维护成本骤降:ISSUT 的视觉识别特性使得脚本对软件更新不敏感。在某大型金融机构的实践中,UI 变动导致的脚本失效频率降低了 85%。
- 非结构化数据处理:通过 TARS 大模型,Agent 可以直接阅读 PDF 合同、解析图片信息并填入系统,打通了数字化转型的最后 1 公里。

六、 结语:构建“智能体网络”的未来愿景
数字化转型的终极形态并非孤立的自动化脚本,而是一个由无数彼此协作的 AI Agent 构成的“数字员工集群”。
实在智能通过 ISSUT 解决了 Agent 的“感知”问题,通过 TARS 解决了“认知”问题,通过 TOTA 解决了“执行”问题。这种全栈自研的技术路径,不仅降低了企业集成 AI 的技术门槛,更通过非侵入式的手段,让那些原本被视为资产包袱的“遗留系统”重新焕发了数字化生机。
对于开发者而言,AI Agent 的兴起并非取代编程,而是将我们从琐碎的 DOM 调试和接口对接中解放出来,去设计更高维度的业务逻辑与智能架构。
欢迎在评论区分享你在企业自动化落地中遇到的“坑”,或关注“实在智能”获取最新的《企业级 AI Agent 落地技术白皮书》及开发者试用版。
更多推荐

所有评论(0)