九章云极DART-GUI-7B模型基于Alaya NeW Cloud强化学习云训练,登顶 OSWorld 7B 榜首
OSWorld 是目前 AI 领域衡量 “智能体(Agent)跨软件操作电脑” 能力最顶尖的基准测试,它模拟真实的操作系统环境,要求 AI 像人类一样通过视觉观察屏幕,并精准操控浏览器、Excel、VS Code 等各类桌面应用来完成跨平台的复杂任务,被OpenAI、Anthropic、字节跳动Seed、月之暗面、智谱等顶尖AI团队广泛采用,更是检验AI能否从“只会聊天”进化为“高效数字员工”的硬
2026 年 1 月,在操作智能领域权威评测体系 OSWorld 发布的最新榜单中,九章云极 DataCanvas 凭借在 Alaya NeW Cloud 强化学习平台上训练的 DART-GUI-7B 模型,以卓越的智能操控表现,一举夺得 OSWorld 7B 赛道冠军!
九章云极:Alaya NeW Cloud 强化学习平台
Alaya NeW Cloud 是由九章云极打造的以强化学习(Reinforcement Learning, RL)为核心能力的智算云平台,该平台通过将强化学习能力深度融入底层基础设施,重构了智能计算的架构与逻辑,旨在为企业和开发者提供“可用、好用、经济”的算力资源。
Alaya NeW Cloud打造前沿强化学习云平台,平台原生支持一键式Agentic RL 开发环境启动 、分布式极核Agentic RL训练,性能上实现训推分离与全流程加速,生态上预置多种主流Agent仿真环境,高效支撑强化学习技术的快速落地与创新突破,精准解决 AI 技术应用中的效率和成本等核心问题。目前,九章云极已在全球布局多个聚焦于加速计算优化的 AIDC 智算中心,持续赋能 AI 技术的高效应用与行业规模化落地。

DataCanvas Alaya NeW Cloud
核心技术解读:轻量化模型的GUI智能体突破
什么是OSWorld?
OSWorld 是目前 AI 领域衡量 “智能体(Agent)跨软件操作电脑” 能力最顶尖的基准测试,它模拟真实的操作系统环境,要求 AI 像人类一样通过视觉观察屏幕,并精准操控浏览器、Excel、VS Code 等各类桌面应用来完成跨平台的复杂任务,被OpenAI、Anthropic、字节跳动Seed、月之暗面、智谱等顶尖AI团队广泛采用,更是检验AI能否从“只会聊天”进化为“高效数字员工”的硬核试金石。
为什么 OSWorld 对 7B 模型几乎是“地狱难度”?
href="">• 真实生态:任务在 VS Code、LibreOffice 等真实软件中运行,环境信息密度远超结构化数据
• 闭环操控:需要连续理解截图、规划路径和进行键鼠操作,考验长程推理能力
• 零容错率:限时30步,操作需步步为营,失败不可逆转
• 数据稀疏:基础成功率不足1/4,即使是大模型也面临严峻挑战
复杂的跨软件协作与精细的坐标控制,使得参数规模有限的7B模型在“理解”与“执行”之间难以调和,长期处于“不可用”状态。
核心技术路径:九章云极 三大创新赋能轻量化突破
1. 核心方法:解耦式 GUI 智能体强化学习框架
九章云极并未通过简单扩大模型规模取胜,而是选择了系统级的算法创新。提出了 DART(Decoupled Agentic Reinforcement Training),首次将 GUI 智能体的强化学习训练流程彻底解耦为四个异步模块:

三项关键突破
• 推演级轨迹调度(Rollout-Level Scheduling)
○ 以“单条轨迹”作为调度最小单位
○ 每个 rollout 完成后立即释放环境并启动下一个任务
○ 环境利用率提升从 12.2% 达到 67.7%,提升幅度高达 5.5 倍
• 动态模型服务池(Dynamic Model Serving Pool)
○ 采用 GPU 推演的集中化管理,支持多模型版本的热加载
○ 避免了传统“一卡一环境”的资源浪费
○ GPU 推演利用率提升 1.6 倍
○ GPU 资源的并发弹性扩展能力
• 训练与推理异步执行(Asynchronous Execution of Training and Inference)
○ 训练与推演实现异步解耦
○ 避免模型更新导致服务阻塞
2. 数据策略:四层自适应筛选,放大稀疏成功信号
针对 GUI 强化学习中的“成功少、噪声多”核心难题,DART 设计了覆盖任务、轨迹、步骤和 Token 的四层筛选机制:
| 粒度 | 策略 | 策略思想 |
| 任务级 | 动态采样频率调整 | 简单任务降采样,困难任务分配更多资源 |
| 轨迹级 | 成功经验回注 | 在线全失败时自动注入历史成功轨迹 |
| 步骤级 | 高熵动作优先 | 聚焦关键决策步骤(≈80% 有效学习) |
| Token 级 | 截断重要性采样 | 缓解策略漂移,稳定强化学习训练 |
这一机制使得 7B 模型,在最大30步内,即可稳定的实现OSWorld中的任务要求。
3. 多维优化:以轻量化参数对冲复杂场景,重塑性能边界
九章云极经过强化学习训练的7B 模型之所以能实现突破,关键在于采用了“场景适配、精度优化、算力协同”的三维技术方案,在控制参数量的同时,最大化提升操作智能性能。
• 场景化指令对齐技术:基于百万级真实操作场景数据训练,构建细分领域的指令库,优化模型对办公自动化、数据处理等高频场景的语义理解能力,精准捕捉模糊指令背后的核心需求,使指令理解准确率较通用模型提升23%,并减少无效操作。
• 混合精度推理优化:借鉴智算硬件优化经验,对模型不同模块进行精度分层处理。核心推理模块保留 FP16 精度以确保准确性,非核心模块量化至 INT8 精度。这一调度方式实现推理效率提升 1.8 倍,资源占用率降低 40%。
• 软硬件协同调度机制:依托自研的智算技术栈优势,深度协同模型推理与算力资源,动态调整算力分配策略以应对负载波动,避免资源闲置。同时使用专用推理加速引擎优化 GUI 元素识别与动作规划的计算链路,进一步降低轻量化模型的推理延迟。
实验结果:全类型任务下性能优势显著

在最大步长仅有 30 步的情况下,DART-GUI-7B 在多种任务类型上表现出显著优势,包括:
• 浏览器类(Chrome)
• 图像/设计类(GIMP)
• 邮件客户端类(Thunderbird)
• 代码/IDE 类(VS Code)
• 操作系统交互类(OS)
亮点:GIMP 类任务的正确率高达 80.77%,且在办公套件(Impress、Writer、Calc)、媒体播放类(VLC)以及多应用协同等任务中,其能力也有显著提升。
九章云极还进行了真实场景的验证。在 DataCanvas Alaya NeW 平台上,DART-GUI-7B 成功地通过键鼠操作完成文档查找、导航到指定页面及查找官网联系方式等场景任务,其成功率超过 90%。
产业价值与未来展望
目前,AI 大模型正加速从“技术验证”向“产业落地”转变。通用人工智能作为连接数字世界与物理操作的重要工具,在办公自动化、智能运维和工业控制等领域展现出广阔的应用前景。然而,模型部署成本高、轻量化模型性能不足及数据出域安全等问题,仍然是产业规模化的关键瓶颈。
九章云极的 7B GUI 模型突破为行业提供了“低成本、高性能”的通用人工智能解决方案,有望推动通用人工智能在中小企业及长尾场景的普及。
更多推荐


所有评论(0)