Youtu-Agent:腾讯优图开源的 Agent 框架,构建持续进化 Agent
Youtu-Agent 的核心价值是「打通智能体的 “自动生成” 到 “持续进化” 全链路」—— 既降低了 Agent 开发的门槛(无需大量人工),又解决了部署后无法自适应的问题(低成本 / 高收益优化)。
- 论文题目:Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization
- arXiv:2512.24615
- 单位:腾讯优图
- https://github.com/TencentCloudADP/youtu-agent

TL;DR:
这篇论文介绍了腾讯优图开源的 Youtu-Agent 框架,这是一个旨在解决当前 LLM Agent 开发中两大痛点(「高配置成本」和「静态能力」)的模块化框架。它的核心贡献在于:
- 自动化生成(Automated Generation):能根据用户需求自动写代码生成工具(Tools)、自动编写提示词(Prompt)并组装成 Agent,大幅降低开发门槛。
- 混合策略优化(Hybrid Policy Optimization):提出了一套“练习(Practice)”与“强化学习(RL)”结合的机制,让 Agent 既能通过上下文积累经验(无需训练),也能通过大规模 RL 进行参数更新。
原文摘要
现有的大语言模型(LLM)智能体框架面临两大显著挑战:配置成本高、能力静态固化。构建高质量智能体通常需大量人工投入于工具集成与提示工程,而部署后的智能体若无高昂的微调成本,则难以适应动态环境。为应对上述问题,我们提出 Youtu-Agent——一种面向 LLM 智能体自动化生成与持续演化的模块化框架。Youtu-Agent 采用结构化配置系统,将执行环境、工具集与上下文管理解耦,从而支持灵活复用与自动化合成。我们引入两种生成范式:面向标准任务的 **工作流(Workflow)**模式,以及面向复杂、非标需求的 **元智能体(Meta-Agent)**模式;后者可自动生成功能代码、提示词及配置。 此外,Youtu-Agent 构建了一套混合策略优化系统:(1)一个名为“Agent Practice”的模块,使智能体能够通过上下文内优化(无需参数更新)积累经验并提升性能;(2)一个名为“Agent RL”的模块,可与分布式训练框架集成,从而以端到端、大规模的方式,对任意 Youtu-Agent 实现可扩展且稳定的强化学习。实验表明,Youtu-Agent 在 WebWalkerQA(71.47%)和 GAIA(72.8%)基准测试中,仅使用开源权重模型即达到当前最优性能。
一、研究背景与动机
当前 LLM 智能体开发面临两个难以突破的瓶颈,这也是 Youtu-Agent 的出发点:
- 高配置成本:开发一个高质量智能体需要大量人工操作 —— 比如筛选工具、设计提示词(Prompt Engineering)、编写工具代码(如 Python 函数、API 集成),不仅需要领域 expertise,还耗时费力,门槛极高。
- 能力静态化:智能体部署后无法自适应动态环境。要提升性能,要么靠人工优化提示词(效果不确定),要么靠有监督微调(SFT)或强化学习(RL),但这些方法存在数据稀缺、计算成本高、训练不稳定(如长任务 “熵爆炸”)等问题。
Youtu-Agent 的核心思路是:通过 “模块化架构 + 自动化生成 + 混合优化”,让智能体从 “手动搭建” 变成 “自动生成”,从 “静态部署” 变成 “持续进化”。
二、框架设计
Youtu-Agent 的整体设计围绕 “模块化” 和 “自动化” 展开,核心分为「基础执行架构」和「两大核心能力」(自动化生成、持续优化)。
2.1 基础执行架构:三层分层设计
框架将智能体拆分为三个独立层级,通过 YAML 配置文件统一管理,支持组件灵活复用:
- 环境层(Environment):提供底层执行上下文和接口,比如浏览器环境(网页导航)、操作系统 Shell(命令执行)、沙箱代码环境(如 E2B)。同一工具 / 智能体可适配不同环境,无需大幅修改。
- 工具层(Tools):封装原子操作,分三类:
- 环境相关工具(如点击网页元素、运行 bash 命令);
- 通用工具(如数学计算、文本处理);
- 外部服务集成工具(通过 MCP 协议对接外部模型 / 服务)。
- 智能体层(Agent):LLM 驱动的 “感知-推理-行动” 核心,内置上下文管理器(Context Manager)—— 自动裁剪冗余信息(如过时网页 HTML),控制 Token 成本,避免上下文窗口溢出。
2.2 核心能力一:自动化生成(解决“高配置成本”)
基于上述架构,Youtu-Agent 提供两种生成范式,能从高层任务描述自动生成完整智能体配置(工具、提示词、YAML 文件):
- Workflow 模式(流程化模式):适用于标准化、常规任务(如简单信息检索),遵循固定四步流程:
- 意图拆解:将用户任务转化为技术需求;
- 工具检索 / 合成:先查现有工具库,缺失则自动生成 Python 工具代码(含函数签名、文档、单元测试);
- 提示词优化:根据任务和工具生成最优提示词;
- 配置组装:整合所有组件为可部署的 YAML 文件。
- Meta-Agent 模式(元智能体模式):适用于复杂、模糊任务(如 “汇总今日多智能体领域顶会论文并下载 PDF”),核心是一个 “架构师智能体”,可调用四类工具动态规划生成过程:
- 搜索工具(search_tool):查询现有工具库;
- 创建工具(create_tool):合成缺失工具;
- 询问用户(ask_user):多轮对话澄清模糊需求;
- 组装配置(create_agent_config):生成最终 YAML。

关键指标:自动化工具合成成功率超 81%,Meta-Agent 模式的任务完成率达 68.75%,大幅降低人工成本。
2.3 核心能力二:持续优化(解决“能力静态化”)
提供两种低成本、高稳定性的优化方式,覆盖不同场景需求:
Agent Practice(无参数优化)
适用于无需大幅性能提升、追求低成本的场景。核心是「无训练组相对策略优化(Training-free GRPO)」:
- 用少量样本(如 100 个数学题)让智能体多轮试错,生成不同解决方案轨迹;
- 用 LLM 评估这些轨迹的相对优劣,提炼 “语义优势”(比如对比成功 / 失败案例的解题思路);
- 将这些经验注入智能体上下文(类似 “文本 LoRA”),无需更新模型权重,即可提升后续性能。

效果:在 AIME 2024/2025 数学基准上,DeepSeek-V3.1-Terminus 模型分别提升 2.7% 和 5.4%,学习成本仅约 18 美元(对比传统 RL 的 1 万美元成本)。
Agent RL(强化学习优化)
适用于需要大幅、持久性能提升的场景。通过基础设施和算法优化,解决传统 Agent RL 的 “扩展性差” 和 “训练不稳定” 问题:
- 扩展性优化:用 RESTful API 封装环境、Ray 分布式并发、分层超时控制,支持 128 GPU 稳定扩展,训练迭代速度提升 40%;
- 稳定性优化:过滤无效工具调用、减少离策略更新、修正优势估计偏差,避免 “熵爆炸” 和模型退化。

效果:Qwen2.5-7B 模型在 AIME 2024 数学题上准确率从 10% 提升至 45%,在通用 QA / 多跳 QA 基准上提升 8%-21%,代码 / 推理能力提升 35%。
三、实验
论文通过四大维度验证框架有效性,所有实验基于开源模型(无依赖 GPT-4o 等闭源 API):
- 通用基准性能:在 WebWalkerQA(网页导航 QA)达 71.47% pass@1,GAIA(真实世界 QA)文本子集达 72.8% pass@1,建立开源模型的强基准;
- 自动化生成效果:在自建的 AgentGen-80 基准(80 个多样任务)上,Workflow 模式配置有效性 100%,Meta-Agent 模式任务完成率 68.75%;
- 无参数优化效果:仅用 100 样本,AIME 数学题性能提升显著,工具调用效率更高(调用次数减少);
- RL 优化效果:训练速度提升 40%,数学、QA、代码能力全面提升,训练过程中 KL 散度、梯度范数保持稳定。
四、应用场景
为了让框架落地,论文还推出了Tip 桌面助手(本地部署、多模态),集成 Youtu-Agent 核心能力:
- 支持加载 Youtu-Agent 配置,处理命令执行、文件管理等任务;
- 主动捕获屏幕 / 文本上下文,无需手动复制粘贴(如选中一段文字,自动提示 “总结”“翻译” 等意图);
- GUI 智能体:模拟鼠标 / 键盘操作,自动化桌面任务(如自动打开浏览器、下载文件),支持流程复用;
- 本地模型运行:数据隐私安全,无需上传云端。
五、总结
核心贡献
- 模块化 YAML 架构:解耦环境、工具、智能体,支持灵活复用和自动化生成;
- 双范式自动化生成:覆盖常规 / 复杂任务,大幅降低配置成本;
- 低成本无参数优化:用少量样本实现性能提升,无需模型微调;
- 高扩展稳定 RL:支持大规模分布式训练,解决传统 Agent RL 的痛点。
总结
Youtu-Agent 的核心价值是「打通智能体的 “自动生成” 到 “持续进化” 全链路」—— 既降低了 Agent 开发的门槛(无需大量人工),又解决了部署后无法自适应的问题(低成本 / 高收益优化)。同时基于开源模型和工具,具备很强的实用性和可复现性,未来还将扩展多智能体协作、更多环境集成等能力。
想入门 AI 大模型却找不到清晰方向?备考大厂 AI 岗还在四处搜集零散资料?别再浪费时间啦!2025 年 AI 大模型全套学习资料已整理完毕,从学习路线到面试真题,从工具教程到行业报告,一站式覆盖你的所有需求,现在全部免费分享!
👇👇扫码免费领取全部内容👇👇

一、学习必备:100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT,帮你看透 AI 趋势
想了解大模型的行业动态、商业落地案例?大模型电子书?这份资料帮你站在 “行业高度” 学 AI:
1. 100+本大模型方向电子书

2. 26 份行业研究报告:覆盖多领域实践与趋势
报告包含阿里、DeepSeek 等权威机构发布的核心内容,涵盖:
- 职业趋势:《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》;
- 商业落地:《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》;
- 领域细分:《AGI 在金融领域的应用报告》《AI GC 实践案例集》;
- 行业监测:《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。
3. 600+套技术大会 PPT:听行业大咖讲实战
PPT 整理自 2024-2025 年热门技术大会,包含百度、腾讯、字节等企业的一线实践:

- 安全方向:《端侧大模型的安全建设》《大模型驱动安全升级(腾讯代码安全实践)》;
- 产品与创新:《大模型产品如何创新与创收》《AI 时代的新范式:构建 AI 产品》;
- 多模态与 Agent:《Step-Video 开源模型(视频生成进展)》《Agentic RAG 的现在与未来》;
- 工程落地:《从原型到生产:AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。
二、求职必看:大厂 AI 岗面试 “弹药库”,300 + 真题 + 107 道面经直接抱走
想冲字节、腾讯、阿里、蔚来等大厂 AI 岗?这份面试资料帮你提前 “押题”,拒绝临场慌!

1. 107 道大厂面经:覆盖 Prompt、RAG、大模型应用工程师等热门岗位
面经整理自 2021-2025 年真实面试场景,包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题,每道题都附带思路解析:

2. 102 道 AI 大模型真题:直击大模型核心考点
针对大模型专属考题,从概念到实践全面覆盖,帮你理清底层逻辑:

3. 97 道 LLMs 真题:聚焦大型语言模型高频问题
专门拆解 LLMs 的核心痛点与解决方案,比如让很多人头疼的 “复读机问题”:

三、路线必明: AI 大模型学习路线图,1 张图理清核心内容
刚接触 AI 大模型,不知道该从哪学起?这份「AI大模型 学习路线图」直接帮你划重点,不用再盲目摸索!

路线图涵盖 5 大核心板块,从基础到进阶层层递进:一步步带你从入门到进阶,从理论到实战。

L1阶段:启航篇丨极速破界AI新时代
L1阶段:了解大模型的基础知识,以及大模型在各个行业的应用和分析,学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段:攻坚篇丨RAG开发实战工坊
L2阶段:AI大模型RAG应用开发工程,主要学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段:跃迁篇丨Agent智能体架构设计
L3阶段:大模型Agent应用架构进阶实现,主要学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造Agent智能体。

L4阶段:精进篇丨模型微调与私有化部署
L4阶段:大模型的微调和私有化部署,更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调,并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

L5阶段:专题集丨特训篇 【录播课】

四、资料领取:全套内容免费抱走,学 AI 不用再找第二份
不管你是 0 基础想入门 AI 大模型,还是有基础想冲刺大厂、了解行业趋势,这份资料都能满足你!
现在只需按照提示操作,就能免费领取:
👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口?别犹豫,这份免费资料就是你的 “起跑线”!
更多推荐


所有评论(0)