小模型也能当“Agent“！腾讯阿里论文揭示AI开发新范式！

腾讯阿里最新研究表明，小模型通过专用训练也能具备agent能力。小模型在专精、分布式和经济性方面优势明显，未来将是"大基座统领多小模型"的混合模式。开发者可从开源项目起步，构建高效、可扩展的混合Agent生态，实现性能与成本的平衡优化。

脱泥不tony

663人浏览 · 2026-01-04 13:56:28

脱泥不tony · 2026-01-04 13:56:28 发布

腾讯最新论文展示了一个仅有1.96B参数的语言模型，通过从零开始训练，就能够像agent一样进行规划、推理和工具调用。这篇论文的核心亮点在于，它证明小模型可以在预训练阶段就被“教导”出agentic行为——模型学会将任务分解成多个步骤、调用工具、在长流程中跟踪状态并进行自我纠错，而不是仅在指令微调后才“听起来很有帮助”。该模型通过Multi-Latent Attention机制压缩历史记忆（KV缓存），实现了128K的长上下文处理能力，从而能一次性读取大量输入文本。它针对的主要问题是：小模型在单轮问答中表现尚可，但一旦任务变长就容易“断线”或丢失上下文。

不同于直接蒸馏大模型的做法，该论文的训练策略逐步转变：先从日常文本开始，然后转向数学和代码领域，最后进入agent轨迹（agent trajectories）训练。每条agent轨迹都被设计成完整的工作流形式，明确分为分析（analysis）、计划（plan）、行动（action，包括工具调用）、自我检查（self-check）和总结（summary）五个部分。研究团队为多种场景生成了这些工作流，包括数学求解、真实GitHub仓库的代码修复、带搜索工具的深度研究以及通用工具调用。通过“agentic中训练”（agentic mid-training），模型在预训练过程中大量学习这些完整工作流，从而将规划和错误修正内化为自然行为。

在SWE-Bench Verified（GitHub真实bug修复基准）上，加入agentic中训练后，模型成功率从12.4%提升至17.7%，展现出显著进步。

https://arxiv.org/pdf/2512.22047

阿里的MAI-UI-2B是一个专为gui agent设计的2B参数基础模型，基于Qwen3-VL骨干，针对真实世界移动交互场景优化。该模型通过自进化数据管道扩展导航数据，融入用户交互（ask_user）和多模态控制协议（MCP）工具调用，支持点击、滑动、输入、询问用户、MCP调用和回答等扩展动作空间，实现超越UI的操作。其创新包括本地设备-云协作系统，根据任务状态和数据敏感度动态路由执行，提升设备端性能33%并减少云调用超过40%；此外，采用在线强化学习框架，扩展并行环境至512并增加步骤预算至50，显著提升鲁棒性。实验中，MAI-UI-2B在AndroidWorld上达到49.1%成功率，相对提升75.4%，在ScreenSpot-Pro等GUI grounding基准上也超越Gemini-3-Pro等模型，标志着高效、可扩展gui agent的重大进步。

https://arxiv.org/abs/2512.24618

基于这些资料，我更坚定地认为未来是混合模式：大基座统领多小模型，形成MoE（Mixture of Experts）式生态。为什么？小模型的崛起不是孤例，NVIDIA的论文《Small Language Models are the Future of Agentic AI》（arXiv:2506.02153）直接支持：SLMs（小模型）更适合Agentic AI，因为它们高效、经济，能替换40-70%的LLM调用。

小模型优势（从腾讯/阿里可见）：

专精与分布式：如Youtu-LLM的Agent轨迹训练，MAI-UI的GUI优化。小模型像“乐高积木”——一个管视觉，一个管工具，鲁棒性强、隐私好。NVIDIA指出，SLMs在重复任务中性能媲美LLMs，但推理延迟低、部署易。
经济性：参数少，跑在边缘设备，成本降80%以上。X上讨论提到，小模型开源友好，社区能快速迭代。

大基座优势：

统一协调：如Qwen-Max或Llama-405B，负责任务路由、复杂推理。IBM报告预测：大模型做“统帅”，小模型做“士兵”。

趋势预测：

混合时代：NVIDIA倡导异构系统——SLMs默认，LLMs选调用。Red Hat认为，企业不需要“一刀切”大模型，小模型更可定制。腾讯小模型可做执行层，阿里MAI-UI做端侧代理，大基座云端规划。
挑战与机遇：协调开销需优化（如MoE架构）。X帖子提到，多小模型在idea生成和研究中可能超大模型，但需支持生态。

总之，这些资料让我看到，小模型的“干大事”潜力正重塑Agent开发。纯小模型适合轻量场景，纯大基座适合复杂决策，但主流将是“大统领小”。开发者们，不妨从腾讯/阿里开源起步，构建混合Agent！