一、Kimi K2.5 介绍

Kimi K2.5 是一个开源的原生多模态智能体模型,基于 Kimi-K2-Base,通过在约 15 万亿混合视觉与文本 token 上进行持续预训练构建而成。它无缝融合了视觉与语言理解能力,并具备高级智能体功能,支持即时模式与思考模式,以及对话式和智能体式范式。

核心特性

  • 原生多模态:在视觉–语言 token 上进行预训练,K2.5 在视觉知识、跨模态推理以及基于视觉输入的智能体工具使用方面表现出色。

  • 结合视觉的编程能力:K2.5 能根据视觉规范(如 UI 设计、视频工作流)生成代码,并自主编排工具以处理视觉数据。

  • 智能体集群(Agent Swarm):K2.5 从单智能体扩展转变为一种自导向、协同式的集群执行方案。它能将复杂任务分解为多个并行子任务,并由动态实例化的领域专用智能体协同执行。

Benchmark Kimi K2.5
(Thinking)
GPT-5.2
(xhigh)
Claude 4.5 Opus
(Extended Thinking)
Gemini 3 Pro
(High Thinking Level)
DeepSeek V3.2
(Thinking)
Qwen3-VL-
235B-A22B-
Thinking
Reasoning & Knowledge
HLE-Full 30.1 34.5 30.8 37.5 25.1† -
HLE-Full
(w/ tools)
50.2 45.5 43.2 45.8 40.8† -
AIME 2025 96.1 100 92.8 95 93.1 -
HMMT 2025 (Feb) 95.4 99.4 92.9* 97.3* 92.5 -
IMO-AnswerBench 81.8 86.3 78.5* 83.1* 78.3 -
GPQA-Diamond 87.6 92.4 87 91.9 82.4 -
MMLU-Pro 87.1 86.7* 89.3* 90.1 85 -
Image & Video
MMMU-Pro 78.5 79.5* 74 81 - 69.3
CharXiv (RQ) 77.5 82.1 67.2* 81.4 - 66.1
MathVision 84.2 83 77.1* 86.1* - 74.6
MathVista (mini) 90.1 82.8* 80.2* 89.8* - 85.8
ZeroBench 9 9* 3* 8* - 4*
ZeroBench
(w/ tools)
11 7* 9* 12* - 3*
OCRBench 92.3 80.7* 86.5* 90.3* - 87.5
OmniDocBench 1.5 88.8 85.7 87.7* 88.5 - 82.0*
InfoVQA (val) 92.6 84* 76.9* 57.2* - 89.5
SimpleVQA 71.2 55.8* 69.7* 69.7* - 56.8*
WorldVQA 46.3 28 36.8 47.4 - 23.5
VideoMMMU 86.6 85.9 84.4* 87.6 - 80
MMVU 80.4 80.8* 77.3 77.5 - 71.1
MotionBench 70.4 64.8 60.3 70.3 - -
VideoMME 87.4 86.0* - 88.4* - 79
LongVideoBench 79.8 76.5* 67.2* 77.7* - 65.6*
LVBench 75.9 - - 73.5* - 63.6
Coding
SWE-Bench Verified 76.8 80 80.9 76.2 73.1 -
SWE-Bench Pro 50.7 55.6 55.4* - - -
SWE-Bench Multilingual 73 72 77.5 65 70.2 -
Terminal Bench 2.0 50.8 54 59.3 54.2 46.4 -
PaperBench 63.5 63.7* 72.9* - 47.1 -
CyberGym 41.3 - 50.6 39.9* 17.3* -
SciCode 48.7 52.1 49.5 56.1 38.9 -
OJBench (cpp) 57.4 - 54.6* 68.5* 54.7* -
LiveCodeBench (v6) 85 - 82.2* 87.4* 83.3 -
Long Context
Longbench v2 61 54.5* 64.4* 68.2* 59.8* -
AA-LCR 70 72.3* 71.3* 65.3* 64.3* -
Agentic Search
BrowseComp 60.6 65.8 37 37.8 51.4 -
BrowseComp
(w/ctx manage)
74.9 57.8 59.2 67.6 -
BrowseComp
(Agent Swarm)
78.4 - - - - -
WideSearch
(item-f1)
72.7 - 76.2* 57 32.5* -
WideSearch
(item-f1 Agent Swarm)
79 - - - - -
DeepSearchQA 77.1 71.3* 76.1* 63.2* 60.9* -
FinSearchCompT2&T3 67.8 - 66.2* 49.9 59.1* -
Seal-0 57.4 45 47.7* 45.5* 49.5* -

模型的评估也是相当出色,接下来我们就来深度拆解一下这个模型。

二、 Kimi K2.5 的设计

Kimi K2.5 在 Kimi K2 的基础上,继续使用约 15T 混合视觉和文本标记进行预训练。K2.5 作为一个原生多模态模型,提供了最先进的编码和视觉功能,以及自主智能体集群范式。

对于复杂任务,Kimi K2.5 可以自主管理一个包含多达 100 个子代理的代理集群,并行执行多达 1500 次工具调用。与单代理配置相比,这可以将执行时间缩短高达 4.5 倍。代理集群由 Kimi K2.5 自动创建和编排,无需任何预定义的子代理或工作流程。

这里可能有人会有疑惑: 这里的k2.5为什么能调用子代理,它不是一个大模型吗?

1. 核心原理:它不仅仅是“模型”,它是“蜂群指挥官”

普通的 LLM(大语言模型)通常是“单兵作战”,即你给一个指令,它按顺序一步步生成答案。 而 Kimi k2.5 引入了 Agent Swarm智能体蜂群) 架构。

  • 身份转变: 在这个模式下,Kimi k2.5 的主模型扮演 Orchestrator(编排者/指挥官) 的角色。

  • 能力来源: 它经过了一种特殊的训练,叫做 PARL(Parallel-Agent Reinforcement Learning并行代理强化学习。这种训练让模型学会了如何拆解复杂的任务,而不是自己闷头硬干。

2. 它是如何调用子代理的?

这并不是说 Kimi k2.5 内部藏着很多“小人”,而是它具备了**动态实例化(Dynamically Instantiated)**的能力:

  1. 任务拆解: 当你给出一个复杂任务(比如“帮我调研300个YouTuber的数据”),作为指挥官的 Kimi k2.5 会分析任务,意识到“一个人做太慢了”。

  2. 召唤分身(子代理): 它会动态地生成(Instantiate)多个“冻结状态的子代理”(frozen sub-agents)。这些子代理本质上可以是模型的轻量化实例或特定功能的执行单元。

  3. 并行执行: 主模型给这些子代理派发具体的、可并行的子任务。根据博客提到的数据,它可以同时指挥多达 100个子代理,进行 1500次工具调用

  4. 结果汇总: 子代理们并行工作(比如同时查几十个网页),最后将结果汇总给主模型。

3. 为什么“大模型”能做到这点?

你之前的认知可能认为大模型就是“输入文本->输出文本”。但现在的趋势是 Agentic Intelligence(代理智能)

  • 工具使用(Tool Use): 大模型早就具备了调用计算器、搜索引擎等外部工具的能力(Function Calling)。

  • 调用“代理”只是工具使用的一种升级: 对于 K2.5 来说,"启动一个子代理" 本质上就是它调用的一种高级工具。它通过推理(Reasoning)判断出需要帮手,然后通过代码或API指令去唤起这些帮手。

一个真实的例子:

假设场景:你是一个投资人,你对 Kimi k2.5 说:

用户指令: “帮我查一下英伟达(NVIDIA)、特斯拉(Tesla)和 拼多多(PDD)这三家公司过去24小时发生的重大新闻,并分析对股价的潜在影响。”

如果没有子代理,普通大模型会怎么做?它会像一个老实人:先搜英伟达,读完,再搜特斯拉,读完,再搜拼多多,读完……最后总结。这很慢。

下面我们模拟 Kimi k2.5(指挥官模式) 是如何处理的。


🟢 第一阶段:指挥官(Orchestrator)的思考

(这是 Kimi k2.5 主模型的“大脑”内部活动)

Kimi 主模型 (Thinking):

  1. 任务分析: 用户需要三家不同公司的即时新闻和分析。

  2. 策略判断: 这三家公司的新闻互不干扰,顺序查找太浪费时间。我应该启动“蜂群模式”(Swarm Mode)。

  3. 工具检索: 我查看了当前的工具菜单,发现有一个 WebSearch_Agent(联网搜索代理)工具可用。

  4. 下达指令 我决定分裂出 3 个子代理,同时去干活。

Kimi 主模型 (输出指令 - 模拟代码):

JSON


 

// 指挥官发出的系统调用 { "action": "spawn_swarm", "agents": [ { "role": "sub_agent_01", "task": "搜索 'NVIDIA last 24h news',总结关键事件", "tool_access": ["Bing_Search"] }, { "role": "sub_agent_02", "task": "搜索 'Tesla last 24h news',总结关键事件", "tool_access": ["Bing_Search"] }, { "role": "sub_agent_03", "task": "搜索 'PDD last 24h news',总结关键事件", "tool_access": ["Bing_Search"] } ] }


🟡 第二阶段:子代理(Sub-Agents)并行干活

(此时,主模型在“喝茶”等待,3 个子代理同时在后台运行。这对用户是不可见的,但为了演示,我们把它们“显形”。)

注意:这三件事是同时发生的(Parallel Execution)。

  • 🕵️ 子代理 A (负责英伟达):

    • 调用搜索工具 -> 发现新闻:“英伟达发布新一代 Blackwell 芯片发货延迟传闻澄清……”

    • 回传结果: “关键事件:Blackwell 发货正常。股价盘前微涨。”

  • 🕵️ 子代理 B (负责特斯拉):

    • 调用搜索工具 -> 发现新闻:“马斯克宣布 FSD 在中国落地新进展……”

    • 回传结果: “关键事件:FSD 入华预期增强。市场情绪:乐观。”

  • 🕵️ 子代理 C (负责拼多多):

    • 调用搜索工具 -> 发现新闻:“Temu 面临新的关税政策挑战……”

    • 回传结果: “关键事件:跨境电商关税风险。市场情绪:担忧。”


🔴 第三阶段:指挥官汇总与交付

(3 个子代理瞬间把报告交了上来,Kimi 主模型重新接管)

Kimi 主模型 (Thinking): 收到三个子代理的汇报了。现在我要把这些碎片信息整合成用户想要的“股价影响分析”。

Kimi 主模型 (最终回复给用户):

根据对这三家公司过去24小时的新闻监测,以下是详细分析:

  1. 英伟达 (NVIDIA)

    1. 新闻:针对Blackwell芯片延迟的传闻进行了官方澄清。

    2. 影响:消除了市场疑虑,看涨

  2. 特斯拉 (Tesla)

    1. 新闻:FSD入华有新进展。

    2. 影响:开启新增长曲线预期,看涨

  3. 拼多多 (PDD)

    1. 新闻:Temu面临新的关税合规压力。

    2. 影响:短期利润率可能承压,看空/震荡


💡 重点解析:为什么这比以前强?

  1. “调用”的本质: 你看第一阶段的那个 json 代码。所谓的“调用子代理”,其实就是主模型写了一张**“派工单”**。系统后台看到这张单子,就自动启动了 3 个小的程序(子代理)去跑。

  2. 关于你担心的“新工具”: 假设你在后台给 Kimi 增加了一个新工具叫 Stock_Chart_Draw(股价画图工具)。

    1. 在第一阶段,Kimi 主模型看“菜单”时,就会发现:“咦,有个画图工具?”

    2. 在下指令,它可能就会多派一个 子代理 D,并在指令里写:"task": "使用 Stock_Chart_Draw 画出这三家公司的K线图"

    3. 主模型不需要重新训练,它只要看到新工具的说明书,把它写进“派工单”里,活儿就干成了。

三、 Kimi K2.5 的前端能力

Kimi K2.5 是迄今为止最强大的开源编码模型,尤其在前端开发方面具有强大的功能。K2.5 可以将简单的对话转化为完整的前端界面,实现交互式布局和丰富的动画效果,例如滚动触发效果。以下是 K2.5 使用图像生成工具,根据单个提示生成的示例:

暂时无法在飞书文档外展示此内容

这种能力源于大规模的视觉-文本联合预训练。规模化之后,视觉和文本处理能力之间的权衡不再存在——它们同步提升。

  1. 核心架构:视觉与代码的“语义对齐”(Semantic Alignment)

以往的模型(如早期的 LLaVA 或 GPT-4V 的早期版本)处理前端代码时,通常是将视觉信号“翻译”成文本描述,再丢给语言模型生成代码。这种中间转化会有大量信息丢失(比如“红色按钮”丢失了具体的 RGB 值或圆角半径)。

Kimi k2.5 的“视觉-文本联合预训练”意味着:

  • 统一的嵌入空间(Embedding Space): 在模型的潜空间里,一段 HTML/CSS 代码 <div class="shadow-lg rounded-xl"> 和一张“带有阴影的圆角卡片图像”,在向量表示上是高度重叠的。

  • 双向映射能力: 模型不仅能“看图写代码”(Vision-to-Code),也能“想代码出图”(Code-to-Vision/Imagination)。

  • 前端开发的本质契合: 前端代码本质上是**“用文本描述视觉”**。因此,这种联合训练的模型天生就是“前端专家”,因为它不需要在“逻辑大脑”和“视觉眼睛”之间来回切换,它的“直觉”里代码就是像素。

  1. 突破“模态税”(Modality Tax):规模化带来的质变

文中提到最关键的一句话是:“规模化之后,视觉和文本处理能力之间的权衡不再存在——它们同步提升。”

这触及了 AI 研究中的一个痛点,通常被称为“模态竞争”或“模态税”:

  • 过去的问题: 在模型参数不够大、数据不够多时,引入图像数据往往会“挤占”模型的容量,导致纯文本(如逻辑推理、纯算法代码)的能力下降。就像一个人的脑容量有限,学了画画可能就忘了数学。

  • K2.5 的设计哲学: 只要模型参数量(Scale)突破某个临界点,并使用足够高质量的混合数据(Interleaved Data),不同模态之间会产生协同效应(Synergy)

    • 代码增强视觉: 代码有着极强的逻辑结构(嵌套、循环、层级),学习代码能帮助模型更好地理解图像中的“结构关系”(比如理解网页布局的 DOM 树结构)。

    • 视觉增强代码: 视觉数据提供了代码运行后的“Ground Truth(真实结果)”,帮助模型修正代码逻辑,使其更符合人类直觉。

  1. “单提示生成”背后的 Agentic Workflow(代理工作流)

文中提到“根据单个提示...使用图像生成工具”,这暗示 K2.5 在处理前端任务时,可能内置了一个隐式的 闭环反馈机制

  1. Intent Understanding(意图理解): 用户说“做一个像 Spotify 的播放界面”。

  2. Visual Planning(视觉规划): 模型内部先构建一个视觉目标(即它想画成什么样)。

  3. Code Generation(代码生成): 编写 HTML/CSS/JS。

  4. Self-Correction (Implicit): 虽然文中没明说,但能够实现“交互式布局”和“滚动动画”,说明模型在生成时预测了渲染后的动态行为。它不是在写静态文本,而是在构建一个动态的 DOM 对象。

这意味着什么?

这段设计标志着 AI 辅助编程进入了 2.0 阶段

  • 1.0 阶段(Copilot 时代): 你写个函数头,AI 帮你补全剩下的逻辑代码(基于文本预测)。

  • 2.0 阶段(Kimi k2.5 时代): 你描述一个产品形态,AI 直接交付一个可交互的界面(基于视觉-代码对齐)。

四、 Kimi K2.5 的训练思想

K2.5 经过并行智能体强化学习 (PARL) 训练,能够自主管理多达 100 个子智能体的智能体群,执行多达 1500 个协调步骤的并行工作流程,而无需预定义角色或手工设计的工作流程。

PARL 使用可训练的协调器代理将任务分解为可并行化的子任务,每个子任务由动态实例化的冻结子代理执行。与顺序执行代理相比,并发运行这些子任务可以显著降低端到端延迟。

由于独立运行的子智能体提供的反馈存在延迟、稀疏和非平稳性,训练一个可靠的并行编排器极具挑战性。常见的故障模式是串行崩溃,即编排器尽管具备并行能力,却默认执行单智能体任务。为了解决这个问题,PARL 采用了分阶段奖励塑造策略,在训练初期鼓励并行性,并逐步将重点转移到任务成功上。

这张图片详细解释了 Kimi k2.5 实现 Agent Swarm智能体蜂群) 背后的核心技术:PARL(Parallel-Agent Reinforcement Learning并行智能体强化学习

这不仅仅是让模型“能”调用工具,而是训练模型“学会”如何像一个项目经理一样,高效地指挥团队并行工作。

以下是对图片内容的深度技术解读:

  1. 核心理念:横向扩展 (Scaling Out)

  • 概念转变: 传统的提升模型能力是 "Scaling Up"(把模型做大),而 K2.5 提出了 "Scaling Out"(横向扩展)。

  • 目标: 从单智能体(Single-agent)进化为 Self-directed Swarm(自驱蜂群)

  • 能力指标: 它可以指挥多达 100 个子智能体,在没有预定义角色或工作流的情况下,协调执行 1500 个步骤

  1. 架构设计:指挥官与工人的分离

PARL 架构将智能体分为了两类角色:

  • Trainable Orchestrator Agent(可训练的指挥官): 它是唯一的“大脑”,负责拆解任务、分发工作。只有它是被训练的

  • Frozen Sub-agents(冻结的子智能体): 它们是被动态实例化出来的“工人”。“Frozen”意味着它们在任务执行中不进行参数更新,它们只是纯粹的执行单元(功能稳定)。

  • 优势: 这种架构极大地降低了端到端的延迟(Latency),因为任务是并发处理的,而不是排队处理。

  1. 训练难点:串行坍缩 (Serial Collapse)

这是多智能体训练中最常见的一个失败模式。

  • 现象: 尽管模型有能力并行处理,但在训练初期,模型往往倾向于“稳妥”地一个接一个做任务(Sequential),退化回单智能体模式。

  • 原因: 因为并行执行的反馈是延迟的、稀疏的,且子智能体独立运行导致环境不稳定,指挥官很难学到“并行这就比串行好”。

  1. 解决方案:分阶段奖励重塑 (Staged Reward Shaping)

为了解决“串行坍缩”,Kimi 团队设计了一个精妙的奖励函数(图片中间的公式):

$$R_t = \lambda_{\text{aux}}(e) \cdot \underbrace{r_{\text{parallel}}}_{\text{instantiation reward}} + (1 - \lambda_{\text{aux}}(e)) \cdot (\underbrace{\mathbb{I}[\text{success}] \cdot Q(\tau)}_{\text{task-level outcome}})$$

  • $$r_{\text{parallel}$$ (并行奖励): 这是一个辅助奖励。简单说就是:“只要你敢启动子代理并行干活,我就给你加分。” 这是为了鼓励模型探索并行策略。

  • $$\lambda_{\text{aux}}(e$$ (退火系数): 这个系数从 0.1 逐渐降到 0.0。

    • 前期 (0.1): 训练刚开始时,强行鼓励模型“多开分身”,不管干得好不好,先学会分派任务。

    • 后期 (0.0): 随着训练进行,这个辅助奖励消失。模型必须靠**“最终任务成功”**(Task-level outcome)来拿分。

  • 目的: 防止模型为了拿分而“为了并行而并行”(形式主义),确保最终通过并行确实提高了任务质量。

  1. 强制进化的度量标准:Critical Steps (关键步骤)

为了彻底断绝模型“偷懒”回串行模式的后路,他们修改了计算成本的方式。图片下方的公式引入了一个概念:计算瓶颈 (Computational Bottleneck)

$$\text{CriticalSteps} = \sum_{t=1}^{T} \left( S_{\text{main}}^{(t)} + \max_i S_{\text{sub},i}^{(t)} \right)$$

  • 以前的算法: 通常计算 Total Steps(所有步骤总和)。比如 10 个任务,每个 1 秒,串行做是 10 秒,并行做(算力消耗)也是 10 秒。模型觉得没区别。

  • 现在的算法 (Critical Path): 计算 “关键路径时间”

    • $S_{\text{main}}$:指挥官思考的时间。

    • $\max S_{\text{sub}}$:最慢的那个子智能体花的时间。

  • 结果: 如果你串行做 10 个任务,这个分数值很高(惩罚大);如果你并行做,这个分数值就很低(奖励大)。这就逼着模型必须学会“怎么快怎么来”,从而涌现出并行策略。

总结

这张图解释了 Kimi k2.5 为什么能“指挥千军万马”。它不是靠硬写规则,而是通过奖励函数的设计(前期给糖吃鼓励并行)和评价指标的倒逼(只看关键路径时间),用强化学习“逼”着模型进化出了项目管理和并行指挥的能力。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐