26年1月来自月之暗面(MoonShot AI)公司的论文“KIMI K2.5: Visual Agentic Intelligence”。

Kimi K2.5是一个旨在提升通用智体的开源多模态智体模型。K2.5 强调文本和视觉的联合优化,使两种模态相互增强。这包括一系列技术,例如联合文本-视觉预训练、零视觉 SFT 和联合文本-视觉强化学习。基于这种多模态基础,K2.5 引入 Agent Swarm,这是一个自导向的并行智体编排框架,能够动态地将复杂任务分解为异构子问题并并行执行。大量的评估表明,Kimi K2.5 在编码、视觉、推理和智体任务等多个领域均取得最先进的成果。与单智体基线模型相比,Agent Swarm 还将延迟降低高达 4.5 倍。


Kimi K2.5 是一个原生多模态模型,它基于 Kimi K2 构建,并利用约 15 万亿个混合视觉和文本tokens进行大规模联合预训练。与那些牺牲语言或视觉能力的视觉自适应模型不同,联合预训练范式能够同时增强两种模态。

原生多模态预训练

多模态预训练的一个关键设计问题是:在固定的视觉-文本tokens预算下,最优的视觉-文本联合训练策略是什么?传统观点 [8, 21] 认为,在LLM训练的后期阶段,以较高的比例(例如 50% 或更高)引入视觉tokens,可以加速多模态能力的学习,并将多模态能力视为对语言能力后加。

然而,实验揭示不同的结果。在保持视觉和文本tokens总数不变的情况下,改变视觉比例和视觉注入时间。为了严格满足不同比例的目标,在引入视觉数据之前,使用特定数量的纯文本tokens对模型进行预训练。出乎意料的是,视觉比例对最终的多模态性能影响甚微。事实上,在视觉-文本token总数固定的情况下,使用较低视觉比例进行早期融合反而能获得更好的结果。本文提出一种原生的多模态预训练策略:并非在训练后期集中进行高强度的视觉训练,而是在训练过程早期就采用适中的视觉比例,使模型能够自然地发展出平衡的多模态表征,同时受益于两种模态的协同优化。

零-视觉SFT

预训练的视觉语言模型(VLM)本身并不具备基于视觉的工具调用能力,这给多模态强化学习带来了冷启动问题。传统方法通过人工标注或提示设计的思维链(CoT)数据来解决这个问题[8],但这些方法的多样性有限,通常将视觉推理限制在简单的图表和基本的工具操作(裁剪、旋转、翻转)上。

值得注意的是,高质量的文本SFT数据相对丰富且多样化。本文提出一种方法——零-视觉SFT,该方法仅使用文本SFT数据在训练后激活视觉和智体能力。在这种方法中,所有图像操作都通过IPython中的程序化操作来实现,有效地泛化传统的视觉工具使用方式。这种“零视觉”激活能够实现多种推理行为,包括像素级操作,例如通过二值化和计数来估计物体大小,并且可以泛化到基于视觉的任务,例如物体定位、计数和OCR。

如图展示强化学习(RL)的训练曲线,其初始点来自零-视觉SFT。结果表明,零视觉SFT足以激活视觉能力,同时确保跨模态泛化。这种现象很可能是由于文本和视觉数据的联合预训练所致。与零-视觉SFT相比,初步实验表明,文本-视觉SFT在视觉型智能任务上的表现要差得多,这可能是由于缺乏高质量的视觉数据。
请添加图片描述

联合多模态强化学习(RL)

基于结果的视觉强化学习 在零-视觉SFT之后,该模型需要进一步改进,才能可靠地将视觉输入融入推理过程。仅由文本触发的激活存在明显的缺陷:视觉输入有时会被忽略,图像在必要时也可能未被关注。在明确需要视觉理解才能获得正确答案的任务上采用基于结果的强化学习。将这些任务分为三个领域:

• 视觉定位和计数:精确定位和枚举图像中的物体;
• 图表和文档理解:结构化视觉信息的解读和文本提取;
• 视觉关键型 STEM 问题:需要视觉输入的数学和科学问题。

基于结果的强化学习 (RL) 可以提升这些任务的基本视觉能力和更复杂的智体行为。提取这些轨迹进行拒绝采样微调 (RFT) 可以构建一个自改进的数据管道,使后续的联合强化学习阶段能够利用更丰富的多模态推理轨迹。

视觉强化学习可以提升文本性能。为了研究视觉性能和文本性能之间可能存在的权衡,在视觉强化学习前后评估纯文本基准测试的性能。出乎意料的是,基于结果的视觉强化学习在文本任务中取得可衡量的进步,包括 MMLU-Pro(84.7% → 86.4%)、GPQA-Diamond(84.3% → 86.4%)和 LongBench v2(56.7% → 58.9%)。分析表明,视觉强化学习增强需要结构化信息提取领域的校准能力,降低类似于基于视觉推理的查询(例如计数、OCR)的不确定性。这些发现表明,视觉强化学习可以促进跨模态泛化,在不明显降低语言能力的情况下提高文本推理能力。

联合多模态强化学习。基于零视觉 SFT 与视觉强化学习相结合可以产生强大的视觉能力这一发现(这进一步增强了通用文本能力),在 Kimi K2.5 的训练后阶段采用联合多模态强化学习范式。其摒弃传统基于特定模态的专家划分方式,而是根据能力(例如知识、推理、编码、智能等)来组织强化学习领域。这些领域专家共同学习纯文本和多模态查询,而生成式奖励模型(GRM)同样能够跨越异构轨迹进行优化,不受模态限制。这种范式确保通过文本或视觉输入获得的能力提升能够自然地泛化到其他模态的相关能力,从而最大限度地提高跨模态能力迁移。


现有基于智体的系统面临的主要挑战在于其依赖于推理和工具调用步骤的顺序执行。虽然这种结构对于较简单、短期任务可能有效,但随着任务复杂性的增加和累积上下文的增长,它便显得力不从心。当任务演变为包含广泛的信息收集和复杂的多分支推理时,顺序系统常常会遇到严重的瓶颈[5, 6, 7]。单个智体逐一执行每个步骤的能力有限,这会导致实际推理深度和工具调用预算的耗尽,最终阻碍系统处理更复杂场景的能力。

为了解决这个问题,引入智体群和并行智体强化学习(PARL)。K2.5 并非将任务作为推理链执行或依赖预先指定的并行化启发式方法,而是通过动态任务分解、子智体实例化和并行子任务调度来构建智体群。重要的是,并行性并非被认为具有固有优势;关于是否并行化、何时并行化以及如何并行化的决策是通过环境反馈和强化学习驱动的探索显式学习的。如图所示,性能的提升体现这种自适应能力,随着编排器在整个训练过程中不断优化其并行化策略,累积奖励也平稳增长。
请添加图片描述

架构和学习设置。PARL 框架采用一种解耦架构,包含一个可训练的编排器和从固定的中间策略检查点实例化的冻结子智体。这种设计刻意避免端到端的协同优化,以规避两个根本性的挑战:信用分配的模糊性和训练的不稳定性。在这种多智体设置中,基于结果的奖励本质上是稀疏且噪声较大的;正确的最终答案并不能保证子智体执行完美无瑕,正如失败并不意味着子智体普遍存在错误一样。通过冻结子智体并将其输出视为环境观测值而非可微分的决策点,将高层协调逻辑与底层执行能力解耦,从而实现更稳健的收敛。为了提高效率,首先使用小型子智体训练编排器,然后再过渡到更大的模型。该强化学习框架还支持动态调整子智体和编排器之间的推理实例比例,从而最大化集群资源利用率。

如图所示:智体群具有可训练的编排器,能够动态创建专门的冻结子智体,并将复杂任务分解为可并行化的子任务,从而实现高效的分布式执行。
请添加图片描述

PARL 奖励:由于独立子智体执行中固有的延迟、稀疏和非平稳反馈,训练一个可靠的并行编排器极具挑战性。

为了解决这个问题,将PARL奖励定义为:

r_PARL(x,y) = λ_1 · r_parallel +λ_2 ·r_finish + λ_3 ·rperf(x,y)

性能奖励r_perf评估给定任务x解决方案y的整体成功率和质量。此外,还引入两个辅助奖励,分别针对并行编排学习中的一个不同挑战。奖励r_parallel用于缓解串行崩溃——即编排器默认执行单智体操作的局部最优解。通过激励子智体的实例化,该奖励鼓励探索并发调度空间。奖励r_finish关注已分配子任务的成功完成情况。它用于防止虚假并行性,即编排器通过生成大量子智体而未进行有效任务分解,从而大幅提高并行指标的奖励作弊行为。通过奖励已完成的子任务,r_finish 确保策略的可行性,并引导策略朝着有效且合理的分解方向发展。

为了确保最终策略能够优化主要目标,超参 λ_1 和 λ_2 在训练过程中会逐渐退火至零。

关键步骤作为资源约束。为了衡量并行智体环境下的计算时间成本,类比计算图中的关键路径来定义关键步骤。将一个episode建模为一系列执行阶段,索引为 t = 1, …, T。在每个阶段,主智体执行一个动作,该动作对应于直接调用工具或实例化一组并行运行的子智体。

该框架通过限制训练和评估过程中的关键步骤而非总步骤数,明确地激励有效的并行化。过度创建子任务(如果不能减少并行组的最大执行时间)在该指标下几乎没有益处,而均衡的任务分解(能够直接缩短最长的并行分支)则可以减少关键步骤。因此,该框架鼓励编排器在子智体之间分配工作,以最大限度地减少端到端延迟,而不是仅仅最大化并发数或总工作量。

为了激励编排器利用并行化的优势,构建一系列合成提示,旨在凸显顺序智体执行的局限性。这些提示强调两种搜索方式:一种是广泛搜索,需要同时探索多个独立的信息源;另一种是深度搜索,需要多个推理分支并进行延迟聚合。此外,还加入受真实世界工作负载启发的任务,例如长上下文文档分析和大规模文件下载。如果顺序执行这些任务,则很难在固定的推理步骤和工具调用预算内完成。通过精心设计,这些提示鼓励编排器并行分配子任务,从而能够在比单个顺序智体更少的关键步骤内完成任务。重要的是,这些提示并没有明确指示模型进行并行化。相反,它们通过调整任务分布,自然而然地优先采用并行分解和调度策略。


基础模型:Kimi K2 基础模型

Kimi K2.5 的基础是 Kimi K2 [53],这是一个万亿参数的混合专家 (MoE) Transformer [59] 模型,已在 15 万亿个高质量文本tokens上进行预训练。Kimi K2 采用token-高效的 MuonClip 优化器 [30, 34],并使用 QK-Clip 来保证训练稳定性。该模型包含 1.04 万亿个参数,其中 320 亿个参数被激活,使用了 384 个专家,每个token激活 8 个专家(稀疏度为 48)。

模型架构

Kimi K2.5 的多模态架构由三个组件构成:三维原生分辨率视觉编码器 (MoonViT-3D)、多层感知器 (MLP) 投影器和 Kimi K2 MoE 语言模型,其设计遵循 Kimi-VL [54] 中确立的原则。

MoonViT-3D:图像和视频共享嵌入空间。在 Kimi-VL 中,采用 MoonViT 以原始分辨率原生处理图像,无需复杂的子图像分割和拼接操作。MoonViT 源自 SigLIP-SO-400M [78],并融合 NaViT [15] 的图像块打包策略。该策略将单幅图像分割成图像块,展平后按顺序拼接成一维序列,从而能够高效地同时训练不同分辨率的图像。

为了最大限度地将图像理解能力迁移到视频,引入 MoonViT-3D,它具有统一的架构、完全共享的参数和一致的嵌入空间。通过将“patch n’ pack”理念推广到时间维度,最多连续的四个帧被视为一个时空体:来自这些帧的二维图像块被联合展平并打包成一个一维序列,从而使相同的注意机制能够在空间和时间上无缝运行。额外的时间注意增强对高速运动和视觉效果的理解,而这种共享则最大限度地提高从静态图像到动态视频的知识泛化能力,实现强大的视频理解性能,而无需专门的视频模块或架构分叉。在多层感知器(MLP)投影器之前,轻量级时间池化将每个时间块内的图像块聚合起来,从而实现4倍的时间压缩,显著延长视频的有效长度。最终形成一个统一的流程,其中从图像预训练中获得的知识和能力通过一个共享的参数空间和特征表示整体地迁移到视频中。

预训练流程

Kimi K2.5 的预训练基于 Kimi K2 语言模型检查点,分三个阶段处理约 15T 个tokens:首先,进行独立的 ViT 训练,以建立一个稳健的原生分辨率视觉编码器;其次,进行联合预训练,同时增强语言和多模态能力;最后,在高质量数据和长上下文激活条件下进行中期训练,以完善模型能力并扩展上下文窗口。

ViT 训练阶段。MoonViT-3D 使用图像-文本和视频-文本对进行训练,其中文本组件包含多种目标:图像替代文本、图像和视频的合成标题、边界框以及 OCR 文本。训练过程遵循 CoCa [75] 的方法,包含两个目标:SigLIP [78] 损失 L_siglip(对比损失的一种变型)和用于生成基于输入图像标题的交叉熵损失 L_caption。采用两阶段对齐策略。第一阶段,仅优化描述损失函数 L_caption,以将 MoonViT-3D 与 Moonlight-16B-A3B [34] 对齐,消耗 1T 个 token,在此阶段更新 ViT 的权重。紧接着是极短的第二阶段,仅更新 MLP 投影器,以将 ViT 与 1T LLM 连接起来,从而实现更平滑的联合预训练。

联合训练阶段。联合预训练阶段从接近完成的 Kimi K2 检查点开始,使用额外的 15T 个视觉文本tokens,序列长度为 4K。数据配方通过引入独特的token、调整数据比例(增加编码相关内容的权重)以及控制每个数据源的最大训练轮数来扩展 Kimi K2 的预训练分布。第三阶段使用集成的高质量中期训练数据执行长上下文激活,并通过 YaRN [44] 插值逐步扩展上下文长度。这显著提高长上下文文本理解和长视频理解的泛化能力。

后训练

监督式微调

遵循 Kimi K2 [53] 建立的监督式微调 (SFT) 流程,通过合成来自 K2、K2 Thinking 和一系列专有内部专家模型的高质量候选响应,开发了 K2.5。数据生成策略采用针对特定领域量身定制的专用流程,将人工标注与先进的提示工程和多阶段验证相结合。该方法生成一个大规模的指令调优数据集,其中包含各种提示和复杂的推理轨迹,最终训练模型优先处理交互式推理,并针对复杂的实际应用进行精确的工具调用。

强化学习

强化学习是后训练的关键阶段。为了促进跨文本和视觉模态的联合优化,并支持智体群的PARL,开发一个统一的智体强化学习环境,并优化强化学习算法。文本-视觉联合强化学习和PARL均基于所述的算法构建。

策略优化:对于从数据集 D 中抽取的每个问题 x,使用先前的策略 π_old 生成 K 个响应 {y_1,…,y_K}。针对一个定义的目标来优化模型 π_θ。该损失函数与 K1.5 [31] 中使用的策略优化算法有所不同,它引入一种基于token的裁剪机制,旨在缓解训练框架和推理框架差异所放大的离策略偏差。该机制类似于简单的梯度掩码方案:对数比在区间 [α,β] 内的token正常计算策略梯度,而对数比超出该范围的token梯度则置零。值得注意的是,与标准 PPO 裁剪 [50] 的一个关键区别在于,本方法严格依赖于对数比来显式地限制离策略漂移,而与优势的正负无关。这种方法与最近提出的用于稳定大规模强化学习训练的策略 [74, 79] 相一致。经验表明,该机制对于在需要长时程、多步骤工具使用推理的复杂领域中维持训练稳定性至关重要。采用 MuonClip 优化器 [30, 34] 来最小化该目标函数。

奖励函数:对于具有可验证解决方案的任务(例如推理和智能体任务),采用基于规则的结果奖励。为了优化资源消耗,还引入预算控制奖励,旨在提高token效率。对于通用任务,采用生成式奖励模型(GRM),该模型提供与 Kimi 内部价值标准一致的细粒度评估。此外,对于视觉任务,设计特定任务的奖励函数,以提供细粒度的监督。对于视觉定位和点定位任务,采用基于 F1 值的软匹配奖励:定位任务通过交并比 (IoU) 获得软匹配,而点定位任务则在最优匹配条件下通过高斯加权距离获得软匹配。对于多边形分割任务,将预测的多边形栅格化为二值掩码,并计算分割结果与真实掩码的 IoU 以分配奖励。对于 OCR 任务,采用归一化编辑距离来量化预测结果与真实结果之间的字符级对齐程度。对于计数任务,奖励根据预测值与真实值之间的绝对差值进行分配。此外,合成复杂的视觉谜题问题,并利用LLM验证器(Kimi K2)提供反馈。

Kimi K2 利用自我批评评分标准奖励机制来鼓励开放式生成 [53],而 K2.5 则在此基础上,系统地将生成式奖励模型 (GRM) 应用于广泛的智体行为和多模态轨迹。其并未将奖励建模局限于对话输出,而是将 GRM 应用于经过验证的奖励信号之上,并应用于包括聊天助手、编码智能体、搜索智体和工件生成智体在内的各种环境中。值得注意的是,GRM 并非简单的二元评判器,而是与 Kimi 的用户体验关键价值观相一致的细粒度评估器,这些价值观包括:实用性、响应准备度、上下文相关性、适当的细节水平、生成工件的美观性以及对指令的严格遵循。这种设计使得奖励信号能够捕捉到细微的偏好梯度,而这些梯度难以用纯粹基于规则或特定任务的验证器进行编码。为了缓解奖励操纵和对单一偏好信号的过拟合,采用多种针对不同任务情境定制的替代 GRM 规则。

token高效强化学习。token 效率对于具有测试时扩展能力的 LLM 至关重要。虽然测试时扩展本质上是在计算量和推理质量之间进行权衡,但实际收益需要算法创新来主动应对这种权衡。施加与问题相关的预算可以有效地限制推理时的计算量,从而激励模型生成更简洁的思维链推理模式,避免不必要的token扩展 [31, 53]。然而,也观察到长度过拟合现象:在严格的预算约束下训练的模型通常无法泛化到更高的计算规模。因此,它们无法有效地利用额外的推理时token来解决复杂问题,而是默认使用截断的推理模式。

为此,本文提出 Toggle,一种在推理时间缩放和预算约束优化之间交替的训练启发式算法:对于学习迭代 t,奖励函数定义为~r(x,y),其中 λ 和 m 是算法的超参,K 是每个问题的展开次数。具体来说,该算法每 m 次迭代在两个优化阶段之间交替:

• 阶段 0(预算限制阶段):模型在与任务相关的令牌预算内进行训练以解决问题。为了防止过早地为了提高效率而牺牲质量,此约束是有条件地应用的:仅当模型对给定问题的平均准确率超过阈值 λ 时才强制执行。
• 阶段 1(标准缩放阶段):模型生成最多达到最大token限制的响应,鼓励模型利用计算资源以获得更好的推理时间缩放。

问题相关的预算,根据正确响应子集中token长度的第 ρ 个百分位数估计:

budget(x) = Percentile({|y_j| | r(x, y_i) = 1,i = 1,…,K},ρ)。

该预算在训练开始时估计一次,之后保持不变。值得注意的是,Toggle 算法针对双目标问题采用随机交替优化算法。它专门用于兼顾推理能力和计算效率。

在 K2 Thinking [1] 问题上评估 Toggle 算法的有效性。如图所示,几乎所有基准测试的输出长度都显著减少。平均而言,Toggle 算法在性能影响可忽略不计的情况下,将输出token数量减少 25%~30%。思维链中的冗余模式(例如重复验证和机械计算)也大幅减少。此外,Toggle 算法展现出强大的域泛化能力。例如,当仅针对数学和编程任务进行训练时,该模型在 GPQA 和 MMLU-Pro 上仍然能够持续减少tokens,而性能仅有轻微下降(如图所示)。
请添加图片描述

训练基础设施

Kimi K2.5 继承 Kimi K2 [53] 的训练基础设施,并进行少量修改。对于多模态训练,提出解耦编码器流程 (DEP),其中视觉编码器被集成到现有流水线中,且额外开销可忽略不计。

解耦编码器流程 (DEP)

在典型的利用流水线并行 (PP) 的多模态训练范式中,视觉编码器和文本嵌入位于流水线的第一阶段(Stage-0)。然而,由于多模态输入规模(例如,图像数量和分辨率)的固有差异,Stage-0 的计算负载和内存使用量都会出现剧烈波动。这迫使现有解决方案为视觉语言模型采用自定义的 PP 配置——例如,[54] 手动调整 Stage-0 中的文本解码器层数以节省内存。虽然这种折衷方案缓解内存压力,但并未从根本上解决多模态输入规模造成的负载不平衡问题。更重要的是,它阻止直接复用那些针对纯文本训练高度优化的并行策略。

利用视觉编码器在计算图中的独特拓扑位置——具体来说,它位于前向传播的起点和反向传播的终点——训练方法采用解耦编码器过程(DEP),该过程在每个训练步骤中分为三个阶段:

• 均衡视觉前向传播:首先对全局批次中的所有视觉数据执行前向传播。由于视觉编码器规模较小,无论其他并行策略如何,都将其复制到所有 GPU 上。在此阶段,前向计算工作负载根据负载指标(例如,图像或图像块计数)均匀分配到所有 GPU 上。这消除由并行处理和视觉token计数引起的负载不平衡。为了最大限度地减少峰值内存使用量,丢弃所有中间激活值,仅保留最终输出激活值。结果返回到并行处理阶段 0;
• 主干训练:此阶段执行主 Transformer 主干的前向和反向传播。通过舍弃前一阶段的中间激活值,现在可以充分利用在纯文本训练中验证过的任何高效并行策略。此阶段之后,梯度在视觉编码器的输出端累积;
• 视觉重计算与反向传播:重新计算视觉编码器的前向传播,然后进行反向传播以计算视觉编码器中参数的梯度;

DEP 不仅实现负载均衡,而且还解耦视觉编码器和主干网络的优化策略。K2.5 无缝继承 K2 的并行策略,相对于纯文本训练,实现 90% 的多模态训练效率。同期工作 LongCat-Flash-Omni [55] 也采用类似的设计理念。


统一的智体强化学习环境

为了支持统一的智体强化学习,强化学习框架采用标准化的类 Gym [10] 接口,以简化各种环境的实现。这种设计使用户能够以最小的开销实现和定制环境。设计优先考虑组合模块化,集成一系列可插拔组件,例如用于支持各种沙箱工具的工具集模块、用于多方面奖励信号的评判模块,以及用于快速多样化和指令跟随增强的专用模块。这些组件可以与核心智体循环动态组合,从而提供高度的灵活性并增强模型的泛化能力。

在执行层面,强化学习框架将每个智体任务视为一个独立的异步协程。每个任务都可以递归地触发子任务的展开,从而简化了复杂多智体范式(例如并行智体强化学习和智体即评判器)的实现。如图所示,专用的 Rollout Manager 在强化学习 (RL) 过程中协调多达 10 万个并发智体任务,提供细粒度的控制以支持部分部署等功能 [31]。激活后,每个任务都会从托管池中获取一个环境实例,该实例配备了沙箱和专用工具。

请添加图片描述

推理引擎协同设计。该框架严格遵循 Token-in-Token-out 范式。还记录所有推理引擎输出的日志概率,以进行训练-推理不匹配校正,从而确保 RL 训练的稳定性。针对 RL 需求协同设计的推理引擎,能够通过自定义的 RL 推理 API 来支持这些功能。

除了全面的内置白盒环境套件外,还有一些黑盒环境,这些环境只能在标准 LLM API 协议下运行,因此无法使用自定义 API 协议提供的高级功能。为了便于在黑盒环境下进行模型优化,开发 LLM Gateway,它是一个proxy服务,能够根据自定义的协议详细记录部署请求和响应。

监控与调试:在确保正确性的同时,优化高度并行异步执行系统的性能是一项极具挑战性的任务。开发一系列用于性能监控、分析、数据可视化和数据验证的工具。这些工具对于调试以及确保智能强化学习系统的效率和正确性至关重要。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐