概述

几个官网:

  • 可图:https://kolors.kuaishou.com,即将下线,使用可灵代替;
  • 可灵创作平台官网:https://app.klingai.com,支持音效、图片、视频、创意特性创作
  • 可灵AI官网:https://klingai.com,包括开发者平台以及跳转到可灵的链接

快手集团GitHub开源主页包括:

  • https://github.com/kwai
  • https://github.com/Kwai-Keye
  • https://github.com/KwaiKEG
  • https://github.com/KlingTeam
  • https://github.com/Kwaipilot

HuggingFace(HF)或ModelScope(MS)也可按照这个命名去搜索开源模型。

Keye-VL

论文,开源(GitHub,)多模态大模型,在视频理解方面表现出色,能够将视频内容转化为高效解决方案,能够智能选择思考模式,兼顾效率与创意;逻辑推理也出色。

架构
Kwai Keye Architecture
和经典MLLM架构类似,由ViT+MLP+LLM组成。视觉侧有两点创新:

  1. 具有原生分辨率的视觉编码器

MLLMs使用预训练的固定分辨率ViT作为视觉编码器。然而,这些ViT通常是为处理粗粒度的图像-文本匹配任务而设计的,而MLLMs需要处理更细粒度的生成任务。因此,Kwai Keye-VL模型实现一个原生分辨率的ViT,以自然地处理原始分辨率的图像,避免复杂的图像拼接或分割操作。Kwai Keye-VL的ViT是基于SigLIP-400M-384-14进行初始化。为保持图像的结构完整性和细节,采用插值技术将固定的位置嵌入扩展为自适应分辨率的位置嵌入,并引入二维旋转位置嵌入(RoPE)来增强视觉信息的建模能力。

  1. 视觉编码

为确保语言解码器能够充分感知和理解图像和视频中的视觉信号,模型为图像和视频建模保留足够的token缓冲区。

对于不同分辨率的图像,每个图像的总token数设置为16384,这足以覆盖超过一百万像素的图像,并帮助模型在大多数情况下看到图像的细节。对于视频建模,模型设计一种动态分辨率策略,平衡最大帧数和总token数。

预训练

  • 训练数据概述:使用超过600B token,来源包括公共数据集和专有的内部数据。训练数据主要涵盖六个类别:图像字幕、OCR和VQA、定位和计数、交错文本-图像、视频理解和纯文本数据。
  • 预训练管道:采用四阶段渐进式训练策略
    在这里插入图片描述
    • 阶段0:视觉预训练,预训练视觉编码器,以使其适应内部数据分布并支持动态分辨率;
    • 阶段1:跨模态对齐,从Qwen3-8B初始化,视觉和语言模型的参数被冻结,专注于优化投影MLP层。通过大规模数据集建立跨模态特征的强对齐,为后续学习阶段奠定基础;
    • 阶段2:多任务预训练。解冻所有模型参数,进行端到端优化,使用多样化的多任务训练数据。数据涵盖常见的视觉-语言任务,如图像字幕、OCR、定位、VQA和交错图像-文本数据,显著增强模型的基本视觉理解能力。
    • 阶段3:退火,在精选高质量数据上进行微调,目标是解决在大规模训练中缺乏高质量样本暴露的问题。通过优化的学习策略和数据混合,进一步细化模型的细微理解能力。
    • 模型合并,最后阶段,探索同质-异质合并技术,通过平均不同数据混合的模型权重,减少整体偏差并增强模型鲁棒性。

后训练
Kwai Keye Post-Training

分为两个阶段,训练模型的综合能力。初始阶段专注于建立自然图像理解和文本交互的基础性能,后续阶段则集中于逐步增强模型的复杂推理能力。

1、无推理训练:建立基础性能

通过两个连续步骤建立模型在非推理场景中的核心性能和稳定性。由SFT+MPO两步骤构成,

1.1、SFT

SFT数据候选池包含超过500万个多模态QA样本。为确保任务的多样性和数据的质量,采取以下方法:

  • 任务多样性:使用TaskGalaxy框架,将数据分类为7w种不同的多模态任务类型。
  • 数据挑战性:通过MLLMs生成多个推理路径,测量每个样本的复杂性,过滤过于简单的样本。
  • 数据可靠性:人类注释者为训练集中的图像和视频精心制作字幕。

训练策略包括动态学习率,并在训练后期进行退火处理,以提高性能。

1.2、混合偏好优化(MPO)
在SFT之后,模型通过MPO进一步优化其性能。数据集包括开源样本、重建偏好样本、自我改进样本、仅文本样本和人类注释样本。MPO算法用于优化模型在非推理环境中的整体性能。

2、推理训练:复杂认知
Kwai Keye Post-Training

通过引入混合模式的CoT冷启动和强化学习机制,显著增强模型的多模态感知、推理和思考与图像能力。分三步:

  • CoT冷启动:初始化模型的链式思维能力,结合长CoT数据和指示性数据,促进复杂问题的结构化思考,同时保持开放任务的风格多样性和响应灵活性。
  • 混合模式RL:在CoT冷启动的基础上,使用RL进一步增强模型的能力,特别是在多模态感知、推理和数学推理方面。通过GRPO算法,模型在短视视频理解等任务上表现出显著的性能提升。
  • 迭代对齐:用于解决重复崩溃和逻辑错误问题。使用拒绝采样数据,通过多轮迭代优化模型,使其能够根据任务难度自动选择合适的推理模式。

汇总

阶段 子阶段 数据集组成 数据类型 数据来源和构建方法
无推理训练:建立基础性能 SFT 超过500万个多模态QA样本 多样化的任务类型,包括复杂的推理路径 使用TaskGalaxy框架分类为7w种不同的多模态任务类型;通过MLLMs生成多个推理路径,过滤过于简单的样本;人类注释者为图像和视频制作字幕
MPO 40w个开源样本、5w个重建偏好样本、1w个自我改进样本、9w个仅文本样本、3w个人类注释样本 开源数据、重建偏好数据、自我改进数据、仅文本数据和人类注释数据 - 开源数据进行简单去重和过滤,保留40w个样本
- 重建偏好数据:使用现有多模态偏好数据集(如MM-RLHF),并使用开源LLM生成高质量负例
- 强化微调(RFT)数据:针对SFT模型的弱点构建偏好对
- 仅文本数据:包括9w个内部仅文本偏好对
- 人类注释数据:使用MM-RLHF流程生成3w个人类注释偏好对
推理训练:复杂认知的核心突破 CoT冷启动 33w个非推理样本、23w个推理样本、2w个自动推理样本、10w个代理推理样本 长CoT数据和指示性数据,结合推理和非推理数据 结合长CoT数据和指示性数据,促进复杂问题的结构化思考
混合模式RL 多模态感知和推理数据、基于文本的数学推理数据、代理推理数据 MMPR、MM-Eureka等数据集,DeepEyes数据集中的4.7w个样本 使用MMPR、MM-Eureka等数据集,以及DeepEyes数据集中的样本,通过GRPO算法增强模型的能力
迭代对齐 来自指令跟随、OCR、数学、图表、计数、仅文本内容、安全和认知领域的拒绝采样数据 拒绝采样数据,用于选择“好案例”和“坏案例” 通过多轮迭代,选择“好案例”和“坏案例”来构建偏好对,使用MPO算法更新模型

KwaiAgents

论文,联合哈工大开源(GitHub,1.2K Star,117 Fork)智能体框架。

开源内容包含:

  • 系统(KAgentSys-Lite):轻量级Agents系统,并配备事实、时效性工具集;
  • 模型(KAgentLMs):Meta-Agent Tuning后,具有Agents通用能力的系列大模型及其训练数据;
  • KAgentInstruct:超过20w(部分人工编辑)的Agent相关的指令微调数据;
  • 评测(KAgentBench):开箱即用的Agent能力自动化评测Benchmark与人工评测结果。

在这里插入图片描述
KAgentSys系统,基于LLM作为认知内核,配以记忆机制、工具库,形成的迭代式自动化系统。其主要包含:

  • 记忆机制:包含知识库、对话、任务历史三类记忆,依托于混合向量检索、关键词检索等技术的检索框架,在每一次规划路径中检索所需的信息;
  • 工具集:包含事实性增强工具集,异构的搜索和浏览机制能够汇集网页、文本百科、视频百科等多个来源的知识;包含日历、节日、时间差、天气等常见的时效性增强工具集;
  • 自动化Loop:在一轮对话中,用户会给予一个问题,可选知识库及额外人设整体进行输入,系统会先进行记忆的更新和检索,再调用大模型进行任务的规划,如果需要调用工具则进行调用,如果不用则进入总结阶段,大模型综合历史的信息给出符合预期的回答。

Thyme

论文官网GitHubHuggingFace

主要贡献

  1. 提出一个全新的多模态交互范式Thyme
    • 核心思想:让MLLM不再局限于被动地看图,而是能够主动地通过生成并执行代码,来调用各种工具完成复杂的图像处理和数学计算;
    • 功能丰富:模型可以即时进行裁剪、旋转、缩放、对比度增强等多种图像操作,还能处理复杂的数学问题;
    • 高度自主:模型能自主判断何时需要使用工具、使用何种工具,并动态生成代码来执行,无需人工为特定任务进行干预。
  2. 设计一套高效的两阶段训练策略SFT+RL
    • SFT:利用精心构建的约50万条高质量样本数据集,快速教会模型生成代码来执行各种操作。这个阶段仅需约200 GPU小时,性价比极高;
    • RL:在SFT基础上,通过RL进一步优化模型的决策能力。为解决RL阶段的挑战,研究者还:
      • 构建高质量RL数据集:手动收集和标注1万张高分辨率、高难度的图像问答对,以增强模型在复杂场景下的感知能力;
      • 提出创新的RL算法GRPO-ATS:能为文本生成和代码生成设置不同的采样温度。为文本使用较高温度以鼓励探索和创造性,为代码使用极低温度(0.0)以确保生成代码的精确性和可执行性,巧妙地平衡推理灵活性和代码稳定性。
  3. 构建并开源完整的配套资源
    • 高质量数据集:开源用于SFT和RL阶段的全部数据集,包括超过400万的原始数据源和精心筛选标注的数据;
    • 安全的沙箱环境:开发一个可以安全执行模型生成的代码并返回结果的沙箱。还简化代码生成难度,能自动处理格式、变量定义等问题,提高代码可用性。

案例:

  • 裁剪+放大:定位细节
  • 对比度增强:可用于OCR任务,按需增强图像对比度,让需要识别的文字更加清晰
  • 图像旋转:OCR识别时,可自动发现输入图像的方向不正确,进而旋转图像
  • 复杂计算:图文混合

架构

整体流程主要由两个组件构成:模型和沙盒

  1. 模型接收用户输入问题,输出推理思路;
  2. 模型判断问题复杂度,决定是否生成Python代码执行图像处理或计算任务;
  3. 若无需代码(简单问题或先前代码已解决),直接输出答案;
  4. 如果需要生成代码,模型将自主生成代码。训练数据涵盖几种类型的图像操作,如裁剪、缩放、旋转、对比度增强和计算。生成代码后,交付给外部沙箱安全执行,其主要功能是安全地处理输入代码并返回执行结果,沙箱负责格式校验、参数调整、错误修正等处理。
  5. 最后,沙箱返回执行结果(图像或数值),模型基于结果继续推理,多轮交互直至输出最终答案。
    图片

沙盒需要做的一些事情,主要包括一些自动纠错机制,尽量保证代码可用性

  • 使用autopep8模块格式化代码,统一缩进和风格;
  • 利用ast解析代码变量,自动调整图像裁剪坐标边界,避免越界错误;
  • 预置必要变量及模块导入(如cv2image_path),保证环境一致;
  • 记录代码分段变量依赖,解决多段代码执行时上下文丢失问题。

SFT

首先,从现有数据集中采集样本,并根据目标函数(如裁剪、旋转等)构建提示。模型根据提示生成思考过程和对应代码。代码随后在沙盒环境中执行,以过滤掉运行不正常的样本。剩余样本由另一个MLLM进行审核,验证代码执行结果是否与思考过程一致,并有效回答问题,从而剔除无效代码样本。最后,进行人工审核以移除低质量样本,确保冷启动数据集的质量。

SFT主要构造三类任务:

  • 无需代码直接答复:简单问题直接回答,训练模型判定是否需要代码生成;
  • 基于代码的图像操作和计算:包含裁剪、旋转、对比度增强、数学计算等;
  • 多轮交互数据:针对图像操作失败的错误修正、连续增强等多轮迭代任务。

对代码生成样本进行严格执行与语义审核,剔除不执行或执行结果错误的代码片段,提高训练样本有效性。手工构建多轮对话数据,教会模型基于上一轮代码执行结果调整策略,具备错误纠正能力。

训练策略

训练过程模型基于输入图片(I)和问题(Q)生成推理流程(T)及可选代码©,通过沙箱执行代码获得结果(S),多轮循环迭代直到生成最终答案(a):

图片
t t t表示样本的最大交互轮数。

在训练过程中遇到的几个挑战:

  • 两轮对话数据的特殊性,出现一些意想不到的模式:模型在第一轮倾向于生成错误或不充分的分析和代码,然后在第二轮进行修正,使得第一轮基本上无效。
  • 数学数据相对于图像处理数据的数量相对较少;在联合训练时,模型几乎无法学习生成与计算相关的代码。

使用SFT策略保证多种功能能被成功激活:

  • 强制模型仅学习输出最终一轮的有效推理和代码,早期输出轮次内容被遮蔽,避免模型过度依赖第二轮纠正;
  • 训练时排除沙箱执行输出标签,防止模型直接模仿沙箱结果,提高推理过程质量;
  • 对数学计算数据采用退火训练策略:初始阶段训练图像操作数据,再用较低学习率微调数学推理数据,避免数据不均衡问题。

RL

除了从开源数据进行搜集和筛选外,额外补充10k的人工标注数据,标注任务包括OCR、属性识别、数量识别等,要求模型能够从高分辨率图像中提取细节信息并正确回答相关问题,增强感知难度。

训练策略 GRPO-ATS

格式化奖励:模型输出需要严格遵循特定结构,由标签和标签包围。这鼓励模型在生成最终答案前明确进行推理,提高可解释性。采用on policy的GRPO。

奖励函数包括:

  • 结果奖励:比较模型输出与地面真值答案的匹配程度,确保模型输出的正确性;
  • 一致性奖励:检查推理过程是否与最终答案一致,以确保推理步骤的合理性;
  • 格式奖励:确保输出符合严格的结构规范,增强推理过程的可解释性。

适应性温度采样

温度调整:对于代码生成任务,如图像处理和计算任务,使用低温度( τ = 0 τ=0 τ=0)进行采样,以确保代码生成过程的准确性和一致性。对于推理过程,使用较高温度( τ = 1 τ=1 τ=1)来鼓励模型探索更多的解决方案。有效避免模型在生成代码时的过度多样化问题,提高代码生成的稳定性,并使得推理过程更加灵活多样。

采样优化:

  • 为了减少计算资源浪费,运用Rabin-Karp滚动哈希算法检测过多重复内容;当重复子串长度超过输出长度50%,立即判定为重复并提前终止当前轨迹采样,有效避免资源浪费;
  • 在训练中还强制限制最大对话轮次,避免模型陷入无意义的循环,提高训练效率。

测评

在测试时的扩展策略对感知任务十分有效。

在推理任务中,通过将复杂的计算转化为可执行代码,推理能力上取得显著提升。然而,在这一领域,模型规模的扩展带来的优势更为显著,表明推理和逻辑推理能力主要依赖于模型本身的知识量。

感知与推理能力的提升,在许多通用任务中取得显著进展,尤其是在减少幻觉现象方面。

KwaiYii

中文名:快意,AI团队开源(GitHub,230 Star,5 Fork,即官方文档)从零到一独立自主研发的一系列LLM,包括预训练模型和对话模型。

官方文档(但在HF或MS搜不到):

  • KwaiYii-13B-Base:预训练模型,具备优异的通用技术底座能力
  • KwaiYii-13B-Chat:对话模型,具备出色的语言理解和生成能力

多个权威Benchmark结果表明KwaiYii-13B模型在各领域具备领先水平。

有个测试地址,https://kuaiyi-test.kuaishou.com,无注册按钮,疑似内部使用。

KAT-V1

论文,Kwaipilot团队发布自动思考AutoThink大模型,融合思考与非思考能力,可根据问题难度自动切换思考形态。

提供两个版本:

  • 40B:自动思考模式下,性能可追平DeepSeek-R1-0528(参数量为6850亿);
  • 200B:未开源,在多项基准测试中超过Qwen、DeepSeek和Llama三大开源模型家族中的旗舰模型。

多一个Judge过程,用来分析输入以决定是否需要思考:
在这里插入图片描述

KAT-Coder

项目主页

KAT-Coder模型强化学习的实验版本,基于快手自研SeamlessFlow工业级RL框架,通过创新数据平面架构实现训练逻辑与Agent完全解耦,成功支持多智能体和在线强化学习等复杂场景。

可通过StreamLake平台提供API调用。

在传统大模型Agent训练中,由于模型在执行任务时会产生包含分支与回溯的树状Token轨迹,业界普遍采用拆分为多条线性序列的简化训练方案。然而,这种方法忽略轨迹之间的共享结构,容易造成计算冗余。

团队重新设计训练引擎与注意力内核,并通过树形梯度修复权重机制,将共享前缀的正反向计算合并,实现在树形轨迹上的高效训练。

技术创新

  • Trie Packing:通过重新设计训练引擎与注意力内核,以及树形梯度修复权重机制,将共享前缀的正反向计算合并,实现在树形轨迹上的高效训练,训练速度平均提升2.5倍,大幅增加RL训练的吞吐量。
  • 熵感知优势缩放:对每个rollout样本计算策略熵(Policy Entropy),并将其归一化后用作优势的放大系数,对高熵样本(探索性强)放大优势,对低熵样本(确定性强)适度抑制。在保留GRPO组内优化结构的同时有效增强策略探索性,改善RL训练过程中探索-利用的平衡。

开源模型:

CodeFlicker

官网,快手推出的AI IDE。

感兴趣,可参考AI辅助编程系列:

SeamlessFlow

论文

技术创新:

  • 引入独立数据平面层,其核心是轨迹管理器(Trajectory Manager),彻底解耦RL训练和智能体实现。轨迹管理器在智能体与语言模型服务之间静默记录所有交互细节,包括输入输出及多轮对话的分支结构,从而构建完整轨迹树。不仅避免重复计算、提升存储效率,还支持精确的在线与离线策略区分。
  • 推理管理器(Rollout Manager),实现对模型更新与资源调度的无感控制,使得智能体无需适配训练框架即可实现任务的无缝暂停与恢复,大幅提升系统灵活性与训练效率。
  • 标签驱动的资源调度范式,通过为计算资源赋予如训练或推理等能力标签,统一集中式(Colocated)与分布式架构(Disaggregated)的资源管理模式。持时空复用机制,使得具备多标签的机器可根据任务需求动态切换角色,将GPU闲置率降至5%以下,彻底缓解传统架构中的流水线空闲问题。

HiPO

论文

系列模型包括:

在这里插入图片描述

VANS

论文GitHub项目主页HF

UniSearch

论文

直播搜索是快手重要的搜索流量来源,也是短视频应用场景中的新业务领域,为应对直播业务场景高时效性要求的挑战,快手搜索技术团队设计了统一的生成式搜索架构,提升用户体验并优化搜索效率。

架构

与以往依赖多阶段模型的级联系统不同,采用统一架构,在同一框架内完成端到端训练与推理,消除各阶段目标之间的不一致性,降低系统复杂度。
在这里插入图片描述
UniTouch建模:真端到端
在这里插入图片描述
先前的生成式搜推模型(如OneRec)采用两阶段训练,item离散化表示和item生成任务,这会导致两阶段目标不一致。为此,设计真端到端训练架构UniSearch,将Search Generator和Video Encoder统一到一个训练框架。

Search Generator采用Encoder-Decoder架构,输入为搜索词、用户特征序列等。使用<cls>来表征query侧整体语义向量。Decoder侧自回归地预测出视频的语义ID。

Video Encoder,为每个视频学习潜在embedding表示和语义ID。Encoder的输入为视频侧特征,输出为Learnable Token对应的语义序列表征。同时Video Encoder有一个用于离散化的VQ Codebook,用于将连续的Embedding转化为语义ID。

通过联训Search Generator和Video Encoder,UniSearch能够缓解item生成和item表征之间的鸿沟,实现整个生成搜索框架的统一与连贯性。

离线训练:残差渐进式
在这里插入图片描述

UniDex

论文

参考

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐