在这里插入图片描述
论文地址:https://ar5iv.labs.arxiv.org/html/2509.01563
github:https://github.com/Kwai-Keye/Keye
模型地址:https://huggingface.co/Kwai-Keye
开源时间:2025年9月7日

Keye-VL-1.5,通过三项关键创新解决视频理解的根本挑战。首先,引入了一种新的慢速-快速视频编码策略,基于帧间相似性动态分配计算资源,在更高分辨率下处理具有显著视觉变化的关键帧(慢速路径),同时在较低分辨率下处理相对静态但时间覆盖范围更大的帧(快速路径)。其次,我们实施了渐进式四阶段预训练方法,系统地将模型的上下文长度从8K字扩展到128K字,从而支持更长视频和更复杂的视觉内容处理。第三,我们开发了全面的培训后流程,重点关注推理增强和人类偏好对齐,包含五步思维链数据构建流程、基于GSPO的迭代强化学习,针对困难案例提供渐进式提示,以及对齐训练。
在这里插入图片描述

一、论文创新点

1. 模型结构

KwaiKeye-VL-1.5模型架构基于Qwen3-8B语言模型,并整合了源自开源SigLIP的视觉编码器。该模型支持SlowFast视频编码和原生动态分辨率,通过将图像分割为14x14的块序列来保持原始宽高比。随后,简单的 MLP 层对视觉标记进行映射和融合。模型采用3D RoPE技术对文本、图像和视频信息进行统一处理。
在这里插入图片描述

  • 视觉编码器:基于SigLIP-400M-384-14初始化,融合1D插值与2D旋转位置编码(RoPE),采用NaViT打包与FlashAttention技术,支持原生动态分辨率处理,无需复杂图像拼接/分割操作。
  • 跨模态投影层:随机初始化的MLP层,通过预训练阶段完成视觉特征与语言模型(Qwen3-8B)的对齐映射。
  • 语言解码器:基于Qwen3-8B构建,引入3D RoPE实现文本、图像、视频信息的统一处理,支持128K超长上下文序列。
  • Slow-Fast视频编码模块:双路径设计,通过补丁相似度函数(95%阈值)区分关键帧与静态帧,动态分配分辨率与时间覆盖资源。
    在这里插入图片描述

2. 核心创新点

  • 自适应视频编码:慢通道高分辨率处理视觉变化帧,快通道低分辨率覆盖静态帧,搭配时间戳令牌优化时序感知,解决空间分辨率与时间覆盖的权衡问题。
  • 渐进式上下文扩展:预训练阶段从8K逐步扩展至128K令牌,结合 annealing 策略,确保长序列训练稳定性与能力迁移。
  • 长链思维冷启动机制:五步法自动化构建高质量推理数据,融合OCR、数学等领域专家模型,快速提升复杂推理能力。
  • 迭代式强化学习框架:采用GSPO算法,结合五级渐进式提示采样(概念→策略→工具→步骤→完整解决方案),高效利用难题样本优化模型。
  • 三重奖励对齐系统:规则型(格式合规)、生成型(内容匹配)、模型型(人类偏好)奖励协同,提升指令遵循与用户体验。

二、训练过程

1. 数据处理过程

  • 数据过滤:公开数据采用CLIP分数过滤(图像-文本对相似度≥0.9),低质量数据通过重描述重构;内部数据经人工标注与质量校验。
  • 去重与去噪:图像级去重避免数据泄露,注入“陷阱问题”(非-existent/矛盾问题)减少文本先验依赖。
  • 数据增强:多格式数据重构(如「图像+描述+问答」「图像+问答+描述」)、中文OCR数据合成(字体渲染、背景多样化)、视频帧级OCR标注与时序事件提取。
  • 数据分配:128K上下文下,视频令牌占24%、图像占50%、文本占26%,平衡多模态能力。

2. 训练数据配置

  • 数据规模:超1万亿令牌,涵盖六大核心类别:
    • 图像描述数据:LAION、DataComp等公开数据+内部重描述数据,支持多轮问答扩展。
    • OCR&VQA数据:Latex公式、手写文本、中文结构化文档等,含13类指令型OCR任务。
    • 目标定位&计数数据:RefCoCo、VisualGenome等,支持中心点、边界框、多边形三种定位格式。
    • 交错文本-图像数据:学术PDF、STEM结构化数据,保留文本-图像原始位置关系。
    • 视频数据:开源数据集+快手内部短视频,含ASR对齐、帧重排、多视频匹配等任务。
    • 纯文本数据:补充通用语义知识,保障LLM核心能力不退化。
      在这里插入图片描述

3. 训练步骤

(1)预训练四阶段
  1. 阶段0(视觉编码器预训练):基于SigLIP损失函数优化,扩展动态分辨率适配能力,训练数据含500B令牌。
  2. 阶段1(跨模态对齐):冻结ViT与LLM参数,仅训练MLP投影层,建立视觉-语言特征映射。
  3. 阶段2(多任务预训练):解冻全参数,训练图像描述、OCR、定位等任务,提升基础视觉理解能力。
  4. 阶段3(退火与上下文扩展):扩展序列长度至128K,采用Zero-1优化与上下文并行策略,融合高-quality长模态数据。
    在这里插入图片描述
(2)后训练三阶段

训练后的流程包含非推理阶段和推理阶段。非推理阶段由 SFT 和MPO训练组成。推理阶段包含三个关键步骤:CoT冷启动(构建五步构建流程生成高质量CoT冷启动数据集,并通过模型融合优化模型性能)、通用强化学习(我们专注于提升Keye-VL-1.5的推理能力,应用 GSPO 提出渐进式提示采样方法充分利用难题,迭代改进冷启动和通用强化学习模型)、以及对齐强化学习(通过奖励系统提升Keye-VL-1.5的指令遵循、格式遵循、偏好对齐和RAG能力,本阶段构建指令遵循数据、推理数据和RAG数据用于强化学习训练)。
在这里插入图片描述

  1. 非推理阶段:SFT(750万+多模态QA样本)+ MPO(42万偏好样本),优化基础任务表现。

  2. 推理阶段:LongCoT冷启动(构建高质量推理数据+专家模型融合)→ 迭代式通用RL(GSPO算法+渐进式提示采样)。基于五步自动化LongCoT数据生成流程的概述。该流程首先通过(a)使用多语言语言模型(MLLMs)从数据池和提示池中采样,生成思考过程和logit信息;随后(b)采用 MLLM 作为评判标准,通过分步评分评估结果和推理过程;(c)将数据分为三个质量等级(A:高质量,B:需人工审核的中等质量,C:低质量需舍弃);(d)对B类样本及疑似冗余的A类样本进行人工增强;(e)最终通过动态质量评分(1-5分制)的 MLLM 审查,确定最优数据利用策略。这种全面的方法确保了训练数据生成的可扩展性与质量控制。
    在这里插入图片描述

  3. 对齐阶段:对齐RL训练,优化指令遵循、格式合规、偏好对齐,采用三重奖励系统。

4. 消融实验

实验对象 核心结论
SFT、MPO与LongCoT冷启动 增加SFT数据量提升推理与OCR能力;MPO偏好数据优化整体表现;LongCoT冷启动对数学推理提升最显著
专家模型与模型融合 OCR专家模型平均得分83.65,融合后达84.51,显著提升TextVQA(83.40 vs 75.57)、ChartQA表现
对齐强化学习 较预览版,指令遵循任务平均提升4-6分,数学推理平均提升2-4分,Think/No-Think模式均有效
渐进式提示采样 无提示时难题错误率25.56%,Level 5提示错误率0.20%,Level 3(工具/公式)提示性价比最优
拒绝采样影响 迭代SFT-RL-(RFT-SFT)-(RFT-RL)策略,OpenCompass得分从75.32提升至76.33,数学基准平均提升1.87

三、核心性能表现(图表关键数据)

1. 公共基准测试(表3核心数据)

任务类别 基准名称 Keye-VL-1.5 得分 对比模型(Qwen2.5-VL-7B) 对比模型(MiMo-VL-7B-RL)
通用多模态 OpenCompass 79.5 70.9 75.2
通用多模态 MMMU(val) 71.4 58.6 69.4
通用多模态 MMBench 92.0 82.2 86.8
通用多模态 MMStar 80.5 64.9 73.7
视频理解 Video-MME(无子集) 73.0 65.1 68.9
视频理解 Video-MMMU 66.0 47.4 59.5
视频理解 TempCompass 75.5 68.3 -
视频理解 LongVideoBench 66.0 59.3 64.9
数学推理 MathVista(MINI) 81.2 66.8 79.0
数学推理 WeMath 67.5 37.7 65.2
OCR任务 OCRBench 86.6 89.7 82.2

2. 内部基准测试(表4、表5核心数据)

评估维度 Keye-VL-1.5 得分 MiMoVL-7B-RL-2508 得分 较Keye-VL-Preview 提升
综合得分 3.53 3.40 +0.51
正确性 3.73 3.54 +0.57
完整性 4.62 4.63 +0.25
相关性 4.85 4.93 +0.11
推理能力 3.81 3.56 +1.00
时序信息理解 3.36 3.18 +0.77
鲁棒性 4.29 3.46 +0.41
领域专业性 3.68 3.68 +0.91

3. 关键对比图表结论

  • 图7(VideoMME对比):Keye-VL-1.5在不同帧数(32-768)、FPS(1-4)和视频长度下表现更稳定,高帧数(≥384)时优势显著。
    在这里插入图片描述

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐