论文简读：Kwai Keye-VL-1.5 技术报告总结简版

万里鹏程转瞬至

409人浏览 · 2025-12-28 22:41:41

万里鹏程转瞬至 · 2025-12-28 22:41:41 发布

在这里插入图片描述
论文地址：https://ar5iv.labs.arxiv.org/html/2509.01563
github：https://github.com/Kwai-Keye/Keye
模型地址：https://huggingface.co/Kwai-Keye
开源时间：2025年9月7日

Keye-VL-1.5，通过三项关键创新解决视频理解的根本挑战。首先，引入了一种新的慢速-快速视频编码策略，基于帧间相似性动态分配计算资源，在更高分辨率下处理具有显著视觉变化的关键帧（慢速路径），同时在较低分辨率下处理相对静态但时间覆盖范围更大的帧（快速路径）。其次，我们实施了渐进式四阶段预训练方法，系统地将模型的上下文长度从8K字扩展到128K字，从而支持更长视频和更复杂的视觉内容处理。第三，我们开发了全面的培训后流程，重点关注推理增强和人类偏好对齐，包含五步思维链数据构建流程、基于GSPO的迭代强化学习，针对困难案例提供渐进式提示，以及对齐训练。
在这里插入图片描述

一、论文创新点

1. 模型结构

KwaiKeye-VL-1.5模型架构基于Qwen3-8B语言模型，并整合了源自开源SigLIP的视觉编码器。该模型支持SlowFast视频编码和原生动态分辨率，通过将图像分割为14x14的块序列来保持原始宽高比。随后，简单的 MLP 层对视觉标记进行映射和融合。模型采用3D RoPE技术对文本、图像和视频信息进行统一处理。
在这里插入图片描述

视觉编码器：基于SigLIP-400M-384-14初始化，融合1D插值与2D旋转位置编码（RoPE），采用NaViT打包与FlashAttention技术，支持原生动态分辨率处理，无需复杂图像拼接/分割操作。
跨模态投影层：随机初始化的MLP层，通过预训练阶段完成视觉特征与语言模型（Qwen3-8B）的对齐映射。
语言解码器：基于Qwen3-8B构建，引入3D RoPE实现文本、图像、视频信息的统一处理，支持128K超长上下文序列。
Slow-Fast视频编码模块：双路径设计，通过补丁相似度函数（95%阈值）区分关键帧与静态帧，动态分配分辨率与时间覆盖资源。

2. 核心创新点

自适应视频编码：慢通道高分辨率处理视觉变化帧，快通道低分辨率覆盖静态帧，搭配时间戳令牌优化时序感知，解决空间分辨率与时间覆盖的权衡问题。
渐进式上下文扩展：预训练阶段从8K逐步扩展至128K令牌，结合 annealing 策略，确保长序列训练稳定性与能力迁移。
长链思维冷启动机制：五步法自动化构建高质量推理数据，融合OCR、数学等领域专家模型，快速提升复杂推理能力。
迭代式强化学习框架：采用GSPO算法，结合五级渐进式提示采样（概念→策略→工具→步骤→完整解决方案），高效利用难题样本优化模型。
三重奖励对齐系统：规则型（格式合规）、生成型（内容匹配）、模型型（人类偏好）奖励协同，提升指令遵循与用户体验。

二、训练过程

1. 数据处理过程

数据过滤：公开数据采用CLIP分数过滤（图像-文本对相似度≥0.9），低质量数据通过重描述重构；内部数据经人工标注与质量校验。
去重与去噪：图像级去重避免数据泄露，注入“陷阱问题”（非-existent/矛盾问题）减少文本先验依赖。
数据增强：多格式数据重构（如「图像+描述+问答」「图像+问答+描述」）、中文OCR数据合成（字体渲染、背景多样化）、视频帧级OCR标注与时序事件提取。
数据分配：128K上下文下，视频令牌占24%、图像占50%、文本占26%，平衡多模态能力。

2. 训练数据配置

数据规模：超1万亿令牌，涵盖六大核心类别：
- 图像描述数据：LAION、DataComp等公开数据+内部重描述数据，支持多轮问答扩展。
- OCR&VQA数据：Latex公式、手写文本、中文结构化文档等，含13类指令型OCR任务。
- 目标定位&计数数据：RefCoCo、VisualGenome等，支持中心点、边界框、多边形三种定位格式。
- 交错文本-图像数据：学术PDF、STEM结构化数据，保留文本-图像原始位置关系。
- 视频数据：开源数据集+快手内部短视频，含ASR对齐、帧重排、多视频匹配等任务。
- 纯文本数据：补充通用语义知识，保障LLM核心能力不退化。

3. 训练步骤

（1）预训练四阶段

阶段0（视觉编码器预训练）：基于SigLIP损失函数优化，扩展动态分辨率适配能力，训练数据含500B令牌。
阶段1（跨模态对齐）：冻结ViT与LLM参数，仅训练MLP投影层，建立视觉-语言特征映射。
阶段2（多任务预训练）：解冻全参数，训练图像描述、OCR、定位等任务，提升基础视觉理解能力。
阶段3（退火与上下文扩展）：扩展序列长度至128K，采用Zero-1优化与上下文并行策略，融合高-quality长模态数据。

（2）后训练三阶段

训练后的流程包含非推理阶段和推理阶段。非推理阶段由 SFT 和MPO训练组成。推理阶段包含三个关键步骤：CoT冷启动（构建五步构建流程生成高质量CoT冷启动数据集，并通过模型融合优化模型性能）、通用强化学习（我们专注于提升Keye-VL-1.5的推理能力，应用 GSPO 提出渐进式提示采样方法充分利用难题，迭代改进冷启动和通用强化学习模型）、以及对齐强化学习（通过奖励系统提升Keye-VL-1.5的指令遵循、格式遵循、偏好对齐和RAG能力，本阶段构建指令遵循数据、推理数据和RAG数据用于强化学习训练）。
在这里插入图片描述

非推理阶段：SFT（750万+多模态QA样本）+ MPO（42万偏好样本），优化基础任务表现。
推理阶段：LongCoT冷启动（构建高质量推理数据+专家模型融合）→ 迭代式通用RL（GSPO算法+渐进式提示采样）。基于五步自动化LongCoT数据生成流程的概述。该流程首先通过(a)使用多语言语言模型（MLLMs）从数据池和提示池中采样，生成思考过程和logit信息；随后(b)采用 MLLM 作为评判标准，通过分步评分评估结果和推理过程；(c)将数据分为三个质量等级（A：高质量，B：需人工审核的中等质量，C：低质量需舍弃）；(d)对B类样本及疑似冗余的A类样本进行人工增强；(e)最终通过动态质量评分（1-5分制）的 MLLM 审查，确定最优数据利用策略。这种全面的方法确保了训练数据生成的可扩展性与质量控制。
对齐阶段：对齐RL训练，优化指令遵循、格式合规、偏好对齐，采用三重奖励系统。

4. 消融实验

实验对象	核心结论
SFT、MPO与LongCoT冷启动	增加SFT数据量提升推理与OCR能力；MPO偏好数据优化整体表现；LongCoT冷启动对数学推理提升最显著
专家模型与模型融合	OCR专家模型平均得分83.65，融合后达84.51，显著提升TextVQA（83.40 vs 75.57）、ChartQA表现
对齐强化学习	较预览版，指令遵循任务平均提升4-6分，数学推理平均提升2-4分，Think/No-Think模式均有效
渐进式提示采样	无提示时难题错误率25.56%，Level 5提示错误率0.20%，Level 3（工具/公式）提示性价比最优
拒绝采样影响	迭代SFT-RL-(RFT-SFT)-(RFT-RL)策略，OpenCompass得分从75.32提升至76.33，数学基准平均提升1.87

三、核心性能表现（图表关键数据）

1. 公共基准测试（表3核心数据）

任务类别	基准名称	Keye-VL-1.5 得分	对比模型（Qwen2.5-VL-7B）	对比模型（MiMo-VL-7B-RL）
通用多模态	OpenCompass	79.5	70.9	75.2
通用多模态	MMMU（val）	71.4	58.6	69.4
通用多模态	MMBench	92.0	82.2	86.8
通用多模态	MMStar	80.5	64.9	73.7
视频理解	Video-MME（无子集）	73.0	65.1	68.9
视频理解	Video-MMMU	66.0	47.4	59.5
视频理解	TempCompass	75.5	68.3	-
视频理解	LongVideoBench	66.0	59.3	64.9
数学推理	MathVista（MINI）	81.2	66.8	79.0
数学推理	WeMath	67.5	37.7	65.2
OCR任务	OCRBench	86.6	89.7	82.2

2. 内部基准测试（表4、表5核心数据）

评估维度	Keye-VL-1.5 得分	MiMoVL-7B-RL-2508 得分	较Keye-VL-Preview 提升
综合得分	3.53	3.40	+0.51
正确性	3.73	3.54	+0.57
完整性	4.62	4.63	+0.25
相关性	4.85	4.93	+0.11
推理能力	3.81	3.56	+1.00
时序信息理解	3.36	3.18	+0.77
鲁棒性	4.29	3.46	+0.41
领域专业性	3.68	3.68	+0.91

3. 关键对比图表结论

图7（VideoMME对比）：Keye-VL-1.5在不同帧数（32-768）、FPS（1-4）和视频长度下表现更稳定，高帧数（≥384）时优势显著。

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

企业AI Agent的因果推理在客户流失分析中的深度应用

在当今竞争激烈的商业环境中，客户是企业生存和发展的关键资源。客户流失问题一直是企业关注的焦点，因为失去客户不仅意味着直接的收入损失，还可能影响企业的声誉和市场份额。传统的客户流失分析方法主要基于相关性分析，只能发现变量之间的关联关系，但无法确定因果关系。而企业AI Agent的因果推理能够深入挖掘客户流失背后的真正原因，为企业制定针对性的营销策略和客户挽留措施提供有力支持。本文的范围涵盖了企业AI