13.6B参数铸就“世界模型”,美团LongCat-Video实现5分钟原生视频生成,定义AI视频新标杆
近日,美团发布了一款名为LongCat-Video的AI视频生成模型,以其原生支持5分钟720p长视频生成的能力,迅速在行业内引起广泛关注。与多数侧重于风格化生成的模型不同,LongCat-Video将自己定位为更具深度的“世界模型”。它不仅在学习生成画面,更在尝试理解真实世界的动态规律——从滑板运动的物理轨迹,到人物表情的自然变化,都展现出对因果关系的捕捉能力。这一突破性进展,得益于其独特的“视
近日,美团发布了一款名为LongCat-Video的AI视频生成模型,以其原生支持5分钟720p长视频生成的能力,迅速在行业内引起广泛关注。
与多数侧重于风格化生成的模型不同,LongCat-Video将自己定位为更具深度的“世界模型”。它不仅在学习生成画面,更在尝试理解真实世界的动态规律——从滑板运动的物理轨迹,到人物表情的自然变化,都展现出对因果关系的捕捉能力。
这一突破性进展,得益于其独特的“视频续写”预训练方式。模型通过观看“连续剧”般的长序列数据,学会了预测后续内容。结合高效的块因果注意力机制,它在保证长时间连贯性的同时,将生成速度提升了10倍,为实现真正可用的AI视频创作奠定了坚实基础。
美团的此番布局,意图深远。LongCat-Video不仅是内容生成工具,更是其利用AI模拟现实业务场景(如外卖配送、交通预测)的战略基石,标志着美团在探索通用人工智能的道路上迈出了关键一步。

核心亮点
1. 统一模型架构:多任务一体化视频生成基座
LongCat-Video 基于 Diffusion Transformer(DiT)架构构建,创新性地通过“条件帧数量”自动区分生成任务:
-
文生视频:无需条件帧,直接根据文本生成视频;
-
图生视频:输入1帧参考图像,实现视觉内容延续;
-
视频续写:基于多帧前序视频进行连贯续写。
该设计将三大核心任务整合于单一模型中,无需额外适配模块,形成完整的“文-图-视频”生成闭环,在语义理解、内容一致性与动态自然度方面均达到开源SOTA水平。

2. 长视频生成能力:原生支持5分钟级连贯输出
通过视频续写任务的预训练、Block-Causal Attention 机制与GRPO后训练策略,模型能够稳定生成长达5分钟的高清内容(720p/30fps),且在时序一致性、运动合理性方面表现优异,有效规避色彩漂移、画质退化、动作断裂等常见问题。
为提升长序列生成效率,模型引入块稀疏注意力(BSA)与条件Token缓存机制,显著减少冗余计算,即便处理93帧以上长视频仍能保持生成质量与推理速度的平衡,满足数字人、具身智能等长时序模拟场景的需求。
3. 高效推理机制:三重优化实现10倍加速
针对高分辨率视频生成的计算挑战,LongCat-Video 采用三项关键技术实现推理速度的显著提升:
-
二阶段粗到精生成(C2F):先生成480p/15fps基础视频,再通过LoRA模块进行超分与帧率提升,兼顾效率与细节还原;
-
块稀疏注意力(BSA):对视觉Token进行分块筛选,仅对关键块进行注意力计算,将计算量压缩至标准注意力的10%以下;
-
模型蒸馏优化:通过蒸馏技术进一步压缩模型规模,提升推理速度。

模型评测
LongCat-Video 在模型评估方面构建了完整的评测体系,涵盖内部基准测试与公开基准测试,围绕文本生成视频(Text-to-Video)与图像生成视频(Image-to-Video)两大核心任务,从以下五个维度进行全面验证:
-
文本对齐度(文本指令遵循能力)
-
图像对齐度(参考图像内容一致性)
-
视觉质量(画面清晰度与真实性)
-
运动质量(动作自然性与连贯性)
-
整体质量(综合观感评分)

评估结果表明,LongCat-Video 在多项关键指标上表现优异,综合性能达到当前开源视频生成模型的领先水平(SOTA),具体体现为:
-
通用性能卓越
作为拥有136亿参数的视频生成基座模型,LongCat-Video 在文生视频、图生视频任务中均展现出强大的综合能力,在文本对齐度、运动连贯性等关键指标上具备显著优势。
-
公开基准测试表现突出
在 VBench 等权威公开评测基准中,LongCat-Video 在参评模型中整体成绩优异,验证了其在不同场景下的鲁棒性与生成质量。
-
多维度质量均衡提升
模型在语义理解、视觉细节、动态合理性等维度实现均衡优化,能够生成内容一致、画面稳定、动作自然的高质量视频内容。

社区地址
OpenCSG社区:https://opencsg.com/models/AIWizards/LongCat-Video
hf社区:https://huggingface.co/meituan-longcat/LongCat-Video
关于 OpenCSG
OpenCSG 是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps是人工智能领域的一种AI原生方法论,由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

更多推荐


所有评论(0)