从近期Kimi-Linear、LongCat-Video和Qwen-Next解读下一代大模型架构升级

近期Kimi-Linear、LongCat-Video和Qwen-Next都公开了技术报告和原始代码，共同点是他们都从架构上做了不小的升级，带来了超长tokens的处理能力和更快的推理性能。这篇博客就从近期Kimi-Linear、LongCat-Video和Qwen-Next解读下一代大模型架构升级。

沉迷单车的追风少年

809人浏览 · 2025-11-13 20:30:00

沉迷单车的追风少年 · 2025-11-13 20:30:00 发布

大模型技术博客汇总

前言：近期Kimi-Linear、LongCat-Video和Qwen-Next都公开了技术报告和原始代码，共同点是他们都从架构上做了不小的升级，带来了超长tokens的处理能力和更快的推理性能。这篇博客就从近期Kimi-Linear、LongCat-Video和Qwen-Next解读下一代大模型架构升级。

目录

从“全注意力”走向“混合线性

超高稀疏比的MoE

从“全注意力”走向“混合线性

现在全注意力遇到的问题：

KV-Cache 爆炸：对于 1M token 输入，即使 batch=1，KV-Cache 也会占据数十 GB 显存（例如：1M × 4096 × 2 × 2 bytes ≈ 32GB）。
注意力计算瓶颈：标准注意力的 QK^T 需 O(n²) 内存与计算，n=1M 时完全不可行。

Kimi-Linear

用 3:1 的“KDA-MLA”分层混合，75% 层采用线性复杂度的 Kimi-Delta-Attention（KDA），25% 层保留全局 MLA，保证长程信号不丢失的同时把 KV-Cache 砍掉 75%，1 M token 场景解码吞吐量提高 6 倍。

Qwen-Next

采用“GatedDeltaNet+GatedAttention”双通道：DeltaNet 用类 SSM 的线性递归记住“全书脉络”，GatedAttention 只聚焦关键局部，两层结果相加；既降低计算量，也保留高精度路由。

LongCat-Video

所有的attention层采用sparse attention，降低运算量。

这是因为视频生成场景下的注意力更加稀疏，所以使用sparse attention更具有价值。

趋势判断

纯 softmax 注意力将只在“关键少数”层出现，线性化（或递归化）+ 门控混合会成为长上下文模型的默认范式。

超高稀疏比的MoE

刚才说的优化仅限于Attention部分，剩下的运算量就主要集中在FFN层了。

对于FFN层的优化，最好的办法就是训MoE模型。

Qwen-Next

把激活比压到 1:50（800 B 总参数只激活 3 B），并引入“10 路由专家 + 1 共享专家”结构：共享专家负责通用语义，路由专家负责领域细节，既减少专家冲突又提高命中率。

Kimi-Linear

虽然总参数 48 B、激活 3 B（1:16），但在 KDA 层内部同样用“分组门控”把特征维度进一步拆分，实现“通道级”细粒度稀疏，达到近似“专家内再分专家”的效果。

LongCat-Video

没有用上MoE，但是我相信这边的技术迟早会普及到diffusion领域。

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

【2025最新】基于SpringBoot+Vue的.计算机学习系统管理系统源码+MyBatis+MySQL

cover

当AI预测C++重构：初级开发者的主动性保卫战——老码农的实战幽默录

cover

什么是AI漫游

所有评论(0)

查看更多评论

沉迷单车的追风少年

已为社区贡献3条内容