大模型技术博客汇总

前言:近期Kimi-Linear、LongCat-Video和Qwen-Next都公开了技术报告和原始代码,共同点是他们都从架构上做了不小的升级,带来了超长tokens的处理能力和更快的推理性能。这篇博客就从近期Kimi-Linear、LongCat-Video和Qwen-Next解读下一代大模型架构升级。

目录

从“全注意力”走向“混合线性

Kimi-Linear

Qwen-Next

LongCat-Video

趋势判断

超高稀疏比的MoE

Qwen-Next

Kimi-Linear

LongCat-Video


从“全注意力”走向“混合线性

现在全注意力遇到的问题:

  • KV-Cache 爆炸:对于 1M token 输入,即使 batch=1,KV-Cache 也会占据数十 GB 显存(例如:1M × 4096 × 2 × 2 bytes ≈ 32GB)。
  • 注意力计算瓶颈:标准注意力的 QK^T 需 O(n²) 内存与计算,n=1M 时完全不可行。

Kimi-Linear

用 3:1 的“KDA-MLA”分层混合,75% 层采用线性复杂度的 Kimi-Delta-Attention(KDA),25% 层保留全局 MLA,保证长程信号不丢失的同时把 KV-Cache 砍掉 75%,1 M token 场景解码吞吐量提高 6 倍。

Qwen-Next

采用“GatedDeltaNet+GatedAttention”双通道:DeltaNet 用类 SSM 的线性递归记住“全书脉络”,GatedAttention 只聚焦关键局部,两层结果相加;既降低计算量,也保留高精度路由。

LongCat-Video

所有的attention层采用sparse attention,降低运算量。

这是因为视频生成场景下的注意力更加稀疏,所以使用sparse attention更具有价值。

趋势判断

纯 softmax 注意力将只在“关键少数”层出现,线性化(或递归化)+ 门控混合会成为长上下文模型的默认范式。

超高稀疏比的MoE

刚才说的优化仅限于Attention部分,剩下的运算量就主要集中在FFN层了。

对于FFN层的优化,最好的办法就是训MoE模型。

Qwen-Next

把激活比压到 1:50(800 B 总参数只激活 3 B),并引入“10 路由专家 + 1 共享专家”结构:共享专家负责通用语义,路由专家负责领域细节,既减少专家冲突又提高命中率。

Kimi-Linear

虽然总参数 48 B、激活 3 B(1:16),但在 KDA 层内部同样用“分组门控”把特征维度进一步拆分,实现“通道级”细粒度稀疏,达到近似“专家内再分专家”的效果。

LongCat-Video

没有用上MoE,但是我相信这边的技术迟早会普及到diffusion领域。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐