关于Qwen 3.5的学习（一）

技术报告阅览（AI辅助阅读）以往的视觉语言模型：是预训练好的语言模型 + 视觉编码器CLIP，通过连接层进行强行连接原生：将图片和文字在预训练阶段就转化为同等地位的token。

Allure7

13人浏览 · 2026-03-26 19:30:30

Allure7 · 2026-03-26 19:30:30 发布

技术报告阅览（AI辅助阅读）

原生视觉-语言模型：

以往的视觉语言模型：是预训练好的语言模型 + 视觉编码器CLIP，通过连接层进行强行连接

原生：将图片和文字在预训练阶段就转化为同等地位的token

Qwen3.5-397B-A17B 模型名称的由来：

参数名称

397B：模型训练时用到了397 个 billion的参数，知识很丰富

A17B：推理时激活的参数量，A即Active。即回答问题时需要调用的知识

这样的架构可以

1.在知识量过大的时候，让回答更快，直接精准定位问题。

2.模型每次推理时，GPU显存占用和计算成本，推理速度都像一个17B的模型一样，又小又快

这些参数代表模型用的是MoE（Sparse Mixture of Expert）架构，又叫稀疏混合专家模型架构。

MoE架构：

核心思想

让一个庞大的专家团队协作，只请出相关领域的专家来解决问题，省时又省力。原来是跟人大脑皮层不同的功能区差不多。大脑中海马体负责记忆，前额叶负责逻辑推理。

技术原理

1.专家网络：模型中会有多个独立的神经网络充当专家网络，专门处理某类任务

2.门控网络/路由器(Gating Network / Router）：（为什么这里会有两个名字）对每一个token，路由器计算专家匹配度，并决定将该任务分配给top-k个专家。此事在推理阶段和训练阶段皆有记载，使训练的参数量可以更多了。

在这里，就知道稀疏的含义了。路由器只分配少数几个专家，其他专家的计算量为0。（有无论文报告）

潜在问题：

1.负载均衡：热门专家和冷门专家（排球）能拿到的token肯定是不一样的，我要怎么防止热门专家累死呢？需要复杂的负载均衡算法（Load Balancing Loss）（其实这里根本没看懂，为什么热门专家会累死）

2.通信开销：分布式训练，需要在多卡上进行通讯，对网络带宽要求极高。对此我深有体会。（但具体什么情况还不了解）这就是"Next-Generation Training Infrastructure" 和 "asynchronous RL frameworks" 如此重要（这两个又是什么？？？）

线性注意力（Gated Delta Networks）：

该模型采用创新的混合架构，将线性注意力与MoE相结合，实现出色的推理效率。

核心思想

传统的transformer使用softmax Attention，时间复杂度是O（ $N^{^{2}}$ ）。而线性注意力能将时间复杂度变为O（N）。

全局注意力

传统的transformer是全局注意力，每个句子假设有N个词，第一个词要获取其他N个词的注意力，像这样的词有N个。在计算注意力阶段Q 和 K 相乘就会形成一个（N * N）的矩阵，softmax再对每一个元素进行归一化所以要花O（ $N^{^{2}}$ ）。（transformer以后再具体看吧）

线性注意力

Gated Delta Networks，Mamba，RWKV

Mamba：

已经沦为传统的线性注意力模型，SSM（State Space Models，状态空间模型）的代表模型。

transformer在计算第t个词的时候，要遍历前t-1个词。推出计算N个词，花费的时间是O( $N^{^{2}}$ )，并且要保存的注意力矩阵也是（N * N），显存爆炸。

Mamba核心思想：

在RNN上做出了改进，利用状态转移方程，将前n个词压缩为一个状态。每次计算只需要在这个压缩的状态上计算1次，而不是像transformer上计算t-1次

状态方程：

$h_{t}=\bar{A}h_{t-1} + \bar{B}x_{t}$

$y = Ch_{t}$

其中A，B为参数矩阵，C为投影矩阵。

RNN的问题主要是什么呢？A，B，C不变，导致注意力均匀分配。（至于均匀分配的坏处是什么呢？咱先不急着说）

因此，Mamba就引入了选择性机制（Selection Mechanism）：

$\bar{B}_{t} = Linear(x_{t})$ $C_{t} = Linear(x_{t})$

这可不得了了，直接将这两大参数B，C变得与x有关了，注意力一下子就可以被吸引了。模型只要通过学习，就知道输入x不重要时，B可以等于0。如果输入重要，那B就变大。（至于怎么学习，下次忘了就根据状态转移方程再推导一遍）

为了实现这种动态参数的并行训练，Mamba团队提出了并行扫描算法（Parellel Scan）（为何能并行训练，其实推导出上面的学习过程就知道了）

缺陷：

原来Mamba存在着两个致命的缺陷，Mamba Out!

1.记忆覆盖问题

用一个状态去保存信息，这本身就是一个有损压缩。由于状态维度是有限的，他能保存的信息也是有限的，随着信息的大量涌入，有些原来重要的知识就会被慢慢变得不重要，不重要的知识会被遗忘。从数学角度看，每次状态更新都会乘衰减系数A（比如0.9），一直乘一直乘就会接近于0，就被遗忘。

从这一点看，transformer由于保存着每个token在每个维度上的值，是不会被遗忘的，但这样脑容量其实要很大。

2.缺乏精细控制

“完全清除某段记忆”，“精确微调某个细节”（4点开会改为3点开会），“长期冻结某段记忆”（这个线索很重要，等会儿断案时要一字不漏复述出来）。都是Mamba做不到的

为什么？状态的本质就决定了，①缺乏寻址能力 ②更新粒度粗糙 ③马尔可夫的不可逆性质，一旦更新就回不去。

Gated Delta Networks（GDN）

核心思想：

解决了“记忆更新”上的粗糙问题

Mamba的状态转移方程更本质是：

$h_{t} = (1 - \beta _{t}) h_{t-1} + \beta_{t} (v_{t}\bigotimes k_{t}^{T})$ ，v 和 k是当时的value和key。无论 $\beta$ 有多小，都不可能完全是0，导致状态（或者说是记忆）h 会被不断更新，这就是漂移（Drift）现象。这会导致h达到完美状态时，也会学习新出现的token，就可能导致不完美了。

GDN的状态转移方程：

$h_{t} = h_{t-1} + \beta _{t}\cdot (v_{t} - h_{t-1}k_{t})\cdot k_{t}^{T}$

计算预测值 $\hat{v}_{t} = h_{t-1}k_{t}$ ，跟真正的 $v_{t}$ 进行比较， $\partial_{t} = v_{t} - h_{t-1}k{t}$ 。如果预测很准，则 $\partial$ 接近于0，h不用更新，说明已经学习过现在的信息；如果差很多，则需要更新知识。