关于Qwen 3.5的学习(一)
技术报告阅览(AI辅助阅读)以往的视觉语言模型:是预训练好的语言模型 + 视觉编码器CLIP, 通过连接层进行强行连接原生:将图片和文字在预训练阶段就转化为同等地位的token。
技术报告阅览(AI辅助阅读)
原生视觉-语言模型:
以往的视觉语言模型:是预训练好的语言模型 + 视觉编码器CLIP, 通过连接层 进行强行连接
原生:将图片和文字在预训练阶段就转化为同等地位的token
Qwen3.5-397B-A17B 模型名称的由来:
参数名称
397B:模型训练时用到了397 个 billion的参数,知识很丰富
A17B:推理时激活的参数量,A即Active。即回答问题时需要调用的知识
这样的架构可以
1.在知识量过大的时候,让回答更快,直接精准定位问题。
2.模型每次推理时,GPU显存占用和计算成本,推理速度都像一个17B的模型一样,又小又快
这些参数代表模型用的是MoE(Sparse Mixture of Expert)架构 ,又叫稀疏混合专家模型架构。
MoE架构:
核心思想
让一个庞大的专家团队协作,只请出相关领域的专家来解决问题,省时又省力。原来是跟人大脑皮层不同的功能区差不多。大脑中海马体负责记忆,前额叶负责逻辑推理。
技术原理
1.专家网络:模型中会有多个独立的神经网络充当专家网络,专门处理某类任务
2.门控网络/路由器(Gating Network / Router):(为什么这里会有两个名字)对每一个token, 路由器计算专家匹配度,并决定将该任务分配给top-k个专家。此事在推理阶段和训练阶段皆有记载,使训练的参数量可以更多了。
在这里,就知道稀疏的含义了。路由器只分配少数几个专家,其他专家的计算量为0。(有无论文报告)
潜在问题:
1.负载均衡:热门专家和冷门专家(排球)能拿到的token肯定是不一样的,我要怎么防止热门专家累死呢?需要复杂的负载均衡算法(Load Balancing Loss)(其实这里根本没看懂,为什么热门专家会累死)
2.通信开销:分布式训练,需要在多卡上进行通讯,对网络带宽要求极高。对此我深有体会。(但具体什么情况还不了解)这就是"Next-Generation Training Infrastructure" 和 "asynchronous RL frameworks" 如此重要(这两个又是什么???)
线性注意力(Gated Delta Networks):
该模型采用创新的混合架构,将线性注意力与MoE相结合,实现出色的推理效率。
核心思想
传统的transformer使用softmax Attention,时间复杂度是O()。而线性注意力能将时间复杂度变为O(N)。
全局注意力
传统的transformer是全局注意力,每个句子假设有N个词,第一个词要获取其他N个词的注意力,像这样的词有N个。在计算注意力阶段Q 和 K 相乘就会形成一个(N * N)的矩阵,softmax再对每一个元素进行归一化所以要花O()。(transformer以后再具体看吧)
线性注意力
Gated Delta Networks,Mamba,RWKV
Mamba:
已经沦为传统的线性注意力模型,SSM(State Space Models,状态空间模型)的代表模型。
transformer在计算第t个词的时候,要遍历前t-1个词。推出计算N个词,花费的时间是O(),并且要保存的注意力矩阵也是(N * N),显存爆炸。
Mamba核心思想:
在RNN上做出了改进,利用状态转移方程,将前n个词压缩为一个状态。每次计算只需要在这个压缩的状态上计算1次,而不是像transformer上计算t-1次
状态方程:
其中A,B为参数矩阵,C为投影矩阵。
RNN的问题主要是什么呢?A,B,C不变,导致注意力均匀分配。(至于均匀分配的坏处是什么呢?咱先不急着说)
因此,Mamba就引入了选择性机制(Selection Mechanism):
这可不得了了,直接将这两大参数B,C变得与x有关了,注意力一下子就可以被吸引了。模型只要通过学习,就知道输入x不重要时,B可以等于0。如果输入重要,那B就变大。(至于怎么学习,下次忘了就根据状态转移方程再推导一遍)
为了实现这种动态参数的并行训练,Mamba团队提出了并行扫描算法(Parellel Scan)(为何能并行训练,其实推导出上面的学习过程就知道了)
缺陷:
原来Mamba存在着两个致命的缺陷,Mamba Out!
1.记忆覆盖问题
用一个状态去保存信息,这本身就是一个有损压缩。由于状态维度是有限的,他能保存的信息也是有限的,随着信息的大量涌入,有些原来重要的知识就会被慢慢变得不重要,不重要的知识会被遗忘。从数学角度看,每次状态更新都会乘衰减系数A(比如0.9),一直乘一直乘就会接近于0,就被遗忘。
从这一点看,transformer由于保存着每个token在每个维度上的值,是不会被遗忘的,但这样脑容量其实要很大。
2.缺乏精细控制
“完全清除某段记忆”,“精确微调某个细节”(4点开会改为3点开会),“长期冻结某段记忆”(这个线索很重要,等会儿断案时要一字不漏复述出来)。都是Mamba做不到的
为什么?状态的本质就决定了,①缺乏寻址能力 ②更新粒度粗糙 ③马尔可夫的不可逆性质,一旦更新就回不去。
Gated Delta Networks(GDN)
核心思想:
解决了“记忆更新”上的粗糙问题
Mamba的状态转移方程更本质是:
,v 和 k是当时的value和key。无论
有多小,都不可能完全是0,导致状态(或者说是记忆)h 会被不断更新,这就是漂移(Drift)现象。这会导致h达到完美状态时,也会学习新出现的token,就可能导致不完美了。
GDN的状态转移方程:
计算预测值 ,跟真正的
进行比较,
。如果预测很准,则
接近于0,h不用更新,说明已经学习过现在的信息;如果差很多,则需要更新知识。
针对之前Mamba的两个问题
1.记忆覆盖:,更新的只是在
维度的记忆,对于其他维度,则毫无干扰。如果预测一模一样,那么旧记忆就不变。
2.微调:更新幅度随着误差幅度变化,误差幅度小,就是微调;误差幅度大,就是大调。
更多推荐



所有评论(0)