moe原理和优化

可以发现这三个矩阵的A矩阵尺寸不一样，不能用batched gemm，所以这里需要用grouped gemm来做，接下来可以看看为什么grouped gemm比batch gemm效果好。最近deepseek比较火，导致moe也比较热门，这里简单看看原理以及如何优化。1、首先每个token经过线性层和softmax选择自己的专家id。3、最后再根据不同专家的权重做一个合并。2、然后根据id选择不同

s.feng

927人浏览 · 2025-03-18 14:16:41

s.feng · 2025-03-18 14:16:41 发布

背景

最近deepseek比较火，导致moe也比较热门，这里简单看看原理以及如何优化。

算法

整体思路比较简单，以前attention后面接的是一个FFN网络，现在是的原理如下：
在这里插入图片描述
1、首先每个token经过线性层和softmax选择自己的专家id
2、然后根据id选择不同的矩阵参数乘
3、最后再根据不同专家的权重做一个合并

优化

实际推理的时候可能会出现如下状况：
在这里插入图片描述
在前向传播的时候，需要做如下三个矩阵乘法：

可以发现这三个矩阵的A矩阵尺寸不一样，不能用batched gemm，所以这里需要用grouped gemm来做，接下来可以看看为什么grouped gemm比batch gemm效果好。

未完待续

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

AgentSPEX：当 Agent 框架开始把“控制流“从 Python 里抠出来

cover

AI+ERP场景地图：哪些业务最值得优先智能化？（AI+ERP系列-6）

SpringAI-1.基于Ollama部署大模型

1、安装ollama，选择系统，复制命令在命令行执行2、执行ollama命令，显示如下信息，ollama安装完成3、在服务器部署成功后，选择自己想要使用的模型4、复制命令后，在命令行执行，选择安装7b的版本5、安装成功后，输入对话...，安装成功6、访问地址，查询模型配置。

所有评论(0)

查看更多评论

s.feng

已为社区贡献6条内容