大模型-模型融合

本文介绍了大模型融合的5种方法：1）模型整合（如EoT跨模型通信）；2）概率集成（词表输出概率融合）；3）嫁接学习（结构权重嫁接+继续预训练）；4）众包投票；5）MoE（如GShard、Switch Transformers等）。重点解析了各类方法的技术原理与应用场景，如GShard的Top-2门控、Switch的Top-1策略等。

小新学习屋

2111人浏览 · 2025-09-11 00:15:00

小新学习屋 · 2025-09-11 00:15:00 发布

参考文章：大模型的模型融合方法

介绍了5种方法：模型整合、概率集成、嫁接学习、众包投票、MOE

模型整合

即大模型在输出的文字层次进行融合，如简单的使用3个不同的LLama模型的输出结果，作为prompt输入到第四个模型中进行参考。

代表工作：EoT（《Exchange-of-Thought: Enhancing Large Language Model Capabilities through Cross-Model Communication》）。EoT允许多个模型分层次传递消息，通过跨模型通信，模型可以借鉴其他模型的推理和思考过程，从而更好地解决问题。

概率集成

大模型的概率集成可以在transformer的词表输出概率层次进行融合。要注意的是，这样的操作需要其融合的多个原始模型的词表保持一致

嫁接学习

与机器学习中的嫁接学习不同的是，大模型并不直接融合另外一个模型的概率结果，而是将其中的部分结构和权重嫁接到融合模型上，并经过一定的继续预训练过程，使其模型参数能够适应新的模型。具体的操作为，复制包含n层的基础模型，以便后续修改。然后，从原始模型中移除最后的m层，并从其副本中移除最初的m层，从而形成两个不同的n-m层模型。最后将这两个模型连接起来，形成一个具有2*(n-m)层的缩放模型。

通常继续预训练耗费的的数据量和计算资源要小于完全从头开始训练的消耗。

在继续预训练之后，还需要进行对齐操作，包含两个过程，分别是指令微调和DPO。指令微调采用开源instruct数据并改造出一个数学专用instruct数据，以增强模型的数学能力。DPO是传统的RLHF的替代，最终形成了SOLAR-chat版本。

众包投票

代码地址：https://github.com/zhangzhao219/WSDM-Cup-2024/tree/main

MoE

传统的MoE都集中在非transfomer的模型架构上，大模型时代的transfomer模型参数量达百亿级，如何在transformer上应用MoE并且把参数扩展到百亿级别，并且解决训练稳定性和推理效率的问题，成为MoE在大模型应用上的关键问题。谷歌提出了代表性的方法Gshard，成功将Transformer模型的参数量增加至超过六千亿，并以此提升模型水平。

1、GShard：采用Top-2门控机制，提出了三种关键的技术：损失函数，随机路由机制，专家容量限制。当模型被分布到多个处理设备上时，MoE层在各个设备间进行共享，而其他层则在每个设备上独立复制。其架构如下图所示：

2、Switch Transformers：设计了一种特殊的Switch Transformer层，该层能够处理两个独立的输入（即两个不同的token），并配备了四个专家进行处理。与最初的top2专家的想法相反，Switch Transformers 采用了简化的top1专家策略。如下图所示：

3、国内知名大模型DeepSeek MoE：设计了一个共享专家，每次都参与激活，其设计基于这样一个前提：某个特定的专家能够精通特定的知识领域。通过将专家的知识领域进行细粒度的分割，可以防止单一专家需要掌握过多的知识面，从而避免知识的混杂。同时，设置共享专家能够确保一些普遍适用的知识在每次计算时都能被利用。

结尾

亲爱的读者朋友：感谢您在繁忙中驻足阅读本期内容！您的到来是对我们最大的支持❤️

正如古语所言："当局者迷，旁观者清"。您独到的见解与客观评价，恰似一盏明灯💡，能帮助我们照亮内容盲区，让未来的创作更加贴近您的需求。

若此文给您带来启发或收获，不妨通过以下方式为彼此搭建一座桥梁： ✨ 点击右上角【点赞】图标，让好内容被更多人看见 ✨ 滑动屏幕【收藏】本篇，便于随时查阅回味 ✨ 在评论区留下您的真知灼见，让我们共同碰撞思维的火花

我始终秉持匠心精神，以键盘为犁铧深耕知识沃土💻，用每一次敲击传递专业价值，不断优化内容呈现形式，力求为您打造沉浸式的阅读盛宴📚。

有任何疑问或建议？评论区就是我们的连心桥！您的每一条留言我都将认真研读，并在24小时内回复解答📝。

愿我们携手同行，在知识的雨林中茁壮成长🌳，共享思想绽放的甘甜果实。下期相遇时，期待看到您智慧的评论与闪亮的点赞身影✨！

万分感谢🙏🙏您的点赞👍👍、收藏⭐🌟、评论💬🗯️、关注❤️💚～

自我介绍：一线互联网大厂资深算法研发（工作6年+），4年以上招聘面试官经验（一二面面试官，面试候选人400+），深谙岗位专业知识、技能雷达图，已累计辅导15+求职者顺利入职大中型互联网公司。熟练掌握大模型、NLP、搜索、推荐、数据挖掘算法和优化，提供面试辅导、专业知识入门到进阶辅导等定制化需求等服务，助力您顺利完成学习和求职之旅（有需要者可私信联系）

友友们，自己的知乎账号为“快乐星球”，定期更新技术文章，敬请关注！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI学习笔记整理（38）——自然语言处理的‌基于深度学习的语言模型

‌词嵌入作为语言模型的输入表示层‌，将文本中的单词或子词（如通过BPE分词）映射为高维向量（例如512维或1024维），这些向量在空间中通过相对位置编码语义相似性（如“猫”和“狗”的向量接近），从而为模型提供语义基础。‌词嵌入与语言模型的集成体现在技术演进中‌，早期NLP系统将词嵌入作为独立预处理步骤，而现代大语言模型（LLM）将嵌入层深度集成到端到端架构中，嵌入向量随模型训练联合优化，成为理解与