核心概念

参考:https://mp.weixin.qq.com/s/mKQ35OfPU3fK-HoH4j0Bag

总结:

  • 介绍通义千问(Qwen):Qwen(语言模型);Qwen-VL: 视觉语言模型;Audio: 音频语言模型;Coder:代码语言模型;Math:数学语言模型

  • 预训练模型:指那些没有 “-Instruct” 标识符的模型,例如 Qwen2.5-7B 和 Qwen2.5-72B

  • 后训练 (Post-training) 和指令微调模型 (Instruction-tuned models):指带有 “-Instruct” 后缀的模型,例如 Qwen2.5-7B-Instruct 和 Qwen2.5-72B-Instruct

  • Tokens & Tokenization:Qwen 词表相对较大,有151646个token。tokenization 和词表大小很重要。Qwen采用了名为字节对编码(Byte Pair Encoding,简称BPE)的子词tokenization方法,这种方法试图学习能够用最少的 token 表示文本的 token 组合。Qwen 以子词形式处理文本,不存在未知词汇。

  • 控制Token和对话模板:

    • 控制token是插入到序列中的特殊token

    • 对话模板为对话交互提供了结构化的格式,其中使用预定义的占位符或提示来从模型中引发遵循期望的对话流程或上下文的响应。

    • 从 Qwen2.5 开始,Qwen 模型家族,包括多模态和专项模型,将使用统一的词汇表,其中包含了所有子系列的控制 token 。Qwen2.5 的词汇表中有22个控制 token,使得词汇表的总规模达到151665 。

      • 通用 token 1个:<|endoftext|>

      • 对话 token 2个:<|im_start|><|im_end|>,使用ChatML 格式利用控制 token 来格式化每一轮的对话

      • 工具调用 token 2个: <tool_call></tool_call>

      • 视觉相关 token 11个

      • 代码相关 token 6个

    • 长度限制:Qwen2模型可以处理32K或128K token长的文本,其中8K长度可作为输出。

模型

整体梳理

代表模型

Qwen3

嵌入模型和重排序模型解读:https://mp.weixin.qq.com/s/ab1h395K7uV8IHzk2PagnQ。GitHub:https://qwenlm.github.io/blog/qwen3-embedding/

不同尺寸的模型、预训练、Post-Training阶段:https://mp.weixin.qq.com/s/7ej1v9D-K97mJpVK2jStvA

Qwen3如何实现快慢混合思考、可启动关闭:https://mp.weixin.qq.com/s/NptCfNIJaCbQBLIEPGB2hw

Qwen2.5
Qwen2.5

为什么Qwen能自我改进推理,Llama却不行?斯坦福找到了原理:https://mp.weixin.qq.com/s/Ydz2WWYhoKHP5Mqf0YQxUg

Qwen2.5-VL

回顾Qwen2.5-VL,目前最好的多模态开源算法之一:https://mp.weixin.qq.com/s/LxhnQVtrA0BXgv8fwLaVsg

万字长文图解Qwen2.5-VL实现细节:https://mp.weixin.qq.com/s/HRHyHNuEqM6gNq7IVuxQfA

结尾

亲爱的读者朋友:感谢您在繁忙中驻足阅读本期内容!您的到来是对我们最大的支持❤️

正如古语所言:"当局者迷,旁观者清"。您独到的见解与客观评价,恰似一盏明灯💡,能帮助我们照亮内容盲区,让未来的创作更加贴近您的需求。

若此文给您带来启发或收获,不妨通过以下方式为彼此搭建一座桥梁: ✨ 点击右上角【点赞】图标,让好内容被更多人看见 ✨ 滑动屏幕【收藏】本篇,便于随时查阅回味 ✨ 在评论区留下您的真知灼见,让我们共同碰撞思维的火花

我始终秉持匠心精神,以键盘为犁铧深耕知识沃土💻,用每一次敲击传递专业价值,不断优化内容呈现形式,力求为您打造沉浸式的阅读盛宴📚。

有任何疑问或建议?评论区就是我们的连心桥!您的每一条留言我都将认真研读,并在24小时内回复解答📝。

愿我们携手同行,在知识的雨林中茁壮成长🌳,共享思想绽放的甘甜果实。下期相遇时,期待看到您智慧的评论与闪亮的点赞身影✨!

万分感谢🙏🙏您的点赞👍👍、收藏⭐🌟、评论💬🗯️、关注❤️💚~


自我介绍:一线互联网大厂资深算法研发(工作6年+),4年以上招聘面试官经验(一二面面试官,面试候选人400+),深谙岗位专业知识、技能雷达图,已累计辅导15+求职者顺利入职大中型互联网公司。熟练掌握大模型、NLP、搜索、推荐、数据挖掘算法和优化,提供面试辅导、专业知识入门到进阶辅导等定制化需求等服务,助力您顺利完成学习和求职之旅(有需要者可私信联系) 

友友们,自己的知乎账号为“快乐星球”,定期更新技术文章,敬请关注!   

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐