开源大模型LLaMA 2/3、Qwen 与 DeepSeek 技术对比分析

研究背景与目标

2025 年,开源大模型生态正经历前所未有的技术爆发期。以 Meta 的 LLaMA 系列、阿里巴巴的 Qwen 系列和 DeepSeek 公司的 DeepSeek-R1 为代表的三大开源模型体系,在技术架构、训练方法和应用性能方面展现出各自独特的创新路径(164)。这些模型不仅在学术研究领域发挥着重要作用,更在企业级应用、边缘计算和多模态处理等场景中展现出巨大潜力。

本研究报告旨在全面分析 LLaMA 2/3、Qwen 和 DeepSeek 三大开源模型的技术特点、性能表现和应用价值,为研究者和工程师提供系统性的技术对比分析。通过深入剖析各模型的架构设计、训练策略和实际部署成本,本报告将帮助读者理解不同模型的技术优势和适用场景,为模型选择和应用部署提供决策参考。

一、三大开源模型技术架构深度解析

1.1 LLaMA 3 系列架构创新

Meta 的 LLaMA 3 系列在 2024 年迎来了重大技术突破。LLaMA 3 于 2024 年 4 月 18 日正式发布,推出了 8B 和 70B 两个参数规模版本。随后在 2024 年 7 月 24 日发布的 LLaMA 3.1 版本中,新增了迄今为止最强大的开源模型 LLaMA 3.1 405B(3)。最新的 LLaMA 3.2 版本则在 2024 年 9 月发布,集成了多模态功能,同时推出了 1B 和 3B 的轻量级模型,而 LLaMA 3.3 于 2024 年 12 月 7 日发布,专注于 70B 参数的高性能文本专用模型(16)

核心架构设计方面,LLaMA 3 采用了优化的 Transformer 架构,所有模型均使用分组查询注意力(GQA)机制以提高推理效率。这一技术创新的核心在于让多个查询头共享同一组键值头,显著降低了推理过程中的内存占用。具体而言,传统的多头注意力(MHA)机制中,每个头都需要独立计算键值矩阵,显存占用量公式为:2× 层数 × 头数 × 维度 × 序列长度。而 GQA 通过分组共享键值对,将内存占用降低了约 30%,使得 70B 参数模型能够在 8 卡 A100 集群上实现每秒 300 个 tokens 的推理速度(82)

模型配置参数方面,LLaMA 3 系列展现出了精细化的设计理念。以 LLaMA 3 8B 为例,该模型具有 32 个键值头,使用 Swish 激活函数,采用 RMSNorm 归一化方法,以及 RoPE 位置编码(10)。模型的分词器采用 128K 词汇表,支持 8K 上下文长度。值得注意的是,LLaMA 3 与 LLaMA 2 在架构上完全相同,主要区别在于配置参数的调整,这使得 LLaMA 2 的推理工程可以无缝支持 LLaMA 3(15)

训练基础设施的规模令人印象深刻。LLaMA 3 在 Meta 自制的两个 24K GPU 集群上进行预训练,使用了超过 15T 的公开数据,其中 5% 为非英文数据,涵盖 30 多种语言(116)。预训练过程累计使用了 770 万 GPU 小时的计算资源,基于 H100-80GB 硬件(TDP 为 700W),估计总碳排放为 2290 吨 CO2 当量,这些排放已被 Meta 的可持续发展计划 100% 抵消。

1.2 Qwen 3 系列混合专家架构

阿里巴巴的 Qwen 系列模型在 2025 年迎来了重要的技术升级。Qwen 3 于 2025 年 4 月 29 日正式发布,其旗舰模型 Qwen 3-235B-A22B 在与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型的对比中取得了有竞争力的结果。Qwen 3 系列包含 7 个密集模型(0.6B、1.7B、4B、8B、14B、32B)和 2 个混合专家(MoE)模型(30B-A3B 和 235B-A22B),采用 Apache 2.0 开源协议。

MoE 架构设计是 Qwen 3 的核心创新。Qwen 3 的 MoE 模型采用分层稀疏调度架构,将模型分解为 128 个专家模块,每个 token 动态激活 8 个专家进行处理(138)。这种设计通过mlp_only_layersdecoder_sparse_step参数,开发者可以灵活配置 MoE 层的分布,实现资源的智能分配。Qwen 3 的 MoE 模型共有 128 个专家,每个 token 激活 8 个专家,而 Qwen 3-Next 模型则包含 512 个路由专家和 1 个共享专家,每个 token 激活 10 个专家(91)

混合思维模式是 Qwen 3 的另一项重要创新。Qwen 3 引入了可控的思维模式切换机制,支持 Thinking Mode 和 Non-Thinking Mode 两种推理模式。在 Thinking Mode 下,模型会花费时间逐步推理后给出最终答案,适合处理需要深度思考的复杂问题。在 Non-Thinking Mode 下,模型提供快速、近乎即时的响应,适合速度比深度更重要的简单问题。用户可以通过/think/no_think指令在对话中显式控制模型的思考模式,也可以通过 API 调用时设置enable_thinking参数进行硬切换(108)

多语言支持能力方面,Qwen 3 实现了显著的技术突破。Qwen 3 支持 119 种语言和方言,语言覆盖范围是 Qwen 2.5 的四倍。这种多语言能力的提升不仅体现在语言种类的增加,更重要的是在每种语言上的处理质量都达到了较高水平。在实际应用中,Qwen 3 支持 119 种语言的实时翻译,在国际医疗会诊中,可将中文病历自动翻译为英文并提取关键数据,同时调用医学知识库生成多语言版诊疗建议,翻译准确率较传统工具提升 23%(144)

1.3 DeepSeek-R1 稀疏专家架构

DeepSeek-R1 作为 DeepSeek 公司的旗舰产品,代表了稀疏专家架构的最新技术成就。该模型于 2025 年 1 月发布,采用 MIT 开源协议,具有 671B 总参数和 37B 激活参数,支持 128K 上下文长度(80)。DeepSeek-R1 是目前参数规模最大的开源模型,其性能接近 o3 和 Gemini 2.5 Pro 等领先闭源模型(54)

稀疏 MoE 架构设计是 DeepSeek-R1 的核心技术。DeepSeek-R1 使用专家混合模型(MoE)架构,该架构将模型划分为多个 “专家” 子网络,每个子网络都擅长处理输入数据的子集(96)。从第 4 层到第 61 层为 MoE 层,每层包含 256 个专家,每个专家为独立的前馈网络(FFN),总参数量达 671B,但每个输入 Token 仅激活 8 个专家(约 37B 参数),实现了稀疏计算(96)

门控网络机制是 DeepSeek-R1 实现高效推理的关键。门控网络作为 “调度中枢”,输入文本经线性层计算专家匹配概率,采用 Top-K 策略(激活 2-4 个专家),将任务路由至最相关专家,避免资源浪费(111)。这种设计的核心思想是 “模块化分工 + 动态调度”,通过拆分模型为独立 “专家网络”,由 “门控网络” 精准选择少量专家参与计算,实现了 “千亿级参数规模的知识广度” 与 “百亿级激活参数的计算效率” 的平衡(111)

强化学习训练策略使 DeepSeek-R1 在推理能力方面表现突出。DeepSeek-R1 的训练过程经历了从只有强化学习到四阶段训练流程的演进:少量 SFT 数据冷启动→强化学习→生成大量 SFT 数据进一步训练→进一步强化学习(129)。通过初期的 SFT 和强化学习提升模型能力,并进一步生成大量的 SFT 数据用于训练,实现了 LLM 的自我驱动。从 RL 训练生成的检查点中筛选高质量样本,构建约 60 万条 SFT 数据,进一步增强模型的通用能力(130)

二、训练数据与方法对比分析

2.1 训练数据规模与构成对比

三大模型在训练数据规模上展现出了不同的策略选择。LLaMA 3使用了超过 15 万亿 tokens 的公开数据,是 LLaMA 2 的 7 倍,其中代码数据是 LLaMA 2 的 4 倍,包含 5% 的非英文数据,涵盖 30 多种语言(116)。这种数据规模的大幅提升为 LLaMA 3 在各种任务上的性能提升奠定了基础。

Qwen 3的训练数据规模达到了 36 万亿 tokens,是 Qwen 2.5 的两倍,覆盖 119 种语言和方言,语言覆盖范围是 Qwen 2.5 的四倍(119)。Qwen 3 的数据集构成更加多样化,包含了领域知识 STEM(科学、技术、工程、数学)、编程、合成数据以及通过 Qwen 2.5-VL 从 PDF 中提取与清洗的多模态数据(122)。这种多源数据的融合策略为 Qwen 3 在多语言处理和跨领域任务上的优异表现提供了支撑。

DeepSeek-R1的预训练数据规模为 14.8 万亿 tokens,使用 664 万 H800 GPU 小时完成预训练(126)。虽然在数据规模上略小于 Qwen 3,但 DeepSeek-R1 通过高效的训练方法和独特的强化学习策略,在推理能力方面取得了显著突破。值得注意的是,DeepSeek-R1 的预训练成本仅为 557 万美元,展现出了极高的训练效率(128)

2.2 数据质量控制与处理流程

在数据质量控制方面,三大模型采用了不同的技术路径。LLaMA 3开发了一系列数据过滤管道,包括使用启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器来预测数据质量(116)。特别值得一提的是,Meta 使用 LLaMA 2 为文本质量分类器生成训练数据,这种 “以模型训练模型” 的方法体现了技术的迭代优化思路。

Qwen 3的训练过程分为三个阶段,体现了渐进式的数据利用策略。第一阶段在约 30 万亿词量上训练,建立通用知识基础;第二阶段专注于知识密集型数据,增强科学、技术、工程、数学和编程方面的推理能力;第三阶段则针对长文本数据进行训练,将模型的最大上下文长度从 4,096 提升至 32,768 词(125)。这种分阶段的训练策略有效提升了模型在不同任务上的适应能力。

DeepSeek-R1在训练效率方面表现出色,其预训练仅需 278.8 万 H800 GPU 小时,成本低至 557 万美元(128)。这种高效率的实现得益于 DeepSeek 在训练方法上的创新,特别是其强化学习训练策略,通过自我驱动的方式生成高质量的训练数据,实现了训练资源的高效利用。

2.3 预训练与后训练策略

三大模型在预训练和后训练策略上展现出了各自的特色。LLaMA 3的预训练数据截止时间因模型规模而异:8B 版本为 2023 年 3 月,70B 版本为 2023 年 12 月。在预训练之后,LLaMA 3 采用了监督微调(SFT)和人类反馈强化学习(RLHF)的方法来对齐人类偏好,提升模型的有用性和安全性。微调数据包括公开可用的指令数据集以及超过 1000 万个人类标注的示例(115)

Qwen 3在预训练后采用了独特的四阶段训练流程。第一阶段是长链思考(CoT)冷启动,使用多样化的长 CoT 数据进行微调,涵盖数学、编程、逻辑推理和 STEM 问题等多个领域;第二阶段是基于推理的强化学习,通过规则奖励增强模型的探索和利用能力;第三阶段是思维模式融合,将非思维能力整合到思维模型中;第四阶段是通用强化学习,在 20 多个通用领域任务上应用 RL 以进一步增强模型的通用能力。

DeepSeek-R1的训练策略体现了 “少而精” 的理念。其训练过程经历了从只有强化学习到四阶段训练流程的演进:少量 SFT 数据冷启动→强化学习→生成大量 SFT 数据进一步训练→进一步强化学习(129)。这种策略的核心在于通过强化学习生成高质量的训练数据,实现了模型能力的自我提升。

三、性能评估与应用场景分析

3.1 基准测试性能对比

在主流基准测试中,三大模型展现出了各具特色的性能表现。在MMLU(大规模多任务语言理解)测试中,DeepSeek-V3 得分 88.5,略低于 LLaMA 3.1 的 88.6,但超过了 Qwen 2.5 的 85.3 和 Claude 3.5 Sonnet 的 88.3(135)。这一结果表明,在综合知识理解能力方面,LLaMA 3.1 和 DeepSeek-V3 处于领先地位。

代码生成能力测试中,各模型表现出了明显的差异。Qwen 2.5-72B 在 HumanEval 测试中得分 86.0,略高于 LLaMA 3 70B 的 81.7,但在 MBPP 测试中 Qwen 2.5-72B 得分 80.2,低于 LLaMA 3 70B 的 82.3(134)。而 DeepSeek-V3 在算法类代码场景(Codeforces)中表现尤为突出,远远领先于市面上已有的全部非 o1 类模型,并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。

数学推理能力方面,DeepSeek-V3 表现最为突出。在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了所有开源闭源模型。这一表现充分体现了 DeepSeek-R1 通过强化学习训练在推理能力方面的独特优势。

3.2 多语言处理能力分析

在多语言处理能力方面,Qwen 3展现出了绝对的优势。Qwen 3 支持 119 种语言和方言,语言覆盖范围是 Qwen 2.5 的四倍(123)。这种广泛的语言支持能力使 Qwen 3 在国际应用场景中具有显著优势。在实际应用中,Qwen 3 支持 119 种语言的实时翻译,在国际医疗会诊中,可将中文病历自动翻译为英文并提取关键数据,同时调用医学知识库生成多语言版诊疗建议,翻译准确率较传统工具提升 23%(144)

LLaMA 3包含 5% 的非英文数据,涵盖 30 多种语言(116)。虽然在语言覆盖范围上不及 Qwen 3,但 LLaMA 3 在英文任务上的表现依然出色,特别是在学术研究和英文内容生成方面具有传统优势。

DeepSeek-V3与 Qwen 2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但在事实知识 C-SimpleQA 上更为领先。这表明 DeepSeek-V3 在中文理解和事实知识方面具有一定优势。

3.3 推理效率与成本效益分析

在推理效率方面,三大模型展现出了不同的特点。DeepSeek-V3通过算法和工程上的创新,生成速度从 20 TPS 大幅提高至 60 TPS,相比 V2.5 模型实现了 3 倍的提升。这种效率提升不仅体现在速度上,更重要的是在成本控制方面。DeepSeek-V3 的推理成本仅为 LLaMA 4 的几分之一,TPS 却快得多(165)

Qwen 3在成本效益方面表现突出。Qwen 2.5:14B 在满负荷运行时,相同工作负载的成本比 GPT-4o-mini 低 2.3 倍(169)。这种成本优势使得 Qwen 系列模型在企业级部署中具有明显的经济价值。

LLaMA 3在端侧部署方面表现出色,8B 参数规模的模型端侧延迟小于 500ms,适合移动端与边缘计算部署(159)。这种低延迟特性使 LLaMA 3 在实时应用场景中具有优势。

3.4 特定应用场景适配性分析

三大模型在不同应用场景中展现出了各自的优势。LLaMA 3在英文通用任务(如翻译、问答)方面表现优异,开源特性使其适合研究定制(154)。特别是在学术研究和英文内容生成领域,LLaMA 3 凭借其强大的英文理解和通用任务泛化能力成为首选模型。

Qwen 3由于其强大的多模态和长文本处理能力,在企业复杂业务场景中表现出色,如企业内部的知识管理系统、边缘设备部署、多模态内容生成,以及金融领域的合同分析、医疗领域的病历处理等行业应用(140)。Qwen 3 还特别适合构建智能体应用,如结合 MCP 协议调用多源数据接口(如基金净值、历史波动率)构建 “金融顾问” 智能体,或基于 Dify 平台构建合同审查智能体,通过微调 Qwen 3-8B 模型自动解析合同条款、识别违约风险点,并生成结构化修改建议(144)

DeepSeek-R1专注于复杂逻辑推理任务,如数学证明、代码生成、金融量化等,通过强化学习直接激发推理能力,无需监督微调(SFT)(143)。DeepSeek-R1 在推理、代码生成、情感分析、机器翻译和药物研发等跨领域应用中都有出色表现,特别是在需要深度推理的场景中优势明显(141)

四、技术架构差异与特点对比

4.1 架构范式对比分析

三大模型在架构范式上呈现出明显的差异化特征。LLaMA 3采用了经典的仅解码器(Decoder-only)Transformer 架构,在所有尺寸的模型(8B、70B 和 405B)中均采用了分组查询注意力(GQA)机制(152)。这种架构选择体现了 Meta 对成熟技术路线的坚持和优化,通过 GQA 机制在保持性能的同时显著降低了内存占用。

Qwen 3的架构设计体现了 “深度优先” 的理念。Qwen 3 是一种更深的架构,具有更多的 Transformer 层,而 LLaMA 3 是一种更宽的架构,具有更多的注意力头(155)。这种深度架构设计使得 Qwen 3 的内存占用较小,但生成速度相对较慢。Qwen 3 在架构设计上放弃了使用共享专家,采用了更加纯粹的 MoE 架构(153)

DeepSeek-R1采用了创新的 DeepSeekMoE 架构,结合共享专家(Shared Expert)和路由专家(Routed Expert)的新型路由逻辑,显著降低了计算资源需求(154)。这种架构设计的核心在于通过稀疏激活实现了 “千亿级参数规模的知识广度” 与 “百亿级激活参数的计算效率” 的平衡。

4.2 注意力机制技术对比

在注意力机制方面,三大模型都采用了 RoPE 位置编码和 RMSNorm 归一化方法,但在具体的注意力机制实现上存在差异(152)LLaMA 3的核心创新在于分组查询注意力(GQA)机制,通过让多组查询头共享同一份键值头,显著减少了推理过程中键值缓存(KV cache)的内存占用,这是实现模型可扩展性,尤其是在处理长序列时的一项关键优化(152)

Qwen 3在注意力机制的选择上更加灵活,支持 GQA 和 MHA(标准多头注意力)两种模式(152)。这种灵活性使得 Qwen 3 能够根据不同的应用场景选择最适合的注意力机制,在性能和效率之间找到最佳平衡点。

DeepSeek-R1采用了多头潜在注意力机制,这是其 MoE 架构的重要组成部分(164)。通过多头机制,DeepSeek-R1 能够更好地捕捉输入数据的不同特征,为稀疏激活提供更精确的路由决策。

4.3 模型规模与激活参数对比

三大模型在参数规模设计上体现了不同的技术路线。DeepSeek-R1拥有 671B 总参数,激活参数为 37B,采用 MIT 协议完全开源且支持免费商用(164)。这种 “大而精” 的设计理念使得 DeepSeek-R1 在保持巨大知识容量的同时,通过稀疏激活实现了高效推理。

Qwen 3 系列提供了更加丰富的模型选择,包括 7 个密集模型(0.6B、1.7B、4B、8B、14B、32B)和 2 个 MoE 模型(30B-A3B 和 235B-A22B)(153)。这种多规模策略使得用户可以根据具体需求选择最适合的模型,从边缘设备到数据中心都有相应的解决方案。

LLaMA 4虽然在本研究的主要对比范围之外,但作为参考可以看到其技术路线的变化。LLaMA 4 采用了 MoE 架构,但设计思路与 DeepSeek V3 迥异,仅激活 2 个专家(隐藏层 8192),而 DeepSeek 激活 9 个(隐藏层 2048)。LLaMA 4 还在 Transformer 块中交替使用 MoE 层和稠密层,而非每层都用 MoE,结果是总参数虽达 4400 亿,但激活参数仅 170 亿,远低于 DeepSeek V3 的 370 亿(162)

4.4 开源协议与生态系统对比

在开源协议方面,三大模型都选择了宽松的开源策略,但具体协议有所不同。LLaMA 3采用了自定义商业许可证,同时提供社区许可证,允许开发者为英语以外的语言进行微调,前提是遵守相关使用政策。这种许可证设计在保护商业利益的同时,也为学术研究和非商业应用提供了便利。

Qwen 3采用 Apache 2.0 开源协议,这是一种非常宽松的开源协议,允许用户自由使用、修改和分发,包括商业用途。这种开源策略体现了阿里巴巴对开源生态的支持和贡献。

DeepSeek-R1采用 MIT 开源协议,这是最宽松的开源协议之一,几乎不附加任何条件,给予用户最大的自由度(164)。这种完全开放的策略使得 DeepSeek-R1 在商业应用中具有明显的法律优势。

在生态系统支持方面,三大模型都获得了广泛的社区支持。Qwen 3 可以通过 Hugging Face、ModelScope 和 Kaggle 等平台获取,支持 SGLang、vLLM、Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 等多种部署框架。LLaMA 3 同样获得了主流 AI 框架的广泛支持,特别是在学术研究社区中应用广泛。DeepSeek-R1 由于其卓越的性能和开放的协议,也在快速建立自己的生态系统。

五、综合评估与发展趋势

5.1 技术成熟度评估

从技术成熟度角度评估,三大模型都代表了当前开源大模型的最高水平,但各自在不同维度上展现出优势。LLaMA 3 系列在技术成熟度和生态系统完善度方面处于领先地位。作为 Meta 多年技术积累的产物,LLaMA 系列从 LLaMA 1 到 LLaMA 3 经历了完整的技术迭代,在架构设计、训练方法和应用优化方面都达到了较高的成熟度。特别是其在英文任务上的表现和广泛的社区支持,使其成为学术研究和企业应用的可靠选择。

Qwen 3 系列在多语言处理和混合架构创新方面展现出了领先的技术水平。其支持 119 种语言的能力和独特的混合思维模式设计,代表了开源大模型在多模态和多语言处理方面的最新进展。特别是其 MoE 架构的创新设计和四阶段训练流程,为开源模型的发展提供了新的技术路径。

DeepSeek-R1在推理能力和训练效率方面达到了业界领先水平。其通过强化学习实现的推理能力突破和 557 万美元的低成本训练,展现了开源模型在技术创新和成本控制方面的巨大潜力。特别是其在数学推理和代码生成方面的卓越表现,使其在特定领域具有不可替代的优势。

5.2 发展前景与市场定位

从发展前景来看,三大模型在市场定位上呈现出差异化的趋势。LLaMA 系列将继续在学术研究和英文内容生成领域保持领先地位。随着 LLaMA 4 的发布,Meta 在 MoE 架构方面的探索将为开源模型的发展提供新的方向。LLaMA 系列的优势在于其强大的英文处理能力、完善的生态系统和持续的技术创新。

Qwen 系列在企业级应用和多语言处理市场具有巨大的发展潜力。阿里巴巴在云计算和企业服务方面的优势,将为 Qwen 系列在企业市场的推广提供强有力的支撑。特别是其在多模态处理、长文本理解和智能体应用方面的技术优势,使其在企业数字化转型中具有重要价值。

DeepSeek 系列在技术创新和成本效率方面的优势,使其在高性能计算和推理密集型应用中具有独特的市场定位。随着 AI 应用对推理能力要求的不断提高,DeepSeek 系列有望在更多领域展现其技术价值。特别是其完全开源的策略,将吸引更多开发者和企业用户的关注。

5.3 对开源生态的影响

三大模型的发展对整个开源大模型生态产生了深远影响。首先,它们推动了开源模型在性能上不断逼近甚至超越闭源模型。DeepSeek-R1 在多项评测中超越了 Meta 的 Llama 3.1-405B、阿里 Qwen 等主流开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲(164)。这种性能突破证明了开源模型在技术创新方面的巨大潜力。

其次,三大模型的不同技术路线为开源生态提供了多样化的选择。LLaMA 的稳健发展路线、Qwen 的多语言创新路线、DeepSeek 的高效推理路线,为不同需求的用户提供了丰富的技术选择。这种多样性不仅满足了不同应用场景的需求,也推动了整个开源生态的技术进步。

最后,三大模型在开源协议方面的宽松策略,降低了 AI 技术的使用门槛,促进了技术的普及和创新。特别是 DeepSeek-R1 采用的 MIT 协议和 Qwen 采用的 Apache 2.0 协议,为商业应用提供了充分的法律保障,有助于推动 AI 技术在更广泛领域的应用。

5.4 未来发展趋势展望

基于当前的技术发展态势,开源大模型领域呈现出以下几个重要趋势:

技术融合趋势明显。三大模型在技术路线上开始出现融合的迹象。Meta 在 LLaMA 4 中引入 MoE 架构,表明传统的稠密模型架构正在向稀疏架构演进。同时,Qwen 和 DeepSeek 在保持各自特色的同时,也在吸收其他模型的优秀技术,如 Qwen 的混合思维模式和 DeepSeek 的强化学习训练方法。

应用场景细分化。随着技术的不断成熟,开源模型的应用场景将更加细分化。不同模型将针对特定领域和任务进行优化,如 LLaMA 在学术研究、Qwen 在企业服务、DeepSeek 在推理密集型应用等。这种细分化趋势将推动开源模型在更多专业领域发挥作用。

成本效益持续优化。DeepSeek-R1 在 557 万美元成本下实现的技术突破,为整个行业展示了成本控制的可能性。未来,开源模型将在保持高性能的同时,通过技术创新不断降低训练和推理成本,提高性价比。

生态系统协同发展。三大模型的成功离不开强大的开源生态系统支持。未来,开源框架、工具链和社区将更加紧密地协同发展,为模型的开发、部署和应用提供全方位的支持。

战略建议与行动计划

基于对三大开源模型的深入分析,我们为不同类型的用户提出以下战略建议:

对于学术研究机构,建议优先选择 LLaMA 3 系列,特别是在英文自然语言处理研究领域。LLaMA 系列完善的技术文档、丰富的研究资源和活跃的学术社区,为研究工作提供了良好的基础。同时,可以关注 DeepSeek-R1 在推理机制方面的创新,特别是其强化学习训练方法,这可能为 NLP 研究提供新的思路。

对于企业级用户,建议根据具体需求选择合适的模型。如果需要处理多语言内容或构建智能体应用,Qwen 3 系列是理想选择,特别是其在 119 种语言支持和混合思维模式方面的优势。如果注重成本效益和推理效率,DeepSeek 系列值得重点考虑。如果需要在端侧部署或对延迟敏感,LLaMA 3 8B 版本是不错的选择。

对于技术开发者,建议深入研究三大模型的技术特点,根据项目需求选择合适的技术路线。可以考虑将多个模型的优势进行结合,如使用 Qwen 进行多语言处理,使用 DeepSeek 进行复杂推理,使用 LLaMA 进行英文内容生成。同时,要密切关注这些模型的技术演进,及时跟进最新的技术发展。

对于投资决策者,建议关注开源大模型在不同应用领域的商业价值。特别是在企业服务、智能硬件、教育培训等领域,开源模型正在创造巨大的商业机会。同时,要关注技术发展趋势,特别是 MoE 架构、多模态处理、强化学习等前沿技术的商业化应用前景。

总体而言,LLaMA 2/3、Qwen 和 DeepSeek 三大开源模型体系代表了当前开源大模型技术的最高水平,它们在不同维度上的创新和突破,不仅推动了技术进步,也为 AI 技术的普及和应用提供了强有力的支撑。随着技术的不断发展和生态系统的日益完善,开源大模型必将在更多领域发挥重要作用,为人类社会的智能化转型做出更大贡献。

参考资料

[1] 开源世界再起巨浪,Llama3正式发布,能挑战闭源大模型吗?_llama 3 70b有限时商用-CSDN博客 https://blog.csdn.net/xxue345678/article/details/138327512

[2] Welcome Llama 3 – Meta’s latest open LLM https://bardai.ai/2026/01/06/welcome-llama-3-metas-latest-open-llm/

[3] 聚观早报 | Meta发布Llama 3.1 405B;特斯拉发布二季度财报-CSDN博客 https://blog.csdn.net/Juguan365/article/details/140680065

[4] Meta Llama 3 https://github.com/meta-llama/llama3/diffs/0?base_sha=8461bf455c0a563d2af763b97c78030d79fbf565&head_user=ch33nchan&name=main&pull_number=23&qualified_name=refs%2Fheads%2Fmain&sha1=8461bf455c0a563d2af763b97c78030d79fbf565&sha2=3c901a4628d755e93ce259e05cc8a43e0c33c47d&short_path=b335630&unchanged=expanded&w=false

[5] Best Open Source LLMs for Businesses in 2026 https://www.technaureus.com/blog-detail/best-open-source-llm-in-2026

[6] update requirement of llama3 example for higher accuracy #2377 https://github.com/intel/neural-compressor/pull/2377

[7] 全网首发,Meta Llama-3 全方位详解 | 人人都是产品经理 https://www.woshipm.com/it/6035995.html

[8] Llama 3[大型语言模型]_百科 https://m.baike.com/wiki/Llama%203/7359416142299971618?baike_source=doubao

[9] llama3/MODEL_CARD.md at main · meta-llama/llama3 · GitHub https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md

[10] Llama 3 8B https://apxml.com/models/llama-3-8b

[11] llama-3 https://inference.readthedocs.io/en/latest/models/builtin/llm/llama-3.html

[12] llama-models/models/llama3_2/MODEL_CARD.md at main · meta-llama/llama-models · GitHub https://github.com/meta-llama/llama-models/blob/main/models/llama3_2/MODEL_CARD.md

[13] Meta Llama 3 (70B) https://docs.cloud.oracle.com/en-us/iaas/Content/generative-ai/meta-llama-3-70b.htm

[14] Meta Llama 3 https://github.com/llegomark/meta-llama-3

[15] 大模型入门教程:LLM大模型之llama3(概述+调用实践+微调实践)_llama3怎么对话使用-CSDN博客 https://blog.csdn.net/DEVELOPERAA/article/details/146534481

[16] Llama 3 (ラマ3) とは?Llama 2との違い・導入方法・活用メリットを徹底解説! https://ai-market.jp/services/llama3/#:~:text=Llama

[17] Llama 3.3 70B Instruct vs Llama 2 Chat 70B https://docsbot.ai/models/compare/llama-3-3-70b-instruct/llama-2-chat-70b

[18] Llama 2 vs. Llama 3 https://sapling.ai/llm/llama2-vs-llama3

[19] Comparative Analysis of Diagnostic Performance: Differential Diagnosis Lists by LLaMA3 Versus LLaMA2 for Case Reports(pdf) https://pdfs.semanticscholar.org/3129/08eddb6c709ec26cbf172e68a85b11141377.pdf

[20] Llama 3 on Your Local Computer | Free GPT-4 Alternative https://readmedium.com/llama-3-on-your-local-computer-free-gpt-4-alternative-1f533e9abff7

[21] Qwen2-VL-7B-Instruct-AWQ部署实战:从单机到云端的完整流程-CSDN博客 https://blog.csdn.net/gitblog_00636/article/details/147036963

[22] 阿里通义新年礼:开源Qwen-Image-2512告别乱码与塑料感_不秃头程序员 http://m.toutiao.com/group/7591761730984870442/?upstream_biz=doubao

[23] 通义千问Qwen-Image-2512开源发布,三大核心能力实现飞跃式提升_搜狐网 https://m.sohu.com/a/971449997_362225/

[24] Welcome to Qwen!外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

[25] 2026开年第一炸:零AI味的生图模型来了!外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

[26] 阿里Qwen-lmage-2512开源,盲测排名第一-ChooseAI工具导航 https://www.chooseai.net/news/1987/

[27] 阿里巴巴发布 Qwen-Image-2512:中国 AI 图像生成的新一步__财经头条__新浪财经 https://cj.sina.com.cn/articles/view/1653478724/628e154400101dn4e?finpagefr=ttzz&froms=ttmp

[28] Qwen3[阿里云通义千问团队开发的开源模型]_百科 https://m.baike.com/wiki/Qwen3/7498388742102253578?baike_source=doubao

[29] Qwen3: Think Deeper, Act Faster https://qwenlm.github.io/blog/qwen3/

[30] New Open Source Qwen3-Next Models Preview Hybrid MoE Architecture Delivering Improved Accuracy and Accelerated Parallel Processing across NVIDIA Platform | NVIDIA Technical Blog https://developer.nvidia.com/blog/new-open-source-qwen3-next-models-preview-hybrid-moe-architecture-delivering-improved-accuracy-and-accelerated-parallel-processing-across-nvidia-platform/

[31] Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking https://www.arxiv.org/pdf/2601.04720

[32] Qwen2.5 VL! Qwen2.5 VL! Qwen2.5 VL!外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

[33] Qwen https://qwenlm.github.io/

[34] Qwen3-Coder-30B-A3B-Instruct-FP8 https://modelscope.cn/models/Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8

[35] Qwen性能基准:行业标准测试与对比-CSDN博客 https://blog.csdn.net/gitblog_00827/article/details/151171078

[36] Llama 3 vs Qwen 2 : les meilleurs modèles d’IA open source de 2024 https://blogs.novita.ai/fr/llama-3-vs-qwen-2-the-best-open-source-ai-models-of-2024/

[37] Qwen 3 8B vs Llama 3.1 8B: Which Best for AI in Education!外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

[38] Llama 3.2 90B vs. Qwen 2.5 72b: Eine vergleichende Analyse der Codierungs- und Bilderkennungsfähigkeiten https://blogs.novita.ai/de/qwen-2-5-vs-llama-3-2-90b/

[39] 【Qwen-72B】Llama 2、GPT3.5を大幅に上回る性能のアリババLLMを実際に使ってレビューしてみた https://weel.co.jp/media/tech/qwen-72b/

[40] Comparing Open-Source AI Models: LLaMA 3 vs Qwen 2.5 vs Mixtral https://www.ankursnewsletter.com/p/comparing-open-source-ai-models-llama

[41] Qwen2.5 Max vs. Llama 3.2 Instruct 1B https://artificialanalysis.ai/models/comparisons/qwen-2-5-max-vs-llama-3-2-instruct-1b

[42] DeepSeek 把R1论文又更新了60多页,V4呼之欲出了吧_新浪财经 http://m.toutiao.com/group/7593222533843878409/?upstream_biz=doubao

[43] DeepSeek-R1升级:推理能力大幅提升-CSDN博客 https://blog.csdn.net/weixin_44975687/article/details/148372373

[44] 清库存,DeepSeek突然补全R1技术报告,训练路径首次详细公开-36氪 https://www.36kr.com/p/3631604460897283

[45] DeepSeek R1 重磅更新,一手实测来了!-CSDN博客 https://blog.csdn.net/sinat_33224091/article/details/148367676

[46] DeepSeek-R1技术大公开:纯强化学习炼就推理之王_北方的郎 http://m.toutiao.com/group/7593169188378706447/?upstream_biz=doubao

[47] deepseek-r1 https://ollama.com/library/deepseek-r1

[48] New DeepSeek R1 is Really, Really Good Coder https://www.chaindesk.ai/ru/tools/youtube-summarizer/new-deep-seek-r1-is-really-really-good-coder-lWd1UFtbSZ0

[49] deepseek https://blog.csdn.net/gitblog_00038/article/details/151735854

[50] deepseek-r1 https://build.nvidia.com/deepseek-ai/deepseek-r1/modelcard

[51] DeepSeek-R1 https://github.com/marketplace/models/azureml-deepseek/DeepSeek-R1/

[52] DeepSeek-R1 Now Live With NVIDIA NIM https://blogs.nvidia.com/blog/deepseek-r1-nim-microservice/

[53] deepseek-r1 :latest https://ollama.dev/library/deepseek-r1:latest

[54] deepseek-r1 :latest https://ollama.dev/library/deepseek-r1:latest/blobs/e6a7edc1a4d7

[55] DeepSeek-V3 正式发布 | DeepSeek API Docs https://api-docs.deepseek.com/zh-cn/news/news1226

[56] Qwen 的模型结构是怎么样的,相比于 LLaMA,DeepSeek 有什么区别_qwen结构-CSDN博客 https://blog.csdn.net/weixin_39756314/article/details/146347839

[57] LLM Leaderboard - Comparison of over 100 AI models from OpenAI, Google, DeepSeek & others https://artificialanalysis.ai/leaderboards/models

[58] DeepSeek vs. Llama 2 vs. Qwen https://sourceforge.net/software/compare/DeepSeek-vs-Llama-2-vs-Qwen/

[59] Generative AI in Academic Writing: A Comparison of DeepSeek, Qwen, ChatGPT, Gemini, Llama, Mistral, and Gemma https://www.techrxiv.org/users/893254/articles/1270176-generative-ai-in-academic-writing-a-comparison-of-deepseek-qwen-chatgpt-gemini-llama-mistral-and-gemma

[60] Llama 4 Maverick vs DeepSeek V3 0324: High-Quality QA vs Coding Performance https://blogs.novita.ai/llama-4-maverick-vs-deepseek-v3-0324/

[61] Llama 4 vs DeepSeek AI: Complete Model Comparison | DeepSeek AI https://deepseek.ai/blog/llama-4-vs-deepseek

[62] Ad-hoc Concept Forming in the Game Codenames as a Means for Evaluating Large Language Models(pdf) https://arxiv.org/pdf/2502.11707?

[63] Jetson Benchmarks https://developer.nvidia.com/embedded/jetson-benchmarks

[64] ROCm 6.4.0 Ollama Benchmarks https://github.com/robertrosenbusch/gfx803_rocm/wiki/ROCm-6.4.0-Ollama-Benchmarks/5aef8acb1e0e1efe1bf43e2bc7987528bbc34e97

[65] Qwen 2 72B https://aimlapi.com/comparisons/qwen-2-vs-llama-3-comparison

[66] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning(pdf) https://ai.radensa.ru/wp-content/uploads/2025/01/DeepSeek_R1.pdf

[67] Benchmark Radxa Oryon O6 Mini ITX Board #13 https://github.com/geerlingguy/ai-benchmarks/issues/13

[68] DeepSeek-V3 正式发布 | DeepSeek API Docs https://api-docs.deepseek.com/zh-cn/news/news1226

[69] CCNU at SemEval-2025 Task 8: Enhancing Question Answering on Tabular Data with Two-Stage Corrections(pdf) https://aclanthology.org/anthology-files/anthology-files/anthology-files/pdf/semeval/2025.semeval-1.115.pdf

[70] Open LLM Leaderboard https://www.vellum.ai/open-llm-leaderboard

[71] DeepSeek-V3 redefines LLM performance and cost efficiency https://www.deeplearning.ai/the-batch/deepseek-v3-redefines-llm-performance-and-cost-efficiency/

[72] Andrej Karpathy Praises DeepSeek V3’s Frontier LLM, Trained on a $6M Budget https://www.analyticsvidhya.com/blog/2024/12/deepseek-v3/

[73] HuggingFace大模型API评测:DeepSeek-R1、Qwen2.5-72B、Llama-3-8B - 幂简集成 https://www.explinks.com/blog/pr-huggingface-large-model-api-review/

[74] 开源大模型三强逐鹿:Llama、DeepSeek与Qwen的突围之战_qwen2 72b模型和deepseek-CSDN博客 https://blog.csdn.net/weixin_72959097/article/details/150448190

[75] [Paper Note] Is GPT-OSS Good? A Comprehensive Evaluation of OpenAI’s Latest Open Source Models, Ziqian Bi+, arXiv’25 #2492 https://github.com/AkihikoWatanabe/paper_notes/issues/2492

[76] LLM Benchmark_vllm benchmark测试-CSDN博客 https://blog.csdn.net/m0_64355285/article/details/151046981

[77] RankedAGI - AI Models Ranked by Latest Benchmarks https://rankedagi.com/

[78] Open Source Language Model Benchmark https://github.com/lpalbou/llm-basic-benchmark

[79] Gpt-oss-120b performance https://www.byteplus.com/en/topic/577678

[80] Best Open Source LLMs https://aloa.dev/ai/comparisons/llm-comparison/best-open-source-llms

[81] MUCH: A Multilingual Claim Hallucination Benchmark https://arxiv.org/pdf/2511.17081v1

[82] 【人工智能】Llama3 的参数配置设计_llama3的训练配置-CSDN博客 https://blog.csdn.net/weixin_49199313/article/details/149123698

[83] Llama3-from-scratch架构深度:注意力机制变种_mob64ca13ff28f1的技术博客_51CTO博客 https://blog.51cto.com/u_16213611/14268619

[84] Llama3大模型技术全解析:从架构创新到部署微调的实战指南_tokens_训练 https://m.sohu.com/a/967358230_362225/

[85] LLAMA3.0模型结构 - CSDN文库 https://wenku.csdn.net/answer/3r8virw6oc

[86] 【LLaMA 3实战】2、LLaMA 3对话能力全解析:从架构革新到多智能体实战指南_llama3的 bpe+±CSDN博客 https://blog.csdn.net/RickyIT/article/details/148673383

[87] Llama 3 模型结构深度剖析:Transformer 架构的演进与创新_mob64ca140ce312的技术博客_51CTO博客 https://blog.51cto.com/u_16213669/14256562

[88] 解锁AI Agent潜能:LLaMA3-1-8B-Instruct WebDemo部署实战(20/30)-腾讯云开发者社区-腾讯云 https://cloud.tencent.com/developer/article/2491718

[89] Qwen3[阿里云通义千问团队开发的开源模型]_百科 https://m.baike.com/wiki/Qwen3/7498388742102253578?baike_source=doubao

[90] 全新 Qwen3-Next 开源模型预览:MoE 架构在 NVIDIA 平台实现更高精度与加速并行处理速度 - NVIDIA 技术博客 https://developer.nvidia.com/zh-cn/blog/new-open-source-qwen3-next-models-preview-hybrid-moe-architecture-delivering-improved-accuracy-and-accelerated-parallel-processing-across-nvidia-platform/

[91] Qwen3技术报告详解-CSDN博客 https://blog.csdn.net/kycg_/article/details/147965630

[92] 大模型【进阶】(四)QWen模型架构的解读_mob6454cc6658d1的技术博客_51CTO博客 https://blog.51cto.com/u_16099199/14250796

[93] 【人工智能99问】Qwen3简介(33/99)_qwen3 架构-CSDN博客 https://blog.csdn.net/EnHengNa/article/details/151050190

[94] Qwen3MoeBackbone model https://keras.io/keras_hub/api/models/qwen3_moe/qwen3_moe_backbone/

[95] New Open Source Qwen3-Next Models Preview Hybrid MoE Architecture Delivering Improved Accuracy and Accelerated Parallel Processing across NVIDIA Platform | NVIDIA Technical Blog https://developer.nvidia.com/blog/new-open-source-qwen3-next-models-preview-hybrid-moe-architecture-delivering-improved-accuracy-and-accelerated-parallel-processing-across-nvidia-platform/

[96] 深入理解DeepSeek-R1_人工智能_早点睡嘛-DeepSeek技术社区 https://deepseek.csdn.net/67d053c9d649b06b61cc720e.html

[97] Nature论文解读DeepSeek R1:重新定义高效推理的革命性MoE架构_mob64ca13f63f2c的技术博客_51CTO博客 https://blog.51cto.com/u_16213575/14229766

[98] DeepSeek-R1 Now Live With NVIDIA NIM https://blogs.nvidia.com/blog/deepseek-r1-nim-microservice/

[99] Nature顶刊技术拆解:DeepSeek R1的MoE架构与可复现代码实现_deepseek moe-CSDN博客 https://blog.csdn.net/weixin_59274058/article/details/152165645

[100] DeepSeek-R1模型规模:671B总参数的稀疏激活设计优势-CSDN博客 https://blog.csdn.net/gitblog_00398/article/details/152032779

[101] Semantic Specialization in MoE Appears with Scale: A Study of DeepSeek-R1 Expert Specialization(pdf) https://arxiv.org/pdf/2502.10928.pdf

[102] 一文深入了解DeepSeek-R1:模型架构-腾讯云开发者社区-腾讯云 https://cloud.tencent.cn/developer/article/2496104?policyId=1003

[103] Llama3-from-scratch架构深度:注意力机制变种_mob64ca13ff28f1的技术博客_51CTO博客 https://blog.51cto.com/u_16213611/14268619

[104] Llama 3核心突破:优化Transformer与GQA技术实现-CSDN博客 https://blog.csdn.net/gitblog_00091/article/details/151109368

[105] [Misc]: Question about Grouped-query attention (GQA) #13222 https://github.com/vllm-project/vllm/issues/13222

[106] Meta Llama 3 https://github.com/llegomark/meta-llama-3

[107] Qwen3[阿里云通义千问团队开发的开源模型]_百科 https://m.baike.com/wiki/Qwen3/7498388742102253578?baike_source=doubao

[108] # Quickstart

This guide helps you quickly start using Qwen3.

We provide examples of [Hugging Face Transformers](https://github.com/huggingface/transformers) as well as [ModelScope](https://github.com/modelscope/modelscope), and [vLLM](https://github.com/vllm-project/vllm) and [SGLang](https://github.com/sgl-project/sglang) for deployment.

You can find Qwen3 models in [the Qwen3 collection](https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f) at Hugging Face Hub and [the Qwen3 collection](https://www.modelscope.cn/collections/Qwen3-9743180bdc6b48) at ModelScope.

## Transformers

To get a quick start with Qwen3, you can try the inference with `transformers` first.

Make sure that you have installed `transformers>=4.51.0`.

We advise you to use Python 3.10 or higher, and PyTorch 2.6 or higher.

:::::{tab-set}

:sync-group: model

::::{tab-item} Qwen3-Instruct-2507

:sync: instruct

:::{important}

Qwen3-Instruct-2507 supports **only non-thinking mode** and **does not generate ``<think></think>`` blocks** in its output.

Different from Qwen3-2504, **specifying `enable_thinking=False` is no longer required or supported**.

:::

The following contains a code snippet illustrating how to use Qwen3-235B-A22B-Instruct-2507 to generate content based on given inputs.

```python

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = “Qwen/Qwen3-235B-A22B-Instruct-2507”

# load the tokenizer and the model

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForCausalLM.from_pretrained(

model_name,

torch_dtype=“auto”,

device_map=“auto”

)

# prepare the model input

prompt = “Give me a short introduction to large language model.”

messages = [

{“role”: “user”, “content”: prompt}

]

text = tokenizer.apply_chat_template(

messages,

tokenize=False,

add_generation_prompt=True,

)

model_inputs = tokenizer([text], return_tensors=“pt”).to(model.device)

# conduct text completion

generated_ids = model.generate(

**model_inputs,

max_new_tokens=16384

)

output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

content = tokenizer.decode(output_ids, skip_special_tokens=True)

print(“content:”, content)

```

:::{Note}

We recommend `temperature=0.7`, `top_p=0.8`, `top_k=20`, and `min_p=0` for Qwen3-Instruct-2507 models.

For supported frameworks, adjust `presence_penalty` between 0 and 2 to reduce repetitions.

However, using a higher value may occasionally result in language mixing and a slight decrease in model performance.

:::

:::{Note}

Qwen3-Instruct-2507 may use CoT (chain-of-thoughts) automatically for complex tasks.

We recommend using an output length of 16,384 tokens for most queries.

:::

::::

::::{tab-item} Qwen3-Thinking-2507

:sync: thinking

:::{important}

Qwen3-Thinking-2507 supports **only thinking mode**.

Additionally, to enforce model thinking, the default chat template automatically includes `<think>`.

Therefore, it is normal for the model’s output to contain only `</think>` without an explicit opening `<think>` tag.

:::

The following contains a code snippet illustrating how to use Qwen3-235B-A22B-Thinking-2507 to generate content based on given inputs.

```python

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = “Qwen/Qwen3-235B-A22B-Thinking-2507”

# load the tokenizer and the model

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForCausalLM.from_pretrained(

model_name,

torch_dtype=“auto”,

device_map=“auto”

)

# prepare the model input

prompt = “Give me a short introduction to large language model.”

messages = [

{“role”: “user”, “content”: prompt}

]

text = tokenizer.apply_chat_template(

messages,

tokenize=False,

add_generation_prompt=True,

)

model_inputs = tokenizer([text], return_tensors=“pt”).to(model.device)

# conduct text completion

generated_ids = model.generate(

**model_inputs,

max_new_tokens=32768

)

output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

# parsing thinking content

try:

# rindex finding 151668 (</think>)

index = len(output_ids) - output_ids[::-1].index(151668)

except ValueError:

index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip(“\n”)

content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip(“\n”)

print(“thinking content:”, thinking_content) # no opening <think> tag

print(“content:”, content)

```

:::{note}

We recommend `temperature=0.6`, `top_p=0.95`, `top_k=20`, and `min_p=0` for Qwen3-Thinking-2507 models.

For supported frameworks, adjust `presence_penalty` between 0 and 2 to reduce repetitions.

However, using a higher value may occasionally result in language mixing and a slight decrease in model performance.

:::

:::{note}

Qwen3-Thinking-2507 features increased thinking depth.

We strongly recommend its use in highly complex reasoning tasks with adequate maximum generation length.

:::

::::

::::{tab-item} Qwen3

:sync: hybrid

The following is a very simple code snippet showing how to run Qwen3-8B:

```python

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = “Qwen/Qwen3-8B”

# load the tokenizer and the model

model = AutoModelForCausalLM.from_pretrained(

model_name,

torch_dtype=“auto”,

device_map=“auto”

)

tokenizer = AutoTokenizer.from_pretrained(model_name)

# prepare the model input

prompt = “Give me a short introduction to large language models.”

messages = [

{“role”: “user”, “content”: prompt},

]

text = tokenizer.apply_chat_template(

messages,

tokenize=False,

add_generation_prompt=True,

enable_thinking=True, # Switches between thinking and non-thinking modes. Default is True.

)

model_inputs = tokenizer([text], return_tensors=“pt”).to(model.device)

# conduct text completion

generated_ids = model.generate(

**model_inputs,

max_new_tokens=32768

)

output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()

# parse thinking content

try:

# rindex finding 151668 (</think>)

index = len(output_ids) - output_ids[::-1].index(151668)

except ValueError:

index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip(“\n”)

content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip(“\n”)

print(“thinking content:”, thinking_content)

print(“content:”, content)

```

Qwen3 will think before respond, similar to QwQ models.

This means the model will use its reasoning abilities to enhance the quality of generated responses.

The model will first generate thinking content wrapped in a `<think>…</think>` block, followed by the final response.

- Hard Switch:

To strictly disable the model’s thinking behavior, aligning its functionality with the previous Qwen2.5-Instruct models, you can set `enable_thinking=False` when formatting the text.

```python

text = tokenizer.apply_chat_template(

messages,

tokenize=False,

add_generation_prompt=True,

enable_thinking=False, # Setting enable_thinking=False disables thinking mode

)

```

It can be particularly useful in scenarios where disabling thinking is essential for enhancing efficiency.

- Soft Switch:

Qwen3 also understands the user’s instruction on its thinking behavior, in particular, the soft switch `/think` and `/no_think`.

You can add them to user prompts or system messages to switch the model’s thinking mode from turn to turn.

The model will follow the most recent instruction in multi-turn conversations.

:::{note}

For thinking mode, use Temperature=0.6, TopP=0.95, TopK=20, and MinP=0 (the default setting in `generation_config.json`).

DO NOT use greedy decoding, as it can lead to performance degradation and endless repetitions.

For non-thinking mode, we suggest using Temperature=0.7, TopP=0.8, TopK=20, and MinP=0.

:::

::::

:::::

## ModelScope

To tackle with downloading issues, we advise you to try [ModelScope](https://github.com/modelscope/modelscope).

Before starting, you need to install `modelscope` with `pip`.

`modelscope` adopts a programmatic interface similar (but not identical) to `transformers`.

For basic usage, you can simply change the first line of code above to the following:

```python

from modelscope import AutoModelForCausalLM, AutoTokenizer

```

For more information, please refer to [the documentation of `modelscope`](https://www.modelscope.cn/docs).

## OpenAI API Compatibility

You can serve Qwen3 via OpenAI-compatible APIs using frameworks such as vLLM, SGLang, and interact with the API using common HTTP clients or the OpenAI SDKs.

:::::{tab-set}

:sync-group: model

::::{tab-item} Qwen3-Instruct-2507

:sync: instruct

Here we take Qwen3-235B-A22B-Instruct-2507 as an example to start the API:

- SGLang (`sglang>=0.4.6.post1` is required):

```shell

python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 --port 8000 --tp 8 --context-length 262144

```

- vLLM (`vllm>=0.9.0` is recommended):

```shell

vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 --port 8000 --tensor-parallel-size 8 --max-model-len 262144

```

:::{note}

Consider adjusting the context length according to the available GPU memory.

:::

::::

::::{tab-item} Qwen3-Thinking-2507

:sync: thinking

Here we take Qwen3-235B-A22B-Thinking-2507 as an example to start the API:

- SGLang (`sglang>=0.4.6.post1` is required):

```shell

python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 --port 8000 --tp 8 --context-length 262144 --reasoning-parser deepseek-r1

```

- vLLM (`vllm>=0.9.0` is recommended):

```shell

vllm serve Qwen/Qwen3-235B-A22B-Thinking-2507 --port 8000 --tensor-parallel-size 8 --max-model-len 262144 --enable-reasoning --reasoning-parser deepseek_r1

```

:::{note}

Consider adjusting the context length according to the available GPU memory.

:::

:::{important}

We are currently working on adapting the `qwen3` reasoning parsers to the new behavior.

Please follow the command above at the moment.

:::

::::

::::{tab-item} Qwen3

:sync: hybrid

Here we take Qwen3-8B as an example to start the API:

- SGLang (`sglang>=0.4.6.post1` is required):

```shell

python -m sglang.launch_server --model-path Qwen/Qwen3-8B --port 8000 --reasoning-parser qwen3

```

- vLLM (`vllm>=0.9.0` is recommended):

```shell

vllm serve Qwen/Qwen3-8B --port 8000 --enable-reasoning --reasoning-parser qwen3

```

::::

:::::

Then, you can use the [create chat interface](https://platform.openai.com/docs/api-reference/chat/completions/create) to communicate with Qwen:

::::::{tab-set}

:sync-group: model

:::::{tab-item} Qwen3-Instruct-2507

:sync: instruct

Here we show the basic command to interact with the chat completion API using Qwen3-235B-A22B-Instruct-2507.

::::{tab-set}

:sync-group: api

:::{tab-item} curl

:sync: curl

```shell

curl http://localhost:8000/v1/chat/completions -H “Content-Type: application/json” -d '{

“model”: “Qwen/Qwen3-235B-A22B-Instruct-2507”,

“messages”: [

{“role”: “user”, “content”: “Give me a short introduction to large language models.”}

],

“temperature”: 0.7,

“top_p”: 0.8,

“top_k”: 20,

“max_tokens”: 16384

}’

```

:::

:::{tab-item} Python

:sync: python

You can use the API client with the `openai` Python SDK as shown below:

```python

from openai import OpenAI

# Set OpenAI’s API key and API base to use vLLM’s API server.

openai_api_key = “EMPTY”

openai_api_base = “http://localhost:8000/v1”

client = OpenAI(

api_key=openai_api_key,

base_url=openai_api_base,

)

chat_response = client.chat.completions.create(

model=“Qwen/Qwen3-235B-A22B-Instruct-2507”,

messages=[

{“role”: “user”, “content”: “Give me a short introduction to large language models.”},

],

max_tokens=16384,

temperature=0.7,

top_p=0.8,

extra_body={

“top_k”: 20,

}

)

print(“Chat response:”, chat_response)

```

::::

:::::

:::::{tab-item} Qwen3-Thinking-2507

:sync: thinking

Here we show the basic command to interact with the chat completion API using Qwen3-235B-A22B-Thinking-2507.

::::{tab-set}

:sync-group: api

:::{tab-item} curl

:sync: curl

```shell

curl http://localhost:8000/v1/chat/completions -H “Content-Type: application/json” -d '{

“model”: “Qwen/Qwen3-235B-A22B-Thinking-2507”,

“messages”: [

{“role”: “user”, “content”: “Give me a short introduction to large language models.”}

],

“temperature”: 0.6,

“top_p”: 0.95,

“top_k”: 20,

“max_tokens”: 32768

}’

```

:::

:::{tab-item} Python

:sync: python

You can use the API client with the `openai` Python SDK as shown below:

```python

from openai import OpenAI

# Set OpenAI’s API key and API base to use vLLM’s API server.

openai_api_key = “EMPTY”

openai_api_base = “http://localhost:8000/v1”

client = OpenAI(

api_key=openai_api_key,

base_url=openai_api_base,

)

chat_response = client.chat.completions.create(

model=“Qwen/Qwen3-235B-A22B-Thinking-2507”,

messages=[

{“role”: “user”, “content”: “Give me a short introduction to large language models.”},

],

max_tokens=32768,

temperature=0.6,

top_p=0.95,

extra_body={

“top_k”: 20,

}

)

print(“Chat response:”, chat_response)

```

::::

:::::

:::::{tab-item} Qwen3

:sync: hybrid

Here we show the basic command to interact with the chat completion API using Qwen3-8B.

The default is with thinking enabled:

::::{tab-set}

:sync-group: api

:::{tab-item} curl

:sync: curl

```shell

curl http://localhost:8000/v1/chat/completions -H “Content-Type: application/json” -d '{

“model”: “Qwen/Qwen3-8B”,

“messages”: [

{“role”: “user”, “content”: “Give me a short introduction to large language models.”}

],

“temperature”: 0.6,

“top_p”: 0.95,

“top_k”: 20,

“max_tokens”: 32768

}’

```

:::

:::{tab-item} Python

:sync: python

You can use the API client with the `openai` Python SDK as shown below:

```python

from openai import OpenAI

# Set OpenAI’s API key and API base to use vLLM’s API server.

openai_api_key = “EMPTY”

openai_api_base = “http://localhost:8000/v1”

client = OpenAI(

api_key=openai_api_key,

base_url=openai_api_base,

)

chat_response = client.chat.completions.create(

model=“Qwen/Qwen3-8B”,

messages=[

{“role”: “user”, “content”: “Give me a short introduction to large language models.”},

],

max_tokens=32768,

temperature=0.6,

top_p=0.95,

extra_body={

“top_k”: 20,

}

)

print(“Chat response:”, chat_response)

```

:::

::::

To disable thinking, one could use the soft switch (e.g., appending `/nothink` to the user query).

The hard switch can also be used as follows:

::::{tab-set}

:sync-group: api

:::{tab-item} curl

:sync: curl

```shell

curl http://localhost:8000/v1/chat/completions -H “Content-Type: application/json” -d '{

“model”: “Qwen/Qwen3-8B”,

“messages”: [

{“role”: “user”, “content”: “Give me a short introduction to large language models.”}

],

“temperature”: 0.7,

“top_p”: 0.8,

“top_k”: 20,

“max_tokens”: 8192,

“presence_penalty”: 1.5,

“chat_template_kwargs”: {“enable_thinking”: false}

}’

```

:::

:::{tab-item} Python

:sync: python

You can use the API client with the `openai` Python SDK as shown below:

```python

from openai import OpenAI

# Set OpenAI’s API key and API base to use vLLM’s API server.

openai_api_key = “EMPTY”

openai_api_base = “http://localhost:8000/v1”

client = OpenAI(

api_key=openai_api_key,

base_url=openai_api_base,

)

chat_response = client.chat.completions.create(

model=“Qwen/Qwen3-8B”,

messages=[

{“role”: “user”, “content”: “Give me a short introduction to large language models.”},

],

max_tokens=8192,

temperature=0.7,

top_p=0.8,

presence_penalty=1.5,

extra_body={

“top_k”: 20,

“chat_template_kwargs”: {“enable_thinking”: False},

}

)

print(“Chat response:”, chat_response)

```

:::

:::::

::::::

For more usage, please refer to our document on [SGLang](…/deployment/sglang) and [vLLM](…/deployment/vllm).

## Thinking Budget

Qwen3 supports the configuration of thinking budget.

It is achieved by ending the thinking process once the budget is reached and guiding the model to generate the “summary” with an early-stopping prompt.

Since this feature involves customization specific to each model, it is currently not available in the open-source frameworks and only implemented by [the Alibaba Cloud Model Studio API](https://www.alibabacloud.com/help/en/model-studio/deep-thinking#6f0633b9cdts1).

However, with existing open-source frameworks, one can generate twice to implement this feature as follows:

1. For the first time, generate tokens up to the thinking budget and check if the thinking process is finished. If the thinking process is not finished, append the early-stopping prompt.

2. For the second time, continue generation until the end of the content or the upper length limit is fulfilled.

The following snippet shows the implementation with Hugging Face Transformers:

```python

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = “Qwen/Qwen3-8B”

thinking_budget = 16

max_new_tokens = 32768

# load the tokenizer and the model

model = AutoModelForCausalLM.from_pretrained(

model_name,

torch_dtype=“auto”,

device_map=“auto”

)

tokenizer = AutoTokenizer.from_pretrained(model_name)

# prepare the model input

prompt = “Give me a short introduction to large language models.”

messages = [

{“role”: “user”, “content”: prompt},

]

text = tokenizer.apply_chat_template(

messages,

tokenize=False,

add_generation_prompt=True,

enable_thinking=True, # Switches between thinking and non-thinking modes. Default is True.

)

model_inputs = tokenizer([text], return_tensors=“pt”).to(model.device)

input_length = model_inputs.input_ids.size(-1)

# first generation until thinking budget

generated_ids = model.generate(

**model_inputs,

max_new_tokens=thinking_budget

)

output_ids = generated_ids[0][input_length:].tolist()

# check if the generation has already finished (151645 is <|im_end|>)

if 151645 not in output_ids:

# check if the thinking process has finished (151668 is </think>)

# and prepare the second model input

if 151668 not in output_ids:

print(“thinking budget is reached”)

early_stopping_text = “\n\nConsidering the limited time by the user, I have to give the solution based on the thinking directly now.\n</think>\n\n”

early_stopping_ids = tokenizer([early_stopping_text], return_tensors=“pt”, return_attention_mask=False).input_ids.to(model.device)

input_ids = torch.cat([generated_ids, early_stopping_ids], dim=-1)

else:

input_ids = generated_ids

attention_mask = torch.ones_like(input_ids, dtype=torch.int64)

# second generation

generated_ids = model.generate(

input_ids=input_ids,

attention_mask=attention_mask,

max_new_tokens=input_length + max_new_tokens - input_ids.size(-1) # could be negative if max_new_tokens is not large enough (early stopping text is 24 tokens)

)

output_ids = generated_ids[0][input_length:].tolist()

# parse thinking content

try:

# rindex finding 151668 (</think>)

index = len(output_ids) - output_ids[::-1].index(151668)

except ValueError:

index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip(“\n”)

content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip(“\n”)

print(“thinking content:”, thinking_content)

print(“content:”, content)

```

You should see the output in the console like the following

```text

thinking budget is reached

thinking content: <think>

Okay, the user is asking for a short introduction to large language models

Considering the limited time by the user, I have to give the solution based on the thinking directly now.

</think>

content: Large language models (LLMs) are advanced artificial intelligence systems trained on vast amounts of text data to understand and generate human-like language. They can perform tasks such as answering questions, writing stories, coding, and translating languages. LLMs are powered by deep learning techniques and have revolutionized natural language processing by enabling more context-aware and versatile interactions with text. Examples include models like GPT, BERT, and others developed by companies like OpenAI and Alibaba.

```

:::{note}

For purpose of demonstration only, `thinking_budget` is set to 16.

However, `thinking_budget` should not be set to that low in practice.

We recommend tuning `thinking_budget` based on the latency users can accept and setting it higher than 1024 for meaningful improvements across tasks.

If thinking is not desired at all, developers should make use of the hard switch instead.

:::

## Next Step

Now, you can have fun with Qwen3 models.

Would love to know more about its usage?

Feel free to check other documents in this documentation. https://qwen.readthedocs.io/en/latest/_sources/getting_started/quickstart.md.txt

[109] Qwen3技术全景解析:混合思维架构,MoE设计与DeepSeek深度对比_qwen3的dense和moe模型区别-CSDN博客 https://blog.csdn.net/xx_nm98/article/details/147746473

[110] Nature论文解读DeepSeek R1:重新定义高效推理的革命性MoE架构_mob64ca13f63f2c的技术博客_51CTO博客 https://blog.51cto.com/u_16213575/14229766

[111] Nature顶刊技术拆解:DeepSeek R1的MoE架构与可复现代码实现_deepseek moe-CSDN博客 https://blog.csdn.net/weixin_59274058/article/details/152165645

[112] Introducing Meta Llama 3: The most capable openly available LLM to date https://ai.meta.com/blog/meta-llama-3/

[113] llama-3.3-70b-instruct https://build.nvidia.com/meta/llama-3_3-70b-instruct/modelcard

[114] 《Llama: The Llama 3 Herd of Models》预训练数据篇——论文精读笔记_llama3 预训练中的退火 是什么-CSDN博客 https://blog.csdn.net/qq_50645064/article/details/149250618

[115] 模型详情 https://www.modelscope.cn/models/LLM-Research/Meta-Llama-3-8B

[116] Llama 3[大型语言模型]_百科 https://m.baike.com/wiki/Llama%203/7359416142299971618?baike_source=doubao

[117] Let’s quantize Llama-3 https://plainenglish.io/blog/lets-quantize-llama3

[118] Llama 3: SOTA open-weights LLM https://sushant-kumar.com/blog/llama3

[119] Alibaba Introduces Qwen3, Setting New Benchmark in Open-Source AI with Hybrid Reasoning-Alibaba Group https://www.alibabagroup.com/en-US/document-1853940226976645120

[120] 模型详情页 https://www.modelscope.cn/models/Qwen/Qwen3-4B-Base/summary

[121] Qwen3:划时代的多语言、多模式、开源大模型首个支持动态思考模式切换的开源大模型 。 119语言支持 + 36T To - 掘金 https://juejin.cn/post/7564336727625269288

[122] [PaperReading] Qwen3 Technical Report - fariver - 博客园 https://www.cnblogs.com/fariver/p/19018749

[123] 解锁 LLM 新高度!一文深度解读 Qwen3 大模型​-51CTO.COM https://www.51cto.com/article/816144.html

[124] Qwen3— 阿里通义开源的新一代混合推理模型系列-人工智能-PHP中文网 https://m.php.cn/faq/1300838.html

[125] Qwen3:思考与非思考模式融合,多语言支持升级至119种语言的划时代大模型 https://browser.qq.com/mobile/news?doc_id=267686c800081152

[126] DeepSeek AI https://github.com/deepsuckai/DeepSeek-AI/blob/main/README.md

[127] DeepCoder-14B-Preview further fine-tunes reasoning models for coding https://www.deeplearning.ai/the-batch/deepcoder-14b-preview-further-fine-tunes-reasoning-models-for-coding/

[128] DeepSeek:以技术创新重构AI推理与训练范式的开源力量_大蜀山长的技术博客_51CTO博客 https://blog.51cto.com/u_17289263/13411093

[129] DeepSeek-R1简明解析:从DeepSeek-V3到DeepSeek-R1,LLM是如何实现自我进化的?-AI.x-AIGC专属社区-51CTO.COM https://www.51cto.com/aigc/6885.html

[130] DeepSeek-R1模型的训练流程_人工智能_liuwei200000-DeepSeek技术社区 https://deepseek.csdn.net/67ae9d7f9a0a3d048dcf2037.html

[131] Ad-hoc Concept Forming in the Game Codenames as a Means for Evaluating Large Language Models(pdf) https://arxiv.org/pdf/2502.11707?

[132] Jetson Benchmarks https://developer.nvidia.com/embedded/jetson-benchmarks

[133] LLM Performance Benchmark for Apple M3 Ultra https://github.com/cnrai/llm-perfbench

[134] Qwen 2 72B https://aimlapi.com/comparisons/qwen-2-vs-llama-3-comparison

[135] DeepSeek-V3: Training 671 billion parameters with a $6 million dollar budget https://wandb.ai/byyoung3/ml-news/reports/DeepSeek-V3-Training-671-billion-parameters-with-a-6-million-dollar-budget–VmlldzoxMDczNTI2Ng

[136] DeepSeek V2 https://www.kaggle.com/models/deepseek-ai/deepseek-v2/Transformers/deepseek-v2-lite-chat/1

[137] 啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果:计算最优的Test-Time Scaling-CSDN博客 https://blog.csdn.net/sinat_37574187/article/details/145589166

[138] 【人工智能99问】Qwen3简介(33/99)_qwen3 架构-CSDN博客 https://blog.csdn.net/EnHengNa/article/details/151050190

[139] Comparing Llama3 and DeepSeekR1 on Biomedical Text Classification Tasks(pdf) https://arxiv.org/pdf/2503.15169.pdf

[140] Qwen 与 DeepSeek 大模型全方位对比分析_deepseek qwen-CSDN博客 https://blog.csdn.net/Android_XG/article/details/150609442

[141] 探秘 DeepSeek R1 模型:跨越多领域的科技奇迹,引领智能应用新浪潮-腾讯云开发者社区-腾讯云 https://cloud.tencent.com.cn/developer/article/2497550

[142] 方案概述_快速部署Qwen3系列模型_AI-华为云 https://support.huaweicloud.com/qwen3-aislt/qwen3_01.html

[143] Deepseek最新的版本是哪个,以及DeepSeek V3和R1的区别和联系有哪些_ysp2338084的技术博客_51CTO博客 https://blog.51cto.com/yangshaoping/13508911

[144] 开源大语言模型(Qwen3)_qwen3多模态开源模型-CSDN博客 https://blog.csdn.net/weixin_43156294/article/details/150973682

[145] 2025 年开源大模型 TOP 排名:OpenAI OSS、LLaMA、Falcon、MPT 与 Cerebras-GPT 全面对比 - 幂简集成 https://www.explinks.com/blog/2025-open-source-llm-ranking-oss-llama-falcon-mpt-cerebras/

[146] 37_开源LLM:LLaMA与Mistral的突破_深度解析在人工智能领域,2025年已经成为开源大语言模型的黄金时代。 - 掘金 https://juejin.cn/post/7556090723980984374

[147] 主流大模型榜单解析及开源性能对比 - CSDN文库 https://wenku.csdn.net/doc/5yifce8aiq

[148] Llama 4 详细评测:开源模型的全面倒退? - 智源社区 https://hub.baai.ac.cn/view/44717

[149] 全面对比主流大模型,了选对大模型真的可以事半功倍!本报告旨在梳理和分析2025年市场上被广泛讨论和使用的主流大型语言模型 - 掘金 https://juejin.cn/post/7554677260345491519

[150] 2025最新全球AI大模型排名 国内外模型动态洗牌 实时更新平台推荐|编程|模态_网易订阅 https://www.163.com/dy/article/K3FFKL1P0511A1RI.html

[151] 开源大模型全维度详解+实操部署(Mistral-、Gemma(Google)、Llama、Qwen),小白必看 - 掘金 https://juejin.cn/post/7579165599042371599

[152] 开源大模型文档_laokugonggao的技术博客_51CTO博客 https://blog.51cto.com/u_106065/14417057

[153] 万亿参数狂欢!一文刷爆2025年七大顶流大模型架构_glossa大模型 anuneko大模型-CSDN博客 https://blog.csdn.net/m0_64363449/article/details/150345898

[154] Qwen 的模型结构是怎么样的,相比于 LLaMA,DeepSeek 有什么区别_qwen结构-CSDN博客 https://blog.csdn.net/weixin_39756314/article/details/146347839

[155] GraphRAG遇见事件图谱及llama、Qwen、DeepSeek等主流大模型架构对比总结,建议收藏!!_51CTO博客_遇见 into https://blog.51cto.com/u_16163453/14199537

[156] 8种LLM架构设计大比拼:从 DeepSeek-V3 到 Kimi K2,究竟有啥不同-AI.x-AIGC专属社区-51CTO.COM https://www.51cto.com/aigc/6728.html

[157] Comparing Llama3 and DeepSeekR1 on Biomedical Text Classification Tasks(pdf) https://arxiv.org/pdf/2503.15169.pdf

[158] 从DeepSeek-V3到Kimi K2:八种现代 LLM 架构大比较_数据派THU http://m.toutiao.com/group/7537942610325815835/?upstream_biz=doubao

[159] HuggingFace大模型API评测:DeepSeek-R1、Qwen2.5-72B、Llama-3-8B - 幂简集成 https://www.explinks.com/blog/pr-huggingface-large-model-api-review/

[160] 主流大模型架构对比:Llama、Qwen与DeepSeek核心技术解析 - CSDN文库 https://wenku.csdn.net/doc/53zfpprdag

[161] 四大AI模型技术对比与选型指南 - CSDN文库 https://wenku.csdn.net/doc/2kzv327hh8

[162] 2025年最前沿的19款开源大模型架构:一窥AGI之路的真实技术图景 - 极道 https://www.jdon.com/83687-llm-tech-explosion-2025-open-source-overtakes-clos.html

[163] Qwen3震撼发布!全面超越DeepSeek R1,引领Agent时代_wx6081438ce8e10的技术博客_51CTO博客 https://blog.51cto.com/u_15177056/14100140

[164] 中国开源AI模型2025年,中国AI开源生态迎来了爆发式增长,以阿里巴巴、DeepSeek、百度、腾讯等为代表的科技企业 - 掘金 https://juejin.cn/post/7579494852654252066

[165] 从开源领袖到 Manus 的接盘侠:Meta 到底在什么时候丢掉了灵魂?_大帅噶 http://m.toutiao.com/group/7590853748675854883/?upstream_biz=doubao

[166] A Cost-Benefit Analysis of On-Premise Large Language Model Deployment: Breaking Even with Commercial LLM Services(pdf) https://arxiv.org/pdf/2509.18101v2

[167] Clarifai 11.8: GPT-OSS-120B: Benchmarking Speed, Scale, and Cost Efficiency https://www.clarifai.com/blog/clarifai-11.8-gpt-oss-120b-benchmarking-speed-scale-and-cost-efficiency

[168] Curated Behavior Cloning: Small LLMs Can Beat Large Ones at 5-30x Lower Cost https://www.tensorzero.com/blog/curated-behavior-cloning-small-llms-can-beat-large-ones-at-5-30x-lower-cost/

[169] Qwen2.5:14B vs. GPT-4o-Mini: Which One is Cheaper at Scale? https://cast.ai/blog/qwen2-514b-vs-gpt-4o-mini/

[170] Open-Source AI Models Cost 10x More to Run Than Proprietary, Study Shows https://www.webpronews.com/open-source-ai-models-cost-10x-more-to-run-than-proprietary-study-shows/

[171] Top LLM Inference Providers Compared - GPT-OSS-120B https://www.clarifai.com/blog/top-llm-inference-providers-compared

[172] Inference performance of Llama 3.1 8B using vLLM across various GPUs and CPUs https://techcommunity.microsoft.com/blog/azurehighperformancecomputingblog/inference-performance-of-llama-3-1-8b-using-vllm-across-various-gpus-and-cpus/4448420

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐