在这里插入图片描述
链接

摘要

本报告介绍了Qwen2系列——我们最新推出的大语言模型与大型多模态模型。我们发布了涵盖0.5至720亿参数范围的基础模型与指令微调模型完整套件,包含稠密模型与专家混合模型。Qwen2在语言理解、生成、多语言能力、编程、数学及推理等多个基准测试中,超越了包括前代模型Qwen1.5在内的大多数现有开源权重模型,并在与专有模型的对比中展现出竞争优势。

旗舰模型Qwen2-72B展现了卓越的性能:在基础语言模型评估中,MMLU得分84.2,GPQA得分37.9,HumanEval得分64.6,GSM8K得分89.5,BBH得分82.4。其指令微调版本Qwen2-72B-Instruct在MT-Bench上获得9.1分,Arena-Hard获得48.1分,LiveCodeBench获得35.7分。此外,Qwen2展现出强大的多语言能力,精通约30种语言,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,充分体现了其多功能性与全球适用性。

为促进社区创新和可及性,我们已在Hugging Face和ModelScope平台开源Qwen2模型权重,相关示例代码等补充材料亦发布于GitHub。这些平台同时提供了量化、微调及部署资源,以支持广泛的应用场景与研究探索。

1.引言

自ChatGPT(OpenAI,2022)问世后,全球对大型语言模型的热情持续高涨。Llama系列模型(Touvron等人,2023)的发布进一步激发了开源社区的兴趣,尤其是关于实现GPT级别本地化大模型的探讨。近期,Claude-3 Opus(Anthropic,2024)与ChatGPT的升级模型GPT-4o(全模态)(OpenAI,2024)接连登顶Chatbot Arena评估榜(Chiang等人,2024)——该平台因采用人类评估对大模型进行排名而备受认可。同时,Llama3(AI@Meta,2024)已成为当前最先进的开源权重模型系列,其性能与领先的专有模型差距不断缩小,被广泛视为达到GPT-4级别。越来越多具备竞争力的大模型正致力于实现类似OpenAI GPT系列的技术突破,其中许多模型如Qwen(Bai等人,2023a)、Mistral(Jiang等人,2023a)、Gemma(Mesnard等人,2024等)均以开源权重形式发布。

近几个月来,我们相继推出了Qwen系列模型(Bai等人,2023a),并逐步演进至Qwen1.5版本(Qwen团队,2024a)。在此期间,我们发布了视觉语言模型Qwen-VL(Bai等人,2023b),并推出了音频语言模型Qwen-Audio(Chu等人,2023)。本研究中,我们正式介绍Qwen大语言模型与大规模多模态模型家族的最新成员:Qwen2。Qwen2是基于Transformer架构(Vaswani等人,2017)构建、采用下一词元预测目标训练的大语言模型系列。该系列包含基础语言模型(即经过预训练但未对齐人类偏好的基座模型)以及指令微调模型(通过适用于对话与智能体场景的单轮/多轮指令跟随数据集精调)。本次发布涵盖四个稠密模型,参数量分别为0.5B、1.5B、7B和72B,另包含一个混合专家模型(MoE),其总参数量为57B,每个词元激活参数为14B。其中较小规模的Qwen2-0.5B与Qwen2-1.5B专为便携设备(如智能手机、耳机、智能眼镜等)的便捷部署而设计;而较大规模的模型则适配不同算力级别的GPU部署需求。

所有模型均在超过7万亿token的高质量、大规模数据集上进行预训练,该数据集覆盖广泛领域与多语言内容。相较于前代Qwen模型,Qwen2纳入了更广泛的语言数据谱系,显著提升了代码与数学内容的数量与质量。这种数据增强被假设为能够提升大语言模型的推理能力。在后续训练方面,所有模型均接受了监督微调和直接偏好优化(DPO, Rafailov等,2023),通过从人类反馈中学习,使模型与人类偏好对齐。这一过程赋予模型有效遵循指令的能力。

我们对Qwen2以及一系列基线模型(包括可通过API访问的开源模型和专有模型)进行了全面评估。在基础语言能力和指令调优功能的评估中,Qwen2均优于竞争模型。具体而言,我们的指令调优版本Qwen2-72B-Instruct在MT-Bench(Zheng et al., 2023)上获得9.1分,在Arena-Hard(Chiang et al., 2024)上获得48.1分,在LiveCodeBench(Jain et al., 2024)上获得35.7分。同时,基础语言模型Qwen2-72B在MMLU(Hendrycks et al., 2021a)上取得84.2分,在GPQA(Rein et al., 2023)上取得37.9分,在HumanEval(Chen et al., 2021)上取得64.6分,在GSM8K(Cobbe et al., 2021)上取得89.5分,在BBH(Suzgun et al., 2023)上取得82.4分。

2.分词器与模型

本节将介绍Qwen2的分词器与模型设计,详细阐述不同规模模型的架构结构与配置参数。

2.1 分词器

继Qwen(Bai等人,2023a)之后,我们采用了基于字节级字节对编码的相同分词器。值得注意的是,该分词器展现出较高的编码效率,其相较于其他方案更优的压缩率即为明证,这为Qwen2的多语言能力提供了支持。

所有规模的模型均采用包含151,643个常规标记和3个控制标记的统一词汇表。更多信息请参阅Bai等人(2023a)的研究。需要注意的是,出于分布式训练的考量,嵌入层的实际有效尺寸会更大。

2.2 模型架构

Qwen2系列本质上都是基于Transformer架构构建的大语言模型,采用带因果掩码的自注意力机制(Vaswani等人,2017)。具体而言,该系列包含4种规模的稠密语言模型以及一个混合专家模型。在深入探讨MoE模型的特性之前,我们首先介绍稠密模型的具体细节。

2.2.1 Qwen2稠密模型

Qwen2稠密模型的架构由多层Transformer构成,每层均配备因果注意力机制和前馈神经网络(FFN)。其与Qwen的主要差异如下所述:

分组查询注意力机制
我们采用分组查询注意力机制(GQA,Ainslie 等人,2023)以替代传统的多头注意力机制(MHA)。GQA 在推理过程中优化了键值缓存的使用,从而显著提升了吞吐量。不同模型规模的具体键值头配置详见第 2.2.3 节。

为扩展Qwen2的上下文窗口,我们采用双重分块注意力机制(DCA,An等人,2024),该机制将长序列分割为可管理的块状片段。当输入可在单个块内处理时,DCA产生与原始注意力机制相同的结果;否则,DCA能有效捕捉块内及跨块的词元间相对位置信息,从而提升长上下文处理性能。此外,我们还运用YARN方法(Peng等人,2023)对注意力权重进行重新缩放,以增强长度外推能力。

此外,我们延续Qwen的做法,采用SwiGLU(Dauphin等人,2017)作为激活函数,使用旋转位置编码(RoPE,苏等人,2024)进行位置嵌入,在注意力机制中采用QKV偏置(苏,2023),并运用RMSNorm(Jiang等人,2023b)及预归一化以提升训练稳定性。

2.2.2 QWEN2 混合专家模型

Qwen2 MoE模型的架构与Qwen1.5-MoE-A2.7B(Qwen Team,2024c)高度相似。作为原始前馈网络的替代,MoE前馈网络由n个独立的FFN组成,每个FFN均作为一个专家单元。每个令牌会根据门控网络G分配的概率,被路由至特定专家 E i E_i Ei进行计算:

p = s o f t m a x ( G ( x ) ) , \mathbf{p}=\mathrm{softmax}\left(G\left(\mathbf{x}\right)\right), p=softmax(G(x)),

y = ∑ i ∈ top ⁡ k ( p ) p i E i ( x ) . \mathbf{y}=\sum_{i\in\operatorname{top}_k(\mathbf{p})}\mathbf{p}_iE_i(\mathbf{x}). y=itopk(p)piEi(x).

下文我们将阐述Qwen2混合专家模型的关键设计考量。

专家粒度
混合专家模型(MoE)与稠密模型的关键结构差异在于,MoE层整合了多个前馈网络(FFN),每个FFN作为独立专家。因此,从稠密架构过渡到MoE架构的一种直接策略是将每个专家的参数设置为原稠密模型中单个FFN的参数。例如,从Mistral-7B(Jiang等人,2023a)过渡到Mixtral 8x7B(Jiang等人,2024)时,每次会激活八个专家中的两个。而我们的模型采用细粒度专家(Dai等人,2024),创建规模更小的专家,同时激活更多数量的专家。在专家参数总量和激活参数量相同的条件下,细粒度专家能提供更丰富的专家组合。通过利用这些细粒度专家,Qwen2 MoE实现了更多样化、动态化的专家调用,从而提升整体性能与适应能力。

专家路由机制的设计对于提升混合专家模型(MoE)的性能至关重要。近期研究呈现出一个显著趋势,即在MoE层中同时集成共享专家与路由特定专家(Rajbhandari et al., 2022; Dai et al., 2024)。我们采用这一方法,因为它便于共享专家应用于多种任务,同时保留其他专家供特定路由场景选择性使用。引入共享专家与专用专家,为开发MoE路由机制提供了一种更具适应性和高效性的途径。

专家初始化
我们采用与升级循环(Komatsuzaki等人,2023)类似的方式初始化专家,并利用稠密模型的权重。与之不同的是,我们的方法强调细粒度专家间的多样化,以增强模型的表征广度。给定指定的专家中间层维度 h E h_E hE、专家数量 n 以及原始前馈网络中间层维度 hFFN,我们将前馈网络复制 ⌈ n × h E / h F F N ⌉ \left\lceil n\times h_{\mathrm{E}}/h_{\mathrm{FFN}}\right\rceil n×hE/hFFN次。这种复制确保了与指定专家数量的兼容性,同时适应任意的专家中间层维度。为了促进每个前馈网络副本内部的多样性,参数会沿中间维度进行混洗。这保证了每个细粒度专家具备独特特性,即使在不同前馈网络副本间也是如此。随后,这些专家从前馈网络副本中提取,其余维度则被丢弃。对于每个细粒度专家,其50%的参数会被随机重新初始化。这一过程在专家初始化中引入了额外的随机性,可能增强模型在训练期间的探索能力。

2.2.3 模型配置

下文将提供Qwen2系列的核心配置与关键信息。该系列包含五种规模模型,分别为Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B及Qwen2-72B。表1列出了超参数及预训练词元数量等重要信息。其中,Qwen2-57B-A14B由Qwen2-7B扩展而来。尤其值得注意的是,相较于Qwen1.5系列,Qwen2系列模型在每词元的键值(KV)大小上显著降低,这一特性使其内存占用大幅减少,在长上下文推理任务中体现显著优势。

在这里插入图片描述

表1:Qwen2稠密模型与MoE模型架构。对于MoE模型,"57B-A14B"表示模型总参数量为570亿,每个token激活的参数量为140亿;"中间层维度"指每个专家的中间层维度;"激活专家数"不含共享专家。

3.预训练

3.1 预训练数据

Qwen2模型的预训练过程构建了一个全新的大规模高质量多语言数据集。该数据集在先前Qwen及Qwen1.5模型所用语料库(Bai等人,2023a;Qwen团队,2024a)的基础上实现了全面优化,在多个关键维度上显著提升了预训练数据的规模、质量与多样性。

质量提升
过滤算法已通过额外启发式与模型驱动方法进行优化,包括运用Qwen模型筛除低质量数据。此外,这些模型还被用于合成高质量的预训练数据。

相较于Qwen1.5(Qwen团队,2024a),我们收集了规模显著更大的高质量代码、数学及多语言数据,以增强模型在相应领域的能力。此新数据集支持约30种语言,包括英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语和越南语等。

分布改进
为确保模型能像人类学习过程那样掌握分布特征,我们通过缩小规模的模型进行实验,以优化多来源、多领域数据的融合效果。

基于上述优化,预训练数据规模从Qwen1.5(Qwen Team, 2024a)的3万亿词元扩展至7万亿词元。尝试进一步放宽质量阈值后,我们得到了一个12万亿词元的数据集,但基于该数据集训练的模型并未表现出相较于7万亿词元模型的显著性能提升。我们推测,单纯增加数据量未必能持续促进模型预训练效果。考虑到训练成本,我们最终选择使用质量更高的7万亿词元数据集进行后续大模型训练,相关进一步探索将留待未来模型迭代中进行。

所有Qwen2稠密模型(除Qwen2-0.5B外)均在超过7万亿token的大规模数据集上进行预训练。Qwen2-0.5B使用了12万亿token的数据集进行预训练。MoE模型根据升级回收原则,额外接受了4.5万亿token的预训练。与先前Qwen系列模型类似,高质量多任务指令数据被整合至Qwen2的预训练过程中,以增强其上下文学习与指令遵循能力。

3.2 长上下文训练

为增强Qwen2的长上下文处理能力,我们在预训练最终阶段将上下文长度从4,096词元扩展至32,768词元。此项扩展辅以大量优质长文本数据的引入。与此同时,我们将RoPE的基准频率从10,000调整至1,000,000,以优化其在长上下文场景下的性能表现(Xiong et al., 2023)。

为充分发挥模型的长序列外推潜力,我们采用了YARN机制(Peng et al., 2023)与双分块注意力机制(An et al., 2024)。这些策略使模型能够处理长达131,072个标记的序列,同时保持高性能,初步实验中的困惑度衰减极小即证明了这一点。

4.后训练

在完成大规模预训练后,我们对Qwen2进行了后训练阶段。这一过程对提升模型在代码、数学、逻辑推理、指令遵循及多语言理解等广泛领域的专业能力至关重要。同时,它确保模型的输出符合人类价值观,做到有益、诚实且无害。与传统方法严重依赖大量人工监督不同,我们的方法侧重于以最少人工标注实现可扩展的对齐(Cao等人,2024)。具体而言,我们研究了如何为监督微调(SFT)和基于人类反馈的强化学习(RLHF)获取高质量的示范数据与偏好数据,旨在最小化对人类标注的依赖,同时最大化数据的质量与可靠性。

4.1 后训练数据

训练后数据主要由两部分构成:演示数据 D = { ( x i , y i ) } D = \{(x_i, y_i)\} D={(xi,yi)} 与偏好数据 P = { ( x i , y i + , y i − ) } P = \{(x_i, y^+ _i , y^{−}_i )\} P={(xi,yi+,yi)},其中 x i x_i xi 代表指令, y i y_i yi 代表令人满意的回答, y i + y^+ _i yi+ y i − y^{−}_i yi 则是针对 x i x_i xi 的两个回答,且 y i + y^+ _i yi+ 是优于 y i − y^{−}_i yi 的选择。集合 D 用于监督微调(SFT),而集合 P 则用于基于人类反馈的强化学习(RLHF)。

训练数据的构建包含两个步骤:协同数据标注与自动化数据合成。首先,我们从大规模指令语料库中提取数据本体,从而获得广泛且多样化的高质量指令集。这些指令经过系统性增强,以融入更高的复杂性。通过人工标注,我们获得目标响应 y i y_i yi 及其正负对应样本 ( y i + , y i − ) (y^+ _i , y^{−}_i) yi+,yi。随后,采用多种自动化对齐策略,在代码、数学、指令遵循、创作、角色扮演及安全等领域合成大量人工标注数据。

4.1.1 协作式数据标注

自动本体提取
该过程始于应用 InsTag(Lu 等人,2024c)——一个开放集细粒度标注器,从大规模指令数据集中提取基础本体。后续的人工精炼确保了所提取本体的准确性。

指令选择
每一条带有标注标签的指令,都会根据标签多样性、语义丰富性、复杂度和意图完整性进行评估。基于这些标准,我们筛选出一组具有代表性的指令(Dong et al., 2023)。

指令演化
为丰富指令数据集,本文采用自主演化策略(Zhao et al., 2024),通过提示Qwen模型对现有指令添加约束或要求,从而提升其复杂度,确保数据集中包含多样化的难度层次。

通过多种生成策略及不同规模的Qwen模型,获取针对同一指令的多个响应结果。标注人员根据预设标准对响应进行偏好排序,确保最优响应符合既定准则,由此同时生成示范数据和偏好数据。

4.1.2 自动化数据合成

在大规模生产中维持指令响应标注质量面临显著挑战,尤其对于需要专业知识、经验、严谨性或耐心的任务。为应对这些挑战,我们设计了多种自动化对齐策略,以实现大规模数据合成。

拒绝采样(Yuan et al., 2023)被应用于提升数学或同类具有确定性最终答案任务中的解决方案质量。该方法要求大语言模型为每个指令生成多个响应,即推理路径。其中能得出准确结论且被模型认定为合理的路径将被保留,作为演示数据。通过对比正确与错误的路径,可生成偏好数据。

对于编程任务,我们利用大语言模型生成解决方案及相应测试用例。通过编译并执行这些方案以验证测试用例,进而构建演示数据与偏好数据,从而评估方案的有效性。该方法同样适用于指令遵循能力的评估(Dong et al., 2024)。针对每条含有限制条件(如长度限制)的指令,大语言模型需生成Python验证函数,以确保响应符合指令要求。

数据再利用
对于未经专业训练的标注员而言,在文学写作任务中构建具有技巧性的回复颇具挑战。为解决此问题,我们从公共领域汇集高质量文学作品,并利用大语言模型生成不同细致程度的指令。这些指令与原始作品结合,构成了演示数据。例如,为汇编具有生动、引人入胜回复的角色扮演数据,我们从维基百科等知识库中获取详细角色档案,并指示大语言模型生成相应的指令与回复(Lu et al., 2024b)。此过程类似于阅读理解任务,能确保角色档案的完整性得以保持。

宪法反馈
宪法AI指依据预设原则集引导大语言模型生成回应的过程(Bai et al., 2022)。为确保模型遵循安全与价值观等准则,研究团队构建了宪法数据集。该数据集明确规定了应当遵循与需要避免的原则,用于指导大语言模型生成符合或偏离这些准则的回应,从而为示范数据与偏好数据提供参照基准。

4.2 监督式微调

我们构建了一个包含超过50万个样本的广泛指令数据集,涵盖指令遵循、编程、数学、逻辑推理、角色扮演、多语言处理及安全性等多项技能。模型以32,768个令牌的序列长度进行了两个轮次的微调。为优化学习过程,学习率从 7 × 10 − 6 7×10^{-6} 7×106逐步衰减至 7 × 10 − 7 7×10^{-7} 7×107。为防止过拟合,我们采用了0.1的权重衰减,并将梯度最大值裁剪至1.0。

4.3 从人类反馈中进行强化学习

我们的强化学习人类反馈训练体系包含两个连续阶段:离线训练与在线训练。离线训练阶段中,我们使用预编译的偏好数据集P,通过直接偏好优化方法(DPO, Rafailov et al., 2023)最大化正例 y i + y^+ _i yi+与负例 y i − y^- _i yi之间的似然差。在线训练阶段,模型通过实时奖励模型的即时反馈进行迭代优化:首先从当前策略模型中采样多个响应,随后奖励模型筛选出最优和最差响应,形成每轮训练所需的偏好对用于DPO更新。此外,我们采用在线合并优化器(Lu et al., 2024a)以缓解对齐税现象——即模型输出与人类偏好对齐过程中可能伴随的性能下降问题。

5.评估

为全面评估Qwen2系列模型,包括基础模型和指令微调模型,我们采用了一套综合评估方案。该方案涵盖多项能力维度,包括通用知识理解、语言理解与生成、编程、数学、推理及其他专业领域。具体而言,基础模型使用大语言模型(LLM)的标准化基准数据集进行评估,除特别说明外均采用少样本提示获取模型响应。针对指令微调模型,除基准评估外,我们优先采用人工偏好评估方法。

5.1 基础语言模型

本节将阐述Qwen2系列基础语言模型的评估方法。具体而言,我们通过在知识和基础能力基准数据集上进行评测,并应用多语言基准数据集来评估其语言支持能力。鉴于该系列包含多种规模模型,我们将它们与参数量相近或更大的前沿模型进行性能对比。

5.1.1 核心能力

基准测试与评估流程
评估基础语言模型核心能力的通用方法是采用少样本或零样本提示的基准数据集测试。评估主要关注模型在自然语言理解、通用问答、代码生成、数学计算、科学知识、推理等任务上的表现。使用的评估数据集包括:

  • MMLU(Hendrycks 等,2021a)(5样本)
  • MMLU-Pro(Wang 等,2024)(5样本)
  • GPQA(Rein 等,2023)(5样本)
  • Theorem QA(Chen 等,2023a)(5样本)
  • BBH(Suzgun 等,2023)(3样本)
  • HellaSwag(Zellers 等,2019)(10样本)
  • Winogrande(Sakaguchi 等,2021)(5样本)
  • TruthfulQA(Lin 等,2022a)(0样本)
  • ARC-C(Clark 等,2018)(25样本)
  • HumanEval(Chen 等,2021)(0样本)
  • MBPP(Austin 等,2021)(0样本)
  • EvalPlus(Liu 等,2023a)(0样本)
  • MultiPL-E(Cassano 等,2023)(在 Python、C++、Java、PHP、TypeScript、C#、Bash 和 JavaScript 上的零样本测试)
  • GSM8K(Cobbe 等,2021)(5样本)
  • MATH(Hendrycks 等,2021b)(4样本)
  • C-Eval(Huang 等,2023)(5样本)
  • CMMLU(Li 等,2023)(5样本)

多语言数据集可分为四类:
(a)考试类:M3Exam(5样本,仅选用无需图像的题目)、IndoMMLU(Koto 等,2023)(3样本)、ruMMLU(Fenogenova 等,2024)(5样本)及翻译版 MMLU(Chen 等,2023b)(在阿拉伯语、西班牙语、法语、葡萄牙语、德语、意大利语、日语和韩语上的 5 样本测试);
(b)理解类:BELEBELE(Bandarkar 等,2023)(5样本)、XCOPA(Ponti 等,2020)(5样本)、XWinograd(Muennighoff 等,2023)(5样本)、XStoryCloze(Lin 等,2022b)(0样本)以及 PAWS-X(Yang 等,2019)(5样本);
(c)数学:MGSM(Goyal等,2022)(8-shot思维链);以及(d)翻译:Flores-101(Goyal等,2022)(5-shot)。

在Qwen2系列最大规模的模型方面,我们将Qwen2-72B与具有竞争力的开源权重基准模型进行比较,包括Mixtral-8x22B(Jiang等人,2024年)、Llama-3-70B(AI@Meta,2024年),以及Qwen1.5-72B(Qwen团队,2024a)和Qwen1.5-110B(Qwen团队,2024b)。结果呈现在表2中。在MMLU和MMLU-Pro的通用知识理解任务上,Qwen2-72B均优于Llama-3-70B,准确率分别提升4.7和2.8个百分点。在科学评估方面,Qwen2-72B在GPQA和Theorem QA上相比Llama-3-70B分别提升1.6和9.8个百分点,展现出优势。通过代码数据的增强,Qwen2-72B在HumanEval和MBPP评估中较Qwen1.5-72B取得显著优势,分别领先18.3和10.0个百分点。数学相关数据的加强使Qwen2-72B在GSM8K和MATH基准测试中超越Qwen1.5-72B,优势达10.0和17.0个百分点。考虑到BBH、Winogrande和ARC-C测试,Qwen2-72B展现出与Llama-3-70B相当的推理能力,这归功于其改进的代码与数学数据。在中文语言理解评估中,Qwen2-72B显著优于Mixtral-8x22B和Llama-3-70B,同时也超越了Qwen1.5-72B。

在这里插入图片描述
表2:70B+模型性能对比。我们将Qwen2-72B与基线模型进行比较,包括Mixtral-8x22B、Llama-3-70B、Qwen1.5-110B和Qwen1.5-72B。在大多数数据集上,Qwen2-72B相较于基线模型均展现出优势。

在混合专家模型的评估中,Qwen2-57B-A14B 与规模相近的基线模型进行了比较。这些基线包括其他混合专家模型,如 Mixtral-8x7B(Jiang 等人,2024)和 Jamba(Lieber 等人,2024),以及稠密模型,如 Yi-1.5-34B(Young 等人,2024)。以及Qwen1.5-32B(Qwen团队,2024a),二者均拥有约300亿参数。结果如表3所示。我们预期激活140亿参数的Qwen2-57B-A14B,其性能将匹配300亿参数稠密等效模型Qwen2。我们的评估显示,在自然语言理解任务中,Qwen2-57B-A14B的表现与Yi-1.5-34B相当。此外,在代码和数学任务上,该模型超越了基线模型。同时,Qwen2-57B-A14B展现出强大的中文理解能力,可与规模更大的Qwen2-72B模型相媲美。本质上,Qwen2-57B-A14B是一种高效模型,尽管每次前向传播仅激活140亿参数,仍能保持300亿参数稠密模型的性能水平。

在这里插入图片描述

表3:300亿+密集模型与400亿+MoE模型性能对比。Qwen2-57B-A14B是一款总参数量为570亿、激活参数量为140亿的MoE模型,其设计目标是达到300亿参数密集模型的性能水平。对比基准包括密集模型基线:Yi-1.5-34B与Qwen1.5-32B,以及MoE基线:Mixtral-8x7B和Jamba。实验结果表明,Qwen2-57B-A14B在整体上实现了具有竞争力的性能,尤其在编程与数学任务中表现出显著优势。

Qwen2-7B
该7B模型被广泛应用,因其能够在配备16GB内存的加速器上以16位浮点精度运行。我们的重点是将此模型与其他领先的7B模型进行比较,包括近期在Chatbot Arena中展现出卓越性能的Llama-3-8B (Chiang et al., 2024)。此比较亦涵盖Mistral-7B-v0.2 (Jiang et al., 2023a)、Gemma-7B (Mesnard et al., 2024) 以及我们的前代模型Qwen1.5-7B (Qwen Team, 2024a)。结果详见表4。Qwen2-7B在多数数据集上展现出优于其他模型的性能,尤其在代码生成、数学解题及中文任务中表现突出。该模型在多语言理解与考试评估方面同样具备强劲性能,这表明Qwen2-7B已针对广泛的语言与逻辑推理任务进行了优化,体现了其多任务适应能力与先进的技术水平。

在这里插入图片描述

表4:7B+模型性能对比。我们将Qwen2-7B与此前发布的最先进7B+模型进行比较,包括Mixtral-7B、Gemma-7B、Llama-3-8B以及我们之前的Qwen1.5-7B。在大多数评估数据集中,Qwen2-7B相较于基线模型均展现出显著优势。

为评估我们的小规模模型性能,特别是Qwen2-1.5B和Qwen2-0.5B,我们将其与以下基准模型进行比较:Phi-2(Abdin等人,2024)、Gemma-2B(Mesnard等人,2024)以及Qwen1.5-1.8B(Qwen团队,2024a)。结果详见表5。在语言理解方面,Qwen2-1.5B优于基于教科书式数据训练的Phi-2模型。在代码任务中,Qwen2-0.5B的表现与Gemma-2B和Qwen1.5-1.8B相当,而Qwen2-1.5B则超越了这些基准模型(Phi-2除外)。在数学能力上,两个Qwen2模型均优于竞争对手。在通用推理方面,我们发现Phi-2通常优于其他所有模型,这在一定程度上反映了教科书数据对推理能力的重要性。在TruthfulQA测试中,Qwen2-1.5B表现最佳,表明小规模模型未必会产生幻觉问题。在中文语言理解任务中,两个Qwen2模型均优于所有对比模型,这一趋势与更大规模模型的比较结果保持一致。

表5:小型模型性能表现。我们将Qwen2-0.5B和Qwen2-1.5B与此前包括Phi-2、Gemma-2B和Qwen1.5-1.8B在内的SOTA小型模型进行对比。Qwen2-0.5B在模型规模显著更小的情况下仍取得了具有竞争力的性能,而Qwen2-1.5B则显著优于Qwen2-0.5B。

在这里插入图片描述

总体而言,Qwen2系列在不同模型规模下均展现出优于基线的性能。值得注意的是,Qwen2-72B在所有Qwen2模型中表现最佳,这印证了模型规模扩展的有效性。

5.2 指令微调模型

为对指令微调模型进行批判性评估,我们采用了一种多层面方法。我们利用公开数据集和基准测试对模型的基础技能和人类偏好进行评估。我们详细的内部测试进一步探查了模型在关键领域的能力。评估特别侧重于长上下文处理能力。安全措施包括多语言安全评估和红队测试。以下章节将详述这些评估方法及其结果。

5.2.1 开放式基准评估

为全面评估指令微调模型的质量,我们综合采用自动评估与人工评估相结合的方式,以衡量模型的能力表现与人类偏好。在基础能力评估方面,我们沿用预训练模型评估中使用的同类数据集,聚焦于自然语言理解、代码生成、数学解题及推理等核心能力。具体而言:

  • 针对语言理解与知识,我们使用 MMLU、MMLU-Pro、GPQA 及 Theorem QA 进行评估;
  • 针对代码能力,采用 HumanEval、MBPP、MultiPL-E 以及 LiveCodeBench v1(Jain 等人,2024);
  • 针对数学能力,选用 GSM8K 与 MATH。

此外,为评估模型的人类偏好对齐程度及指令遵循能力,我们在以下基准测试中进行测评:MT-Bench(Zheng 等人,2023)、Arena-Hard(Li 等人,2024)、AlignBench(Liu 等人,2023b)、其结果接近 Chatbot Arena 的 MixEval(Ni 等人,2024),以及用于评估指令遵循的 IFEval(Zhou 等人,2023)。

我们将Qwen2-72B-Instruct与包括Mixtral-8x22B-Instruct、Llama-3-70B-Instruct以及Qwen1.5-72B-Chat在内的指令调优模型进行比较。结果呈现在表6中。可以发现,强大的基础语言模型能够有效提升指令调优模型的下游性能。具体而言,除GPQA和MBPP外,Qwen2-72B-Instruct在语言理解、代码生成和数学推理等领域均优于同类模型。在人类偏好对齐和指令遵循方面,Qwen2-72B相比基线模型具有显著优势。我们认为这一成果得益于高质量预训练模型,以及后训练阶段在数据与训练技术两方面的改进。

在这里插入图片描述

表6:70B+指令微调模型性能对比。我们将Qwen2-72B-Instruct与Mixtral-8x22B-Instruct、Llama-3-70B-Instruct、Qwen1.5-72B-Chat及Qwen1.5-110B-Chat进行对比。表中省略了“Instruct”或“-Chat”后缀。Qwen2-72B-Instruct在核心能力上展现出优势,并在人类偏好对齐方面具有更卓越的性能。

在中等规模模型中,我们将Qwen2-57B-A14B-Instruct与另一MoE基线模型Mixtral-8x7B-Instruct,以及参数量超过300亿的稠密SOTA模型(如Yi-1.5-34B-Chat和Qwen1.5-32B-Chat)进行对比。结果详见表7。与Qwen1.5-32B-Chat相比,Qwen2-57B-A14B-Instruct在几乎所有基准测试中都取得了更优性能;相较于30B级别的SOTA模型Yi-1.5-34B-Chat,除数学专项评估外,Qwen2-57B-A14B-Instruct在多数评估中均取得优势。在对齐能力评估方面,Qwen2-57B-A14B-Instruct的优势尤为显著。

在这里插入图片描述

表7:300亿+稠密与400亿+MoE指令微调模型性能对比。我们将Qwen2-57B-A14B-Instruct与规模相近的MoE模型Mixtral-8x7B-Instruct、300亿级稠密模型如Yi-1.5-34B-Chat及Qwen1.5-32B-Chat进行比较。表中省略了“-Instruct”或“-Chat”后缀。Qwen2-57B-A14B-Instruct与近期先进的300亿稠密模型性能相当,并显著超越了MoE基线模型。

在7B至9B参数规模的模型中,我们将Qwen2-7B-Instruct与Llama-3-8B-Instruct、Yi-1.5-9B-Chat、GLM-4-9B-Chat以及Qwen1.5-7B-Chat进行对比,结果详见表8。Qwen2-7B-Instruct相较于前代模型Qwen1.5-7B-Chat在综合评估中展现出显著进步,尤其在编程与数学相关任务中取得了更高分数。与近期前沿模型Llama-3-8B-Instruct相比,Qwen2-7B-Instruct表现出具有竞争力的性能,特别是在编程领域实现更优表现。然而,在指令遵循方面,该模型仍大幅落后于竞争对手。为克服这一局限,我们计划通过提升后训练数据的质量来增强7B模型的指令遵循能力,以确保其对复杂指令具备更稳健的理解与执行水平。

在这里插入图片描述
表8:7B+ 指令微调模型性能对比。我们将 Qwen2-7B-Instruct 与近期参数规模在70-90亿的先进模型进行比较,包括 Llama-3-8B-Instruct、Yi-1.5-9B-Chat、GLM-4-9B-Chat 以及 Qwen1.5-7B-Chat。表中省略了“-Instruct”或“-Chat”后缀。Qwen2-7B-Instruct 展现出与 Llama-3-8B-Instruct 相竞争的性能。

在小规模模型方面,我们将Qwen2-0.5B-Instruct与Qwen1.5-0.5B-Chat进行对比,并将Qwen2-1.5B-Instruct与Qwen1.5-1.8B-Chat进行比较。需注意的是,部分针对大模型设计的数据集复杂度超出了这些小模型的承载能力,因此我们的分析集中于一个精选子集。如表9所示,Qwen2系列模型在核心能力与指令遵循任务上均较前代模型展现出显著优势。这一成果主要归因于预训练数据规模的扩展。由此可证实,即使在十亿参数以下规模的模型领域,数据扩增仍是提升模型性能的有效策略。

在这里插入图片描述

表9:小型指令微调模型的性能表现。我们同时对比了Qwen2-0.5B-Instruct、Qwen2-1.5B-Instruct与Qwen1.5-0.5B-Chat及Qwen2-1.8B-Chat。表中省略了“-Instruct”或“-Chat”后缀。与同等规模的基线模型相比,Qwen2的性能显著超越了Qwen1.5。

5.2.2 内部自动评估

尽管已有多个用于评估的公开基准数据集,我们认为这些远不足以全面理解大语言模型的能力。为此,我们内部构建了一系列数据集,用以评估模型的不同能力,例如知识理解、文本生成、代码编写等。评估工作以中文和英文分别进行,结果分别汇总于表10和表11中。

在这里插入图片描述

表10:Qwen2-Instruct系列模型在我们内部中文自动评估基准上的表现。超越同等规模Qwen1.5模型的分数已加粗标示。Qwen2-57B-A14B-Instruct是与Qwen1.5-32B-Chat进行对比的。

在这里插入图片描述

表11:Qwen2-Instruct模型在我们内部英语自动评估基准上的表现。超越同规模Qwen1.5及Llama-3对应模型的分数以粗体标出。Qwen2-57B-A14B-Instruct的对比对象为Qwen1.5-32B-Chat。

在中文评估方面,我们着重对比Qwen2系列模型与Qwen1.5对应模型的表现。对于小规模模型,Qwen2-1.5B-Instruct在几乎所有评估中都普遍优于Qwen1.5-1.8B-Chat,尽管其参数量更少。在7B模型的对比中,Qwen2的优势更为显著。值得注意的是,Qwen2-72B的表现优于Qwen1.5-110B-Chat,而后者的参数量要庞大得多。MoE模型在多数领域相对Qwen1.5-32B-Chat展现出更优性能,但在知识理解方面例外。这种差异可能源于预训练词元数量的不足。近期我们将继续对MoE模型进行预训练,以探索其扩展规律。

针对英语能力评估,我们将Qwen2与Qwen1.5及Llama-3进行对比。同样地,Qwen2的小规模模型显著超越了同级别的Qwen1.5模型。然而在与Llama-3-70B的比较中,Qwen2-72B-Instruct在理解与代码能力方面以较小差距落后。我们认为,预训练阶段英语语料的总量以及后训练阶段数据的规模与多样性,共同导致了英语性能上的差距。

5.2.3 长上下文处理能力

评估长上下文能力采用了三种方法:大海捞针法(NIAH, Kamradt, 2023)、NeedleBench(OpenCompass Contributors, 2023)以及LV-Eval(Yuan et al., 2024)。

“大海捞针”实验旨在评估模型在长篇文本中精准定位事实的能力。实验构建了长度分别为8K、16K……直至128K标记的文本,并将事实信息策略性地置于不同文本深度。每个深度区间(例如0%至10%)均包含两个测试实例。针对超过32K标记的上下文,本次评估采用了YARN方法(Peng等人,2023)。如图1所示,Qwen2-72B-Instruct在完整128K上下文中的信息检索准确率表现卓越。结合其固有优势,该模型成为处理长文本任务(在资源充足条件下)的理想选择。此外,同系列模型在不同上下文长度下均展现出优异性能:具体而言,Qwen2-7B-Instruct在处理长达128K标记的上下文时仍保持高准确度;Qwen2-57B-A14B-Instruct能有效处理64K标记的上下文;而Qwen2系列中两款更小规模的模型则可支持32K标记的上下文处理。

在这里插入图片描述

图1:Qwen2指令微调模型在“大海捞针”测试中的表现。所有支持上下文长度超过32k标记的模型均集成了YARN机制。

NeedleBench在NIAH基准的基础上提升了挑战难度,其文本片段中包含多个事实(二至五个),要求模型同时进行事实识别与多跳推理。表12显示,YARN与DCA(An等人,2024)技术的结合显著提升了Qwen2系列模型的长上下文能力。Qwen2-7B-Instruct的表现甚至超越了宣称具备100万上下文长度的ChatGLM4-9B-1M(Zeng等人,2024)。此外,Qwen2-72B-Instruct展现出强劲性能,其准确率仅下降6个百分点;相比之下,ChatGLM4-9B-1M的准确率下降幅度更为明显(11个百分点),尤其考虑到其初始准确率本就较低。

在这里插入图片描述

表12:Qwen2-72B-Instruct与Qwen2-7B-Instruct在NeedleBench与LV-Eval上的性能表现。+YARN+DCA在32k词元内不改变模型行为。

LV-Eval包含11个需要同时理解多段证据的多样化问答数据集。为修正原评估指标过于严苛导致高假阴性率的问题,我们采用关键词召回率作为报告指标。如表12所示,整合YARN和DCA显著增强了Qwen2模型在LV-Eval上的长上下文处理能力。Qwen2-7B-Instruct与ChatGLM4-9B-1M表现相当,但在超长上下文中的性能下降更为明显。此外,Qwen2-72B-Instruct在所有长度上均展现出强劲性能,证实了其处理长上下文任务的优异能力。

5.2.4 多语言评估

在多语言能力评估方面,我们实施了全面的人工评估方案。具体而言,我们设计了多样化的测试用例以评估大语言模型的不同能力,其中包含多种语言的测试用例。在标注人员安排上,我们为每种语言邀请一位以该语言为专业背景的专业标注人员参与评估。针对每个测试用例,标注人员将对模型给出的响应进行打分,评分范围为1至5分。

我们在不同语言评估中报告了模型与基准方法的性能结果。由表13可知,Qwen2-72B-Instruct平均表现显著优于GPT-3.5-Turbo,与GPT-4-Turbo性能相当,仅略逊于Claude-3-Opus。这表明我们的多语言预训练与指令微调数据有效增强了Qwen2-72B-Instruct的多语言能力,使其在多数前沿专有大语言模型中具备竞争优势。

在这里插入图片描述

表13:Qwen2-72B-Instruct 与闭源大语言模型在多语言人工评估中的性能表现。我们将 Qwen2-72B-Instruct 与 GPT-3.5-Turbo-1106、GPT-4-Turbo-0409、GPT4o-0513、Claude-3-Opus-0229 进行对比。评分范围为 1 至 5 分。总体而言,Qwen2-72B-Instruct 的表现显著优于 GPT-3.5-Turbo,但要与过去6个月内发布的闭源模型竞争,仍需进一步改进。

5.2.5 安全与责任

权重公开可访问的大型语言模型有效加速了研究进程及其应用发展。此外,我们认为构建安全可靠的大型语言模型至关重要,此举能显著减轻人工智能技术滥用所造成的影响。

我们实施了多语言安全评估,在不同语言环境下测试大语言模型。具体而言,我们评估了模型在涉及非法行为、欺诈等议题上的安全性能。色情内容与隐私保护。我们已收集易引发越狱风险的提示,用于测试模型是否能够通过拒绝来提供安全回应。

结果呈现在表14中,该表展示了各模型生成有害回答的比例,数值越低表现越佳。可以观察到,Qwen2-72B-Instruct的表现优于专有模型GPT-4,且显著优于开源权重模型Mixtral-8x22B-Instruct。然而,我们认为我们的模型仍有很大改进空间,以成为一个更安全、更负责任的模型,尤其在色情内容识别方面——即使对人类而言,这也历来是一个难以准确区分的类别。
在这里插入图片描述

表14:安全性评估中模型的表现。我们将Qwen2-72B-Instruct与GPT-4和Mixtral-8x22B-Instruct进行比较。数值越低越好。Qwen2-72B-Instruct比竞争对手拒绝了更多存在风险的提示。

5.2.6 污染分析

对于大语言模型而言,何为数据污染以及如何进行污染分析,仍是当前活跃的研究领域(Ravaut等人,2024;Golchin与Surdeanu,2024;Sainz等人,2023)。下文将首先介绍我们如何针对评估数据集对训练语料进行去污染处理,随后评估基准分数在多大程度上受到残余污染的影响。

在构建预训练与后训练数据集时,我们采用n-gram匹配方法排除潜在污染数据。然而,我们发现该方法可能导致较高的假阴性率,因为在数学和代码数据中常出现通用表达。为此,我们额外引入了基于最长公共子序列(LCS)的约束条件。具体而言,我们首先去除测试序列与训练序列中的所有符号和标点并进行分词处理。对于训练序列st,若存在测试序列se满足 ∣ L C S ( s t , s e ) ∣ ≥ 13 |LCS(s_t, s_e)| ≥ 13 LCS(st,se)13 ∣ L C S ( s t , s e ) ∣ ≥ 0.6 × m i n ( ∣ s t ∣ , ∣ s e ∣ ) |LCS(s_t, s_e)| ≥ 0.6 × min(|s_t|, |s_e|) LCS(st,se)0.6×min(st,se),则将该训练序列予以剔除。

为评估数据泄露对测试性能的潜在影响,我们遵循OpenAI(2023)的方法,构建了一个严格的非污染测试集,以检验在严格去污染后是否存在显著的性能下降。具体而言,我们通过排除与预训练数据或后训练数据存在13-gram重叠(对LCS无限制)的任何样本来构建非污染测试集,随后在该测试集上计算相应指标。

结果如表15所示。尽管部分数据集在严格标准下显示出较高的污染比例,但我们注意到大部分被识别的污染样本实为误报,主要源于数学和编程数据集。这很可能是因为某些代码片段和数学方程过于常见,以至于它们并未对解决测试数据提供任何实质性优势。此外,我们的分析表明Qwen2系列模型在原始测试数据与去污染测试数据上的表现保持稳定,这表明数据污染这一潜在问题并未对模型性能产生显著影响。

在这里插入图片描述

表15:污染度分析。本表中污染样本的判定采用严格标准:任何测试样本若与预训练或后训练数据存在13gram重叠即被视为污染。我们同时报告了污染样本比例,以及模型在原始测试集与去污染测试集上的性能表现。

6.总结

本技术报告介绍了Qwen2系列模型,这是一个多功能的基础模型与指令微调模型套组,参数量覆盖0.5至720亿规模,包含稠密型和混合专家架构模型。Qwen2在语言理解、生成、多语言能力、编程、数学和推理等广泛基准测试中,其性能不仅超越了先前开源模型(尤其是前代Qwen1.5),更与专业闭源模型展现出强劲竞争力。本次更新我们额外聚焦于长上下文、多语言、编程、数学能力以及安全责任性。为促进社区创新与可及性,我们已开源Qwen2模型权重,使研究者和开发者能够在多样化应用与科研项目中充分发挥Qwen2的潜力。通过这些努力,我们旨在推动人工智能技术的进步,并促进其对社会产生积极影响。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐