1、自然语言处理基础

1.1 中文分词

1.2 词向量训练

1.3 语言模型

1.3.1 RNN

1.3.2 LSTM

1.3.3 GRU

1.3.4 Transformer

在大语言模型(LLM)中,Transformer Block 是最核心、也是最常被提及的计算单元。无论是 GPT、LLaMA,还是各种衍生模型,本质上都是在不断堆叠同一种 Block。

需要先澄清的是,Transformer Block 本身只是“一层如何计算”的问题;而我们通常所说的 Transformer 模型或大模型架构,则是在此基础上,围绕 Block 的堆叠方式、信息流动方式以及训练与推理范式所形成的整体设计。

本文将围绕一个问题展开:

Transformer Block 到底在“做什么”,以及围绕这一计算单元的设计,如何一步步演进成今天的大模型架构?

Transformer Block 的整体流程

Transformer 模型首先通过 分词(Tokenization)将文本拆分为一系列 token,并将每个 token 映射为向量表示(Embedding)。

例如,文本:

“the Shawshank”

Tokenizer 会将其拆分为两个 token:theShawshank,模型通过 embedding 查表,得到对应的向量表示。这些向量随后被送入由多个 Transformer Block 组成的堆栈中逐层处理。

每一层 Transformer Block 都会:

  • 接收上一层输出的向量

  • 对每个 token 进行一次完整的上下文建模

  • 输出与输入维度相同的新向量表示

Decoder-only Transformer(如 GPT 系列)中,所有 Block 的结构和计算顺序是完全一致的。最终,prompt 中最后一个 token 的向量 会被送入语言建模头(Language Modeling Head),用于预测下一个 token。

Transformer Block 的两个核心组件

在 Decoder-only Transformer 中,每一个 Transformer Block 主要由两个模块组成:

它们共同构成了一个稳定的计算单元。

Self-Attention:上下文是如何被“看见”的

《大模型发展史:一篇文章读懂语言模型演进》中我们提到过,自注意力机制的核心目标,是让模型能够在上下文中 动态选择并聚焦关键信息,从而解决长距离依赖和歧义理解的问题。

例如,句子:

“the dog chased the llama because it”

当模型处理到 “it” 这个 token 时,需要判断它指代的是 dog 还是 llama。如果上下文语义表明更可能指向 llama,那么在处理 “it” 时,自注意力机制就会将 llama 相关的信息更强地融入当前 token 的表示中。

这种能力在自然语言处理中被称为 指代消解(Coreference Resolution),而自注意力正是实现这一能力的关键机制之一。

自注意力的两个核心步骤

从计算流程上看,自注意力可以拆解为两个阶段:

  • 相关性打分(Relevance Scoring):判断当前 token 与上下文中其他 token 的相关程度

  • 信息融合(Information Aggregation):将高相关性的 token 信息按权重融合进当前表示

Q/K/V:相关性打分与信息融合

自注意力并不是直接作用在输入向量上,而是先通过三组线性投影矩阵:

  • Query Projection Matrix(查询投影矩阵)

  • Key Projection Matrix(键投影矩阵)

  • Value Projection Matrix(值投影矩阵)

将每个 token 映射为三种不同用途的向量:

  • Query(Q):当前 token 想从上下文中获取什么信息

  • Key(K):当前 token 能为其他 token 提供什么样的匹配线索

  • Value(V):当该 token 被关注时,真正参与信息融合的内容

可以将自注意力类比为一次“向量化检索”:

  • Query:查询条件

  • Key:索引

  • Value:数据本身

在相关性打分阶段,模型会对 Query 与所有 Key 做点积计算,并经过归一化(通常是 softmax),得到一组注意力权重。

随后,每个 Value 向量会与对应权重相乘,所有加权后的 Value 相加,形成自注意力层的输出。

例如:

  • “the”、“dog” 的权重最高

  • 那么它的 Value 向量在最终结果中占比最大

  • 其他 token 的贡献会因为权重较小而被弱化

通过这种方式,自注意力机制实现了对上下文信息的动态选择与融合:不仅决定“看谁”,还决定“怎么把看到的信息整合到当前 token 表示中”。

详细公式展开可以阅读 《Attention 并不是“理解”:从公式角度拆解注意力机制》

多头自注意力(Multi-Head Self-Attention)

多头自注意力的核心思想是:

让模型在多个不同的子空间中,并行关注不同类型的上下文关系

每个子空间通过独立的 Q/K/V 投影矩阵形成,每个注意力头只在自己对应的子空间计算注意力权重。

最终,所有注意力头的输出会被拼接,并通过线性映射得到自注意力层的输出,然后送入后续的前馈神经网络(FFN)或残差连接中。

Self-Attention 的工程化优化

在工程实践中,自注意力通常是计算和显存开销最大的部分,因此出现了多种优化方案。这些方法并不是替代自注意力原理,而是在效率与效果之间做权衡。

Multi-Query Attention(MQA,多查询注意力)

所有注意力头共享同一组 Key / Value 投影矩阵,以减少参数量和计算成本,可以理解为一种 参数压缩 技术。

Grouped Query Attention(GQA,分组查询注意力)

将注意力头分组,每组共享一组 Key / Value,在效率和表达能力之间取得平衡。许多现代大模型都采用了这种方案。

通常用以下参数描述:

  • n_groups:分组数量

  • n_attension_heads:注意力头总数

Sparse Attention(稀疏注意力)

对比 Full Attention(完整自注意力,每个 token 可以关注它允许看到的所有 token)而言,稀疏注意力通过限制每个 token 的关注范围,在降低计算和显存开销的同时,尽量保留对关键上下文的捕获能力。

常见策略包括:

  • Strided / Pattern-based Sparse Attention:关注最近几个 token,同时也关注某些固定位置

  • Fixed Window Attention:超过某个位置后,只能关注固定窗口内的 token

Ring Attention(超长上下文)

用于支持十万级甚至百万级 token 的上下文建模,是近年来长上下文模型的重要方向。

具体可以查看:

Feed-Forward Neural Network(FFN):对信息进行“加工”

如果说自注意力负责 让 token 看见上下文,那么 FFN 的作用是:

在此基础上,对每个 token 的表示进行非线性变换和增强。

换句话说,FFN 并不负责建模 token 之间的关系,而是负责 “加工”已经包含上下文信息的 token 表示

举个例子,输入是:

“the Shawshank”

自注意力机制会让模型意识到 Shawshank 在当前上下文中具有强语义指向性;而在大量训练数据中(如互联网或维基百科),Shawshank 往往和 redemption 一起出现。

在这种情况下,FFN 会将已经捕获到的上下文关系,转化为更有利于预测下一个 token 的内部特征表示。最终,这些特征会被送入语言建模头(Language Modeling Head),用于生成下一个 token(例如 redemption)。

前馈神经网络的结构特点

在结构上,FFN 通常采用:

  • 第一层:将输入向量的维度扩展到更高的维度

  • 中间部分:通过非线性激活函数对信息进行变换

  • 最后一层:再将向量维度压缩回原来的大小

这种“先扩展、再压缩”的结构,并不是为了改变序列长度,而是为了:

在更高维的空间中,对信息进行重组、组合和抽象。

FFN 与模型能力的关系

从工程和经验角度来看:

  • FFN 通常是 Transformer 中参数量最大的部分,尤其在大模型中,占据了大部分计算和存储资源。

  • 它是模型内部编码和组合抽象特征的核心模块。通过大规模训练,FFN 会将各种语言模式、事实关联、统计规律以 分布式方式写入网络参数中,而不是存储在单独的“知识库”里。

这意味着:

  • 代码生成能力:模型可以理解和生成符合语法结构的代码

  • 知识记忆与推理能力:模型能够在推理中利用大量事实关联和统计模式

  • 语言风格和连贯表达:模型可以保持上下文一致的风格和逻辑

换句话说,FFN 负责将自注意力捕获到的上下文信息 加工、抽象、强化,为后续的语言建模输出提供“高阶特征”。

这也是为什么现代工程优化,如 Mixture of Experts(MoE),通常针对 FFN 进行稀疏化处理,而不是替换自注意力结构:FFN 承载了大模型的核心能力。

现代 Transformer 的结构变化

随着模型规模不断增大,Transformer Block 的设计逐渐围绕一个核心目标展开:

更深、更稳、更高效地训练和推理

现代 Transformer 在结构上做出了一系列关键调整。

Pre-LayerNorm(Pre-LN)

首先是 Layer Normalization 位置的变化

在现代大模型中,LayerNorm 通常被移动到自注意力层(Self-Attention)和前馈神经网络(FFN)之前,即采用 Pre-LayerNorm(Pre-LN) 结构。

这种设计可以直观地理解为:

先将输入“整理好”,再交给复杂模块处理,而不是等模块计算完成后再去纠正数值分布。

从工程角度来看,Pre-LN 的一个重要优势在于:残差连接路径上的信号不再被 LayerNorm 干扰,从而使梯度能够更加稳定、直接地在深层网络中传播。

大量实践表明,Pre-LN 结构可以显著改善深层 Transformer 的训练稳定性,使模型能够可靠地堆叠到数十甚至上百层。因此,Pre-LN 已经成为当前主流大模型的标准配置。

注意力机制的工程化改进

变化不仅发生在结构层面,也体现在 注意力机制本身的工程优化 上。

在保证模型效果的前提下,现代模型通常会在自注意力中采用 分组查询注意力(Grouped Query Attention, GQA)。这种设计在实践中可以显著降低计算量和显存占用,尤其是在模型参数规模和上下文长度不断增大的场景下,成为一种性价比极高的工程优化方案。

与此同时,大多数现代 Transformer 还会使用 旋转位置编码(Rotary Position Embeddings, RoPE)

与传统的绝对位置编码不同,RoPE 将位置信息直接融入到自注意力的计算过程中,使模型能够以更自然的方式建模 相对位置信息。这使得模型在面对更长上下文时,通常具备更好的泛化能力,也更符合实际推理场景的需求。

残差连接:始终存在但同样关键的设计

最后,还有一个从 Transformer 诞生之初就存在、但在深层模型中尤为关键的设计:残差连接(Residual Connections)

残差连接可以理解为为信息在网络中保留了一条“直达通道”。即使中间层的表示学习得不充分,输入信息仍然可以直接传递到后续层。

在模型层数不断加深的背景下,这种设计有效缓解了梯度消失和信息衰减问题,使 Transformer 能够稳定地向更深层扩展,是大规模模型能够成功训练的重要基础之一。

旋转位置编码(RoPE)

语言建模(Language Modeling)的核心目标,是通过大规模语料进行基础训练(Base Training),也就是我们常说的 “下一个 token 预测”。模型通过不断预测下一个 token,逐步学会语言的统计规律和上下文依赖关系。

正是这种训练方式,决定了位置编码在大模型中的重要性。

在实际训练中,现代大模型往往支持很长的上下文长度(例如 8K、16K 甚至更长)。但单个文档通常很难填满完整上下文,如果简单地使用 padding 补齐,会造成大量无效计算。因此,工业界常见的做法是 将多个较短的文档拼接到同一个序列中进行训练,以提高 GPU 利用率。

这种训练方式通常不会显式告诉模型“这里是一个新文档”,而是通过特殊的边界 token(如 [SEP])以及注意力机制本身,让模型去学习上下文结构的变化。这也对位置编码提出了更高的要求:模型不仅需要知道“我在第几个位置”,更重要的是能够理解 token 之间的相对顺序和距离关系

早期模型普遍采用 绝对位置编码,即为每个 token 分配一个固定的 position embedding,并与 token embedding 相加。这种方式只能表达“第 N 个位置”,难以自然建模 token 之间的相对距离,同时在长文本场景下的外推能力也较弱。

RoPE(Rotary Positional Embedding,旋转位置编码) 则采用了不同的思路。它并不是在 embedding 层直接叠加位置信息,而是在注意力计算之前,将位置信息通过“旋转”的方式注入到 Query 和 Key 向量中。这样一来,在计算注意力分数(Q·K)时,不同 token 之间的 相对位置差 会自然地体现在相关性结果中。

可以从一个直观的角度来理解:

RoPE 通过“旋转角度的差值”来编码 token 之间的相对位移。模型无需显式知道“距离是多少”,就能在注意力计算中感知谁在前、谁在后,以及它们之间相隔多远。

也正因为如此,RoPE 在长上下文建模以及多文档拼接训练等场景下表现得尤为稳定,并逐渐成为现代主流大模型中广泛采用的位置编码方案。

Mixture of Experts(MoE,专家混合)

近年来,大语言模型的一个重要发展方向是 Mixture of Experts(MoE)。它主要针对 Transformer 中 前馈神经网络 这一参数量最大的模块进行优化。

在传统 Transformer 中,FFN 是一个 稠密网络(Dense Network),也就是说,每个输入 token 都会激活网络中的全部参数。随着模型规模不断扩大,FFN 往往会比自注意力层更早成为 计算量和显存占用的主要瓶颈

MoE 的核心思想是:将原本的一个大 FFN,拆分为多个专家网络(Experts),并让每个 token 只激活其中一小部分专家,从而实现稀疏计算(Sparse Computation)。

专家网络(Experts)

每个专家本质上都是一个完整的前馈网络,结构上与普通 FFN 类似。不同之处在于:它们不会在每个 token 上同时被激活。

在训练过程中,不同专家会逐渐对不同类型的 token 分布或上下文模式产生偏好,例如常见词、长依赖结构、特定语义模式等。这种分工并不是人工指定的,而是通过训练过程自然形成的。

输入 token 首先会经过路由器(Router),由路由器选择一个或多个专家进行计算,其余专家在该 token 上保持“休眠”。在层级上,每一层的专家选择是相互独立的,同一个 token 在不同层中可能会被分配给不同的专家。

当选择多个专家时,通常会对它们的输出进行加权求和或加权平均,由路由器分配更高权重的专家在最终结果中占据更大比例。

⚠️ 注意:专家本身不具备“知识库”或人类专家的语义,它们只是通过训练学习不同的向量模式和语言统计规律。

路由器(Router)

路由器的职责是:判断当前 token 更适合由哪些专家来处理

在实现上,路由器通常是一个计算开销很小的网络(例如线性层或轻量 MLP),用于为每个专家打分,表示该专家对当前 token 的适配度。常见的路由策略包括:

  • Top-1 Routing:只选择得分最高的一个专家,计算效率最高

  • Top-K Routing:选择得分最高的 K 个专家,在效果和稳定性上更灵活

路由器的设计和训练是 MoE 中最具挑战性的部分之一。一方面,需要避免少数专家被频繁激活、其余专家长期闲置;另一方面,也要保证路由决策本身不会引入过高的额外开销。

稀疏参数与活跃参数

在 MoE 模型中,通常会区分两类参数:

  • 稀疏参数(Sparse Parameters)

  • 活跃参数(Active Parameters)

稀疏参数(Sparse Parameters):模型加载时需要占用内存,但并非所有参数在推理阶段都参与计算

活跃参数(Active Parameters):在当前 token 上实际参与计算的参数数量

由于每个 token 只激活少量专家,MoE 模型在推理阶段的 活跃参数规模通常远小于总参数规模。这使得模型可以在保持极大参数容量的同时,将实际计算成本控制在可接受范围内。

1.4 自然语言处理基础相关论文和代码

一、词向量表示(NLP 表示学习基石,2013-2018)

解决传统独热编码稀疏、无语义的问题,将单词映射为低维稠密的实值向量,实现语义相似性量化,是所有深度学习 NLP 模型的输入基础,分静态词向量(单一词义)和动态词向量(上下文相关)两类。

1. Word2Vec:Efficient Estimation of Word Representations in Vector Space(ICLR 2013)

2. GloVe:Global Vectors for Word Representation(EMNLP 2014)

  • 简介:基于全局词共现统计的静态词向量,结合 Word2Vec 的局部上下文优势和 LSA 的全局统计优势,词向量的语义 / 句法相似度更优,在文本分类、匹配等任务中性能优于普通 Word2Vec,是静态词向量的强基线

  • 论文地址https://aclanthology.org/D14-1162/

  • 代码地址https://github.com/stanfordnlp/glove(官方,C/Python);gensim 内置实现

3. FastText:Enriching Word Vectors with Subword Information(ACL 2017)

  • 简介:Facebook 提出的静态词向量改进版,将字符级 n-gram融入词向量训练,解决OOV(未登录词)和生僻词问题(如 “unhappiness” 可拆分为 “un-”“happy”“-ness”),支持多语言,训练速度极快,是低资源 / 多语言场景的词向量首选。

  • 论文地址https://aclanthology.org/P17-1013/

  • 代码地址https://github.com/facebookresearch/fastText(官方,C++/Python)

4. ELMo:Deep Contextualized Word Representations(NAACL 2018)

二、经典语言模型(NLP 序列建模基础,1997-2018)

语言模型核心是计算文本序列的概率,捕捉单词间的上下文依赖关系,是生成式 NLP 的基础,分传统统计语言模型深度学习语言模型,后者为 Transformer 预训练模型奠定序列建模基础。

1. N-gram Language Model(经典统计模型,1997)

2. RNN-LM:Recurrent Neural Network Language Model(ICML 2003)

3. LSTM-LM:Long Short-Term Memory(NeurIPS 1997 + 2001)

4. GRU-LM:Gated Recurrent Unit(2014)

  • 简介:LSTM 的轻量改进版,将输入门 / 遗忘门合并为更新门,移除细胞状态,简化模型结构,训练速度比 LSTM 快 30% 以上,性能与 LSTM 接近,是资源受限场景的序列建模首选,广泛用于工业界轻量 NLP 模型。

  • 论文地址https://arxiv.org/abs/1406.1078

  • 代码地址:PyTorch/TensorFlow 均内置 GRU,可直接替换 LSTM 使用

三、注意力与 Transformer(现代 NLP 核心架构,2014-2017)

注意力机制解决了 RNN 类模型并行计算效率低、长序列建模能力弱的问题,Transformer基于纯注意力机制构建,成为所有现代 NLP 模型(BERT/GPT/T5)的核心基础,彻底改变 NLP 的技术格局。

1. Seq2Seq+Attention:Neural Machine Translation by Jointly Learning to Align and Translate(ICLR 2015)

2. Self-Attention:Attention Is All You Need(NeurIPS 2017)

3. Multi-Head Attention(NeurIPS 2017)

  • 简介:Transformer 的核心组件之一,将自注意力机制拆分为多个头,每个头学习不同的语义 / 句法特征(如一个头关注词性,一个头关注语义,一个头关注上下文依赖),大幅提升注意力机制的特征表达能力,是 Transformer 性能优于单头注意力的关键。

  • 论文地址:融合于《Attention Is All You Need》(同上)

  • 代码地址:所有 Transformer 实现均包含多头注意力,参考上述 Transformer 代码

四、基础优化方法(NLP 模型训练必备,2014-2020)

涵盖优化器、正则化、初始化、学习率调度等 NLP 模型训练的核心基础方法,解决模型训练不稳定、收敛慢、过拟合等问题,是所有 NLP 深度学习模型的训练标配,直接决定模型的训练效率和最终性能。

1. Adam:A Method for Stochastic Optimization(ICLR 2015)

  • 简介:最主流的自适应优化器,结合 SGD 的动量和 RMSprop 的自适应学习率,收敛速度快、训练稳定,对学习率超参数不敏感,是所有 NLP 深度学习模型的默认优化器(BERT/GPT/Transformer 均使用 Adam/AdamW),彻底取代 SGD 成为 NLP 训练首选。

  • 论文地址https://arxiv.org/abs/1412.6980

  • 代码地址:PyTorch/TensorFlow/JAX 均内置 Adam 实现,直接调用

2. AdamW:Decoupled Weight Decay Regularization(ICLR 2018)

3. Dropout:Improving Neural Networks by Preventing Co-adaptation of Feature Detectors(NeurIPS 2014)

  • 简介:最经典的正则化方法,训练时随机丢弃部分神经元(按一定概率),防止神经元之间的共适应,有效解决模型过拟合问题,是所有深度学习 NLP 模型的必备组件(词向量、LSTM、Transformer、预训练模型均使用 Dropout)。

  • 论文地址https://arxiv.org/abs/1207.0580

  • 代码地址:PyTorch/TensorFlow 均内置 Dropout 层,直接调用

4. Layer Normalization:Layer Normalization(ICML 2016)

  • 简介:针对批量归一化(BN)在 NLP 中效果不佳(NLP 序列长度不固定、批量小)的问题,提出按层归一化,对每个样本的每个层的特征进行归一化,训练稳定、不依赖批量大小,是Transformer、预训练模型的核心组件(与残差连接配合,解决深度模型训练不稳定问题)。

  • 论文地址https://arxiv.org/abs/1607.06450

  • 代码地址:PyTorch/TensorFlow 均内置 LayerNorm 实现,Transformer 默认使用

5. Xavier Initialization:Understanding the Difficulty of Training Deep Feedforward Neural Networks(AISTATS 2010)

  • 简介:经典的模型参数初始化方法,根据输入 / 输出神经元数量设置初始化方差,保证模型训练时梯度不消失 / 爆炸,是 ** 浅层 NLP 模型(CNN / 简单 RNN)** 的标配初始化方法;后续的 He 初始化是其针对 ReLU 激活函数的改进版。

  • 论文地址https://arxiv.org/abs/1301.3584

  • 代码地址:PyTorch/TensorFlow 均内置 Xavier/He 初始化,直接调用

6. Learning Rate Scheduling:Cyclical Learning Rates for Training Neural Networks(ICLR 2017)

  • 简介:学习率调度的经典方法,提出周期性调整学习率(先升后降),让模型在不同学习率下探索最优解,提升模型收敛速度和最终性能。衍生的余弦退火学习率(Cosine Annealing)预训练语言模型训练的标配,HuggingFace Transformers 默认使用。

  • 论文地址https://arxiv.org/abs/1506.01186

  • 代码地址https://github.com/huggingface/transformers(内置所有学习率调度器);PyTorch/TensorFlow 均内置学习率调度实现

五、NLP 基础工具包(必备,覆盖全流程)

1. 基础数据处理 / 分词

2. 模型训练 / 推理核心框架

3. 词向量 / 表示学习工具

1.5 时序预测问题

当前时序预测领域已进入“基础模型(Foundation Models)”与“高效Transformer/MLP”并行的时代。研究热点从单纯的精度提升转向了零样本泛化能力(Zero-shot)、长序列建模效率以及多变量耦合关系的处理。


一、核心开源资源库 (强烈推荐)

在深入研究具体算法前,建议先收藏以下汇总资源库,它们包含了绝大多数主流算法的统一实现和评测基准。

  • Time-Series-Library (清华大学开源)

    • 简介: 目前最权威的时序预测代码库之一(由iTransformer, PatchTST等作者维护)。集成了DLinear, iTransformer, PatchTST, Informer, Autoformer等20+种SOTA模型。提供了统一的数据加载器、训练流程和评测标准,是复现论文的首选。

    • 地址https://github.com/thuml/Time-Series-Library

  • NeuralForecast (Nixtla开源)

    • 简介: 工业界友好的高性能库,不仅包含深度学习模型(如NHITS, TFT),还集成了传统统计学模型(ARIMA, ETS)。支持分布式训练和概率预测,文档极其完善。

    • 地址https://github.com/Nixtla/neuralforecast

  • GluonTS (AWS开源)

    • 简介: 亚马逊推出的概率时序预测库,是Chronos等大模型的底层框架之一。擅长处理不确定性估计和复杂分布建模。

    • 地址https://github.com/awslabs/gluonts


二、SOTA 基础模型 (Foundation Models) - 当前最热

这类模型通过在海量异构数据上预训练,具备强大的零样本(Zero-shot)或少样本(Few-shot)泛化能力,无需针对新任务重新训练即可直接推理。

1. Chronos (Amazon, 2024) - 通用性标杆

  • 论文标题Chronos: Learning the Language of Time Series

  • 简介: 亚马逊推出的基于T5语言模型架构的时序基础模型。核心创新是将时间序列数值通过缩放和量化转换为离散的“Token”,从而将预测问题转化为语言模型的下一个Token预测问题。它在多个基准测试中展现了惊人的零样本泛化能力,甚至优于针对特定数据集训练的监督模型。

  • 论文地址arXiv:2403.07815

  • 代码地址https://github.com/amazon-science/chronos-forecasting

  • 特点: 支持概率预测,开箱即用,适合缺乏标注数据的场景。

2. TimesFM (Google, 2024/2025)

  • 论文标题Large Foundation Models for Long Time Series Forecasting (及相关系列工作)

  • 简介: 谷歌推出的时序基础模型。采用Decoder-only Transformer架构,结合了频域分解思想。TimesFM在长序列预测和跨域泛化上表现优异,能够处理从分钟级到年级别的不同频率数据。最新版本(2.5+)进一步扩展了上下文窗口长度。

  • 论文地址arXiv:2402.02592 (参考相关系列)

  • 代码地址https://github.com/google-research/timesfm

  • 特点: 对长序列支持好,推理速度快,已集成到HuggingFace和Vertex AI。

3. Moirai (Salesforce, 2024)

  • 论文标题Moirai: Efficient and Generalizable Time Series Foundation Model

  • 简介: 提出了一种多尺度补丁投影(Multi-scale Patch Projection)机制,能够自适应地处理不同分辨率和长度的时间序列。其核心优势在于“任意变量注意力”机制,使其能灵活处理单变量和多变量混合的场景。

  • 论文地址arXiv:2402.03885

  • 代码地址https://github.com/SalesforceAIResearch/moirai


三、高效 Transformer 与 MLP 模型 (Supervised SOTA)

如果您有特定领域的标注数据需要微调(Fine-tuning),以下模型在精度和效率上达到了目前的最佳平衡(SOTA)。

1. iTransformer (ICLR 2024) - Transformer改进标杆

  • 论文标题iTransformer: Inverted Transformers Are Effective for Time Series Forecasting

  • 简介: 颠覆了传统Transformer在时序中的应用方式。它反转了输入维度:将每个变量的整个时间序列作为一个Token(而不是每个时间步作为一个Token),利用Attention机制捕捉多变量之间的相关性(Variates Correlation),利用Feed-Forward网络捕捉时间依赖。解决了传统Transformer在处理长序列多变量时的痛点。

  • 论文地址arXiv:2310.06625

  • 代码地址https://github.com/thuml/iTransformer

  • 地位: 目前在许多长序列预测基准(如ETT, Weather)上霸榜。

2. PatchTST (ICLR 2023) - 分块策略开创者

  • 论文标题A Time Series is Worth 64 Words: Long-term Forecasting with Transformers

  • 简介: 提出了分段(Patching)策略。将时间序列切分成重叠的子序列(Patch)作为Transformer的输入Token。这不仅保留了局部语义信息,还大幅减少了Token数量,降低了计算复杂度,同时缓解了分布漂移(Distribution Shift)问题。

  • 论文地址arXiv:2211.14730

  • 代码地址https://github.com/yuqinie98/PatchTST

3. DLinear / Simple Linear (AAAI 2023) - 极简主义震撼

  • 论文标题Are Transformers Effective for Time Series Forecasting?

  • 简介: 一篇“反思”性质的论文。作者发现,简单的线性层(Linear Layer)在去除了趋势和季节性后,其表现往往优于复杂的Transformer模型。它提醒研究者不要过度迷信复杂架构,强调了分解(Decomposition)的重要性。常作为强Baseline使用。

  • 论文地址arXiv:2205.13504

  • 代码地址: 包含在 Time-Series-Library 中。

4. TimeMixer++ (ICLR 2025) - 最新多尺度融合

  • 论文标题TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis

  • 简介: 2025年的最新力作。不仅用于预测,还统一了分类、异常检测等任务。核心是通过多尺度下采样提取不同分辨率的时间模式,并进行可学习的融合。在多个任务上刷新了SOTA记录。

  • 论文地址OpenReview (ICLR 2025)

  • 代码地址: 通常会在 Time-Series-Library 或作者主页更新,关注相关Repo。


四、经典与特定场景模型

表格

模型名称

年份

特点

适用场景

代码/论文

Informer

2021

引入ProbSparse Attention,降低复杂度至O(L log L)。

长序列预测奠基之作

Paper / Code

Autoformer

2021

引入深度分解架构和自相关机制(Auto-Correlation)。

具有明显季节性的序列

Paper / Code

NHITS

2022

基于层级插采样的纯MLP架构,可解释性强。

需要长 horizon 预测且追求速度

Paper / Code

LAG-LLaMA

2024

基于LLaMA架构的时序基础模型,专注于单变量泛化。

零样本单变量预测

Paper / Code


五、常用数据集

研究和测试通常使用以下基准数据集(上述代码库通常内置了下载脚本):

  1. ETT (Electricity Transformer Temperature): 电力变压器温度数据,分为ETTh1, ETTh2 (小时级), ETTm1, ETTm2 (15分钟级)。长序列预测的“Hello World”。

  2. Weather: 德国气象站数据,包含21个气象指标。

  3. Traffic: 加州高速公路占用率数据。

  4. Electricity: 美国某公用事业公司的每小时电力消耗数据。

  5. M4 / M5: 竞赛数据集,涵盖零售、金融等多领域,主要用于评估泛化能力。

六、总结与建议

  • 想要快速落地/零样本预测: 首选 Chronos 或 TimesFM。不需要训练,直接加载预训练权重即可推理,特别适合冷启动项目。

  • 有充足数据/追求极致精度: 使用 Time-Series-Library 复现 iTransformer 或 PatchTST。这两个模型目前在监督学习设定下表现最稳健。

  • 资源受限/边缘设备: 尝试 DLinear 或 NHITS。它们的参数量极小,推理速度极快,且精度往往不输大模型。

  • 最新科研方向: 关注 TimeMixer++ 等多任务统一模型,以及结合 LLM (大语言模型) 进行时序推理的交叉研究(如利用LLM的常识辅助预测)。

2、自然语言处理问题(文本分类、文本匹配、序列标注、文本生成)

2.1 文本分类

文本分类相关论文和代码

一、传统基线(经典统计 / 线性模型)

1. Linear Classifier: An Often-Forgotten Baseline for Text Classification(ACL 2023)


二、深度学习经典模型(2014-2019)

1. TextCNN:Convolutional Neural Networks for Sentence Classification(EMNLP 2014)

2. CharCNN:Character-level Convolutional Networks for Text Classification(NIPS 2015)

3. FastText:Bag of Tricks for Efficient Text Classification(EACL 2017)

4. DPCNN:Deep Pyramid Convolutional Neural Networks for Text Categorization(ACL 2017)

5. TextRCNN:Recurrent Convolutional Neural Networks for Text Classification(AAAI 2015)

6. HAN:Hierarchical Attention Networks for Document Classification(NAACL 2016)

7. TextGCN:Graph Convolutional Networks for Text Classification(AAAI 2019)


三、预训练语言模型(2018 至今,SOTA 主流)

1. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding(NAACL 2019)

2. RoBERTa:A Robustly Optimized BERT Pretraining Approach(ACL 2019)

3. ALBERT:A Lite BERT for Self-supervised Learning of Language Representations(ICLR 2020)


四、一站式复现仓库(多模型集合)

2.2 文本匹配

文本匹配相关论文和代码

一、传统基线(统计 / 语义匹配,低资源友好)

1. Word2Vec + Cosine Similarity(NeurIPS 2013)

2. GloVe: Global Vectors for Word Representation(EMNLP 2014)

二、深度学习经典模型(2015-2019,Siamese / 交互架构核心)

1. Siamese CNN:Siamese Convolutional Neural Networks for One-Shot Image Recognition(ICML 2015,文本适配主流)

2. Siamese LSTM:Siamese Recurrent Architectures for Learning Sentence Similarity(AAAI 2016)

3. ESIM:Enhanced LSTM for Natural Language Inference(ACL 2017)

4. BiMPM:Bilateral Multi-Perspective Matching for Natural Language Inference(ICLR 2018)

  • 简介:在 ESIM 基础上提出多视角双向匹配,从词级 / 短语级 / 句子级多维度对两个文本进行双向交互匹配,引入多视角相似度矩阵,进一步提升复杂语义匹配的准确性,在 NLI、问答匹配数据集上刷新 SOTA。

  • 论文地址:https://arxiv.org/abs/1702.03814

  • 代码地址:https://github.com/zhiguowang/BiMPM(官方,PyTorch/TensorFlow)

5. MatchPyramid:Text Matching as Image Recognition(AAAI 2016)

6. DRMM:Deep Relevance Matching Model for Ad-hoc Retrieval(CIKM 2016)

  • 简介:针对检索式文本匹配(ad-hoc IR)设计,基于词级相似度分布构建匹配特征,通过多层感知机建模相似度分布的非线性关系,对长文档与短查询的匹配适配性强,工业界检索场景广泛使用。

  • 论文地址:https://aclanthology.org/C16-1170/

  • 代码地址:https://github.com/NTMC-Community/MatchZoo(内置 DRMM/DRMM-TKS)

三、预训练模型适配(2018 至今,SOTA 主流,兼顾通用 / 专项)

1. BERT for Sentence Similarity(NAACL 2019,经典适配)

2. Sentence-BERT:Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks(EMNLP 2019)

  • 简介:工业界文本匹配首选模型,对 BERT 进行孪生网络改造,通过共享权重编码得到固定长度的句子嵌入,直接计算余弦相似度即可完成匹配,解决了原生 BERT 句子嵌入计算慢、相似度性能差的问题,推理速度提升百倍,兼顾精度与效率。

  • 论文地址:https://aclanthology.org/D19-1410/

  • 代码地址:https://github.com/UKPLab/sentence-transformers(官方,含预训练模型 + 微调脚本,支持多语言)

3. ERNIE 3.0 for Text Matching(ACL 2021)

4. DeBERTa:DeBERTa: Decoding-enhanced BERT with Disentangled Attention(ICLR 2021)

四、专项优化模型(对比学习 / 低资源 / 长文本,细分场景 SOTA)

1. SimCSE:Contrastive Learning of Sentence Embeddings(EMNLP 2021)

2. CoSENT:Cosine Sentence Similarity for Contrastive Learning(2022,中文优化)

3. LongLM for Long Text Matching(NeurIPS 2022,长文本专项)

  • 简介:针对长文本匹配(如文档 - 文档、长 query - 长 doc)设计的预训练模型,通过稀疏注意力 + 分段编码解决 Transformer 长文本建模的显存 / 计算问题,在长文本语义相似度、长文档匹配任务上性能远超普通 BERT/SBERT。

  • 论文地址:https://arxiv.org/abs/2207.02428

  • 代码地址:https://github.com/allenai/longlm(官方,PyTorch)

五、一站式文本匹配工具包(多模型集成,快速复现 / 落地)

  1. MatchZoo:https://github.com/NTMC-Community/MatchZoo专为文本匹配设计的工具包,内置 MatchPyramid、DRMM、ARC-I/II 等经典深度学习模型,支持快速搭建、训练、评估,适配检索式匹配 / 语义相似度任务。

  2. Sentence-Transformers:https://github.com/UKPLab/sentence-transformers文本嵌入 / 匹配一站式工具包,内置 SBERT、SimCSE、CoSENT 等主流模型,支持预训练模型直接调用、自定义数据集微调,输出固定长度句子嵌入,可直接计算相似度,工业界落地首选。

  3. PaddleNLP(中文专属):https://github.com/PaddlePaddle/PaddleNLP百度推出的中文 NLP 工具包,内置 ERNIE、SimCSE、CoSENT 等中文优化的文本匹配模型,附带中文基准数据集(如 LCQMC、BQ Corpus),适配中文问答匹配、语义相似度等场景。

六、中文文本匹配专属基准数据集(附论文 / 地址)

文本匹配论文复现常用中文数据集,均为顶会公开,可直接用于模型训练 / 测试:

  1. LCQMC(哈工大):https://aclanthology.org/C18-1105/(论文);https://github.com/liuhuanyong/LCQMC(数据)

  2. BQ Corpus(百度):https://aclanthology.org/D18-1032/(论文);https://github.com/baidu-research/BQCorpus(数据)

  3. CMNLI(中文 NLI):https://aclanthology.org/2020.emnlp-main.396/(论文);https://github.com/CLUEbenchmark/CLUE(数据,CLUE 套件)

2.3 序列标注

 序列标注相关论文和代码

一、传统统计基线(2000-2015,序列标注基础)

该类是序列标注的经典基线,奠定概率图模型在序列建模的核心框架,至今仍是低资源、小样本场景的可靠对比基准,其中 CRF 是后续深度学习模型的标配组件。

1. CRF:Conditional Random Fields (2001,经典顶刊)

2. BiLSTM-CRF 基线(2015,ACL 配套经典实现)

二、深度学习经典模型(2015-2019,非预训练时代 SOTA)

该类模型基于CNN/RNN/ 注意力优化特征提取,解决 BiLSTM-CRF 的长距离依赖、局部特征捕捉不足等问题,是预训练模型出现前的主流序列标注方法,轻量高效,适合资源受限场景。

1. LSTM-CNNs-CRF:Neural Architectures for Named Entity Recognition(ACL 2016)

2. IDCNN-CRF:Fast and Accurate Entity Recognition with Iterated Dilated Convolutions(ACL 2017)

3. Attention-Based BiLSTM-CRF:Attention-Based Bidirectional LSTM-CRF Model for Relation Extraction(EMNLP 2016,序列标注适配)

4. Chinese NER with Lattice LSTM:Chinese NER Using Lattice LSTM(ACL 2018)

5. FLAT:Chinese NER Using Flat-Lattice Transformer(ACL 2020)

三、预训练模型适配(2019 至今,通用序列标注 SOTA)

基于BERT/XLNet 等预训练语言模型微调,是目前序列标注的标配主流方法,预训练模型已捕获海量语义信息,仅需简单微调 + CRF 即可刷新所有数据集 SOTA,分通用适配中文专属优化两类,覆盖中英文 NER/POS/ 分词。

1. BERT-CRF:BERT for Named Entity Recognition(NAACL 2019,经典适配)

2. XLNet-CRF:XLNet: Generalized Autoregressive Pretraining for Language Understanding(NeurIPS 2019)

3. ERNIE 1.0/2.0:Enhanced Language Representation with Informative Entities(ACL 2019/2020)

4. RoBERTa-CRF:A Robustly Optimized BERT Pretraining Approach(ACL 2019)

5. ALBERT-CRF:A Lite BERT for Self-supervised Learning of Language Representations(ICLR 2020)

6. MacBERT:Masked Aligned Cross Entropy for BERT Pre-training(ICLR 2021)

四、专项优化模型(2020 至今,细分场景 SOTA)

针对序列标注的细分痛点(低资源、长文本、嵌套实体、轻量部署)设计,覆盖中文专属、低资源、嵌套 NER 等核心场景,是当前序列标注的研究热点。

1. Nested NER:Nested Named Entity Recognition with Flat-Lattice Transformer(ACL 2021)

2. Low-Resource NER:Few-Shot Named Entity Recognition with Self-Supervision and Contrastive Learning(EMNLP 2021)

3. Long Text NER:Longformer for Long-Document NER(EMNLP 2020)

4. Chinese Word Segmentation:BERT for Chinese Word Segmentation(ACL 2020,专项)

5. Lightweight NER:DistilBERT-CRF:Distilling the Knowledge in a Pre-trained Transformer(NeurIPS 2019)

五、序列标注一站式工具包 / 框架(快速复现 / 工业落地)

通用框架(中英文适配)

  1. Hugging Face Transformershttps://github.com/huggingface/transformers主流 NLP 框架,内置 BERT/RoBERTa/XLNet 等所有预训练模型,提供序列标注专用微调接口,支持一键加载模型、自定义数据集、训练 / 推理,附带 seqeval 评估工具,适配 PyTorch/TensorFlow。

  2. AllenNLPhttps://github.com/allenai/allennlp专为 NLP 设计的框架,内置 BiLSTM-CRF/IDCNN-CRF/BERT-CRF 等所有序列标注模型,支持可视化、自定义组件,适合学术研究与快速原型开发。

  3. seqevalhttps://github.com/chakki-works/seqeval序列标注专用评估工具,支持 Precision/Recall/F1 计算,适配 NER/POS/ 分词等所有序列标注任务,是工业界与学术界的标配评估库。

中文专属框架(分词 / NER 优化)

  1. PaddleNLPhttps://github.com/PaddlePaddle/PaddleNLP百度推出的中文 NLP 框架,内置 ERNIE/MacBERT/FLAT 等中文优化的序列标注模型,附带中文 NER / 分词 / 词性标注专用数据集(MSRA/PKU/ONTONOTE)和预训练模型,中文序列标注落地首选。

  2. THULAChttps://github.com/thunlp/THULAC-Python哈工大推出的中文分词 / 词性标注工具,基于 CRF + 深度学习,轻量高效、准确率高,支持自定义训练,适合中文基础序列标注落地。

  3. jieba+CRFhttps://github.com/fxsjy/jieba + https://github.com/scikit-learn-contrib/crfsuite工业界轻量中文分词组合,jieba 做基础分词,CRF 做优化,速度快、易部署,适合低资源中文分词场景。

六、序列标注经典基准数据集(中英文,附地址)

英文数据集

  1. CoNLL-2003(NER):https://www.clips.uantwerpen.be/conll2003/ner/

  2. Penn Treebank(POS):https://catalog.ldc.upenn.edu/LDC99T42

  3. ACE2005(嵌套 NER / 事件抽取):https://catalog.ldc.upenn.edu/LDC2006T06

中文数据集

  1. MSRA NER:https://github.com/InsaneLife/ChineseNLPCorpus

  2. ONTONOTE 4.0(NER / 分词 / POS):https://github.com/zhanzecheng/Chinese-NER-Dataset

  3. PKU/CTB(中文分词):https://github.com/rockyzhengwu/Chinese-Word-Segmentation-Datasets

2.4 文本生成

文本生成相关论文和代码

一、经典序列生成模型(2014-2018,序列生成基础)

该类是文本生成的开山基线,奠定自回归生成、注意力机制、编码器 - 解码器(Encoder-Decoder)核心框架,是后续所有生成模型的基础。

1. Seq2Seq:Sequence to Sequence Learning with Neural Networks(NeurIPS 2014)

2. Attention Is All You Need(NeurIPS 2017)

3. Pointer-Generator Network(ACL 2017)

4. Non-Autoregressive Transformer(ICLR 2019)

5. GPT-1:Improving Language Understanding by Generative Pre-Training(2018,非顶会但经典)

二、经典预训练生成模型(2019-2021,主流工业落地基线)

基于 Transformer 的预训练 + 微调范式,是文本生成的标配基线,兼顾精度与落地性,其中 Decoder-only(GPT 系列)适配开放式生成(对话、文生文),Encoder-Decoder(T5/BART)适配有监督生成(摘要、翻译、改写)。

1. GPT-2:Language Models are Unsupervised Multitask Learners(2019,OpenAI)

2. BART:Denoising Sequence-to-Sequence Pre-training for Natural Language Generation(ACL 2020)

3. T5:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer(JMLR 2020)

4. GPT-3:Language Models are Few-Shot Learners(NeurIPS 2020)

5. UniLM v2:Unified Language Model Pre-training for Natural Language Understanding and Generation(NeurIPS 2020)

6. CPM-1:A Large-Scale Chinese Pre-trained Language Model(2020,清华 / 智源)

三、大模型与对齐优化(2022 至今,大模型生成核心,含 RLHF / 对齐 / 高效微调)

该类是 ** 现代大语言模型(LLM)** 文本生成的核心,解决预训练大模型 “生成内容无意义、不贴合人类意图、有毒性” 等问题,同时提出大模型高效微调方法,适配工业落地,是当前研究热点。

1. InstructGPT:Training Language Models to Follow Instructions with Human Feedback(NeurIPS 2022)

  • 简介RLHF(基于人类反馈的强化学习) 核心论文,OpenAI 提出通过 “人类标注指令微调→训练奖励模型(RM)→强化学习微调(PPO)” 三步,让大模型生成贴合人类指令、符合人类偏好的内容,解决 GPT-3 生成内容与人类意图脱节的问题,是 ChatGPT 的核心技术基础。

  • 论文地址https://arxiv.org/abs/2203.02155

  • 代码地址:无官方开源;https://github.com/lvwerra/trl(HuggingFace TRL,主流 RLHF 实现);https://github.com/CarperAI/trlx(工业级 RLHF)

2. ChatGLM-6B:An Efficient Billion-Scale Chinese Chat Model(2022,清华 / 智谱 AI)

3. LoRA:Low-Rank Adaptation of Large Language Models(ICLR 2022)

  • 简介:大模型高效微调经典方法,通过在 Transformer 的注意力层加入低秩矩阵,仅训练少量参数(约原模型的 0.1%),即可实现与全量微调相当的生成性能,大幅降低显存与计算成本,是工业界大模型定制化生成的标配方法,适配所有 Transformer 类生成模型。

  • 论文地址https://arxiv.org/abs/2106.09685

  • 代码地址https://github.com/microsoft/LoRA(官方);https://github.com/huggingface/peft(HuggingFace PEFT,内置 LoRA/QLoRA)

4. QLoRA:Efficient Finetuning of Quantized LLMs(NeurIPS 2023)

5. Llama 2:Open and Efficient Foundation Language Models(NeurIPS 2023)

6. BLIP-2:Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models(ICML 2023)

四、专项文本生成任务(经典 SOTA,覆盖细分方向)

针对文本生成的核心细分任务(摘要、对话、机器翻译、代码生成)梳理经典 SOTA 模型,适配特定场景的研究与落地。

(一)文本摘要生成

1. PEGASUS:Pre-training with Extracted Gap-sentences for Abstractive Summarization(ICML 2020)

2. ChatYuan:A Chinese Multitask Dialogue and Summary Model(2022,元语智能)

  • 简介中文摘要 + 对话双任务优化模型,针对中文长文本摘要(新闻、论文、文档)做专项优化,解决中文长文本摘要的 “信息遗漏、逻辑混乱” 问题,同时支持对话生成,是中文工业级摘要生成的主流选择。

  • 论文地址https://arxiv.org/abs/2209.02970

  • 代码地址https://github.com/clue-ai/ChatYuan(官方)

(二)对话生成

1. DialoGPT:Large-Scale Generative Pre-training for Conversational Response Generation(ACL 2020)

2. BlenderBot 3:A 175B Parameter Dialog Model with Long-Term Memory and Internet Access(ACL 2022)

(三)机器翻译

1. Transformer-XL:Attentive Language Models Beyond a Fixed-Length Context(ACL 2019)

2. mT5:A Massively Multilingual Pre-trained Text-to-Text Transformer(ACL 2021)

(四)代码生成

1. CodeGPT:Code Generation by Pre-training on Multiple Programming Languages(NeurIPS 2020)

2. CodeLlama:Open Foundation Models for Code(2023,Meta)

五、文本生成一站式工具包 / 框架(快速复现 / 工业落地)

  1. Hugging Face Transformershttps://github.com/huggingface/transformers最主流的 NLP 框架,内置所有经典 / 最新文本生成模型(GPT/BART/T5/ChatGLM/Llama),提供统一 API,支持一键加载预训练模型、微调、推理,适配 PyTorch/TensorFlow/JAX。

  2. Fairseqhttps://github.com/facebookresearch/fairseqMeta 推出的序列建模框架,专为序列生成设计,内置 Transformer/BART/ 非自回归模型,适配机器翻译、摘要、语言建模,工业界落地常用。

  3. PEFThttps://github.com/huggingface/peftHugging Face 推出的大模型高效微调框架,内置 LoRA/QLoRA/IA3 等所有主流高效微调方法,可与 Transformers 无缝结合,大幅降低大模型微调成本。

  4. TRLhttps://github.com/lvwerra/trl大模型对齐学习框架,内置 RLHF/PPO/DPO 等对齐方法,适配 GPT/Llama/ChatGLM 等所有 Decoder-only 模型,快速实现大模型人类偏好对齐。

  5. PaddleNLPhttps://github.com/PaddlePaddle/PaddleNLP百度推出的中文 NLP 专属框架,内置 ChatGLM/ERNIE/UniLM 等中文优化的生成模型,附带中文语料与下游任务脚本,中文文本生成落地首选。

3、对话系统

3.1 对话系统

3.2 任务型对话

3.3 问答型对话

3.4 闲聊型对话

3.5 LLM多轮对话

3.6 发展方向

3.7 对话系统相关论文和代码

一、经典基础框架(对话系统奠基,2015-2019)

奠定对话系统的端到端 / 模块化核心架构,是后续所有模型的基础,其中模块化框架仍是任务型对话的工业主流,端到端框架为预训练时代铺垫。

1. Seq2Seq 对话基线(NeurIPS 2014 + EMNLP 2015)

2. Task-Oriented Dialog Modular Framework(SIGDIAL 2016)

3. Retrieval-Based Dialog with CNN(ACL 2016)

二、开放域对话(闲聊 / 多轮聊天,2018 至今,工业落地主流)

核心解决回复单一、上下文遗忘、无意义闲聊问题,从预训练模型适配到 RLHF 对齐,是当前对话系统的研究热点,也是 ChatGPT / 文心一言等大模型的核心模块,分经典预训练适配、大模型对齐优化、中文专属模型三类。

1. DialoGPT:Large-Scale Generative Pre-training for Conversational Response Generation(ACL 2020)

2. BlenderBot 1/2/3:Open-Domain Dialogue with Pre-training and Memory(ACL 2020/2021/2022)

3. ChatGLM-6B/3:Efficient Chinese Chat Model(2022/2023,清华 / 智谱 AI)

4. InstructGPT for Dialogue:RLHF 对齐对话生成(NeurIPS 2022)

  • 简介:将 RLHF(基于人类反馈的强化学习)应用于对话生成,通过人类标注对话微调→训练对话奖励模型→PPO 强化学习,让模型生成贴合人类意图、符合对话逻辑的回复,解决预训练对话模型 “答非所问、语气生硬” 问题,是 ChatGPT / 文心一言等大模型对话的核心对齐技术。

  • 论文地址:https://arxiv.org/abs/2203.02155(InstructGPT 原论文,对话核心应用)

  • 代码地址:无官方对话专用代码;https://github.com/lvwerra/trl(HuggingFace TRL,对话 RLHF 实现);https://github.com/CarperAI/trlx(工业级对话对齐)

5. Chinese-ChatYuan:Multitask Chinese Dialogue Model(2022,元语智能)

  • 简介:轻量中文开放域对话模型,兼顾闲聊、摘要、问答多任务,针对中文日常对话语料优化,解决小模型中文对话的语义脱节、回复生硬问题,单卡 10G 即可部署,是中文轻量对话机器人的主流选择。

  • 论文地址:https://arxiv.org/abs/2209.02970

  • 代码地址:https://github.com/clue-ai/ChatYuan(官方,PyTorch/TensorFlow)

6. LLaMA-2-Chat:Open-Source Chat LLM with RLHF(NeurIPS 2023,Meta)

三、任务型对话(智能客服 / 点餐 / 导航,2018 至今,工业核心)

聚焦特定任务完成,解决意图识别不准、槽填充错误、状态跟踪失效、策略不合理问题,分模块化优化、端到端预训练、中文专属模型三类,模块化框架仍是工业界主流(可解释性强、易调试)。

1. DSTQA:Dialogue State Tracking as Question Answering(ACL 2019)

2. TOD-BERT:Pre-trained Natural Language Understanding for Task-Oriented Dialogue(ACL 2020)

3. ConvLab-2/3:Open-Source Task-Oriented Dialogue Platform(SIGDIAL 2020/2023)

4. End-to-End Task-Oriented Dialog with GPT-2(EMNLP 2019)

5. Chinese-TOD:ERNIE for Chinese Task-Oriented Dialogue(ACL 2021,百度)

  • 简介:中文任务型对话专属模型,基于 ERNIE 2.0 对中文智能客服 / 导航语料预训练,优化意图识别、槽填充、DST 的中文适配性,解决中文任务型对话的分词歧义、槽位表述多样问题,是国内智能客服的主流基线。

  • 论文地址:https://aclanthology.org/2021.acl-long.559/(ERNIE 3.0,含任务型对话应用)

  • 代码地址:https://github.com/PaddlePaddle/PaddleNLP(官方,含中文 TOD 全流程实现)

四、检索式对话(匹配回复,2017 至今,高可靠性工业选择)

核心从对话语料库中匹配与上下文最相关的回复,解决生成式对话的回复质量低、可控性差问题,适合对回复准确性要求高的场景(如客服、问答),分经典深度匹配、预训练适配两类。

1. Multi-View Matching for Retrieval-Based Dialog(ICLR 2018)

2. Sentence-BERT for Dialog Retrieval(EMNLP 2019)

3. SimCSE for Unsupervised Dialog Retrieval(EMNLP 2021)

4. CoSENT for Chinese Dialog Retrieval(2022)

五、专项优化模型(DST / 策略 / 多模态 / 低资源,2020 至今)

针对对话系统的核心子任务和细分痛点设计,覆盖 DST、对话策略、多模态对话、低资源对话,是当前研究热点,也是工业界优化对话系统性能的关键方向。

(一)对话状态跟踪(DST)子任务

1. TRADE:Transferable Multi-Domain State Tracking(ACL 2019)

2. COMET-DST:Commonsense-Enhanced DST(EMNLP 2020)

(二)对话策略学习子任务

1. DQN for Dialog Policy Learning(AAAI 2016)

2. PPO for Dialog Policy Optimization(NeurIPS 2020)

(三)多模态对话(图文 / 语音,2021 至今)

1. BLIP-2 for Visual Dialog(ICML 2023)

2. Chinese-ViLDM:Chinese Visual-Language Dialog Model(2023,阿里)

  • 简介:中文图文对话专属模型,基于 ERNIE-ViL 对中文图文对话语料预训练,优化中文视觉描述与对话的融合,解决英文多模态模型中文适配的语义脱节问题,是国内图文对话机器人的主流基线。

  • 论文地址:https://arxiv.org/abs/2305.08848

  • 代码地址:https://github.com/PaddlePaddle/PaddleNLP(官方,中文多模态对话实现)

(四)低资源 / 少样本对话

1. Few-Shot Task-Oriented Dialog with Prompt Tuning(ACL 2022)

2. Cross-Lingual Dialog with mT5(ACL 2021)

六、对话系统一站式工具包 / 框架(学术研究 + 工业落地)

通用框架(中英文适配,覆盖所有对话类型)

  1. ParlAI:https://github.com/facebookresearch/ParlAIMeta 推出的对话系统万能框架,整合开放域 / 任务型 / 检索式 / 多模态对话模型,支持数据集加载、模型训练、评估、人机交互,附带海量对话语料,是学术研究的标配。

  2. ConvLab-3:https://github.com/ConvLab/ConvLab-3任务型对话专用框架,模块化 / 端到端模型全覆盖,支持多领域 DST / 策略 / 回复生成,附带餐厅 / 酒店 / 机票等经典任务数据集,工业界智能客服开发首选。

  3. Hugging Face Transformers:https://github.com/huggingface/transformers主流 NLP 框架,内置 DialoGPT/TOD-BERT/Sentence-BERT 等所有对话预训练模型,提供统一 API,支持一键微调 / 推理,适配所有对话类型。

  4. DialogStudio:https://github.com/salesforce/DialogStudio工业级对话系统框架,整合预训练大模型与模块化流水线,支持开放域 / 任务型对话,附带工业级语料,适合企业级对话机器人开发。

中文专属框架(中文对话优化,工业落地)

  1. PaddleNLP:https://github.com/PaddlePaddle/PaddleNLP百度推出的中文 NLP 框架,内置 ERNIE/ChatGLM/Chinese-TOD 等中文对话模型,附带中文智能客服 / 闲聊语料,支持对话全流程开发,中文对话落地首选。

  2. ChatGLM-Tools:https://github.com/THUDM/ChatGLM-ToolsChatGLM 专属工具包,支持插件扩展(如检索、计算器),实现工具增强型中文对话,适合开发智能问答 / 实用型聊天机器人。

  3. Chinese-Dialog-Corpus:https://github.com/rockyzhengwu/Chinese-Dialog-Corpus中文对话语料库,整合闲聊 / 智能客服 / 多轮对话语料,是中文对话模型训练的必备资源。

七、对话系统经典基准数据集(中英文,附地址)

开放域对话

  1. DailyDialog(英文多轮闲聊):https://aclanthology.org/I17-1099/

  2. Persona-Chat(英文个性化闲聊):https://aclanthology.org/D18-1230/

  3. 中文闲聊语料(豆瓣 / 微博):https://github.com/rockyzhengwu/Chinese-Dialog-Corpus

任务型对话

  1. MultiWOZ 2.1/2.4(英文多领域任务型):https://aclanthology.org/W18-5041/

  2. SGD(英文大规模多领域):https://aclanthology.org/2020.emnlp-main.760/

  3. 中文 MultiWOZ(中文多领域任务型):https://github.com/ConvLab/ConvLab-3/blob/main/data/README.md

  4. 中文智能客服语料(银行 / 电商):https://github.com/PaddlePaddle/PaddleNLP/tree/develop/datasets

检索式对话

  1. Ubuntu Dialogue Corpus(英文检索闲聊):https://aclanthology.org/D15-1299/

  2. Douban Conversation Corpus(中文检索闲聊):https://github.com/MarkWuNLP/DoubanConversationCorpus

多模态对话

  1. Visual Dialog v1.0/2.0(英文图文对话):https://aclanthology.org/C17-1086/

  2. 中文图文对话语料:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/datasets/visual_dialog

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐