大模型相关概念
持续更新ing...
持续更新ing...
1. VLLM
是基于PyTorch开发的大模型推理引擎,由UC Berkeley团队提出,核心创新是PagedAttention技术。该技术通过将显存划分为固定大小的内存页(类似操作系统的虚拟内存管理),解决了传统KV Cache显存预分配导致的利用率低下问题(通常仅有20%-40%)。结合连续批处理(Continuous Batching)和多GPU并行,vLLM在高并发场景下的吞吐量可达其他框架的24倍。
这里参考:VLLM部署大模型,讲的比较清楚
2.RL
这两篇文章说的很清楚了
2.1 强化学习所解决的问题的特点:
- 智能体和环境之间不断进行交互;
- 搜索和试错;
- 延迟奖励(当前所做的动作可能很多步之后才会产生相应的结果)。
2.2 对于一个强化学习智能体,它可能有一个或多个如下的组成成分。
策略(policy)。智能体会用策略来选取下一步的动作。
价值函数(value function)。我们用价值函数来对当前状态进行评估。价值函数用于评估智能体进 入某个状态后,可以对后面的奖励带来多大的影响。价值函数值越大,说明智能体进入这个状态越有利。
模型(model)。模型表示智能体对环境的状态进行理解,它决定了环境中世界的运行方式。
3. 大模型训练
训练大语言模型(LLM)主要分为两个核心阶段:预训练(Pre-training)和后训练(Post-training)。这两个阶段共同构成了LLM从零到一的学习过程。
3.1 预训练
预训练是一种无监督学习方法,指在模型的初始阶段,使用大量数据对模型进行训练,以便让模型学习到通用的特征和知识。这些特征和知识可以是语言模型中的词嵌入,或者是图像识别模型中的视觉模式。通俗说就是在LLM能够生成连贯文本之前,它需要先掌握语言的基本规律。
3.1.1 数据收集与预处理
训练LLM的第一步是收集海量高质量的文本数据。目标是构建一个多样化且覆盖面广的数据集,以便模型能够学习到丰富的语言知识和上下文关系。
3.1.2 分词(Tokenization)
在神经网络能够处理文本之前,文本需要被转换为数值形式。这一转换过程称为分词(Tokenization)。分词的作用是将单词、子词或字符映射为唯一的数值token。这些token是语言模型的基本构建单元,是模型理解和处理语言的核心组件。
通过分词,文本被转化为模型可以理解的数值序列,为后续的模型训练和推理奠定了基础。
3.1.3 神经网络训练(Neural Network Training)
在文本经过分词处理后,神经网络的任务是学习如何根据上下文预测下一个token。具体来说,模型会接收一串输入token(例如“我正在烹饪”),并通过其复杂的数学结构——即模型的架构——进行处理,最终输出对下一个token的预测。
这一过程是LLM训练的核心。模型通过不断调整其内部参数,逐步学会从海量数据中捕捉语言规律,从而能够生成连贯且符合上下文的文本。
基础模型(Base Model):预训练的成果
3.2 后训练
正文大模型的后训练,也就是post-training,是指在预训练模型的基础上,针对特定的任务或数据集进行额外的训练。这个阶段通常包括Fine-tuning和RLHF等方法,通过调整预训练模型的参数以适应新的任务。
- 发生在预训练之后,模型部署前或部署初期。
- 针对特定的任务或数据集进行额外训练,以优化模型性能。
4. 监督学习
监督学习过程中,有两个假设:
-
输入的数据(标注的数据)都应是没有关联的。因为如果输入的数据有关联,学习器(learner)是不好学习的。
-
需要告诉学习器正确的标签是什么,这样它可以通过正确的标签来修正自己的预测。
监督微调(Supervised fine-tuning,简称SFT):微调是一种有监督学习方法,通过在有标签数据上对预训练模型进行进一步训练,以适应特定的任务。这个过程使得模型能够利用预训练阶段学到的通用知识,结合新数据的标签信息,使模型在特定任务上表现更好。
5. CoT(Chain of Thought,思维链)
传统的LLM训练流程是:预训练 → SFT → RL。然而,DeepSeek-R1-Zero跳过了SFT,允许模型直接探索思维链(CoT)推理。
CoT的作用
CoT使模型能够像人类一样,将复杂问题分解为中间步骤,从而增强推理能力。OpenAI的o1模型也利用了这一点,其2024年9月的报告指出:o1的表现随着更多RL训练和推理时间的增加而提升。
6. verl
目前比较主流的post-training框架包括LLaMA-Factory、trl和verl
rollout 是一个强化学习专用词汇,指的是从一个特定的状态按照某个策略进行一些列动作和状态转移。
在 LLM 语境下,“某个策略”就是 actor model 的初始状态,“进行一些列动作”指的就是推理,即输入 prompt 输出 response 的过程。
GRPO训练流程可以参考这一篇 比较详细:
参考文章:
更多推荐

所有评论(0)