大模型的基础相关概念

技术领域解决的根本问题实现的商业价值比喻压缩技术“装不下”问题降低部署门槛，让模型能在现有硬件上运行给大象瘦身，让它能进普通房间高效架构“算不动”问题突破计算复杂度限制，处理更复杂任务重新设计大象的骨骼，让它更高效移动推理优化“用不起”问题降低服务成本，实现高并发低延迟优化大象的工作流程，让它服务更多人。

心动啊121

484人浏览 · 2026-01-26 15:00:14

心动啊121 · 2026-01-26 15:00:14 发布

一、大模型的核心概念

1、大模型的基本概念

大模型是指拥有超大规模参数（通常在数十亿以上）和训练数据，并在通用任务上展现出强大能力的机器学习模型。通常是指大语言模型（Large Language Model，简写成LLM），是一种基于大量参数、大数据以及大算力的模型，这三点是大模型的基石。

大量参数：指模型的一些参数和超参数，这些参数是模型从数据中学到的“知识”的载体，参数数量越大，模型能存储和处理的信息就越复杂。从早期的百万级，发展到如今的千亿、万亿级。例如，GPT-3有1750亿参数。
大数据：指的是模型的生成是经过大量数据训练得到的，数据量可达TB甚至PB级别。
大算力：算力是驱动大数据和大量参数的“引擎”，主要用于训练和推理。训练一个大模型需要成千上万个高性能GPU/TPU持续运行数周甚至数月，成本高达数百万至数千万美元。

当模型规模超过某个临界点后，它会突然展现出在小型模型中没有的、不可预测的新能力，如复杂的推理、上下文学习、分步骤思维链等。通过“大力出奇迹”的规模化路径，让模型学习到一个极其通用的、世界的“知识表示”，然后通过微调或提示工程，可以灵活应用于下游无数具体任务（如翻译、摘要、对话、编程）。

2、大模型的核心框架（Transformer）

自注意力机制：Transformer最革命性的部分。它允许模型在处理一个词时，同时关注输入序列中的所有其他词，并动态计算它们之间的关联强度（权重），完美解决了长距离依赖问题。

计算关联权重主要是使用query向量、key向量、value向量这三个向量进行计算（每个词对应的query向量与其他词对应的key向量进行点积得到相关性分数、根据相关性分数与softmax函数进行标准化得到注意力权重，最终使用注意力权重对所有词的value进行加权求和得到最终该词的相关含义）

编码器-解码器结构：

编码器：用于理解输入文本（如BERT）。它将输入序列转换为富含上下文信息的“表示”。
解码器：用于生成输出文本（如GPT系列）。它基于编码器的输出和已生成的上文，逐个预测下一个词。
仅解码器架构：目前主流（如GPT、LLaMA）。它去掉了独立的编码器，直接用解码器同时完成“理解”和“生成”任务，结构更简洁高效。

位置编码：由于Transformer本身没有顺序概念，需要额外注入位置信息，让模型知道词的先后顺序。

量化Quantization：将FP16/FP32权重压缩成int4/int8以换取更低的内存和更快的推理。本质上是压缩。
蒸馏Knowledge Distillation：用来将大而强大的模型压缩成更小更轻便的模型，但尽量保持接近的能力。可以看作是从大模型中学习到一个小模型，本质上是训练

量化还是原先的旧模型，但蒸馏会产生新模型

3、大模型的训练框架

训练框架就是一套自动化、高效率的施工管理系统和工具，现在大模型训练主要依赖三大核心框架，他们提供从底层计算到高级抽象的工具链。

（1）Pytorch+生态系统

Pytorch以其动态图和直观的API成为研究和工业界的首选。其大模型训练能力主要是通过扩展库实现的。

其核心支柱有三个：

PyTorch Distributed：提供 DDP 和 FSDP 等原生分布式训练组件。
Transformers (Hugging Face)：提供了几乎所有制式大模型的架构实现、预训练权重和训练脚本，是事实上的模型库标准。
Accelerate (Hugging Face)：简化分布式训练代码，让用户能“一行代码”适配多GPU/多机训练。

它有两大核心扩展框架：DeepSpeed (Microsoft) 和 Megatron-LM (NVIDIA)。DeepSpeed的核心装新是ZeRO系列（解决数据并行中显存冗余的问题）；Megatron-LM的核心创新为高效、定制化的张量并行与流水线并行实现。

两者结合，取长补短：用DeepSpeed的ZeRO-3管理数据和优化器状态，用Megatron的张量与流水线并行管理模型。这是当前训练超大规模模型（如BLOOM-176B）的黄金标准组合。

（2）JAX/Flax + 生态系统（Google系）

该训练框架是由Google主导，在TPU上具有原生又是，设计思想独特。其核心思想为：函数式纯函数（所有变换都是确定的，便于调试和并行）+即时编译（通过jax.jit将python函数变以成为高效的XLA内核）+自动并行（pjit等原语可声明式指定张量如何被分区，框架自动处理通信）

其主要框架有Flax(神经网络库)；Optax(优化器库)。

代表模型有：PaLM，Gemini

（3）TensorFlow

早期大模型训练的主要框架，目前在一些特定场景（如Google内部、多模态模型）仍有应用。

代表性框架：Mesh TensorFlow，专为分布式训练设计。
现状：生态系统活跃度被PyTorch超越，但在部署和边缘端仍有优势。

4、大模型的并行策略

并行策略就是如何组织GPU，分工协作完成庞大工程的方法论。其核心目标是：将一个巨大的模型和数据集，拆分到成千上万的GPU上的协同计算。主要有4中基本策略，通常组合使用。

（1）数据并行

思想：复制整个模型到每个GPU上，每个GPU处理不同的数据批次，计算梯度后同步聚合。

通信内容：梯度或模型参数（同步时）。

优点：实现简单，是扩展批大小的标准方法。

缺点：每个GPU需要存储完整的模型副本，显存成为瓶颈。无法训练比单个GPU显存大的模型。

代表技术：PyTorch DDP， DeepSpeed ZeRO-1/2。

（2）模型并行

思想：将单个模型的不同部分放置在不同的GPU上。一个批次的数据需要依次流经所有GPU。

分类：

流水线并行：按“层”切分模型。如将一个24层的模型分成4段，每段6层放在一个GPU上。像一个工厂流水线，不同GPU同时处理不同批次的数据。
- 挑战：存在“流水线气泡”，部分GPU会空闲等待。
- 优化：GPipe（引入微批次）， PipeDream（更复杂的调度）。
张量/模型并行：按“层内维度”切分单个层的运算。如将大权重矩阵的运算拆分到多个GPU上。
- 例子：将注意力头的计算或前馈网络的矩阵乘进行拆分（Megatron-LM的核心）。
- 通信量巨大，通常在节点内（NVLink高速互联） 使用。

优点：可以训练远超单卡显存的模型。

缺点：实现复杂，通信开销大，对计算图有侵入性

（3）混合并行

这是训练千亿级模型的实际标准，是上述策略的三维组合。

三个维度：

数据并行：跨节点复制多个完整的“模型副本组”。
流水线并行：在节点间将模型按层切分。
张量并行：在节点内（多卡） 将单层模型进一步切分。

工作流程：

假设我们有64张GPU（8个节点，每个节点8卡）。
张量并行：将1个模型层拆分到1个节点的8张卡上（小组）。
流水线并行：将整个模型拆分到4个节点上，每个节点负责模型的一部分（一段）。
数据并行：剩下的 4个节点 作为另一个副本组，处理不同的数据。这样总共有 2个数据并行组。
最终形成 数据并行(2) x 流水线并行(4) x 张量并行(8) = 64 GPUs。

场景与目标	推荐策略	说明
模型较小（<10B）， GPU较多	纯数据并行（DDP/ZeRO-2）	实现最简单，效率高。
模型较大，单个节点放不下	数据并行 + ZeRO-3	优先尝试ZeRO-3，它比纯模型并行更简单。
模型极大（>100B）	3D并行（Megatron+DeepSpeed）	行业标准，需要精细调优。在节点内用张量并行，节点间用流水线并行，再用ZeRO管理数据和优化器状态。
处理超长序列（>32K）	序列并行 + 张量并行	将长序列的维度也进行切分。
追求极限训练速度	纯张量/流水线并行（Megatron）	减少数据并行带来的梯度同步开销，但需要大量定制化。

二、大模型的分类与选择

1、大模型的分类

分类维度	主要类别	核心特点与训练目标	选型建议	代表模型
架构与训练目标	自回归模型	训练目标：预测下一个词（因果语言建模）。特点：单向上下文，擅长生成。	需要创造新内容的时候选择该类模型	GPT系列、Llama、Mistral
	掩码语言模型	训练目标：预测句子中被掩盖的词（掩码语言建模）。特点：双向上下文，擅长理解。	需要分析、理解或提取文本特征的时候选择该类模型	BERT、RoBERTa
	编码器-解码器	训练目标：将输入序列转换为输出序列（序列到序列）。特点：兼顾编码与生成。	需要翻译、文本摘要、问答等将一种序列转化成另一种序列的时候	T5/FLAN-T5、BART
模态	纯文本模型	处理和理解文本信息。	所有基于文本的任务任务仅涉及文字时由县考虑，其效率最高生态最成熟	GPT-3.5, LLaMA-2
	视觉模型	分为理解型和生成型理解型：看图片输出标签生成型：根据文字输出图片	图像分类、目标检测等需要处理或生成图片的时候选择	YOLO， DALL-E (生成)
	语音模型	分为识别型和合成型识别型：语音转成文字生成型：文字转成语音	语音识别、合成的报告需要处理或生成语音时进行选择	Whisper, VALL-E
	多模态模型	同时处理和关联文本、图像、音频等多种类型信息。	任务需要同时理解和关联多种信息（如图文结合）时选择。这是当前最前沿的方向。	GPT-4V, Llama 4 (支持图文)
用途与能力层级	基础模型	经大规模预训练，拥有通用知识，但未针对指令优化。需要指令微调。	如果你想从头打造一个专属应用，并拥有高质量领域数据，可选它作为基底	LLaMA-2 Base, GPT-3 Base
	指令微调模型	在基础模型上，使用指令数据微调，能更好理解并遵循人类指令。	如果你想要一个开箱即用的智能对话或创作助手，应直接选择此类模型。	ChatGPT, LLaMA-2 Chat
	工具增强/Agent系统	模型具备调用外部工具（搜索、计算器、API）的能力，以完成复杂任务。	当任务需要获取实时信息、执行精确计算或操作外部软件时选择。	GPT-4 with Tools, AutoGPT
部署形态	云端API	模型部署在提供商服务器，通过接口调用。优点：易用、免运维。	快速集成、验证想法或应用无高隐私要求的时候的首选	OpenAI API, 文心一言API
	本地推理	模型部署在自有服务器或计算集群。优点：数据安全、可控性强。	对数据隐私要求高的企业应用	本地部署的 Llama 2, ChatGLM3
	边缘设备	模型经压缩后部署在手机、IoT设备等。优点：低延迟、隐私保护。	在智能手机、汽车、IoT设备上需要实时AI功能的场景选择。	手机端的 TinyLLaMA

2、大模型的选择

当面对具体任务进行选型的时候，可以按照以下的路径进行思考：

任务本质是什么？（对应架构）
- 要生成文章或对话 → 选自回归模型。
- 要分析文本情感 → 选掩码语言模型。
- 要做英文翻译 → 选编码器-解码器。
处理什么类型的数据？（对应模态）
- 只有文字 → 选纯文本模型。
- 需要“看懂”图片 → 选多模态模型或视觉模型。
需要多强的“开箱即用”能力？（对应用途）
- 希望直接对话 → 选指令微调模型。
- 希望它能联网查资料 → 选工具增强型/Agent。
在什么环境下使用？（对应部署）
- 快速测试 → 用云端API。
- 处理公司机密文档 → 必须本地推理。
- 集成到手机App中 → 需适配边缘设备模型。

三、大模型的优化与效率提升

模型效率优化的目标是在保持模型性能的前提下，降低计算、存储和推理成本，使得大模型能够在资源有限的环境中部署。

1、压缩技术

压缩技术的主要作用就是让大模型能够在实际硬件上运行，降低部署门槛和成本。

技术	核心思想	主要效果
量化	降低模型权重和激活值的数值精度（如FP32→INT8/INT4）	减少存储（~75%）、加速推理、降低内存带宽需求
知识蒸馏	用小模型（学生）学习大模型（教师）的输出或中间表示	模型小型化、保留大模型能力、推理更快
剪枝	移除模型中不重要的权重或神经元（结构化/非结构化）	稀疏化模型、减少计算量、内存占用降低
低秩分解	将大权重矩阵分解为多个小矩阵的乘积	减少参数数量、加速计算

2、高效架构

高效的架构就是重新设计大模型的“大脑结构”，从根本上改变模型的计算方式，土坯传统架构的限制。

方向	代表技术/模型	目标
稀疏注意力	Longformer, BigBird	处理长文本时减少计算复杂度（O(n²)→O(n)）
混合专家	Mixture of Experts (MoE)	激活部分参数处理每个输入，总参数量大但计算量小
高效Transformer变体	Linformer, Performer	改进注意力机制的计算效率

3、推理优化

大模型推理有两个致命的瓶颈：

内存带宽墙：也就是从显存加载权重的时候内存带宽受限，token生成速度 ≈ 内存带宽 / 模型大小，也就是说：对于70B模型：即使计算再快，也被带宽限制在~10 token/秒

自回归的串行诅咒：生成10个token，传统方式：必须 token1 → token2 → ... → token10（无法并行，因为生成token2需要token1的结果），导致GPU大部分时间在等待、利用率可能低于30%。

训练优化技术	目的
混合精度训练	使用FP16/BF16降低显存占用，加速训练（AMP）
梯度检查点	用时间换空间，减少训练时的显存消耗
3D并行	数据并行 + 流水线并行 + 张量并行，实现超大规模模型训练
ZeRO优化器	DeepSpeed的核心，优化分布式训练的显存使用
推理优化技术
KV缓存优化	重用注意力计算中的Key/Value，加速自回归生成
推测解码	让小模型先草稿生成，大模型并行验证，加速推理
连续批处理	动态批处理不同长度的请求，提高GPU利用率
模型编译	使用TensorRT、TVM等编译优化推理计算图

4、优化的内容总结

技术领域	解决的根本问题	实现的商业价值	比喻
压缩技术	“装不下”问题	降低部署门槛，让模型能在现有硬件上运行	给大象瘦身，让它能进普通房间
高效架构	“算不动”问题	突破计算复杂度限制，处理更复杂任务	重新设计大象的骨骼，让它更高效移动
推理优化	“用不起”问题	降低服务成本，实现高并发低延迟	优化大象的工作流程，让它服务更多人