程序员必备：大模型算力概念速成，收藏这篇就够了

文章系统介绍了大模型算力相关的核心概念，包括GPU/TPU等硬件基础、FLOPS等性能指标、数据并行/模型并行等训练技术、混合精度/量化等优化方法，以及KV缓存/连续批处理等推理部署知识。通过通俗易懂的语言和结构化分类，帮助初学者理解大模型背后的算力原理，为深入学习和实践打下基础。

不秃头de程序猿

480人浏览 · 2026-01-16 16:43:09

不秃头de程序猿 · 2026-01-16 16:43:09 发布

你是否曾被“FLOPS”、“显存”、“Token”这些围绕大模型的神秘术语搞得晕头转向？就像想学烹饪却被“焯水”、“炝锅”、“勾芡”劝退一样，面对大模型的算力世界，零基础的你也许正站在门口踌躇。

别担心！这篇“零基础学大模型：算力常用名词大全”就是你踏入这扇大门的钥匙。我们化繁为简，将那些看似高深、实则关键的算力概念掰开揉碎，用最通俗的语言讲给你听。无论你是好奇的探索者、初入行的开发者，还是希望理解行业动态的观察者，收藏这一篇，足以让你摆脱“算力小白”的标签，自信地畅聊大模型的核心驱动力！ 准备好，让我们一起揭开大模型算力的神秘面纱。

一、硬件基石 (The Hardware Foundation)

GPU (Graphics Processing Unit，图形处理器):
- 是什么： 最初为图形渲染设计，因其高度并行化的架构和强大的浮点计算能力，成为AI模型（尤其是深度学习）训练的主力硬件。擅长处理大规模矩阵运算。
- 为什么重要： 相比CPU，GPU拥有成千上万个更简单的核心，能同时处理大量相似任务（如计算神经网络中成千上万的神经元），极大加速模型训练和推理。代表厂商：NVIDIA (如 A100, H100, RTX 4090), AMD (如 MI300X)。
TPU (Tensor Processing Unit，张量处理器):
- 是什么： Google专门为神经网络机器学习设计的定制化ASIC芯片。核心优化目标是张量（Tensor）运算。
- 为什么重要： 针对TensorFlow等框架和张量操作进行了深度优化，在特定模型和规模下，能提供比GPU更高的能效比和计算吞吐量。主要在Google Cloud上使用。
CPU (Central Processing Unit，中央处理器):
- 是什么： 计算机的“大脑”，负责执行程序指令、处理通用计算和协调系统资源。
- 为什么重要： 在AI任务中，CPU通常负责数据预处理、任务调度、控制GPU/TPU以及运行不适合GPU加速的部分代码（如复杂逻辑控制）。是整个系统不可或缺的协调者。代表厂商：Intel (Xeon), AMD (Ryzen/EPYC)。
AI 加速卡 / AI 芯片:
- 是什么： 泛指专门为加速AI计算（特别是深度学习）而设计的硬件，包括GPU、TPU以及其他公司（如华为昇腾Ascend、寒武纪MLU、Graphcore IPU、Groq LPU等）开发的专用芯片。
- 为什么重要： 提供了超越通用CPU的计算能力，是处理大模型海量计算的物质基础。
显存 (GPU Memory / Video RAM - VRAM):
- 是什么： GPU上集成的高速内存。用于存储GPU核心当前正在处理或即将处理的数据（模型参数、激活值、优化器状态、训练数据批次）。
- 为什么重要： 极其关键！ 大模型的参数量巨大（数十亿、数百亿甚至万亿），训练和推理过程中需要将模型和相关数据加载到显存中。显存容量（如80GB HBM3）和带宽（如TB/s级）直接决定了能运行多大的模型以及运行速度。显存不足（OOM - Out Of Memory）是训练大模型最常见的瓶颈之一。 HBM (High Bandwidth Memory) 是当前高端AI芯片（如NVIDIA H100, AMD MI300X）使用的先进显存技术，提供超高带宽。
主机内存 (Host Memory / RAM):
- 是什么： 连接在CPU上的主系统内存。
- 为什么重要： 存储尚未加载到GPU显存中的完整训练数据集、操作系统、应用程序代码等。CPU负责将数据从RAM分批传输到GPU显存中进行计算。容量通常远大于单卡显存（如服务器可配数TB RAM）。
存储 (Storage - SSD/NVMe/HDD):
- 是什么： 持久化保存海量数据的地方，如SSD (固态硬盘)、NVMe (高速SSD协议)、HDD (机械硬盘)。
- 为什么重要： 存储着原始数据集、训练好的模型检查点。高速存储（如NVMe SSD）对于快速加载数据到RAM/显存至关重要，能减少数据读取瓶颈（I/O瓶颈），提升整体训练效率。
互联带宽 (Interconnect Bandwidth):
- NVLink (NVIDIA): 超高速GPU间直连技术（如NVLink 4.0 达900GB/s），远高于传统PCIe。
- PCIe (Peripheral Component Interconnect Express): 连接CPU、GPU、存储等的标准高速总线（如PCIe 5.0 x16 带宽约64GB/s）。
- InfiniBand / RDMA (远程直接内存访问): 用于服务器节点间高速网络互联（如400Gb/s InfiniBand），实现低延迟、高带宽的数据传输，对多机训练至关重要。
- 是什么： 指不同计算设备（如GPU之间、GPU与CPU、服务器节点之间）传输数据的速度。常用指标是带宽（如GB/s）。
- 为什么重要： 在分布式训练（多卡、多机）中，设备间需要频繁交换模型梯度、参数等数据。互联带宽的高低直接决定了分布式训练的扩展效率和速度上限。 常见技术：

二、性能与计算指标 (Performance & Computation Metrics)

FLOPS (Floating Point Operations Per Second，每秒浮点运算次数):
- 是什么： 衡量硬件理论峰值计算能力的标准单位。表示芯片每秒能执行多少次浮点数（如float32, float16）的基本运算（加、减、乘等）。
- 为什么重要： 比较不同硬件（如不同型号GPU/TPU）理论算力天花板的主要指标。常以TFLOPS (万亿次/秒), PFLOPS (千万亿次/秒) 表示。例如，NVIDIA H100 GPU FP16算力可达约2000 TFLOPS。
FLOPs (Floating Point Operations，浮点运算次数):
- 是什么： 衡量一个模型执行一次前向传播（或一次前向+反向传播）所需的总浮点运算量。注意是FLOPs (Operations)，不是FLOPS (Operations Per Second)。
- 为什么重要： 表示模型的计算复杂度。模型越大（参数量越多）、结构越复杂（如Transformer层数多、注意力头多），其FLOPs通常越高。是估算训练/推理所需计算资源和时间的基础。例如，GPT-3 175B模型的一次前向传播FLOPs量级在10^23次（数百PFLOPS）。
吞吐量 (Throughput):
- 训练吞吐量: 常用tokens per second (每秒处理的token数) 或 samples per second (每秒处理的样本数) 表示。越高意味着训练速度越快。
- 推理吞吐量: 常用requests per second (每秒处理的请求数 - RPS/QPS) 或 tokens per second (每秒生成的token数 - Tokens/s) 表示。越高意味着服务能力越强。
- 是什么： 指系统在单位时间内处理的数据量或完成的任务量。
- 为什么重要： 衡量实际性能的关键指标。
延迟 (Latency):
- 是什么： 指系统响应一个请求所需的时间。
- 为什么重要： 尤其对推理至关重要，影响用户体验（如聊天机器人响应速度）。常用Time To First Token (生成第一个token所需时间) 和 Time Per Output Token (平均生成每个token所需时间) 来衡量。低延迟是实时应用的核心要求。
显存占用 (GPU Memory Footprint / Consumption):
- **是什么：**模型在运行（训练或推理）时所占用的显存总量。
- 为什么重要： 直接受模型参数量、优化器状态、激活值、数据批次大小等因素影响。精确估算和管理显存占用是成功运行大模型（避免OOM）的前提。常用GB或MB表示。
计算密度 (Compute Density):
- 是什么： 通常指芯片单位面积或单位功耗所能提供的计算能力（FLOPS)。
- 为什么重要： 衡量芯片设计的效率。更高的计算密度意味着在相同面积或功耗下能提供更强的算力，对构建大型计算集群（考虑空间、散热、电力成本）非常关键。

三、训练与并行技术 (Training & Parallelism Techniques)

数据并行 (Data Parallelism - DP):
- 是什么： 最常用的分布式训练策略。将训练数据集划分成多个小批次（mini-batches），每个GPU复制一份完整的模型，各自独立地处理一个不同的数据批次，计算梯度。然后汇总所有GPU的梯度，更新模型参数（通常由一个GPU或CPU负责，然后广播给所有GPU）。
- 为什么重要： 实现简单，能有效利用多个GPU加速训练，尤其当模型能放入单卡显存但需要更多数据批次时。PyTorch的DataParallel (DP) 和 DistributedDataParallel (DDP) 是实现方式（DDP性能更好，更常用）。
模型并行 (Model Parallelism - MP):
- 张量并行 (Tensor Parallelism - TP): 将单个运算（如矩阵乘）中的张量（Tensor）进行拆分，分配到不同GPU上计算。例如，Megatron-LM使用此方法高效并行Transformer层内的矩阵运算。
- 流水线并行 (Pipeline Parallelism - PP): 将模型的层按顺序拆分到不同GPU上。一个批次的数据被分成多个微批次（micro-batches），在GPU组成的“流水线”上依次流动计算。通过让多个微批次同时在流水线不同阶段计算来提高设备利用率。
- 是什么： 当模型太大，无法放入单个GPU的显存时采用。将模型结构本身（如不同的层、不同的注意力头）拆分到不同的GPU上。每个GPU只持有模型的一部分。
- 为什么重要： 是训练超大模型（如百亿、千亿参数）的核心技术。允许突破单卡显存限制。实现更复杂，GPU间通信开销大。分为：
混合并行 (Hybrid Parallelism):
- 是什么： 结合使用数据并行、张量并行、流水线并行等多种并行策略。
- 为什么重要： 训练当今最庞大的模型（如GPT-4、Llama 2 70B/700B）几乎都需要混合并行。例如，在拥有数千张GPU的集群上，可能同时使用流水线并行切分模型层、张量并行切分层内运算、数据并行处理不同数据子集。框架如Megatron-DeepSpeed, PyTorch Fully Sharded Data Parallel (FSDP) 支持复杂的混合并行。
分布式训练 (Distributed Training):
- 是什么： 泛指利用多个计算设备（多GPU、多台服务器/节点）协同训练一个模型的总称。数据并行、模型并行、混合并行都属于分布式训练的具体技术手段。
- 为什么重要： 是训练大模型的唯一可行途径，通过并行化显著缩短训练时间。需要高效的通信库（如NCCL, Gloo）和框架支持（PyTorch DDP, Horovod, DeepSpeed）。
ZeRO (Zero Redundancy Optimizer):
- ZeRO-Stage 1: 切分优化器状态 (Optimizer States)。
- ZeRO-Stage 2: 切分优化器状态 + 梯度 (Gradients)。
- ZeRO-Stage 3: 切分优化器状态 + 梯度 + 模型参数 (Parameters)。显存节省最大，通信量也增加。
- ZeRO-Offload: 将部分模型状态（如优化器状态、梯度）卸载到CPU内存和硬盘，进一步节省GPU显存。
- 是什么： 由Microsoft DeepSpeed库提出的一系列显存优化技术，旨在消除数据并行训练中模型状态（参数、梯度、优化器状态）的冗余存储。
- 为什么重要： 革命性地降低了分布式训练（尤其是数据并行）的显存开销，使得在有限显存的GPU上训练更大模型成为可能。
FSDP (Fully Sharded Data Parallel):
- 是什么： PyTorch原生提供的类似ZeRO-Stage 3的分布式训练策略。在数据并行的基础上，将模型参数、梯度、优化器状态完全切分（Shard）到所有参与训练的进程（GPU）上。每个GPU只保存自己负责的那部分。
- 为什么重要： 提供了与ZeRO-3相当的显存优化能力，且是PyTorch内置方案，集成度较高，逐渐成为主流选择之一。

四、精度与优化 (Precision & Optimization)

混合精度训练 (Mixed Precision Training):
- 使用FP16/BF16进行：前向传播、反向传播（计算梯度）。优势：计算速度快，显存占用减半。
- 使用FP32进行：存储和更新主模型参数（Master Weights）。优势：数值范围大，精度高，避免下溢/溢出导致的不稳定问题。
- 通常配合损失缩放 (Loss Scaling) 使用：放大损失值，使得在FP16/BF16下计算的梯度具有更合适的量级，更新到FP32参数前再缩放回去。
- 是什么： 在训练过程中同时使用不同的数值精度（通常是FP16或BF16和FP32）。
- 为什么重要： 能显著减少显存占用（FP16/BF16参数/激活值占显存是FP32的一半），并大幅提升训练速度（现代GPU/AI芯片在低精度下计算吞吐量更高），同时保持模型精度接近全精度（FP32）训练。几乎成为大模型训练的标配。 AMP (Automatic Mixed Precision) 是常见实现（PyTorch torch.cuda.amp）。
BF16 (Brain Floating Point 16):
- 是什么： 一种16位浮点数格式，由Google Brain提出。相比传统的FP16，BF16具有与FP32相同的指数范围（8位），但更小的尾数精度（7位 vs FP16的10位）。
- 为什么重要： 在混合精度训练中比FP16更稳定。因为它的大指数范围减少了梯度下溢（变为0）或上溢（变为无穷大）的风险，同时仍然保持了FP16的计算速度优势和显存节省。被新一代AI硬件（如NVIDIA A100/H100, TPU v4/v5）原生支持，越来越流行。
量化 (Quantization):
- 训练后量化 (Post-Training Quantization - PTQ): 在模型训练完成后进行量化，通常需要少量校准数据。速度快，实现相对简单，精度可能有损失。
- 量化感知训练 (Quantization-Aware Training - QAT): 在训练过程中模拟量化效果，让模型适应低精度表示。通常能获得比PTQ更好的精度，但训练成本更高。
推理加速： 低精度计算更快，硬件支持更好。
显存/内存大幅减少： INT8模型大小约为FP32的1/4，INT4约为1/8。这对模型部署到边缘设备或提高服务吞吐量至关重要。
带宽需求降低： 传输低精度数据更快。

是什么： 将模型参数和/或激活值从高精度（如FP32）转换为低精度（如INT8, INT4, FP16, BF16）表示的技术。
为什么重要：

分类：
梯度累积 (Gradient Accumulation):
- 是什么： 当GPU显存不足以容纳期望的批次大小（Batch Size） 时使用的技术。将一个大批次分成N个连续的小批次（micro-batches）依次计算。每个小批次计算梯度后不立即更新参数，而是累加到缓存中。 当N个小批次都计算完后，才用累积的总梯度更新一次模型参数。
- 为什么重要：****在显存受限时，模拟更大的有效批次大小（Effective Batch Size = Micro-Batch Size * N），有助于稳定训练（更大的有效Batch Size通常对应更稳定的梯度估计）或达到特定收敛效果。是训练大模型时克服显存不足的常用技巧。
梯度检查点 (Gradient Checkpointing / Activation Checkpointing):
- 是什么： 一种牺牲计算时间换取显存节省的技术。在神经网络中，不保存所有中间层的激活值（Activation - 前向传播的输出结果，反向传播时需要），而是只保存其中一部分（检查点）。在反向传播过程中，当需要那些未被保存的中间激活值时，临时从最近的检查点开始重新计算那段前向传播。
- 为什么重要：****能显著减少训练时的显存占用（尤其是深度网络），因为激活值是大模型显存消耗的主要来源之一。代价是增加了额外的重新计算开销，导致训练时间变长。是训练超深模型的关键技术。

五、推理与部署 (Inference & Deployment)

推理 (Inference):
- 是什么： 指使用训练好的模型对新输入数据进行预测或生成输出的过程。例如，用ChatGPT回答问题，用Stable Diffusion生成图片。
- 为什么重要： 是模型价值的最终体现。相比训练，推理更关注延迟、吞吐量、成本效率和易用性。
自回归生成 (Autoregressive Generation):
- 是什么： LLM（大语言模型）生成文本的主要方式。模型逐个预测（生成）序列中的下一个token（词元），并将之前生成的所有token作为新的输入上下文，重复此过程直到生成结束。
- 为什么重要： 理解LLM推理的核心机制。这种串行特性使得优化LLM推理的延迟（特别是Time To First Token）具有挑战性。
KV 缓存 (Key-Value Cache / KV Cache):
- 是什么： 在LLM自回归生成过程中，为了避免对已经生成的、作为上下文的前缀tokens进行重复计算（特别是Transformer中的自注意力计算），将每次解码步计算出的Key向量和Value向量缓存下来供后续步骤使用的技术。
- 为什么重要：****能极大加速后续token的生成（只需计算当前新token的Q，复用之前K/V），是LLM推理性能优化的基石。KV缓存的大小随生成序列长度线性增长，是推理显存占用的主要部分。
连续批处理 (Continuous Batching / Iteration-Level Batching / Dynamic Batching):
- 是什么： 一种先进的推理批处理技术。不同于静态批处理（等待一批请求都到达才开始处理），连续批处理在服务器运行过程中，动态地将新到达的请求加入到正在执行的批次中，并立即释放已完成的请求所占用的资源（如显存中的KV Cache）。
- **为什么重要：**显著提高GPU利用率，尤其是在请求到达速率不均匀或请求生成长度差异大时。大幅提升推理吞吐量，降低延迟（新请求无需长时间等待成批）。是高性能LLM推理服务（如vLLM, TensorRT-LLM, TGI）的核心特性。
vLLM (Vectorized Large Language Model serving engine):
- 是什么： 一个专注于LLM推理的高性能、易用开源服务引擎。由加州大学伯克利分校等开发。
- 为什么重要： 其核心创新是PagedAttention，它像操作系统管理内存一样管理KV Cache，允许非连续显存存储。结合Continuous Batching，在显存利用率极低（碎片化严重）或请求负载变化大的场景下，相比传统方案（如Hugging Face Transformers）能实现高达数十倍的吞吐量提升，成为当前部署LLM的热门选择。

🚀 大模型算力速查表（收藏版）

分类	名词	缩写	关键定义
硬件基石	GPU	-	并行计算主力，擅长矩阵运算（如NVIDIA H100）
TPU	-	Google专用AI芯片，优化张量计算
显存 (VRAM)	-	GPU高速内存，决定模型上限（如HBM 80GB）
互联带宽	-	设备间传输速度（如NVLink 900GB/s, InfiniBand 400Gb/s）
性能指标	FLOPS	-	硬件算力峰值（如H100: 2000 TFLOPS）
FLOPs	-	模型计算量（如GPT-3前向：10²³次）
吞吐量	-	单位时间处理量（训练：tokens/s；推理：requests/s）
延迟	-	响应时间（推理关键：Time to First Token）
并行技术	数据并行 (DP)	DP	拆分数据，各GPU存全模型（DDP为优化版）
张量并行 (TP)	TP	拆分单层运算（如矩阵乘），突破单卡显存限制
流水线并行 (PP)	PP	拆分模型层，数据微批次流水执行
ZeRO优化	-	消除冗余存储（Stage 3: 切分参数/梯度/优化器状态）
FSDP	-	PyTorch版ZeRO-3，显存优化利器
精度优化	混合精度训练	AMP	FP16/BF16计算 + FP32存储，省显存+提速
BF16	-	比FP16更稳定的16位格式（指数同FP32）
量化	PTQ/QAT	高精度→低精度（如FP32→INT8），推理加速+省显存
梯度累积	-	小批次累加梯度，模拟大批次效果
梯度检查点	-	用时间换显存：只存部分激活值，其余重计算
推理部署	KV缓存	-	缓存历史Key/Value，加速自回归生成（显存占大头）
连续批处理	-	动态加入新请求，提升GPU利用率（吞吐量↑）
vLLM引擎	-	PagedAttention管理显存，推理吞吐提升10倍+

⚡️ 高频要点速记：

显存决定模型规模：模型参数量 ≈ 显存占用（例：7B模型约需14GB FP16显存）
并行策略选择：
- 单卡放得下 → 数据并行
- 单卡放不下 → 模型并行（TP/PP）
- 超大规模 → 混合并行 + ZeRO/FSDP
训练加速双雄：
- 混合精度训练：速度↑+显存↓
- 梯度累积：小显存跑大Batch
推理优化核心：
- KV缓存 → 降低延迟
- 连续批处理 → 提升吞吐

**
**

结语：

恭喜你！现在，这些曾经让人望而生畏的算力名词，已经变成了你理解大模型世界的有力工具。从支撑计算的硬件基石（GPU、TPU、显存），到衡量性能的速度表（FLOPS、TPS、延迟），再到提升效率的秘籍（混合精度、量化、KV Cache），以及构建宏大蓝图的基石（分布式训练、集群），你已掌握了一套解锁大模型核心动力的钥匙。