AI大模型基础

人工智能发展经历了从早期符号系统到当前大模型的演进过程。早期AI依赖人工规则（1950s-1980s），统计机器学习（1980s-2010s）实现了数据驱动学习，而深度学习（2012年起）通过神经网络自动提取特征。当前大模型时代（2020年起）以GPT、BERT等为代表，具有通用性强、多模态处理等特点，参数规模达千亿级。大模型通过预训练+微调方式，展现出零样本学习等能力，成为通向AGI（人工通用智

vibag

775人浏览 · 2026-01-01 13:31:31

vibag · 2026-01-01 13:31:31 发布

文章目录

AI与大模型介绍
AI应用场景
大模型架构
大模型术语

AI与大模型介绍

AI 的总体发展历程

阶段	时间	核心技术	特点
早期 AI（符号主义）	1950s–1980s	规则系统、专家系统	人工编规则，推理逻辑强，通用性差
统计机器学习	1980s–2010s	SVM、KNN、决策树、Naive Bayes	模型从数据中学习，泛化更强
深度学习崛起	2012–至今	CNN、RNN、Transformer	端到端、自动提特征，突破图像/语音/NLP
大模型时代	2020–至今	GPT、BERT、Diffusion、多模态	预训练+微调，通用智能趋势

从机器学习到深度学习

机器学习（Machine Learning）

机器学习是从数据中学习模型的技术。典型流程：

人工提取特征（Feature Engineering）
输入特征给模型（如 SVM、逻辑回归、随机森林）
模型学习输入与输出的映射关系

示例模型：

监督学习：KNN、SVM、决策树、随机森林
无监督学习：K-Means、PCA
强化学习：Q-Learning

局限：

需要手工设计特征（如图像的边缘、颜色直方图）
对复杂结构数据（图像、语音、语言）学习能力差

深度学习（Deep Learning）

深度学习是以神经网络为核心的学习方式，它能够自动从原始数据中提取特征。

技术转折点：

2012 年 AlexNet 赢得 ImageNet 图像识别比赛，误差骤降，深度学习进入主流
利用 GPU、大数据训练多层神经网络
后续演变出 CNN、RNN、LSTM、Transformer 等模型

核心优势：

不再依赖人工特征设计
能直接处理图像、语音、文本等原始数据
越大越强，规模化带来性能跃迁
机器学习与深度学习对比

机器学习与深度学习对比

项目	机器学习（ML）	深度学习（DL）
特征提取	人工提取	自动学习
模型复杂度	中等	极高（百万~十亿参数）
数据需求	相对较少	需要大规模数据
硬件依赖	低	高（依赖 GPU/TPU）
应用范围	结构化数据	图像、语音、NLP 等非结构化数据

从深度学习到大模型

深度学习瓶颈

问题	描述
任务特定	模型只能解决一个任务，迁移性弱
监督学习依赖强	训练需要大量标注数据
推理能力差	缺乏常识和复杂推理
模型小、单一	模型参数百万级，能力受限

大模型时代的三大转变

项目	深度学习时代	大模型时代
模型规模	百万到千万参数	数十亿到数千亿（甚至万亿）
训练方式	监督学习	自监督 + 大数据预训练
模型能力	专用	通用（多任务、多模态）

大模型的核心特点

特点	描述
通用性强	一个模型可以应对 NLP 多个任务，甚至图像、语音等模态
Few-shot / Zero-shot 能力	无需训练或仅需少量样本就能解决新任务
可拓展性	模型越大越强，性能近似线性增长（Scaling Laws）
多模态能力	支持文本、图像、音频、视频等输入输出（GPT-4o、Gemini）
工具化能力	能调用外部工具（如搜索、计算器、API）

大模型引发的变革

AI 2.0（深度学习）	AI 3.0（大模型）
训练任务特定模型	训练通用基础模型
依赖标签	使用自监督数据
小模型拼接多系统	单一大模型解决多任务
专家调参	自动对齐、人类反馈训练

AGI

AGI（Artificial General Intelligence，人工通用智能）指的是一种：能像人类一样完成任意智能任务，能进行跨任务迁移、推理与学习，具有持续学习、自我反思、动机与规划能力的智能系统。
简单说：AGI ≠ 只能对话/写代码/生成图像，而是能像人一样通用地理解世界和解决问题。

大模型与 AGI 的关系图谱

方面	大模型（LLMs）	AGI
通用性	高，跨任务能力强	极高，任意任务都能适应
推理能力	有限（依赖上下文）	强，能自主构建知识链
学习能力	静态模型，需微调	持续学习，自适应变化
记忆能力	上下文窗口临时记忆	长期记忆 + 知识持久化
意图/动机	无真正意图	有目标、有自我决策能力
工具能力	通过函数调用拓展	工具内化、灵活使用
自我反思	无	有元认知（知道自己知道什么）

大模型是AGI的阶段

人工智能 → 机器学习 → 深度学习 → 大模型 → 智能体（Agent）→ AGI

大模型是逼近 AGI过程中的基础能力载体
如果说 AGI 是目标，那么 大模型 + Agent 架构 + 工具能力 + 记忆系统 是通往它的路径

AIGC

AIGC（AI-Generated Content），即 “人工智能生成内容”，指的是通过 AI（尤其是生成式模型）自动生产文本、图像、音频、视频、代码等数字内容的过程。

AIGC = AI Generated Content
属于内容创作方式的一种范式变革
相对传统内容（人创作）与 PGC（专业内容）/UGC（用户内容）

AIGC 的典型内容类型

类型	示例	常用模型
文本生成	写文章、写诗、摘要、对话	Gemini, GPT-4, Claude, GLM
图像生成	插画、头像、壁纸、设计图	Gemini, DALL·E, Midjourney, SD
音频生成	背景音乐、配音、拟人声音	Gemini, MusicLM, TTS 模型
视频生成	动态广告、数字人、短片	Gemini, Sora (OpenAI), Runway
代码生成	自动补全、脚本生成	Gemini, Copilot, CodeWhisperer
3D生成	模型、数字资产	Gemini, DreamFusion, GET3D

AIGC 背后的技术基础

技术层	代表
模型架构	Transformer, Diffusion Model
训练范式	自监督预训练、RLHF、人类对齐
多模态融合	文本 + 图像、语音 + 视频
工具链	Prompt 编写、API调用、模型微调
基础设施	GPU、TPU、vLLM、LoRA、推理加速器

AIGC 与大模型、AGI 的区别和联系

概念	定义	关系
AIGC	AI 生成的内容	是大模型的直接应用产物
大模型	基础语言/图像模型	为 AIGC 提供核心能力（如 GPT）
AGI	通用人工智能	AIGC 是它可掌握的“技能”之一，但远非全部

可以理解为大模型是“发动机”，AIGC是“发动机驱动下的应用（车），AGI是“驾驶员”——能开车、会换挡、能理解上下文目的地。

AI应用场景

自然语言处理（NLP）

自然语言处理是目前最广泛的 AI 应用领域之一，依托大语言模型的能力，实现文本理解、生成、对话、信息提取等多种功能。

核心应用

应用方向	场景	说明
文本生成	内容创作、摘要撰写、对联、写稿	ChatGPT、AI写作
对话系统	智能客服、企业机器人、语音助手	客服对话、知识问答
情感分析	舆情监控、评论分析	识别正负面态度
文本分类	垃圾邮件识别、意图识别	精准投放、问答意图识别
命名实体识别	人名、地名、组织提取	搜索、风控、金融
机器翻译	多语种翻译、实时字幕	百度翻译、Google Translate
文档理解	法律、合同、财报理解	智能标注、知识抽取
代码生成	自动补全、Bug 解释、文档生成	Copilot、ChatGPT Code Interpreter

计算机视觉（Computer Vision）

计算机视觉使 AI 能“看懂世界”，目前已广泛应用于工业、安防、医疗、电商、交通等多个行业。

应用方向	场景	说明
图像分类	商品识别、动物识别、垃圾分类	图像内容打标签
目标检测	安防监控、人脸识别、车辆检测	YOLO、Faster-RCNN
图像分割	医疗图像（器官、肿瘤）、道路检测	Pixel级识别，CV高精应用
OCR	发票识别、证件扫描、文本识别	实现图文转化
行为识别	店内轨迹分析、工地安全监测	CV + 视频分析
图像生成	AI画画、设计草图、插画创作	Midjourney、DALL·E、SD
图像搜索	以图搜图、电商找相似款	百度识图、淘宝识图
视频分析	安全监控、交通流量分析

语音识别与合成（ASR & TTS）

语音识别（ASR）

应用方向	场景	说明
语音转文字	会议记录、采访整理、语音备忘	腾讯听听、小爱同学录音整理
语音搜索	智能遥控器、车载语音	语音搜索比键入更快捷
多语种识别	中英混说、会议翻译	支持全球多语言实时转写
通话分析	客服质检、情绪识别、关键字提取	呼叫中心语音挖掘
医疗记录	医生口述病历自动录入	提高诊室效率与准确性

语音合成（TTS）

应用方向	场景	说明
虚拟人配音	数字员工、短视频 AI 主播	阿里“云小蜜”、科大讯飞 TTS
导航播报	车载语音、地图导航	高德地图语音合成
情感合成	不同语调、情绪的语音输出	模仿主播、明星语音
个性语音定制	模拟用户声音、训练私有音色	数字遗嘱、数字人声音克隆
阅读辅助	新闻朗读、有声书	喜马拉雅、讯飞有声合成平台

三者融合场景（NLP + CV + 语音）

应用场景	涉及技术	说明
多模态问答	CV + NLP	看图问答（如文心一言、GPT-4o）
视频字幕生成	CV + ASR + NLP	自动转字幕、翻译、多语合成
数字人	TTS + NLP + CV	虚拟形象对话、AI 主播、讲解员
智能会议助手	ASR + NLP + Summarization	自动会议纪要，关键词提取
智能驾驶舱	CV + ASR + TTS	人脸识别 + 语音交互 + 驾驶辅助

应用领域案例汇总（按行业）

行业	典型 AI 应用
教育	语音评测、作文批改、智能讲题
医疗	影像识别、病例录入、医学 NLP
金融	智能风控、客服机器人、报表生成
零售	图像识别收银、语音客服、广告创意生成
政务	智能问答、证件识别、舆情监测
安防	人脸布控、异常行为检测
交通	车流量分析、语音导航
内容创作	文案生成、AI 画图、视频剪辑

大模型架构

Transformer 架构

参考文档：https://www.runoob.com/nlp/transformer-architecture.html

公众号文章：https://mp.weixin.qq.com/s/bQE58LII4nXvO2hkjlYvsw

BERT 模型

参考文档：https://www.runoob.com/nlp/bert-encoder.html

公众号文章：https://mp.weixin.qq.com/s/0wA8BMGrJxWYDu0HAl7Bhg

GPT 架构

参考文档：https://www.runoob.com/nlp/generative-pre-trained-transformer.html

公众号文章：https://mp.weixin.qq.com/s/S-gdaAn3izW2NC70-MZjuw

MoE 模型

公众号文章：https://mp.weixin.qq.com/s/I9L3Ldw6s5Ui3vbPX5g8mw

大模型术语

大模型工作流程

在这里插入图片描述

环节	解释
提示词 Prompt	用户给模型的“任务指令”，决定后续所有 token 的生成方向。
分词 Tokenization	把文本切成模型字典里有编号的最小片段（token），供向量层查表。
嵌入 Embedding	将每个 token 编号映射成高维向量，使语义相近的词在向量空间靠得更近。
模型计算 Transformer Layers	多层自注意力 + 前馈网络对整句向量做并行计算，输出每个位置的上下文语义向量。
续写 token 串 Token Generation	以上一步的向量为基础，逐个采样下一个 token，自回归拼成完整回答。
RAG	检索增强生成，结合外部知识库进行语义检索并增强生成质量。
MCP	模型上下文协议，允许模型调用外部工具或服务（如 API、数据库）扩展能力。

模型参数类型

稠密模型（Dense Model）

定义：在推理或训练时，所有参数都会被参与计算。

特点：

每一层的参数都“稠密连接”在一起
每个输入都会激活所有权重（没有参数被“跳过”）

优点：

结构简单，训练和推理逻辑清晰
对小规模模型和常规任务效果稳定

缺点：

参数量大 → 推理计算和显存占用高
无法做到“部分参数参与计算”以节省资源

稀疏模型（Sparse Model）

定义：在推理或训练时，只有部分参数被激活，其余参数不参与计算。

常见形式：

权重稀疏化：把部分权重设为零（例如通过剪枝 pruning），减少计算量
激活稀疏化：某些神经元只有在特定输入下才被激活

优点：

提升计算效率，降低显存和算力需求
仍能保持较高精度

缺点：

稀疏化的效果和方法依赖任务，可能影响模型表现
工程上需要专门的稀疏计算库支持

MoE 模型（Mixture of Experts）

定义：又称混合专家模型，一种稀疏化的特殊形式。模型内部包含多个“专家子网络”（Experts），每个输入 token 只会激活其中一部分专家（而非全部）。

核心机制：

门控网络（Gating Network）：根据输入内容，选择最合适的专家来处理
稀疏激活：例如有 100 个专家，只激活其中 2 个 → 节省计算成本

优点：

参数量可以非常大（比如上万亿），但实际计算开销比稠密模型低
不同专家可以专注于不同知识领域（比如数学专家、代码专家）

缺点：

训练难度大（负载均衡问题，容易出现部分专家过载）
工程复杂度高（需要专门的分布式训练策略）

维度	稠密模型	稀疏模型（广义）	MoE（稀疏的一种）
激活比例	100%	<10%	通常 Top-1 或 Top-2 专家
参数总量	= 激活量	>>激活量	同左，易破百亿/千亿
计算量 FLOPs	高	低	低（与稀疏一致）
显存占用	中	高（存全套参数）	高（存全套专家）
通信开销	无	低	高（需跨设备传专家）
训练难度	低	中	高（负载均衡、门控学习）
代表模型	GPT-3/LLaMA	无普遍开源	Switch-Transformer、GLaM、PaLM-E、DeepSeek-MoE

模型压缩加速

蒸馏模型（Model Distillation）

定义：模型蒸馏（Knowledge Distillation）是一种模型压缩技术，就好比“老师教学生”——用大模型（Teacher）的输出当“软标签”，训练一个小模型（Student）模仿行为，参数变少，精度尽量保留。

用一个大而强的模型（教师模型 Teacher）指导一个小模型（学生模型 Student）的训练。
学生模型学习的不仅是训练数据的标签，还要模仿教师模型的输出分布（soft targets）。

原理

教师模型输出一个“软概率分布” (softmax + 温度参数)
学生模型通过最小化与教师分布的差异来学习知识
最终得到一个更小、更快，但性能接近的学生模型

优点

大幅降低模型大小和推理延迟
在移动端、边缘设备部署更容易
保留大部分性能

缺点

蒸馏效果依赖教师模型的质量
蒸馏过程需要额外训练，成本不低

典型应用

BERT → DistilBERT（小一半参数，保留 ~95% 性能）
GPT 系列在移动端的轻量化版本

量化模型（Model Quantization）

定义：模型量化是一种模型推理加速和压缩技术，就好比“削精度减位数”——把权重/激活的浮点 32 位→16/8/4 位整数，存储↓、计算↓、显存↓，直接跑在端侧芯片。

将模型参数（权重、激活值）从高精度浮点数（如 FP32）压缩到低比特表示（FP16、INT8、INT4 甚至二值）。

常见方法

Post-Training Quantization (PTQ)：训练后直接量化，不需要重新训练
Quantization-Aware Training (QAT)：训练过程中就引入量化，效果更好
List item
混合精度（Mixed Precision）：部分关键层保持高精度，其他层用低精度

优点

显著减少显存占用（FP32 → INT8 可减 4 倍）
提升推理速度（尤其在支持低精度算子的硬件上，如 GPU Tensor Cores / TPU / NPU）
能与剪枝、蒸馏结合使用

缺点

精度可能下降（尤其在极端低比特时，如 INT4）
对硬件依赖较强（要支持低比特计算）

典型应用

INT8 BERT、GPTQ（量化 LLM）
LLaMA、Qwen 等开源大模型常见的 4bit/8bit 量化版本，用于个人显卡部署

维度	知识蒸馏	量化
目标	模型结构变小	权重位数变少
参数量	减少（Student 网络更瘦）	不变（只是精度压缩）
存储体积	↓↓（结构剪完再量化可叠加）	↓↓（通常 4× 或 8×）
计算加速	依赖小模型结构	依赖整数单元/专用指令
精度损失	可控（跟 Teacher 差距）	可控（INT8 几乎无损，INT4 需精细调）
是否需要原模型	需要 Teacher 在线/离线推理	不需要，可后训练直接压
代表方案	MiniLLaMA、DistilBERT、TinyGPT	LLM.int8()、GPTQ、AWQ、KV-cache 量化

大模型训练

想象一下你是一位图书管理员，要为AI建造一座包含全人类知识的图书馆，训练好的模型就像整整齐齐装满知识的图书馆。

训练过程就是

收集材料：把海量本书（如维基百科、小说、论文）堆进仓库
制定规则：教会AI识别词语关系（比如"猫追老鼠"中"追"代表动作关系）
反复练习：让AI猜下一句话是什么，猜错就调整记忆库（参数），直到能基本猜对（这个不同大模型准确率不一样，一般都会有评测）。

训练的本质：通过海量训练数据（tokens）调整模型参数（权重、偏置等），让模型学会语言规律和常识。

就像教婴儿认字——先看百万张图片，逐渐理解"猫"对应毛茸茸的动物。

大模型训练再细分的话分为预训练和后训练。

大模型预训练

大模型预训练（Pre-training）：模型在大规模通用数据上首先进行无监督或自监督训练，学习通用知识、语义和基本能力。

例如DeepSeek-V3-Base、DeepSeek-V2、DeepSeek-Coder V1未经过任何微调，是预训练大模型。

大模型后训练

大模型后训练（Post-training）：是在预训练模型基础上，通过人类反馈（SFT/RL）优化行为，使其符合特定需求如人类偏好。

例如DeepSeek-V3、DeepSeek-R1系列、DeepSeek-Coder V2、DeepSeek-VL2都是后训练大模型。

维度	预训练模型	后训练模型
目标	学习语言通用规律	对齐人类偏好，专精任务
数据	无标注文本（万亿级）	带标注指令/偏好数据（百万级）
典型技术	MoE架构、FP8混合精度	GRPO强化学习、思维链蒸馏
输出特点	通用文本生成	结构化答案、分步推理

大模型微调

微调其实也是模型后训练的一种方法。只是后训练通常由模型提供商负责，会在出厂前进行预训练和后训练，以便把模型打造成可交付的状态，而微调这种后训练，一般由模型使用者（甲方自己的技术团队或技术厂商）进行，以便实现领域垂直大模型。

例如通用模型已掌握医学基础知识（如解剖学名词），但要做心脏手术还需专项训练

定向输入：给模型海量心脏病例和手术记录（特定领域数据）

专家经验（示范）：展示优秀医生的诊断思路（带答案的例题，即问答对）

模拟考核：让模型诊断病例并评分，重点纠正误诊（模型评价）

微调本质：在预训练模型上，用少量专业数据（如1%原数据量）调整部分参数。就像让全科医生专攻心血管科——保留基础能力（如问诊技巧），强化专科知识（如心电图解读）。

微调后的模型能像资深医生一样，根据症状精准判断病因。

微调的方法有很多种，常用方法有：

全量微调

全量微调是在预训练模型的基础上，对所有参数进行微调。在参数修改方面，所有参数都会被更新。其优点显著，能够充分利用预训练模型的通用知识，同时针对特定任务进行优化，通常可以获得较好的性能。

然而，该方法也存在明显不足，计算资源需求较高，尤其是对于参数量非常大的模型来说，这一问题更为突出；训练时间较长，而且在数据量较少的情况下，可能会导致模型过拟合。

参数高效微调

参数高效微调的核心是只对模型的一部分参数进行微调，保持大部分参数不变，这使得它在资源利用上更加高效。

以下是几种常见的参数高效微调方法：

LoRA（Low-Rank Adaptation）

LoRA 通过低秩分解来调整模型的权重矩阵，只训练少量的新增参数。这种方法的优点是计算资源需求低，训练时间短，并且保留了预训练模型的大部分知识。不过，其缺点是可能达不到全量微调的性能。

Prefix-Tuning

Prefix-Tuning 在模型的输入端添加可训练的前缀，这些前缀参数在微调过程中被更新。它适用于自然语言生成任务，具有计算资源需求低、训练时间短的优点，但可能需要更多的调参经验。

Adapter

Adapter 在模型的每一层或某些层之间插入可训练的适配器模块，这些适配器参数在微调过程中被更新。该方法计算资源需求低、训练时间短，还可以针对多个任务进行微调，不过同样可能需要更多的调参经验。

BitFit

BitFit 只微调模型的偏置项（bias terms），而不改变权重。其最大优势是计算资源需求极低，训练时间非常短，但性能提升可能有限。

强化学习微调

强化学习微调使用强化学习方法，通过人类反馈或其他奖励信号来优化模型，模型参数会根据奖励信号进行更新。它的优点在于可以优化模型的交互行为，特别是在对话系统等交互式任务中，还能更灵活地调整模型的行为以满足特定的业务需求。但该方法实现复杂，需要设计合适的奖励机制，且训练过程可能不稳定，需要更多的调试和监控。

提示调优

提示调优通过冻结整个预训练模型，只允许每个下游任务在输入文本前面添加可调的标记（Token）来优化模型参数，仅更新提示部分的参数。它具有计算资源需求低、训练时间短的优点，适用于少样本学习任务。不过，其可能达到的性能可能略低于全量微调，且需要精心设计提示。

深度提示调优

深度提示调优在预训练模型的每一层应用连续提示，而不仅仅是输入层，同样只更新提示部分的参数。这种方法可以在更深层次上优化模型，提高性能，适用于复杂任务，但实现复杂，需要更多的调参经验。

动态低秩适应

DyLoRA 在 LoRA 的基础上，动态调整低秩矩阵的大小，动态调整低秩矩阵的大小，只更新部分参数。它计算资源需求低，训练时间短，可以在更广泛的秩范围内优化模型性能，但实现复杂，需要更多的调参经验。

自适应低秩适应

AdaLoRA 根据权重矩阵的重要性得分，自适应地分配参数规模，根据重要性动态调整参数规模，只更新部分参数。该方法计算资源需求低，训练时间短，可以更高效地利用参数，提高模型性能，但同样存在实现复杂、需要更多调参经验的问题。

量化低秩适应

QLoRA 结合 LoRA 方法与深度量化技术，减少模型存储需求，同时保持模型精度，只更新部分参数，同时进行量化。它计算资源需求低，训练时间短，适用于资源有限的环境，但实现复杂，需要更多的调参经验。

大模型推理

大模型推理好比"教AI玩解谜游戏"——就像你给一个拥有全人类知识库的AI玩家，让它通过拆解线索、组合逻辑碎片，最终拼出完整答案的过程。

当用户问"如何用大象称体重？"，推理过程如同：

(1) 线索搜集：激活“大象-体重-称量”相关记忆（如阿基米德浮力原理）

(2) 逻辑推演：

第一步：回忆"曹冲称象"故事（类比迁移）
第二步：计算船排水量与浮力关系（数学推理）
第三步：设计具体操作步骤（工程思维）

(3) 验证优化：检查方案可行性（如大象是否配合），生成分步指导

推理本质：将输入问题拆解为知识图谱中的关联节点，通过Transformer架构的多层计算，最终输出逻辑连贯的答案。就像用千万块拼图（参数）组合出完整图案，过程中不断排除错误组合（如"用蚂蚁称大象"的荒谬方案）。

训练、微调、推理对比总结

阶段	目标	数据量	学习方式	成果表现
训练	建立基础知识体系	百万亿级	无监督学习	通晓语言和常识
微调	培养专业能力	千万级	有监督+强化学习	专科医生水平
推理	解决具体问题	实时输入	概率计算	生成定制化解决方案

大模型部署

单机 TP 模式

定义：Tensor Parallel, 张量并行。在单台机器上，利用多张 GPU 对一个层内部的矩阵乘法等计算进行张量级拆分。

特点：

单层参数被切分到不同 GPU 上执行，比如把权重矩阵横向或纵向分块。
各 GPU 并行完成部分计算，再通过通信聚合结果。

适用场景：单机多卡，模型权重大，单卡显存放不下时。

代价：通信量较大（AllReduce/AllGather）。

单机 EP 模式

定义：Expert Parallel, 专家并行。在单机多卡下，部署 Mixture-of-Experts (MoE) 模型时，每张 GPU 只存储部分专家网络（Experts）。

特点：

输入 token 会根据路由器 (Router) 分配到相应的专家所在的 GPU。
可以显著减少单卡显存占用，提升模型容量。
适用场景：MoE 模型（比如 DeepSeekMoE），需要单机就能容纳上百亿以上参数。

代价：需要高效的路由与负载均衡，否则会造成卡间负载不均。

多机 TP 模式

定义：将张量并行扩展到多机多卡，跨机器切分权重矩阵。

特点：

每层的参数和计算进一步拆分，涉及跨节点通信（一般走高速网络如 InfiniBand）。
常和流水线并行 (PP)、数据并行 (DP) 结合使用。

适用场景：模型超大（百亿 ~ 千亿参数），单机算力不够。

代价：网络通信成为瓶颈，带宽和延迟要求高。

多机 EP 模式

定义：将专家并行扩展到多机，每台机器的 GPU 保存不同子集的专家。

特点：

Router 需要跨机调度 token → 对应专家 → 返回结果。
单机放不下所有专家时的必选方案。

适用场景：千亿级 MoE 模型，比如 DeepSeek-R1、GPT-MoE 系列。

代价：跨机通信开销更大，对路由调度系统要求更高。

PD 分离模式

定义：Prefill-Decoding Separation，将推理过程中的预填充 (Prefill) 和解码 (Decoding) 阶段拆分到不同的计算节点。

特点：

预填充：对输入 prompt 进行一次性计算，耗时长但并行度高。
解码：生成阶段，每步依赖上一步结果，序列化强，吞吐低。
分离后可按需分配资源，提升整体吞吐。

适用场景：在线服务，既要处理长 prompt，又要保证生成的低延迟。

多 PD Master 模式

定义：多个 Prefill-Decoding Master 节点共同调度推理请求，避免单点瓶颈。

特点：

支持多 Master 协同负载均衡。
每个 Master 可独立分配请求到 Prefill / Decode 工作节点。
提高可扩展性和容错性。

适用场景：大规模推理服务，海量并发请求，要求高可用。

总结对比

模式	粒度	主要目标	典型场景
单机 TP	层内张量切分	显存放不下单层	单机多卡部署大模型
单机 EP	专家分布在单机	MoE 显存节省	小规模 MoE
多机 TP	跨机张量并行	超大模型训练/推理	千亿模型
多机 EP	专家跨机分布	MoE 扩展	千亿 MoE 模型
PD 分离	阶段拆分	吞吐优化	在线推理
多 PD Master	调度层冗余	高可用 + 扩展	大规模服务