AI大模型全栈教程:零基础入门到实战,50个核心关键词详解,一篇就够!
单卡显存无法加载完整模型的问题。之所以使用分片推理,主要原因是大模型参数量动辄。
本文系统介绍AI大模型的50个核心概念,涵盖大语言模型基础、Transformer架构、注意力机制、各类微调技术、知识库增强、模型优化方法、AI智能体系统及数据工程等内容,全面覆盖从理论到实践的AI大模型知识体系,适合零基础入门到精通学习。
本文整理了15000字关于模型与训练、学习与推理能力、Agent 与系统、数据与特征工程相关的核心50个关键词,帮助你可以快速了解AI大模型相关的通识性概念。
内容较长,文末可下载附件。
1. Large Language Models (LLMs ,大语言模型)
所有AI应用中的中心枢纽,也就是AI应用的“大心脏”,具备智能化问答、诊断、推理分析能力,
目前LLM 指参数规模从数亿到数千亿甚至更多、通常来说,模型参数规模越大说明模型的记忆/拟合能力越强,以自监督目标在大规模文本/多模态数据上预训练,从而具有广泛语言理解与生成能力的神经网络模型。
而对于大模型除了具备智能化追外,也有一些问题存在,例如:
-
幻觉问题:模型编造事实
-
带有偏见:训练数据存在偏见
-
对抗性提示:
模型容易受 prompt 攻击或误导。
- Transformer Architecture ( Transformer架构)
================================================
Transformer这个词往往会随着大模型出现,而且这个有很强的技术性,可以这么来理解,大模型技术目前之所以能够快速发展起来,大部分原因是基于Transformer架构的方式来的。
而它所解决的问题就是过去大模型对于文本处理和信息容量问题,也就是:长文本和记忆问题;
在2017年论文《Attention Is All You Need》中Transformer的设计被提出,通过基于 注意力机制(Attention)(下面会讲到),来彻底解决了长依赖和并行计算问题。
现在主流的大模型都是基于Transformer架构来实现的,例如GPT系列、Claude、文心大模型、Qwen系列等等。
在Transformer架构中最核心的机制就是:Attention,简单来描述就是当模型读到一个词,比如 “苹果”,它会去关注上下文里的相关词,比如 “水果”、“香蕉”、“超市”,并赋予不同权重。
一个典型的Tranformer架构的流程:
- Attention Mechanisms ( 注意力机制)
================================
简单来说,Attention 就是让模型在处理输入时,学会关注最关键且相关的部分。
- 类似于人类读文章时,并不是对所有字都一样关注,而是会特别注意一些关键词。
- 在神经网络里,Attention 会给输入序列中的每个词分配一个权重,决定它对当前预测有多大贡献。
而对于Attention(注意力)它本身其实无法处理太多复杂信息,那怎么办?这时候通过引入多头注意力(**Multi-Head Attention ),让多个人同时去处理,**每个人(Head)关注输入的不同方面,比如:
- A可能关注句法关系
- B可能关注语义关联
- 最后再把多个人的信息拼接起来。
其实结合上面的大模型和Transformer来说,注意力机制可以有效进行并行化操作,以及对于超长文本内容的处理;
- Token Embeddings ( Token向量化)
===============================
Token这个词都比较熟悉,我们目前使用的所有大模型它的计费描述都是基于Token来收费的,简单来理解就是我们在跟大模型交流的时候,一般是通过文字(语音也是转的文字)交流,那每个文字(中文)大约是1.5~2 token,按照字符大小来计算。
Token = 文本的最小处理单位,可以是字符、单词或子词
而Embeddings表示是向量化,因为机器只能处理数字(0或者1),所以需要把不同的文字内容它的相似度转化为向量模式存储,而向量就可以把离散的Token(输入/输出内容)转换成连续的内容,供模型使用。
例如
- Embeddings 可以把语义相近的词映射到相近的向量空间中:
- “king” - “man” + “woman” ≈ “queen”
- “apple” 和 “orange” 的向量距离比 “apple” 和 “car” 更近
- Fine-tuning (模型微调)
=====================
模型微调和RAG,这俩是模型在应用场景中的一个典型,模型微调(Fine-tuning)是基于预训练的大语言模型(如 GPT、BERT)在我们特定任务或领域数据上继续训练,使模型更适应特定需求;
在微调中,可以微调模型的所有参数(full fine-tuning),也可以只微调部分参数(如 LoRA、Adapter、Prefix Tuning)
大概过程是:
- 选择预训练模型
- 准备任务数据(分类、问答、生成等)
- 在任务数据上继续训练模型参数
- 模型学会特定任务或领域知识
- Prompt Tuning(提示词调优)
=======================
Prompt Tuning 是一种 轻量级的模型适配方法,通过在 大模型输入端(Prompt) 学习一组可训练参数,而不修改原始模型权重,从而让模型在特定任务上表现更好。
简单理解:不改模型身体,只调模型的“说话方式”,让它更懂你的任务。
- 传统 Prompt
- 手动设计文本提示(如 “请总结下面文章:”),依赖人工经验。
- 优点:无需训练,缺点:灵活性和性能受限。
- Prompt Tuning
- 学习一个 连续向量表示(soft prompt),这些向量在训练过程中可更新。
- 输入到大模型的 embedding 层,与原始输入拼接后喂入模型。
- 优点:训练参数极少(通常千级~百万级),适合 参数量大的 LLM 微调。
Prompt Tuning 重点在于不改模型本体,只训练输入端的可学习提示词内容,使大模型快速适应新任务的一种高效微调方法。
- Prompt Engineering (PEFT, 参数高效微调)
====================================
Prompt Engineering 是提示词工程,在最开始大模型火热的时候,关于提示词这个概念非常火热。
为什么Prompt很重要?
原因在于:大模型是 基于条件生成模型,其实类似于和专家沟通聊天,至少要表达清楚自己的诉求是什么,背景是什么?才能让对方更容易理解吧,而这些让在大模型里面也是同样道理,人的一些结构化表达/输出能力在大模型里面也同样适用。
好的 prompt 可以:
- 提高回答的准确性和完整性
- 控制生成内容的风格、格式或逻辑
- 减少无关或错误输出
坏的 prompt 会导致:
- 模型跑题
- 回答不完整或错误
- 生成不符合预期风格
一个典型的提示词流程如下:
对于普通人来说,学会使用提示词(prompt)是应用大模型的第一步,而懂得如何写一个好的提示词真的可以作为一个专业人士,真是这个已经是一个比较热门的岗位。
- RAG(检索知识库)
=============
而RAG(Retrieval-Augmented Generation,检索增强生成),是模型结合外部系统的能力来提供信息查看,一般先从内部知识库中检索相关文档,然后将这些文档作为上下文输入到生成模型中,再生成答案。
RAG的大概流程:
- 用户提问
- 将问题转为向量,向知识库检索相似文档
- 将检索到的文档拼接到问题上下文
- 生成模型生成答案
特性 | Fine-tuning | RAG |
知识存储 | 模型内部参数 | 外部知识库 |
数据需求 | 高(需要标注数据) | 中(知识库可自建) |
知识更新 | 需要重新微调 | 直接更新知识库即可 |
推理速度 | 快(直接生成) | 较慢(检索 + 生成) |
灵活性 | 针对特定任务 | 可处理多任务、多领域 |
风险 | 过拟合,遗忘旧知识 | 检索依赖,答案不稳定 |
- Parameter Efficient Fine-Tuning(PEFT,参数高效微调)
===============================================
Parameter-Efficient Fine-Tuning(PEFT) 是指在 大模型微调 时,不对模型的全部参数进行更新,而只训练 少量附加参数或关键模块,以适应特定任务。
核心目标:在 保持原模型知识的同时,用 极少量参数 实现任务适配,降低训练成本与存储开销。
传统微调(Full Fine-Tuning):更新模型所有权重,参数量庞大,成本高。
PEFT 通过以下方式实现高效微调:
LoRA(Low-Rank Adaptation)
- 对关键权重矩阵加上 低秩增量矩阵:
- 只训练 A、B 矩阵,原模型权重 W 冻结。
- 优点:训练参数量极少(通常 <1% 原模型参数)。
Prompt Tuning / Prefix Tuning
- 在输入 embedding 或 Transformer 层前添加 可训练前缀(soft prompt)。
- 不修改模型权重,只训练提示向量。
Adapter Modules
- 在模型每层插入小型 Adapter 网络,只训练 Adapter,原模型权重冻结。
- 典型:BERT Adapter、T5 Adapter。
BitFit
- 只微调模型的偏置参数(Bias),极端高效。
方法 | 微调范围 | 参数量 | 优势 | 劣势 |
Full Fine-Tuning | 全部模型参数 | 全部 | 性能最优 | 显存大、成本高 |
PEFT | 附加模块 / Prompt / Adapter / LoRA | 极少 | 高效、易迁移 | 极端复杂任务可能略低于全量微调 |
LoRA | 权重低秩增量 | <1% | 高效、易部署 | 需支持矩阵分解 |
- LoRA (Low-Rank Adaptation 参数高效微调)
=====================================
LoRA(Low-Rank Adaptation) 是一种 参数高效微调(PEFT)方法,通过在大模型关键权重矩阵上加上 低秩增量矩阵 来实现任务微调,而不更新原模型权重。
LoRA的核心在于:冻结大模型原有权重,只训练少量附加参数,实现高效、低成本的微调。
- Knowledge Distillation(知识蒸馏)
================================
Knowledge Distillation(知识蒸馏) 是一种 模型压缩与迁移技术,通过让一个 小模型(Student)学习大模型(Teacher)的行为,使小模型在保留性能的同时更轻量化、更高效。
通过把大模型的“知识”传递给小模型,让小模型达到接近大模型的效果,但计算量更小。
知识蒸馏的好处在于:
- 模型压缩:大模型知识迁移到小模型,减少计算资源消耗。
- 部署友好:小模型推理速度快,适合移动端或边缘设备。
- 提升泛化:通过软标签提供更多信息,Student 在小数据下效果更好。
简单总结来说就是:让小模型模仿大模型的行为或特征,从而获得类似性能,同时显著降低推理成本
- MoE (Mixture of Experts)
============================
MoE(Mixture of Experts) 是一种 大模型架构设计,通过在模型中引入 多个专家子模型,并由 路由器(Gating Network) 决定每次输入由哪些专家处理,实现 稀疏激活、参数高效利用。
核心在于:不让每个样本都经过全量模型,只激活部分专家,从而降低计算成本并提高模型容量。
简单的可以理解为:
专家混合模型 等于公司中的多个专家团队:
- 每个员工是一个专家网络
- 路由器像经理,根据任务把问题分配给最适合的团队
- 任务处理只调用部分团队,而不是全公司全员出动
13. Distributed Training(分布式训练)
分布式训练是指将深度学习模型的训练任务分布到多个计算资源(如多张 GPU、多台机器、多机多卡集群)上,以缩短训练时间、支持更大模型和更大数据集的训练。
对于大模型(如 GPT、LLaMA、DeepSeek 等),单台机器往往 显存不足 或 训练时间过长,在大模型(如 GPT、LLaMA)时代,单机单卡无法承载数百亿甚至上万亿参数的训练并且机器往往 显存不足 或 **训练时间过长,**因此分布式训练成为核心技术。
- Transfer Learning(迁移学习)
===========================
迁移学习是一种对于模型训练中提升训练效率的方式, 具体指的是:将一个模型在过去 源任务(Source Task) 或 大规模数据集 上学到的知识,迁移到 目标任务(Target Task) 当前任务上,以减少目标任务所需的数据和训练成本。
通俗来说,就是那过去历史东西来训练新的任务,这样可以降低对于新数据的依赖,现在很多大模型中都使用小模型来做蒸馏,让小模型数据提供给大模型来训练。
在 大语言模型(LLM) 里,迁移学习就是:
- 模型先在海量通用语料上进行 预训练(Pre-training)。
- 然后再在特定领域或任务上进行 微调(Fine-tuning / Instruction Tuning / RLHF)。
与 In-Context Learning 的区别
- 迁移学习(Transfer Learning)
- 改变模型参数(Fine-tuning、Adapter、LoRA 等)。
- 本质是“持久学习”。
- 例子:用 ChatGPT 微调一个客服机器人模型。
上下文学习(In-Context Learning, ICL)
- 不改变参数,只靠 Prompt 里的上下文“临时学习”。
- 本质是“一次性学习”。
- 例子:在 Prompt 里给几个对话示例,模型即时模仿客服回答。
- Few-Shot Learning(小样本学习)
============================
在传统机器学习里,要让模型学会一个新任务,通常需要大量标注数据(Supervised Learning)。
但是在大语言模型(LLMs,例如 GPT 系列、LLaMA、Claude 等)中,Few-Shot Learning指的是: 通过在提示(Prompt)词中给模型提供少量示例(通常 1~10 个),模型就能够理解并泛化到新的任务,而无需再进行专门的模型参数更新或再训练。
与之相反的就是 Zero-Shot Learning,它的话就是不给任何示例,直接依赖模型的通用知识。
而另一个就是Fine-tuning (微调),需要更新模型权重,通常用于大规模新任务适配。
和Few-Shot Learing的最好体现就是 In-Context Learning (上下文记忆)这个后面会讲到这个关键词
- Model Distillation(模型蒸馏)
============================
模型蒸馏是一种 模型压缩与知识迁移 技术。其核心思想是:
- 先训练一个大型的、高性能的教师模型(Teacher Model)
- 再用教师模型的输出(概率分布、隐藏特征等)来指导一个较小的学生模型(Student Model)的训练。
这样,学生模型能够在保持尽量接近教师模型性能的前提下,大幅减少计算资源消耗(参数规模、推理延迟、存储占用)。
- Model Quantization(模型量化)
============================
模型量化(Quantization) 是一种模型压缩与加速技术,在大模型中经常会看到量化版本,其实就是模型做了压缩,
通过将模型中 权重参数(Weights) 从高精度浮点数(通常是 FP32)压缩为低比特表示(FP16、INT8、INT4 甚至二值),以减少 存储占用 和 计算开销,同时尽可能保持模型精度。
在大模型力量化是部署和推理阶段的关键优化手段,尤其适合在 GPU 显存受限 或 设备推理 场景中使用。
核心问题在于:
- 显存/内存占用太大
- 一个 175B 参数的 LLM(FP32)需要 700GB+ 显存,难以在普通 GPU 上运行。
- INT8 量化可以缩小 4 倍,INT4 可缩小 8 倍。
- 推理速度慢
- 低比特运算(如 INT8)在现代硬件(GPU Tensor Cores、TPU、ARM CPU)上更高效。
- 能耗与成本降低
- 数据存取和计算能耗显著下降,更适合边缘部署。
- Model Pruning(模型剪枝)
=======================
模型剪枝(Model Pruning) 是一种 模型压缩技术,通过 移除模型中冗余、不重要的参数或神经元,在尽量保持精度的前提下,减少模型的大小和推理开销。
直观理解:就像修剪一棵树,把多余的枝叶去掉,让它更轻巧高效。
随着大语言模型(LLM)和多模态模型规模不断扩大(数百亿甚至上千亿参数):
- 计算开销大:推理延迟高,成本昂贵。
- 部署受限:无法在边缘设备或低资源场景运行。
- 能耗问题:训练和推理的碳排放过高。
剪枝的常见策略
- 基于权重大小:去掉数值接近 0 的权重。
- 基于梯度:衡量参数对损失函数的敏感度,去掉影响小的参数。
- 基于重要性评分:例如用 Fisher 信息矩阵衡量参数的重要性。
- 迭代剪枝:逐步剪枝并微调,避免一次性大幅度削减造成性能崩溃。
模型剪枝就是通过去掉不重要的参数或结构,让大模型更小更快,同时尽量保持性能,它是 LLM 优化与部署的重要手段,通常与 量化、蒸馏、MoE 等技术一起配合使用。
- Model Overfitting (模型过拟合)
=============================
过拟合(Overfitting) 是指 模型在训练数据上表现很好,但在未见过的新数据(测试集/真实场景)上表现较差 的现象。
过拟合的原因:
- 模型复杂度过高
- 参数量太大,学习能力过强,能“记住”训练集
- 在大模型中尤为常见
- 训练数据不足或分布单一
- 数据量小,模型只能死记硬背
- 样本分布不代表真实场景
- 训练过程不当
- 训练轮次过多,模型过度拟合训练集特征
- 学习率、正则化等超参选择不合理
而与之相反的是模型泛化。
20. Model Generalization(模型泛化)
模型泛化 指的是一个机器学习模型在 未见过的新数据(测试集或真实场景数据) 上依然能够保持良好表现的能力。
- 如果模型只在训练数据上表现好,但在新数据上表现差,这就说明 泛化能力不足。
- 泛化能力的强弱,决定了模型在现实应用中的价值。
训练过程本质上是让模型从训练数据中学习到规律,而不是死记硬背:
- 训练误差低:说明模型学会了拟合训练数据。
- 泛化误差低:说明模型学到的规律具有普适性,能迁移到新数据。
- 如果训练误差低但泛化误差高,就意味着模型发生了 过拟合。
- Knowledge Graphs ( 知识图谱)
============================
知识图谱(Knowledge Graph, KG) 是一种通过 图结构 表示实体(Entity)及其关系(Relation)的知识表示方式。
在 AI 模型和 Agent 中,知识图谱的作用主要有:
- 结构化知识存储:弥补大模型“参数记忆”的局限,提供显式可控的知识库。
- 语义推理:基于图结构可以做逻辑推理、路径搜索。
- 可解释性:图谱提供了“因果链条”,让模型回答更透明。
- 知识对齐:大模型可能幻觉(Hallucination),图谱可以作为事实检查。
知识图谱相关技术设计:
图数据库:Neo4j、TigerGraph、JanusGraph
- RDF/OWL:语义网标准,适合语义推理
- Embedding + KG:将知识图谱实体/关系向量化(Knowledge Graph Embedding, KGE),便于与大模型融合
知识图谱在大模型和AI Agent中的应用场景:
- 增强检索(RAG + KG)
- 在 Retrieval-Augmented Generation (RAG) 中,知识图谱作为知识源,提供高质量、结构化的事实。
- 推理与决策
- 多跳推理(Multi-hop Reasoning):例如通过图谱找出“某公司 CEO 的国籍”。
- 个性化推荐
- 通过用户行为和物品关系图,实现解释性推荐。
- AI Agent 的记忆模块
- 长期记忆不仅能存储文本片段,还可以存储成图谱,方便 Agent 做知识管理和推理。
- A2A (Agent-to-Agent)
========================
A2A(Agent-to-Agent) 是指 智能体之间的直接交互与协作,在多智能体系统(MAS, Multi-Agent System)中,智能体不仅与环境交互,还能与其他智能体进行信息交流、任务协调或策略学习。
让智能体之间能够协作、竞争或协调完成任务,而不仅仅依赖环境反馈。
- MCP (Model Control Plane)
=============================
MCP(Model Control Plane) 是指 管理、调度和监控大模型生命周期及服务的控制层,负责协调模型的部署、版本管理、资源分配、策略执行和运行时监控。
核心在于:将模型的运行管理从推理计算中分离出来,形成一个独立控制层,使模型管理更高效、可观测和可扩展。
- Function Calling(函数调用)
==========================
Function Calling (函数调用) 是一种允许大型语言模型(LLM)根据用户输入识别它需要的工具并决定何时调用该工具的机制。
基本工作原理如下:LLM 接收用户的提示词,LLM 决定它需要的工具,执行方法调用,后端服务执行实际的请求给出处理结果,大语言模型根据处理结果生成最终给用户的回答。
- Chain-of-Thought(CoT思维链)
============================
Chain-of-Thought简称 CoT,解释为思维链,在解释之前我们可以想一下我们自己对于问题的解决和思考是怎么样的?是不是要先理解问题,然后在针对理解问题再次拆解问题,然后在解答问题?而思维链就是这种逻辑。
现在的很多模型都具备深度思考能力,比如DeepSeek最先发布的时候,我们在问它问题的时候,它会先思考一下这个问题,然后组织一下这个问题语言描述,做问题拆解,然后在调用大模型来进行回答。
所以,我们大概可以明白思维链是一种提示策略,旨在通过让模型在回答问题时逐步解释其推理过程,从而提高其在逻辑推理、数学问题和常识推理等复杂任务的准确性,思维链这个概念最早是2022年Google研究人员提出的,在现在的很多大模型研究中都有广泛的应用。
下面是关于思维链的流程和原理:
-
逐步推理:通过要求模型逐步思考,减少了因直觉或不完整推理导致的错误。
-
可解释性:输出中间过程使得用户能够检查模型的思路,便于纠错和后处理。
-
增强学习:模型在训练中接触过大量带解释的文本,能够更好地对齐到这种分布,从而提高表现。
-
In-Context Learning (上下文记忆)
===============================
**In-Context Learning:**大语言模型在推理过程中,不改变模型参数,而是通过 输入的提示(Prompt)和上下文信息,来快速学习并完成新任务的能力。
比如,我们在跟AI模型沟通过程中,肯定是交互性的,并不是简单的问一句答一句,我们在问一句的时候,当前会话的前面信息也会发送给模型,不然,模型就不知道之前问的问题是什么,就会导致回答没有关联性;
这里核心的基础点在于:
- 模型在预训练阶段,已经见过各种语言模式(翻译、推理、分类、对话等)。
- 因此它具备“泛化的潜在能力”,只需要通过上下文引导,就能调用对应的模式。
自回归 Transformer 结构
- 每个 token 的预测都是条件在“前文上下文”之上的:
- 所以模型天生就是“上下文驱动”的。
- MLOps Pipelines
===================
MLOps Pipelines 是一个流水线,通过自动化流水线方式,来管理从数据、模型训练、评估、部署、监控的全生命周期流程。
- Model Versioning
====================
Model Versioning(模型版本管理)意思指:对不同阶段、不同配置、不同数据训练出来的模型进行 系统化的版本控制,以确保 可追溯性、可复现性、可比较性,并支持在生产环境中灵活地 回滚与升级。
模型中为什么需要进行版本管理,由于模型也需要不断的迭代和优化,常见的变更类型如下:
- 不同数据集训练出来的模型
- 不同超参数下的模型
- 不同架构/微调方式(LoRA、全量 Fine-tuning)
- 不同优化方式(量化、蒸馏、剪枝)
- 不同应用场景(通用 vs 医疗 vs 金融)
如果如果没有版本管理,就无法回答:
- 这个模型是在哪份数据上训练的?
- 为什么线上 A/B 测试效果下降?
- 如何回滚到上周的稳定版本?
29. Batch vs Real-time Inference(批量与实时推理)
- 批量推理:一次处理大量数据,通常用于离线分析。
- 实时推理:对单条或小批量数据进行即时预测,用于在线应用。
30. Vector Databases(向量数据库)
Vector Database 是专门为存储、索引和检索高维向量(embeddings 向量表示)而设计的数据库。
这些向量通常来源于大模型(如 Transformer 模型)的输出,用于表示文本、图像、音频、视频等数据的语义特征。
它的核心目标是:
- 高效地进行 相似性搜索(Similarity Search),例如最近邻搜索(k-Nearest Neighbor, kNN)
- 支持大规模 Embedding 管理
- 作为 RAG(Retrieval-Augmented Generation)、推荐系统、多模态搜索等的底层基础设施
31. Embedding Pipelines(嵌入向量流水线)
Embedding Pipelines 指的是将原始输入数据(文本、图像、音频、多模态等)通过大模型转换为稠密向量表示(Embeddings),并进行后续处理的端到端流程。
这些向量捕捉了输入的语义特征,可用于相似性检索、分类、推荐、聚类、下游任务输入等。
- Synthetic Data Generation数据合成
=================================
利用模型生成与真实数据相似的虚拟数据,用于训练或测试。
数据合成是指通过 人工生成、程序生成、或模型生成的方式,构造出模拟真实世界的训练数据,用于 增强模型训练 或 解决数据不足的问题。
它常用于以下场景:
- 真实数据获取成本高(例如医学影像、金融数据)
- 数据存在隐私或合规限制(如 GDPR、HIPAA)
- 需要生成多样化的长尾样本(如异常检测、稀有类别)
33. Feature Stores(特征存储)
集中存储和管理机器学习模型使用的特征(Feature),支持特征的复用、版本控制以及实时或批量获取。
作用:提高特征管理效率,保证训练与推理一致性。、
Feature Store 是一个 集中化管理、存储和服务机器学习特征的系统,核心目的是实现 训练与推理特征的一致性、特征复用以及 特征工程的自动化与标准化。
可以把它理解为:
- 数据科学家的 “特征仓库”
- 机器学习模型的 “统一数据接口”
为什么需要 Feature Stores
- 训练与推理一致性
- 避免“训练数据中有的特征,线上推理时不可用”这种问题。
- 保证模型上线后的特征分布与训练时一致。
- 特征复用
- 不同模型、不同项目可以共享特征,避免重复计算。
- 特征管理与治理
- 集中管理特征的版本、计算逻辑、依赖关系。
- 提供可追溯性,支持实验复现。
- 提升开发效率
- 数据科学家无需重复写特征计算逻辑,专注于模型优化和业务价值。
34. Model Monitoring(模型监控)
Model Monitoring(模型监控) 是指在 模型部署上线后,对其 性能、数据输入输出、系统运行状态 进行持续跟踪与分析的过程,确保模型在真实环境中 稳定、可靠、合规 地运行。
模型监控是在模型上线后,持续跟踪性能、数据和行为,检测漂移与异常,保障模型稳定、可控与合规运行的过程。
它是 MLOps 流水线的核心环节,直接决定模型是否能长期在生产中保持价值。
- AI Agent (AI智能体)
====================
AI Agent 是一个能够感知环境、做出决策并执行动作的智能系统。
它不仅仅是一个大模型,而是一个 闭环系统,包含感知、推理、规划和行动的能力,通过一系列的工作流、编排能力来构建一个系统级的可用。
可以简单理解:AI Agent = 有目标、有决策能力的自动化智能体
AI Agent 与大模型的关系
- LLM Agent
- 大模型作为核心决策和推理引擎
- 输入环境信息 → LLM 生成动作指令 → 执行器执行
- RAG + Agent
- Agent 可以访问知识库或外部 API
- 结合检索增强生成(Retrieval-Augmented Generation)能力,使决策更加精准
- 行动闭环
- LLM 生成行动 → 调用工具/API → 获取反馈 → 更新上下文 → 再决策
AI Agent = LLM/智能体 + 感知 + 决策 + 执行 + 记忆 + 目标
- 核心价值:能够自主完成复杂任务,而不仅仅生成文本或分类结果
- 大模型提供了 通用推理能力,但 Agent 框架让它 能做事、闭环决策、与环境交互
36. Multi-Agent System (MAS)(多智能体系统)
多智能体系统(MAS)是由多个相互协作、竞争或独立运行的 AI智能体(Agent) 组成的系统。
简单可以为多个AI Agent组成了一个多AI Agent系统,互相之间通过交互来完成单个智能体难以完成的复杂任务。
在大模型和 AI 场景中,MAS 已经成为 构建复杂任务协作框架 的重要方式,例如 AutoGPT、MetaGPT、ChatDev 等框架,都是典型的多智能体系统应用。
- Workflow(工作流)
=================
在大模型与 AI 应用中,Workflow(工作流) 是一种 任务执行的有序编排方式,它定义了多个步骤(Tasks/Stages)的依赖关系、执行逻辑和数据流转,确保复杂的 AI 或数据处理过程可以自动化、可控、可复用。
38. Model Serving APIs(模型服务API)
Model Serving APIs 指的是通过 标准化接口(通常是 RESTful API 或 gRPC) 将机器学习/深度学习模型对外提供服务,使应用程序、系统或 Agent 可以调用模型进行推理(Inference)。
它是 大模型 到业务应用之间的桥梁。
39. Model Caching(模型缓存)
将模型预测结果或中间计算结果缓存,提高推理效率,减少重复计算。
Model Caching 指在 模型推理(inference) 过程中,对 模型权重、计算结果或中间结果 进行缓存,以减少重复计算、降低延迟和资源消耗。
它在 大模型服务化(LLM Serving)、语义搜索、推荐系统 中是核心优化手段之一,和 模型并行、量化、蒸馏 一样,是 生产级 AI 系统的关键性能优化技术。
它常用于大规模推理服务(如 LLM、推荐系统、搜索引擎)中,因为这些场景下:
- 同一个输入或相似输入会被频繁查询。
- 模型加载和推理计算开销巨大(尤其是数百亿参数的大模型)。
- 模型权重缓存(Model Weights Caching)
- 将模型参数(权重文件)常驻内存或 GPU 显存,避免重复加载。
- 例如:Transformer 模型部署在多个 GPU 节点时,使用权重共享或 Zero Redundancy 方式减少内存占用。
- Embedding 缓存(Embedding Caching)
- 对常见输入(如热门查询、相同用户上下文)的向量表示进行缓存。
- 典型于向量数据库、语义搜索、推荐系统中。
- 中间结果缓存(Intermediate Result Caching)
- LLM 在生成文本时可缓存 Attention Key-Value(KV Cache),从而避免对已生成 Token 重新计算注意力。
- 推理时大幅加速长文本生成。
- 最终结果缓存(Response Caching)
- 对模型的最终输出(如回答、推荐结果)做缓存。
- 应用于高并发场景,避免重复请求占用计算资源。
40. Edge AI Deployment(边缘AI部署)
什么叫边缘设备?边缘设备其实就是靠近实际业务应用的设备,例如手机、电脑就是边缘设备;
Edge AI Deployment 指的是将 AI 模型(尤其是深度学习模型)部署在边缘设备(Edge Devices)上,而不是依赖于集中式云服务器。这些边缘设备可以是 智能手机、IoT 设备、摄像头、无人机、自动驾驶汽车中的嵌入式计算单元、工业传感器等。
将AI模型部署到边缘设备(如手机、摄像头、IoT设备),实现本地推理。
41. Data Engineering for AI(AI数据工程)
在大模型中,核心的组成由数据+算法+算力,数据是作为大模型的核心驱动力,只有好的数据才能训练出好的大模型出来;
而Data Engineering for AI 指的是专门为 AI 模型训练、推理和持续优化 提供高质量数据支撑的数据工程方法与体系。与传统数据工程(ETL/数据仓库/报表)不同,它面向 AI 的 特征提取、向量化、时序性与语义性处理,强调数据在 规模化、实时化、多模态和高质量标注 下的处理能力。
简单来说:Data Engineering for AI 就是为大模型“喂养”高质量数据的全链路体系。
- (Context Engineing) 上下文工程
=============================
上下文指对话或文本中提供的相关背景信息。大模型处理输入时会参考之前的内容来理解新问题。
这类似人与人之间的对话。假设有人说"我正在开发一个新功能,你有什么问题吗?",你能理解这是在讨论产品需求或技术问题。
但如果一个不了解情况的人突然被问"你有什么问题吗?",他就无法给出恰当的回答,因为缺少必要的背景信息。
大模型的问答机制也是如此。当你先问"这个文档包含哪些部分?“,然后问"第二部分的核心观点是什么?“时,模型会结合前一个问题和答案,给出连贯且合理的回应。但若缺少这些前置信息,模型就无法确定具体是哪份"文档”,也就无法描述其"核心观点”。
上下文让大模型能在多轮对话中持续理解用户意图。但要注意避免引入过多无关信息,以免影响模型对核心问题的把握。
- AI智能体长短记忆
=============
记忆是在AI Agent中非常重要的功能,没有记忆的话,那每次交互都要从零开始,就无法做到真正的智能体。
AI Agent 不同于单轮对话的大模型调用,它更像是一个持续存在的 智能体,需要:
- 短期记忆(Short-term Memory):在对话或任务上下文中,能记住最近几轮的内容(类似聊天记录)。
- 长期记忆(Long-term Memory):跨会话、跨任务持久存储用户信息、偏好、历史行为,用于个性化与持续优化。
- 多模态
=======
多模态是指人工智能系统同时处理和融合来自不同模态的数据,如 文本(Text)、图像(Image)、语音(Audio)、视频(Video)、传感器数据(Sensor Data) 等。
目标是突破单一模态的限制,使模型具备跨模态理解、推理与生成的能力。
多模态大模型(Multimodal LLMs):在 Transformer 架构上扩展,使其支持多种输入模态。
- 典型模型:GPT-4o, Gemini, Claude 3.5 Sonnet, LLaVA, Kosmos-1
- 方法:将非文本数据(图像、音频)编码成向量,再与文本 Token 一起输入 Transformer。
跨模态表示学习(Cross-modal Representation Learning)
- 通过 共享向量空间,让不同模态的信息对齐。例如 CLIP 模型能把“文本”和“图片”投影到同一 embedding 空间。
多模态推理
- 结合多模态输入进行复杂决策(如医生用影像+病历文本辅助诊断)。
- Supervised Learing
======================
监督学习是一种 机器学习范式,训练数据由 输入特征 (X) 和 目标标签 (Y) 组成。模型的任务是学习输入和输出之间的映射关系,从而在遇到新数据时能够预测对应的结果。
简单说:给定题目(输入)+答案(标签),让模型学会做题。
监督学习是 现代AI的核心基石,尤其在 大模型微调、下游任务适配 中扮演关键角色。它的关键特征是 输入-输出成对存在,模型通过这些配对数据学习预测规律。
46. 分片推理(Model Sharding)
- 定义:分片推理是一种 模型并行化技术,通过将大模型的参数(权重矩阵)切分到多个计算设备(GPU/TPU/CPU 节点)上运行,以突破单机显存/内存限制,加速推理。
- 目的:解决大语言模型(LLMs,如 GPT-4、LLaMA-70B)在推理阶段
单卡显存无法加载完整模型的问题。
之所以使用分片推理,主要原因是大模型参数量动辄 数百亿 ~ 上万亿:
- 单块 A100 80GB 显存仍不足以容纳整个模型参数。
- 推理时需要 加载权重 + 激活值存储 + KV 缓存,显存需求更大。
👉 因此必须采用 分片机制,把模型拆开放到多设备上。
- Inference Acceleration(推理加速技术)
==================================
Inference Acceleration(推理加速) 指利用 算法优化、系统优化和硬件优化 来减少 AI 模型在 推理阶段 的计算开销、降低延迟、提升吞吐量,从而让大模型能够更高效地服务于实际应用。
大模型推理加速是当前人工智能应用落地的关键挑战之一。由于大模型在推理过程中需要大量计算资源,优化推理效率成为了研究的重点。以下从算法、缓存优化和注意力机制三个方面总结大模型推理加速的主要技术。
推理加速目的在于:让模型能够更快、更省、更稳地跑起来。
- Data Augmentation(数据增强)
===========================
模型增强 指在 不新增真实数据采集成本 的情况下,通过 数据转换、生成或合成 来扩充训练数据集,从而提升模型的 泛化能力、鲁棒性和性能。
通过数据转换或合成来扩充训练样本,提高模型的泛化能力与鲁棒性,是 ML 和大模型训练的必备技术手段
49. Production ML Systems(生产型机器学习系统)
Production ML System其实并不是一个概念,而是一种模型的业务场景方式,在于将模型部署到具体业务的生产环境中,然后和业务属性进行强关联的,部署到生产环境之后就不再是单个模型那么简单,而是要考虑全生命周期的管理和运维操作,例如:
-
数据 → 训练 → 部署 → 推理 → 监控 → 持续迭代
的全生命周期管理过程。
具体来说,它是一个系统性工程,而不是单个模型部署搭建起来那么简单,所以,很多企业在构建模型时,其实70%以上的工作都在做复杂的系统部署操作。
数据合成是指通过 人工生成、程序生成、或模型生成的方式,构造出模拟真实世界的训练数据,用于 增强模型训练或 解决数据不足的问题。
常用于以下场景:
- 真实数据获取成本高(例如医学影像、金融数据)
- 数据存在隐私或合规限制(如 GDPR、HIPAA)
- 需要生成多样化的长尾样本(如异常检测、稀有类别)
- Data Labeling (数据标注)
========================
数据标注(Data Labeling) 是指在原始数据(如文本、图像、音频、视频)上添加结构化的标签,使其能够作为 监督学习(Supervised Learning) 或 微调(Fine-tuning) 模型的训练样本。
- 举例:在图像中框出“猫”的区域并标注为 cat;在对话数据中标注用户意图为 book_flight。
在大模型和 AI 系统中:
- 监督信号来源 :模型要学会分类、识别、生成,必须依赖高质量的标注数据作为训练信号。
- 下游任务适配:虽然 LLM 是大规模无监督/自监督预训练的,但在具体领域(医疗、金融、制造)往往需要带标注的小规模高质量数据做微调。
- RLHF 的支撑:人类反馈强化学习(RLHF)也本质上是一种标注过程(标注哪一个回答更符合人类预期)。
数据标注的方式
- 人工标注(Human-in-the-Loop)
- 人工进行精确标注,保证质量,但成本高、速度慢。
- 众包标注(Crowdsourcing)
- 通过平台(如 Amazon Mechanical Turk、Scale AI)分配任务。
- 半自动标注(AI-assisted Labeling)
- 模型先自动打标签,人类再进行校正。
- 弱监督/自监督标注
- 通过规则、启发式方法、或利用大模型自动生成标签。
在大模型与 AI Agent 中的作用
- 微调数据准备:用于 Instruction Tuning、对齐任务(Alignment)。
- 知识增强:对小样本任务提供可靠的训练信号。
- 持续学习:AI Agent 可以在与用户交互过程中收集数据,并通过“人类反馈”进行再标注,提升性能
文字较多,添加下方 ,领取PDF版本
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型实战项目&项目源码👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
为什么分享这些资料?
只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
更多推荐
所有评论(0)