AI大模型相关专业术语笔记

大模型术语集，方便系统性了解大模型相关知识

junjun1990822

420人浏览 · 2025-11-21 09:26:30

junjun1990822 · 2025-11-21 09:26:30 发布

模型术语

1.大语言模型（LLM）

基于深度学习的大规模神经网络模型，通常采用 Transformer架构，通过大规模数据集训练生成高质量文本（如GPT、BERT、Qwen3等）。

2.Transformer架构

采用自注意力机制（Self-Attention）的神经网络架构，高效处理序列数据的长距离依赖关系，成为NLP主流架构。

3.自注意力机制（Self-Attention）

允许序列中每个元素关注其他元素的注意力机制，帮助捕捉长距离依赖关系。

4.多头注意力（Multi-Head Attention）

Transformer中的机制，将注意力分解为多个“头”，学习输入的不同特征以提高表现力。

5.位置编码（Positional Encoding）

为Transformer提供序列位置信息的编码方式，弥补其无序列记忆能力的缺陷。

6.循环神经网络（RNN）

处理序列数据的神经网络，但存在梯度消失或爆炸问题，难以捕捉长期依赖。

7.长短期记忆网络（LSTM）

改进的RNN，通过门控机制解决梯度消失问题，增强长期依赖捕捉能力。

8.卷积神经网络（CNN）

用于图像处理的神经网络，通过卷积操作提取特征，也可用于文本分类等其他领域。

9.图神经网络（GNN）

处理图结构数据的神经网络，适用于社交网络分析、分子结构预测等。

10.混合专家模型（MoE, Mixture of Experts）

通过多个“专家”网络并行处理输入，门控机制选择最优结果，平衡计算效率与性能。

训练与优化技术

1.预训练（Pre-training）

在大规模无标注数据上训练模型，学习通用语言规律（如GPT-3的1750亿参数模型）。

2.微调（Fine-tuning）

在预训练模型基础上，用特定领域的小规模数据进一步优化模型性能（如金融、医疗场景的定制化模型）。

3.指令微调（Instruction Fine-Tuning）

针对预训练模型，通过指令或标注数据集提升模型对任务的适应性（如让模型遵循人类指令生成内容）。

4.基于人工反馈的强化学习（RLHF, Reinforcement Learning from Human Feedback）

构建人类反馈数据集，训练激励模型模仿人类偏好，使模型输出更符合人类意图（如ChatGPT的对齐训练）。

5.混合精度训练

使用 FP16/FP32 混合计算节省显存并加速训练过程。FP16（半精度浮点数）减少内存占用和计算时间，但可能牺牲数值精度。

6.量化技术

降低模型精度（如 INT8、INT4、FP4）以减少模型大小和计算复杂度，例如Qwen3-32B的4-bit量化版本仅需18GB显存。

7.分布式训练

数据并行（将数据分片到多个GPU）和模型并行（拆分模型参数到不同设备）技术，提升训练效率。

8.可扩展性（Scalability）

描述模型架构能否随着规模扩大（如参数量、数据量）保持高效运作的能力。

模型能力与特性

1.参数规模

大模型的参数量从十亿级（B）到万亿级（T），如GPT-3（175B）、DeepSeek R1（671B）等。

2.涌现能力（Emergence）

模型达到一定规模后突然出现的新能力（如零样本学习、复杂推理、上下文学习）。

3.泛化能力（Generalization）

模型通过迁移学习、微调等手段，将训练能力扩展到其他任务或领域。

4.上下文学习（In-context Learning）

模型通过输入上下文快速学习新任务，无需额外训练（如通过示例引导模型完成任务）。

5.思维链（Chain-of-Thought, CoT）

通过拆解问题为多个步骤，逐步推理得出答案，提升复杂任务的准确性。

6.零样本学习（Zero-shot Learning）

模型在未见过任务的情况下，直接通过提示（Prompt）完成任务。

应用与生态相关术语

1.AIGC（人工智能生成内容）

利用AI自动生成文本、图像、音频等内容的技术，依赖深度学习和NLP（如Stable Diffusion、DALL·E）。

2.生成对抗网络（GAN）

通过生成器和判别器的对抗训练，生成高质量图像、音频等内容。

3.扩散模型（Diffusion Model）

通过逐步去噪生成高质量内容，是Stable Diffusion、DALL·E 3的核心技术。

4.多模态大模型

融合文本、图像、视频的跨模态理解与生成能力（如CLIP、Flamingo）。

5.智能体（Agent）

能够感知环境并通过行动影响环境的自主实体，具备决策能力（如自动驾驶系统、游戏AI）。

6.Prompt（提示词）

用户输入的文本或指令，引导模型生成特定输出（如“用李白风格写诗”）。

7.Prompt Engineering（提示工程）

设计和优化提示词的技术，提升模型输出效果（如通过示例、指令模板激活模型能力）。

8.RAG（检索增强生成, Retrieval-Augmented Generation）

结合外部知识库检索与模型生成能力，增强知识密集型任务的准确性（如问答系统）。

9.向量数据库（Vector Database）

存储文本/图像的向量编码，支持高效检索（如Faiss、Pinecone）。

10.知识库（Knowledge Base）

通过嵌入（Embedding）将实体和关系映射到向量空间，支持语义推理（如问答系统、推荐引擎）。

模型层级与分类

1.L0 层级 - 通用大模型

经过广泛数据训练，具备跨学科通用能力（如Qwen3、GPT-4）。

2.L1 层级 - 行业大模型

聚焦特定行业（如金融、医疗）的垂直领域模型（如金融领域的模型优化）。

3.L2 层级 - 垂直大模型

针对具体业务流程或场景的精细化模型（如客服对话系统、代码生成工具）。

4.视觉大模型

专注于图像、视频处理的模型（如ViT、CLIP）。

5.基础科学大模型

应用于物理、化学等科学领域的模型（如AlphaFold）。

其他关键术语

1.维度降低（Dimensionality Reduction）

通过降维方法（如PCA、t-SNE）减少高维数据的计算负担和信息冗余。

2.语义关系（Semantic Relations）

词语间的关联模式（如同义词、反义词、逻辑推理链），对模型性能优化至关重要。

3.标记（Token）

NLP中文本的基本单位，通常通过分词（Tokenization）分割（如英文单词、中文分词）。

4.向量编码（Embedding）

将文本、图像等数据映射为连续向量，捕捉语义信息（如Word2Vec、BERT的嵌入层）。

5.意图识别
从用户的文本或语音输入中,自动识别其潜在的目的或需求。常见意图识别方法有：

基于规则，通过人工定义关键词或者模板匹配用户输入信息，提取关键信息和对输入信息进行分类，简单易实现，解释性强，覆盖范围有限，难以处理复杂句式或歧义，维护成本高
基于机器学习的方法，让大模型去主动识别问题分类，比如支持向量机（SVM）、朴素贝叶斯等传统机器学习，循环神经网络（RNN）、卷积神经网络（CNN）、BERT 等预训练模型的深度学习

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

你知道，对于上下文 — 部分 III：混合搜索在上下文工程中的力量

cover

人工超级智能（ASI）：从科幻奇点到文明拐点

cover

AI+建筑：智能设计与施工优化

所有评论(0)

查看更多评论

junjun1990822

已为社区贡献1条内容