模型术语

1.大语言模型(LLM)

  • 基于深度学习的大规模神经网络模型,通常采用 Transformer架构,通过大规模数据集训练生成高质量文本(如GPT、BERT、Qwen3等)。

2.Transformer架构

  • 采用 自注意力机制(Self-Attention)的神经网络架构,高效处理序列数据的长距离依赖关系,成为NLP主流架构。

3.自注意力机制(Self-Attention)

  • 允许序列中每个元素关注其他元素的注意力机制,帮助捕捉长距离依赖关系。

4.多头注意力(Multi-Head Attention)

  • Transformer中的机制,将注意力分解为多个“头”,学习输入的不同特征以提高表现力。

5.位置编码(Positional Encoding)

  • 为Transformer提供序列位置信息的编码方式,弥补其无序列记忆能力的缺陷。

6.循环神经网络(RNN)

  • 处理序列数据的神经网络,但存在梯度消失或爆炸问题,难以捕捉长期依赖。

7.长短期记忆网络(LSTM)

  • 改进的RNN,通过门控机制解决梯度消失问题,增强长期依赖捕捉能力。

8.卷积神经网络(CNN)

  • 用于图像处理的神经网络,通过卷积操作提取特征,也可用于文本分类等其他领域。

9.图神经网络(GNN)

  • 处理图结构数据的神经网络,适用于社交网络分析、分子结构预测等。

10.混合专家模型(MoE, Mixture of Experts)

  • 通过多个“专家”网络并行处理输入,门控机制选择最优结果,平衡计算效率与性能。

训练与优化技术

1.预训练(Pre-training)

  • 在大规模无标注数据上训练模型,学习通用语言规律(如GPT-3的1750亿参数模型)。

2.微调(Fine-tuning)

  • 在预训练模型基础上,用特定领域的小规模数据进一步优化模型性能(如金融、医疗场景的定制化模型)。

3.指令微调(Instruction Fine-Tuning)

  • 针对预训练模型,通过指令或标注数据集提升模型对任务的适应性(如让模型遵循人类指令生成内容)。

4.基于人工反馈的强化学习(RLHF, Reinforcement Learning from Human Feedback)

  • 构建人类反馈数据集,训练激励模型模仿人类偏好,使模型输出更符合人类意图(如ChatGPT的对齐训练)。

5.混合精度训练

  • 使用 FP16/FP32 混合计算 节省显存并加速训练过程。FP16(半精度浮点数)减少内存占用和计算时间,但可能牺牲数值精度。

6.量化技术

  • 降低模型精度(如 INT8、INT4、FP4)以减少模型大小和计算复杂度,例如Qwen3-32B的4-bit量化版本仅需18GB显存。

7.分布式训练

  • 数据并行(将数据分片到多个GPU)和 模型并行(拆分模型参数到不同设备)技术,提升训练效率。

8.可扩展性(Scalability)

  • 描述模型架构能否随着规模扩大(如参数量、数据量)保持高效运作的能力。

模型能力与特性

1.参数规模

  • 大模型的参数量从十亿级(B)到万亿级(T),如GPT-3(175B)、DeepSeek R1(671B)等。

2.涌现能力(Emergence)

  • 模型达到一定规模后突然出现的新能力(如零样本学习、复杂推理、上下文学习)。

3.泛化能力(Generalization)

  • 模型通过迁移学习、微调等手段,将训练能力扩展到其他任务或领域。

4.上下文学习(In-context Learning)

  • 模型通过输入上下文快速学习新任务,无需额外训练(如通过示例引导模型完成任务)。

5.思维链(Chain-of-Thought, CoT)

  • 通过拆解问题为多个步骤,逐步推理得出答案,提升复杂任务的准确性。

6.零样本学习(Zero-shot Learning)

  • 模型在未见过任务的情况下,直接通过提示(Prompt)完成任务。

应用与生态相关术语

1.AIGC(人工智能生成内容)

  • 利用AI自动生成文本、图像、音频等内容的技术,依赖深度学习和NLP(如Stable Diffusion、DALL·E)。

2.生成对抗网络(GAN)

  • 通过生成器和判别器的对抗训练,生成高质量图像、音频等内容。

3.扩散模型(Diffusion Model)

  • 通过逐步去噪生成高质量内容,是Stable Diffusion、DALL·E 3的核心技术。

4.多模态大模型

  • 融合文本、图像、视频的跨模态理解与生成能力(如CLIP、Flamingo)。

5.智能体(Agent)

  • 能够感知环境并通过行动影响环境的自主实体,具备决策能力(如自动驾驶系统、游戏AI)。

6.Prompt(提示词)

  • 用户输入的文本或指令,引导模型生成特定输出(如“用李白风格写诗”)。

7.Prompt Engineering(提示工程)

  • 设计和优化提示词的技术,提升模型输出效果(如通过示例、指令模板激活模型能力)。

8.RAG(检索增强生成, Retrieval-Augmented Generation)

  • 结合外部知识库检索与模型生成能力,增强知识密集型任务的准确性(如问答系统)。

9.向量数据库(Vector Database)

  • 存储文本/图像的向量编码,支持高效检索(如Faiss、Pinecone)。

10.知识库(Knowledge Base)

  • 通过嵌入(Embedding)将实体和关系映射到向量空间,支持语义推理(如问答系统、推荐引擎)。

模型层级与分类

1.L0 层级 - 通用大模型

  • 经过广泛数据训练,具备跨学科通用能力(如Qwen3、GPT-4)。

2.L1 层级 - 行业大模型

  • 聚焦特定行业(如金融、医疗)的垂直领域模型(如金融领域的模型优化)。

3.L2 层级 - 垂直大模型

  • 针对具体业务流程或场景的精细化模型(如客服对话系统、代码生成工具)。

4.视觉大模型

  • 专注于图像、视频处理的模型(如ViT、CLIP)。

5.基础科学大模型

  • 应用于物理、化学等科学领域的模型(如AlphaFold)。

其他关键术语

1.维度降低(Dimensionality Reduction)

  • 通过降维方法(如PCA、t-SNE)减少高维数据的计算负担和信息冗余。

2.语义关系(Semantic Relations)

  • 词语间的关联模式(如同义词、反义词、逻辑推理链),对模型性能优化至关重要。

3.标记(Token)

  • NLP中文本的基本单位,通常通过分词(Tokenization)分割(如英文单词、中文分词)。

4.向量编码(Embedding)

  • 将文本、图像等数据映射为连续向量,捕捉语义信息(如Word2Vec、BERT的嵌入层)。

5.意图识别
从用户的文本或语音输入中,自动识别其潜在的目的或需求。常见意图识别方法有:

  • 基于规则,通过人工定义关键词或者模板匹配用户输入信息,提取关键信息和对输入信息进行分类,简单易实现,解释性强,覆盖范围有限,难以处理复杂句式或歧义,维护成本高
  • 基于机器学习的方法,让大模型去主动识别问题分类,比如支持向量机(SVM)、朴素贝叶斯等传统机器学习,循环神经网络(RNN)、卷积神经网络(CNN)、BERT 等预训练模型的深度学习
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐