大模型专有名词解释

本文摘要：文章系统介绍了自然语言处理（NLP）与理解（NLU）的核心概念区别，重点对比了BERT和RoBERTa模型特性。详细解析了模型结构参数（参数量、层数、隐藏维度等）、训练方法（预训练、微调、RLHF等）、推理优化技术（量化、剪枝、并行训练）等关键技术要素。同时涵盖了token处理、嵌入表示、注意力机制（自注意力、多头注意力）等基础概念，为理解现代语言模型提供了全面框架。

辛一一

871人浏览 · 2025-09-05 10:07:44

辛一一 · 2025-09-05 10:07:44 发布

一.NLU和NLP区别:

特性	NLP	NLU
定义	自然语言处理，研究语言的处理和生成	自然语言理解，研究语言的语义理解
范围	广，包括文本处理、生成、翻译、摘要等	较窄，专注理解语义、意图、信息抽取
核心目标	让计算机能“处理”语言	让计算机能“理解”语言
示例	分词、机器翻译、文本生成	意图识别、实体抽取、对话理解

二.BERT和RoBERTa

特性	BERT	RoBERTa
NSP 任务	有	无
训练数据量	3.3 亿词	160 亿词
Mask 策略	静态	动态，每次 epoch 改变
Batch size / 训练时间	小 / 短	大 / 长
性能	基线	通常更优

三. 模型结构相关

参数量（Parameters）

模型中可训练的权重数量，通常以 M（百万）、B（十亿）、T（万亿）为单位。参数量越大，模型的表达能力通常越强，但训练/推理成本也更高。

层数（Layers / Depth）

Transformer 堆叠的层数，常见如 12 层、24 层、70 层。层数越深，模型学习的抽象层次越高。

隐藏维度（Hidden Size / Dimension）

每一层内部表示向量的维度，比如 768、1024、4096。隐藏维度越大，表示能力越强，但显存需求也更高。

注意力头（Attention Heads）

多头注意力机制中的“头”的数量，用来并行学习不同的注意力模式。常见 12/16/32 个。

上下文长度（Context Length / Sequence Length）

模型一次能够处理的最大 token 数，比如 2K、4K、32K、128K。越长表示能处理更大范围的文本。

四. 训练相关

预训练（Pre-training）

在海量无监督文本上训练模型，学习通用的语言表示。

微调（Fine-tuning）

在特定任务或领域数据上进一步训练，使模型更适配目标任务。

指令微调（Instruction Tuning）

让模型学会更好地遵循人类指令，常见于对话和问答场景。

RLHF（Reinforcement Learning from Human Feedback）

基于人类反馈的强化学习，让模型更符合人类偏好。

蒸馏（Distillation）

把大模型的知识迁移到小模型，以降低计算和部署成本。

LoRA（Low-Rank Adaptation）

一种轻量化微调方法，只训练少量参数，大幅节省显存和计算。

五. 推理与优化

推理（Inference）

使用训练好的模型进行预测或生成文本的过程。

量化（Quantization）

用低精度（如 8bit、4bit）表示模型权重，减少显存占用和计算开销。

剪枝（Pruning）

删除模型中不重要的权重或结构，以减小规模。

并行训练（Parallel Training）

数据并行（Data Parallelism）：

把数据分到多个 GPU 上，模型副本相同。

模型并行（Model Parallelism）：

把模型切分到多个 GPU 上。

流水线并行（Pipeline Parallelism）：

不同 GPU 负责模型的不同层。

六. Token 与嵌入

Token（标记）

模型处理的最小单位，可以是字母、词、子词或汉字。不同分词器规则不同。

词嵌入（Word Embedding / Token Embedding）

把 token 映射为向量，作为模型输入。

位置编码（Positional Encoding / Rotary Position Embedding, RoPE）

用于让模型感知 token 在序列中的位置信息。

七. 注意力机制

自注意力（Self-Attention）

序列中的每个 token 与其他 token 计算相关性，以建模上下文依赖。

多头注意力（Multi-Head Attention）

并行计算多个不同的注意力模式，更好地捕捉复杂关系。

KV 缓存（Key-Value Cache）

在推理时缓存已计算的注意力键值对，加快长文本生成速度。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

解析Agentic AI在客户服务提示工程中的优化策略

我是XXX，资深AI产品经理，专注于Agentic AI在客户服务中的应用，曾帮助5家企业将AI客服满意度提升30%以上。欢迎关注我的公众号“AI产品笔记”，获取更多AI实战干货。最后：你在客户服务提示工程中遇到过什么问题？欢迎在评论区留言，我们一起讨论！

2048 AI社区

C++ 结构化绑定：让多返回值处理更优雅

传统 C++ 中，从std::pair或std::tuple中提取元素需要繁琐的std::get<>操作，从结构体获取多个成员也需要逐个赋值。C++17 引入的结构化绑定让这一切变得简单优雅！

2048 AI社区

Spatial Joy 2025 全球 AR&AI 赛事：开发者要的资源、玩法、避坑攻略都在这！

摘要： Spatial Joy 2025 Rokid乐奇全球AR&AI开发大赛提供丰厚奖金与技术资源支持，AR赛道金奖20万元，AI赛道奖项27个，获奖比例高。赛事聚焦AR与AI融合，考察空间认知协作与问题解决能力，提供Rokid全系列硬件适配与算力支持。参赛者将获得行业背书、落地合作机会及实战经验，适合各阶段开发者。报名已开启，是布局空间计算领域的优质机会。（字数：150）