大模型专有名词解释
本文摘要:文章系统介绍了自然语言处理(NLP)与理解(NLU)的核心概念区别,重点对比了BERT和RoBERTa模型特性。详细解析了模型结构参数(参数量、层数、隐藏维度等)、训练方法(预训练、微调、RLHF等)、推理优化技术(量化、剪枝、并行训练)等关键技术要素。同时涵盖了token处理、嵌入表示、注意力机制(自注意力、多头注意力)等基础概念,为理解现代语言模型提供了全面框架。
一.NLU和NLP区别:
特性 | NLP | NLU |
---|---|---|
定义 | 自然语言处理,研究语言的处理和生成 | 自然语言理解,研究语言的语义理解 |
范围 | 广,包括文本处理、生成、翻译、摘要等 | 较窄,专注理解语义、意图、信息抽取 |
核心目标 | 让计算机能“处理”语言 | 让计算机能“理解”语言 |
示例 | 分词、机器翻译、文本生成 | 意图识别、实体抽取、对话理解 |
二.BERT和RoBERTa
特性 | BERT | RoBERTa |
---|---|---|
NSP 任务 | 有 | 无 |
训练数据量 | 3.3 亿词 | 160 亿词 |
Mask 策略 | 静态 | 动态,每次 epoch 改变 |
Batch size / 训练时间 | 小 / 短 | 大 / 长 |
性能 | 基线 | 通常更优 |
三. 模型结构相关
参数量(Parameters)
模型中可训练的权重数量,通常以 M(百万)、B(十亿)、T(万亿) 为单位。参数量越大,模型的表达能力通常越强,但训练/推理成本也更高。
层数(Layers / Depth)
Transformer 堆叠的层数,常见如 12 层、24 层、70 层。层数越深,模型学习的抽象层次越高。
隐藏维度(Hidden Size / Dimension)
每一层内部表示向量的维度,比如 768、1024、4096。隐藏维度越大,表示能力越强,但显存需求也更高。
注意力头(Attention Heads)
多头注意力机制中的“头”的数量,用来并行学习不同的注意力模式。常见 12/16/32 个。
上下文长度(Context Length / Sequence Length)
模型一次能够处理的最大 token 数,比如 2K、4K、32K、128K。越长表示能处理更大范围的文本。
四. 训练相关
预训练(Pre-training)
在海量无监督文本上训练模型,学习通用的语言表示。
微调(Fine-tuning)
在特定任务或领域数据上进一步训练,使模型更适配目标任务。
指令微调(Instruction Tuning)
让模型学会更好地遵循人类指令,常见于对话和问答场景。
RLHF(Reinforcement Learning from Human Feedback)
基于人类反馈的强化学习,让模型更符合人类偏好。
蒸馏(Distillation)
把大模型的知识迁移到小模型,以降低计算和部署成本。
LoRA(Low-Rank Adaptation)
一种轻量化微调方法,只训练少量参数,大幅节省显存和计算。
五. 推理与优化
推理(Inference)
使用训练好的模型进行预测或生成文本的过程。
量化(Quantization)
用低精度(如 8bit、4bit)表示模型权重,减少显存占用和计算开销。
剪枝(Pruning)
删除模型中不重要的权重或结构,以减小规模。
并行训练(Parallel Training)
数据并行(Data Parallelism):
把数据分到多个 GPU 上,模型副本相同。
模型并行(Model Parallelism):
把模型切分到多个 GPU 上。
流水线并行(Pipeline Parallelism):
不同 GPU 负责模型的不同层。
六. Token 与嵌入
Token(标记)
模型处理的最小单位,可以是字母、词、子词或汉字。不同分词器规则不同。
词嵌入(Word Embedding / Token Embedding)
把 token 映射为向量,作为模型输入。
位置编码(Positional Encoding / Rotary Position Embedding, RoPE)
用于让模型感知 token 在序列中的位置信息。
七. 注意力机制
自注意力(Self-Attention)
序列中的每个 token 与其他 token 计算相关性,以建模上下文依赖。
多头注意力(Multi-Head Attention)
并行计算多个不同的注意力模式,更好地捕捉复杂关系。
KV 缓存(Key-Value Cache)
在推理时缓存已计算的注意力键值对,加快长文本生成速度。
更多推荐
所有评论(0)