一.NLU和NLP区别:

特性 NLP NLU
定义 自然语言处理,研究语言的处理和生成 自然语言理解,研究语言的语义理解
范围 广,包括文本处理、生成、翻译、摘要等 较窄,专注理解语义、意图、信息抽取
核心目标 让计算机能“处理”语言 让计算机能“理解”语言
示例 分词、机器翻译、文本生成 意图识别、实体抽取、对话理解

二.BERT和RoBERTa

特性 BERT RoBERTa
NSP 任务
训练数据量 3.3 亿词 160 亿词
Mask 策略 静态 动态,每次 epoch 改变
Batch size / 训练时间 小 / 短 大 / 长
性能 基线 通常更优

三. 模型结构相关

参数量(Parameters)


模型中可训练的权重数量,通常以 M(百万)、B(十亿)、T(万亿) 为单位。参数量越大,模型的表达能力通常越强,但训练/推理成本也更高。

层数(Layers / Depth)


Transformer 堆叠的层数,常见如 12 层、24 层、70 层。层数越深,模型学习的抽象层次越高。

隐藏维度(Hidden Size / Dimension)


每一层内部表示向量的维度,比如 768、1024、4096。隐藏维度越大,表示能力越强,但显存需求也更高。

注意力头(Attention Heads)


多头注意力机制中的“头”的数量,用来并行学习不同的注意力模式。常见 12/16/32 个。

上下文长度(Context Length / Sequence Length)


模型一次能够处理的最大 token 数,比如 2K、4K、32K、128K。越长表示能处理更大范围的文本。

四. 训练相关

预训练(Pre-training)


在海量无监督文本上训练模型,学习通用的语言表示。

微调(Fine-tuning)


在特定任务或领域数据上进一步训练,使模型更适配目标任务。

指令微调(Instruction Tuning)


让模型学会更好地遵循人类指令,常见于对话和问答场景。

RLHF(Reinforcement Learning from Human Feedback)


基于人类反馈的强化学习,让模型更符合人类偏好。

蒸馏(Distillation)


把大模型的知识迁移到小模型,以降低计算和部署成本。

LoRA(Low-Rank Adaptation)


一种轻量化微调方法,只训练少量参数,大幅节省显存和计算。

五. 推理与优化

推理(Inference)


使用训练好的模型进行预测或生成文本的过程。

量化(Quantization)


用低精度(如 8bit、4bit)表示模型权重,减少显存占用和计算开销。

剪枝(Pruning)


删除模型中不重要的权重或结构,以减小规模。

并行训练(Parallel Training)

数据并行(Data Parallelism):

把数据分到多个 GPU 上,模型副本相同。

模型并行(Model Parallelism):

把模型切分到多个 GPU 上。

流水线并行(Pipeline Parallelism):

不同 GPU 负责模型的不同层。

六. Token 与嵌入

Token(标记)


模型处理的最小单位,可以是字母、词、子词或汉字。不同分词器规则不同。

词嵌入(Word Embedding / Token Embedding)


把 token 映射为向量,作为模型输入。

位置编码(Positional Encoding / Rotary Position Embedding, RoPE)


用于让模型感知 token 在序列中的位置信息。

七. 注意力机制

自注意力(Self-Attention)


序列中的每个 token 与其他 token 计算相关性,以建模上下文依赖。

多头注意力(Multi-Head Attention)


并行计算多个不同的注意力模式,更好地捕捉复杂关系。

KV 缓存(Key-Value Cache)


在推理时缓存已计算的注意力键值对,加快长文本生成速度。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐