大模型(Large Language Models,LLMs)的核心原理可以概括为
大模型(Large Language Models,LLMs)的核心原理可以概括为:基于海量文本数据,通过深度学习技术学习语言的统计规律,从而获得理解和生成人类语言的能力。下面我会分层次解释其原理:大模型本质上是一个概率生成模型。它的核心任务是:例如:输入:模型输出概率:、、……通过不断重复“输入 → 预测下一个词 → 将新词加入输入 → 再预测”的过程,就能生成连贯的文本。2017年Google
大模型(Large Language Models,LLMs)的核心原理可以概括为:基于海量文本数据,通过深度学习技术学习语言的统计规律,从而获得理解和生成人类语言的能力。下面我会分层次解释其原理:
一、核心思想:概率预测
大模型本质上是一个概率生成模型。它的核心任务是:
给定一段文本(前缀),预测下一个词(或字)的概率分布。
例如:
-
输入:
“今天天气很” -
模型输出概率:
“好” (70%)、“差” (15%)、“热” (10%)……
通过不断重复“输入 → 预测下一个词 → 将新词加入输入 → 再预测”的过程,就能生成连贯的文本。
二、关键技术架构:Transformer
2017年Google提出的Transformer架构是大模型的基石,它解决了长文本依赖和并行计算效率问题。核心组件包括:
-
自注意力机制(Self-Attention)
-
让模型在处理每个词时,能动态关注上下文中所有相关词(如“它”指代前文的哪个名词)。
-
计算词与词之间的关联权重,形成“注意力矩阵”。
-
-
编码器-解码器结构
-
编码器:理解输入文本,提取特征(如BERT系列)。
-
解码器:根据特征生成文本(如GPT系列)。
-
大模型(如GPT)通常仅用解码器堆叠,通过掩码注意力确保生成时只看到前面的词。
-
-
位置编码
-
由于Transformer本身不考虑词序,需额外添加位置信息,让模型理解词的顺序。
-
三、训练流程:两阶段训练
1. 预训练(Pre-training)
-
目标:在大规模无标注文本(数千亿至上万亿词)上学习通用语言规律。
-
任务:通常采用自监督学习,例如:
-
掩码语言建模(MLM):随机遮盖文本中的词,让模型预测被遮盖的词(BERT)。
-
自回归预测:只根据前文预测下一个词(GPT)。
-
-
结果:模型获得对语法、常识、简单逻辑的初步理解,形成“基础能力”。
2. 微调(Fine-tuning)
-
目标:让模型适应具体任务(如对话、翻译)或符合人类偏好。
-
方法:
-
指令微调:用指令-答案对训练,使模型能遵循指令(如“写一封邮件”)。
-
人类反馈强化学习(RLHF):通过人类对模型输出的评分,调整模型生成更符合人类偏好的内容(ChatGPT的关键步骤)。
-
-
四、能力涌现:规模定律
更多推荐


所有评论(0)