原文:What Is ChatGPT Doing and Why Does It Work

核心主旨:ChatGPT 并不理解任何事,它只是在不断问同一个问题——“下一个词应该是什么?”


引言:打破"AI 有意识"的幻觉

当你与 ChatGPT 对话时,它似乎理解你的问题,甚至展现出"创造力"和"个性"。这令人惊叹,但也极具欺骗性。

斯蒂芬·沃尔弗拉姆(Stephen Wolfram)在《What Is ChatGPT Doing and Why Does It Work》一文中,用最直白的方式打破了这种幻觉:

“ChatGPT 做的第一件事,就是根据已有的文本,产生一个’合理的延续’……它不断地重复问:‘给定目前的文本,下一个词应该是什么?’”

这个简单的判断,揭示了大型语言模型(LLM)的核心真相——它本质上是一个概率接龙机器


一、AI 的核心运作:逐词预测

1.1 什么是"合理的延续"?

假设我们让 ChatGPT 完成句子:

“AI 最好的地方在于它能够_____”

ChatGPT 做了什么?

  1. 它扫描了数十亿页人类编写的文本(网页、书籍、文章)
  2. 找到所有类似的文本片段
  3. 统计这些片段后面出现的词语频率
  4. 生成一个概率列表
词语 概率
learn(学习) 0.15
understand(理解) 0.12
help(帮助) 0.10
process(处理) 0.09
make(制造) 0.08

ChatGPT 本质上总是根据已有文本,产生人们在现实中可能期望写出的内容

1.2 令人惊讶的简单过程

当 ChatGPT 写一篇文章时,它只是在反复执行一个循环:

  • 查看当前已有的文本
  • 询问:下一个词应该是什么?
  • 选择一个词并添加到文本末尾
  • 重复以上过程

(更准确地说,它添加的是"token",可能是词的一部分,这就是为什么它有时可以"创造新词"。)


二、温度参数与随机性

2.1 为什么 AI 不像机器人?

如果 ChatGPT 总是选择概率排名第一的词,会发生什么?
你会得到一篇非常"平淡"的文章——乏味、重复,甚至逐字重复之前的句子。

解决方案:引入"温度"(Temperature)参数

温度 行为 结果
0 总是选择概率最高的词 乏味、重复、无创造力
0.8(推荐) 大多数时候选高概率词,偶尔随机选择低概率词 "有创造力"的文章
1+ 完全随机选择 输出变得混乱

这就是"创造力"的来源:当 AI 选择一个概率较低的词时,会产生一种"意外"的新颖感。但这只是随机性,不是真正的灵感。

图像生成中的“抽卡”也是同理,通过加入随机性来产生变化;每次生成相当于抽一次卡,不同的种子对应不同的随机路径,最终得到不一样的结果。

2.2 GPT-2 vs GPT-3:规模的力量

特性 GPT-2 (2019) GPT-3 (2020)
参数量 15 亿 1750 亿
零温度输出 很快变得困惑和重复 更连贯
0.8 温度输出 有点奇怪 更自然

这篇文章2023 年的内容,当时的"先进模型"在今天看来已经相当基础了。


三、概率从何而来?

3.1 最简单的开始:字母频率

让我们从一个更基础的问题开始:如何生成英文文本,一次一个字母?最简单的方法是取一个英文文本样本,计算其中不同字母出现的频率。
在这里插入图片描述

字母频率表:
在这里插入图片描述

字母 Cats文章 Dogs文章 大样本英文
e 最高
t
a
o 高(因为dog本身有o)
q 极低 极低 极低

3.2 N-gram 模型:上下文的威力

我们知道——如果看到字母"q",下一个几乎必然是"u"。
这种只看前一个字符来预测下一个的方式就是 2-gram(二元组) 的概念。

N-gram 长度 生成示例 真实度
1-gram etaoin shrdlu 完全无意义
2-gram ther entere 有一些真实词片段
3-gram the present 开始有意义
4-gram the presentation 相当真实

原理:使用更长的 N-gram,模型能捕捉更多上下文信息,生成的文本就越通顺,越接近真实语言。

3.3 从字母到单词:组合爆炸的困境

英语中约有 4万个常用词。如果用N-gram统计,会立即遇到一个严重问题:组合爆炸

N-gram 可能组合数量 是否可估算
2-gram 16 亿 (40,000²) 勉强可以
3-gram 60 万亿 (40,000³) 已很困难
5-gram 10^18 基本不可能
20 词片段 > 宇宙中粒子总数 完全不可能
我们不可能统计所有可能的词语组合。
所以可以不再靠统计所有组合,而是构建一个模型,让它能够估算从未见过的序列的概率。

这正是 ChatGPT 这类大型语言模型(LLM) 的核心价值


四、什么是"模型"?

4.1 模型的本质:不是记住答案,而是找到规律

假设你想知道,从比萨斜塔每层扔下的铅球,需要多长时间落地(伽利略的问题)。

你可以有几种方式:

  1. 在每种情况下测量它并制作结果表格
  2. 做理论科学的本质:制作一个模型,给出计算答案的过程,而不仅仅是测量和记住每种情况

这就是模型的本质:不是把所有的答案存在表里,而是找到一套能计算出答案的规律。

4.2 所有模型都有"旋钮"

任何模型都包含结构和可调节的部分,我们称之为参数,可以把它们想象成可以旋转的“旋钮”

模型类型 数学形式 可调参数(旋钮)
直线模型 t = a + bx 2 个 (a, b)
二次模型 t = a + bx + cx² 3 个 (a, b, c)
ChatGPT (复杂神经网络) 1750 亿个

沃尔弗拉姆指出

“没有无模型的模型”(There is no model without a model)

也就是说,任何模型都有其底层结构,以及一组可以调整的参数,用来更好地拟合数据、逼近真实规律。

在这里插入图片描述

4.3 从数字到图像:人类任务的模型化

在讨论语言之前,先看一个经典的机器学习例子,识别手写数字

给定一个 28×28 像素的图像,是否存在一个函数,能告诉我们这个图像是哪个数字(0-9)?

答案是肯定的,虽然这个函数不简单,可能涉及约 50 万次数学运算
我们可以:

  1. 为每个数字获取一堆样本图像

    • 在这里插入图片描述
  2. 对给定的输入图像进行像素与像素的比较

  3. 但人类即使是歪七扭八的字也能识别出来

    • 在这里插入图片描述

4.4 什么是"正确"答案?

如果我们逐渐模糊一个数字"2":
在这里插入图片描述

  • 一开始模糊时,函数仍然识别为"2"
  • 继续模糊,函数开始给出"错误"结果

但真正的问题是
如果让一个人类看这些模糊图像(不知道它们的来源),人类会说什么?

  • 如果人类也说"这是 2",那函数是对的
  • 如果人类说"这看起来像个 3",那函数给出"3"也是对的

所以说一个好的模型,是对人类行为与判断的拟合,而不是对某种绝对真理的复刻。


看到这里,如果你有下面这些问题:

  • 如果 AI 只是在做概率接龙,为什么它看起来如此智能?
  • 人类的语言理解,本质上是否也是某种"概率预测"?
  • "理解"和"预测"之间的界限在哪里?

这些问题,我会在下一篇 神经网络是如何 “炼” 成的? 里继续为你展开。

写在最后:本来想一口气写完,结果越写内容越多,只好分成系列慢慢讲,希望这篇内容能让你有所收获,我们下篇再见。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐