ChatGPT在做什么，以及它为什么能起作用（一）

摘要： ChatGPT的核心机制是逐词预测，通过统计海量文本数据生成概率分布，选择最可能的“下一个词”来构建连贯回答。它并不真正“理解”内容，而是基于上下文和随机性（通过温度参数调节）模拟人类语言。模型通过调整数十亿参数来优化预测，其“智能”表现源于大规模训练而非意识。文章揭示了AI语言模型的本质——一个高效的统计概率机器，其“创造力”仅是随机选择低概率词的结果。

lilililiring

778人浏览 · 2026-02-12 18:45:19

lilililiring · 2026-02-12 18:45:19 发布

原文：What Is ChatGPT Doing and Why Does It Work

核心主旨：ChatGPT 并不理解任何事，它只是在不断问同一个问题——“下一个词应该是什么？”

引言：打破"AI 有意识"的幻觉

当你与 ChatGPT 对话时，它似乎理解你的问题，甚至展现出"创造力"和"个性"。这令人惊叹，但也极具欺骗性。

斯蒂芬·沃尔弗拉姆（Stephen Wolfram）在《What Is ChatGPT Doing and Why Does It Work》一文中，用最直白的方式打破了这种幻觉：

“ChatGPT 做的第一件事，就是根据已有的文本，产生一个’合理的延续’……它不断地重复问：‘给定目前的文本，下一个词应该是什么？’”

这个简单的判断，揭示了大型语言模型（LLM）的核心真相——它本质上是一个概率接龙机器。

一、AI 的核心运作：逐词预测

1.1 什么是"合理的延续"？

假设我们让 ChatGPT 完成句子：

“AI 最好的地方在于它能够_____”

ChatGPT 做了什么？

它扫描了数十亿页人类编写的文本（网页、书籍、文章）
找到所有类似的文本片段
统计这些片段后面出现的词语频率
生成一个概率列表

词语	概率
learn（学习）	0.15
understand（理解）	0.12
help（帮助）	0.10
process（处理）	0.09
make（制造）	0.08

ChatGPT 本质上总是根据已有文本，产生人们在现实中可能期望写出的内容。

1.2 令人惊讶的简单过程

当 ChatGPT 写一篇文章时，它只是在反复执行一个循环：

查看当前已有的文本
询问：下一个词应该是什么？
选择一个词并添加到文本末尾
重复以上过程

（更准确地说，它添加的是"token"，可能是词的一部分，这就是为什么它有时可以"创造新词"。）

二、温度参数与随机性

2.1 为什么 AI 不像机器人？

如果 ChatGPT 总是选择概率排名第一的词，会发生什么？
你会得到一篇非常"平淡"的文章——乏味、重复，甚至逐字重复之前的句子。

解决方案：引入"温度"（Temperature）参数

温度	行为	结果
0	总是选择概率最高的词	乏味、重复、无创造力
0.8（推荐）	大多数时候选高概率词，偶尔随机选择低概率词	"有创造力"的文章
1+	完全随机选择	输出变得混乱

这就是"创造力"的来源：当 AI 选择一个概率较低的词时，会产生一种"意外"的新颖感。但这只是随机性，不是真正的灵感。

图像生成中的“抽卡”也是同理，通过加入随机性来产生变化；每次生成相当于抽一次卡，不同的种子对应不同的随机路径，最终得到不一样的结果。

2.2 GPT-2 vs GPT-3：规模的力量

特性	GPT-2 (2019)	GPT-3 (2020)
参数量	15 亿	1750 亿
零温度输出	很快变得困惑和重复	更连贯
0.8 温度输出	有点奇怪	更自然

这篇文章2023 年的内容，当时的"先进模型"在今天看来已经相当基础了。

三、概率从何而来？

3.1 最简单的开始：字母频率

让我们从一个更基础的问题开始：如何生成英文文本，一次一个字母？最简单的方法是取一个英文文本样本，计算其中不同字母出现的频率。
在这里插入图片描述

字母频率表：
在这里插入图片描述

字母	Cats文章	Dogs文章	大样本英文
e	高	高	最高
t	高	高	高
a	中	中	中
o	低	高（因为dog本身有o）	中
q	极低	极低	极低

3.2 N-gram 模型：上下文的威力

我们知道——如果看到字母"q"，下一个几乎必然是"u"。
这种只看前一个字符来预测下一个的方式就是 2-gram（二元组） 的概念。

N-gram 长度	生成示例	真实度
1-gram	etaoin shrdlu	完全无意义
2-gram	ther entere	有一些真实词片段
3-gram	the present	开始有意义
4-gram	the presentation	相当真实

原理：使用更长的 N-gram，模型能捕捉更多上下文信息，生成的文本就越通顺，越接近真实语言。

3.3 从字母到单词：组合爆炸的困境

英语中约有 4万个常用词。如果用N-gram统计，会立即遇到一个严重问题：组合爆炸

N-gram	可能组合数量	是否可估算
2-gram	16 亿 (40,000²)	勉强可以
3-gram	60 万亿 (40,000³)	已很困难
5-gram	10^18	基本不可能
20 词片段	> 宇宙中粒子总数	完全不可能
我们不可能统计所有可能的词语组合。
所以可以不再靠统计所有组合，而是构建一个模型，让它能够估算从未见过的序列的概率。

这正是 ChatGPT 这类大型语言模型（LLM） 的核心价值

四、什么是"模型"？

4.1 模型的本质：不是记住答案，而是找到规律

假设你想知道，从比萨斜塔每层扔下的铅球，需要多长时间落地（伽利略的问题）。

你可以有几种方式：

在每种情况下测量它并制作结果表格
做理论科学的本质：制作一个模型，给出计算答案的过程，而不仅仅是测量和记住每种情况

这就是模型的本质：不是把所有的答案存在表里，而是找到一套能计算出答案的规律。

4.2 所有模型都有"旋钮"

任何模型都包含结构和可调节的部分，我们称之为参数，可以把它们想象成可以旋转的“旋钮”

模型类型	数学形式	可调参数（旋钮）
直线模型	t = a + bx	2 个 (a, b)
二次模型	t = a + bx + cx²	3 个 (a, b, c)
ChatGPT	（复杂神经网络）	1750 亿个

沃尔弗拉姆指出：

“没有无模型的模型”（There is no model without a model）

也就是说，任何模型都有其底层结构，以及一组可以调整的参数，用来更好地拟合数据、逼近真实规律。

在这里插入图片描述

4.3 从数字到图像：人类任务的模型化

在讨论语言之前，先看一个经典的机器学习例子，识别手写数字。

给定一个 28×28 像素的图像，是否存在一个函数，能告诉我们这个图像是哪个数字（0-9）？

答案是肯定的，虽然这个函数不简单，可能涉及约 50 万次数学运算。
我们可以：

为每个数字获取一堆样本图像
对给定的输入图像进行像素与像素的比较
但人类即使是歪七扭八的字也能识别出来

4.4 什么是"正确"答案？

如果我们逐渐模糊一个数字"2"：
在这里插入图片描述

一开始模糊时，函数仍然识别为"2"
继续模糊，函数开始给出"错误"结果

但真正的问题是：
如果让一个人类看这些模糊图像（不知道它们的来源），人类会说什么？

如果人类也说"这是 2"，那函数是对的
如果人类说"这看起来像个 3"，那函数给出"3"也是对的

所以说一个好的模型，是对人类行为与判断的拟合，而不是对某种绝对真理的复刻。

看到这里，如果你有下面这些问题：

如果 AI 只是在做概率接龙，为什么它看起来如此智能？
人类的语言理解，本质上是否也是某种"概率预测"？
"理解"和"预测"之间的界限在哪里？

这些问题，我会在下一篇 神经网络是如何 “炼” 成的？ 里继续为你展开。

写在最后：本来想一口气写完，结果越写内容越多，只好分成系列慢慢讲，希望这篇内容能让你有所收获，我们下篇再见。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

pysnmp 最新版本

你现在的里是旧版，代码逻辑如果是同步的，必须重写才能适配 FastAPI。建议直接升级库，并按照新版的风格写代码。09:20Python异步编程的三驾马车：asyncio、aiohttp、asyncpg的20个核心模式小柯教学承接私活北屿青禾同步、异步、回调，三者的关系一次说清聊聊同步、异步和回调，别再搞混啦cmdgen 或者 hlapi 的同步包装器什么意思用途简单来说，这两个都是 PySNMP