chatGPT原理自我分析

本文探讨了chatGPT理解人类语言的原理及其潜在影响。文章指出，计算机通过向量化和信息压缩两大步骤处理语言：首先将词语转化为多维向量空间中的数字表示，再通过特征提取技术（如Transformer模型）建立词语间的关联。GPT模型专注于语言生成，通过海量数据训练实现了从简单词语接龙到复杂对话的"涌现"能力。作者认为，语言作为人类文明的核心载体，其理解能力是通向通用人工智能的关键

木土雨成

521人浏览 · 2026-01-24 14:19:43

木土雨成 · 2026-01-24 14:19:43 发布

总述

首先，我们先纠正一个观点，就是chatGPT在与人们的对话过程中，它不是一个暴力穷举的产物，如果认同这个观点，你可以再去往下阅读。

那么，chatGPT是如何理解人类语言的，这种理解方式与我们的思维有什么共同之处呢，在这条路上一直走下去，AI最终会涌现出智能吗？而最终，这个结果对于我们会有那些影响呢？

我们一起来探讨下。
chatGPT是如何理解人类语言的，要回答这个问题之前，我们首先要理解，计算机时如何记录现实世界的。我们都知道，计算机的底层时二进制，我们现实世界中的所有问题，如果都交给计算机去处理，其实最终都是把它转化成了数学问题。比如说，我们日常学习的26个字母，我们可以用52个数字来表示她，其中这52个数字包含了26个大写和26个小写。我们要表示一副画，我们可以把画的最小单位表示为R\G\B三种元素的组合，而每一种颜色都可以用0-255的数字来表示，于是，一幅画在电脑中就变成了一大堆数字的组合。但是，我们发现，这种表示方式有个小问题就是，电脑并不能把数字和它实际表示的东西建立起来。

在非人工智能时代，电脑只是我们存储和处理信息的一种工具，就像我们在处理冰箱中的食物或者锅碗瓢盆一样，它们并不需要认识冰激凌和鱼香肉丝，使用他们的人，知道就已经可以了。

而在人工智能时代，电脑需要自己处理与现实世界中的信息。图像识别需要看到照片就能实现一个人，而自然语言的理解，就是需要看到他的一段话就能够理解他说的是什么意思。

那么，电脑如何做到这一步呢？这里至少需要两步：第一步，叫做向量化；第二步，叫做信息压缩与特征提取。

向量化

首先我们来看向量化，什么是向量化呢？向量化简单来说，就是把你要表示的东西变成一组数字的组合。比如说，我们要表示一个人，我们可以这样来表示：

[0, 180, 75, 20]

第一个元素表示性别
第二个元素表示身高
第三个元素表示体重
第四个元素表示年龄
现在，我们知道了这组数字的含义，那么我们就知道了这个人是如何表示了，也就是，一个年龄20，身高180，体重75的男性。好了，如果我们角色，这几个指标并没有突出这个人的个性，那么，你还可以增加其他指标，比如说，三围、体脂率、肤色、发色等等，所有的这些，都可以表示成数字，维度越多，我们对你的定义也就越准确，通过这些维度筛选出来的人，跟你的相似度也就越高。

那么，我们为什么要向量化呢？
有两个原因：第一就是转化成数字之后，电脑方便处理；第二就是，向量化以后的空间结构，展现出了一定的规律。
第一点比较好理解，我们不过多赘述了，关于第二点，我们可以根据身高和体重来画一个二维坐标系，横轴表示体重，纵轴表示身高，那么，对于身高180，体重75的人来说，他们对应在坐标系中的某一个点，而且，所有和这个点接近的位置，都是体型和你相似的人。
在这里插入图片描述

如果我们增加一个年龄的指标，或者增加其他更多的指标，那么，我们就能够通过更多的空间关系来理解每一个人的特征。词语也是一样的，只不过，表示这个词语的维度也更不容易被总结出来。但是，我们始终相信，如果把它也放在一个很多指标维度的空间坐标系中，那些意义相近的词语，他们的空间可能会更加的接近，当然，这里面可能会有很多很多我们不知道如何表示的指标。

除此之外，向量是可以计算的，就像我们普通的数字一样，我们可以相加减和相乘，当我们把这个词放到坐标系中，我们也可以发现词语的计算关系，也可以得到另一个词语。我想说的是，词语之间的空间关系，也会反映出他们在现实世界中的实际关系，这个是非常有意思的。

我们说起来很简单，但是实际上，这份工作的复杂工作远超想象。我们不仅要把每个词语放在坐标系中，我们还要能够正确的标注出每个词语在这个空间中的位置，以上所说的神奇的事情才能发生。那么，我们怎么找到这些维度，怎么找到这些词语的空间位置呢？

这，就是人工智能要干的事情了。
比如说，我们预先准备50个维度的坐标，准备10000个词语，我们先把这些词随便仍在坐标系里面，对，就是随便扔，爱仍哪里仍哪里，专业描述就是，每个词，随机产生自己的向量，然后到语料库中随便摘出来一句话，然电脑玩词语接龙，把第二个词和第一个词拿过来计算，看看第二个词跟在第一个词背后的概率有多大？如果算出来概率很大，那你就比较幸运，说明这两个词在你坐标的位置比较合适；如果概率很小，说明一开始随便放的位置不合适，这个时候该怎么办呢，这个时候，就需要电脑把词的位置再调整一下，再回来计算，如果还不行，再去调整，再去计算。。因为向量是可以计算的，所以，我们就可以知道，每次计算出来的数和正确的结果的差距有多少，这个就是损失函数，我们训练的目的也是让这个差距越来越小，这种是有数学方法逼近正确结果的，这个过程叫做收敛。就这样，在无数次的调整之后，电脑终于调整好了词的位置，然后我们同样的道理再去训练第三个词，第四个词，第五个词。。。。然后这10000个词就都训练了好多遍了。于是，每个词，都找到了自己坐标里面的正确位置。词的向量化工作就结束了。

信息压缩与特征提取

说了这么多，我们来说第二大步，那就是信息压缩与特征提取，没有做特征提取，就相当于没有找到正确的规律。如果你用错误的规律去训练电脑，那么，电脑最后帮你找到的词向量也是错误的。也就说，这些词，并没有在向量空间中找到属于自己的正确位置。

我们知道，现实世界中的信息量是非常大的，为了理解和记忆他们，我们不可能把所有的信息都拿来做处理，这不仅非常浪费时间，而且，我们也没有办法然我们抓住重点，我们的大脑在处理信息的时候，也是经过层层筛选和过滤的，只有最重要的信息，才会进入到我们的意识进行处理，图像领域之所以首先在人工领域取得突破，就是因为它首先找到了提取图片特征的方法，也就是卷积神经网络。

虽然语言是我们人类创造的，但是一开始我们却一直找不到提取语言特征的正确方法，多年以来，人类一直在用的循环神经网络，它的训练方法跟日常训练的方法差不多。我们输入一句话，让他最后填空，而距离填空的词越近的词，它的权重就越高，而越远的词，影响就越小，这不仅会让电脑遗忘掉太远的词，而且很多时候，电脑就提取不出来正确的特征，这是一个很致命的问题，如果这个问题解决不了，很多我们想解决的问题就很难去解决，那么，这个问题怎么去解决呢，接下来，我们就要引出我们能AI发展史上划时代的模型，chatGPT里面那个T，Transformer。

2017年，google提出了一种叫做自注意力机制的方法，解决了自然语言的特征提取问题，简单来说，就是让句子里的词自己去和句子中所有的词做词向量相乘，乘出来的结果再去做训练，有了Transformer的加持，我们终于可以成功对语言进行压缩和特征提取了，在正确的训练下，我们就可以让电脑成功的做好向量化了。

因为Transformer是一个语言翻译模型，所以整个模型是由编码器和解码器两部分组成的，而这两部分的训练方法有不同，编码器考验的是对语言的理解，所以，它使用的训练方法是完形填空，相当于是给出前后文，把中间的字挖掉，让电脑去猜；而解码器是要根据意思，翻译成另外一种语言，所以，它考验的是语言的生成，它的训练方法是词语接龙。

后来，google和openai分别拿走了编码器和解码器，高出了自己的语言模型，google的重在语言理解，叫做BERT，openai的重在语言生成，叫做GPT，也就是chatGPT的前身。看到这里，你可能就明白了，chatGPT本身其实就是一个语言模型，它被制造出来的目的并不是解决实际问题，而是怎么把话说得更漂亮，而它把话说得很漂亮的诀窍其实也并不高深，说白了就是根据上文的内容去推测下一个词应该是什么，然后把这个词加进去，继续推测写一个词是什么，在不断的推测过程中，把词连接成句子，它只关心说出来的话像不像人话，并不关心是否正确，之所以我们在很多时候觉得它说的有道理，只是因为它看过太多的语料库了，在他所有的训练语料中，正确的说法是概率最大的那种而已。那么，这样一种终极目的是把话说漂亮的AI模型，是如何成为如今大杀四方的通用人工智能雏形的呢？最重要的原因就是，openai赌对了方向，openai创立之初就是要做通用人工智能，但是如何做出通用人工智能，其实是没有答案的。在很多年前，人工智能领域还是各种专业人工智能的天下，从业者基本都是聚焦在一个细分领域，比如围棋、绘画等，然后获得各种比赛大奖，名扬天下。

我们不得不说，语言才是理解整个人类社会最重要的工具，人类几千年的文明历史，几乎所有的显性知识，它的载体都是语言，而人类之间相互的交流，最重要的渠道也是语言，所以，如果电脑能够理解语言，就相当于它获得了理解整个人类社会成果的能力，也获得了与人类无缝交流的能力，所以，要产生通用人工智能，语言一定是一个重要的突破口。

在BERT和GPT1出来之时，BERT在各方面是完全吊打GPT1的，这个时候，openai面临两种选择，一种是根据特定场景，优化模型的算法，二是不够好，是因为向量空间不够大，不够精确，因此增加训练层数，增加向量维度，增加训练数据，也就说增加参数数量和训练数据，搞出来一个更大的模型，openai选择了后者，他们笃定通用人工智能需要泛化到更多的场景，因此需要更大的参数和更大的数据量，果然又赌对了，在参数规模达到1000亿的时候，神奇的现象产生了，这种现象叫做涌现，很多不具备的能力突然就产生了，自此，openai一路高歌猛进，彻底与其他公司拉开了距离。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Github一周热点113期：Warp终端开源、Codex生态爆发、AI短视频全自动流水线

每周Github上都会冒出大量新项目，但大部分只是昙花一现。真正值得关注的，是那些在短时间内获得大量star、并且解决了真实痛点的项目。本期精选了5个热度最高、开发者最值得关注的项目，从终端工具到安全工具箱，从AI编程生态到短视频自动化，覆盖了开发者的多个工作场景。本周Github热点的主题词是效率——终端更智能了，安全工具更易用了，编程生态更丰富了，视频制作更自动化了。AI不是要取代开发者，而是