你好,我是司沐。

大模型(LLM)已经火了三年多了。

从最初惊艳全球的 ChatGPT,到今年年初的国产之光 DeepSeek,以及百花齐放的豆包、千问、Claude、Gemini、Kimi等等,大家每天都在用。

但如果我问你:“你觉得大模型到底是什么?”

绝大多数人的回答可能是:

“它是一个超级机器人,背后连着一个巨大的知识库。我问它问题,它就去库里检索,然后把答案拼凑出来给我。”

这听起来很合理,但这是错的。

作为一名 Agent 系统架构师,我经常需要向客户或是刚入行的开发者解释这个问题。

在最近的一次对谈中,我用了一个输入法的例子,让一位计算机专业的同学彻底打破了对大模型的幻想。

这个比喻来自于B站UP主漫士沉思录的这支视频:【硬核科普】GPT等大模型是怎么工作的?为啥要预测下一个词?。真的是非常优秀且易于理解的比喻。
如果你比起文字更喜欢看视频,可以直接看他的这支视频。

今天,我也想帮你祛个魅。理解了原理,你才能明白为什么它会一本正经地胡说八道,以及所谓的“会思考的模型”到底是怎么回事。

在这里插入图片描述


01 它没有“大脑”,它只是在玩“文字接龙”

我们要承认一个反直觉的事实:大模型本质上不理解它在说什么。

它既不懂逻辑,也不懂真理。它唯一擅长的一件事,叫做预测下一个字(Next Token Prediction)。

想象一下你手机上的输入法。
当你打出“我”字的时候,输入法会猜你下一个字想打什么?

  • 大概率是:“们”、“想”、“去”、“爱”这种字。
  • 几乎不可能是:“桌”、“跑”、“飞”这种字,除非你在搞抽象。

如果你一直点击候选词的第一个词,输入法也能连成一句话,虽然可能逻辑不通。

大模型(LLM),其实就是一个吃过了全人类书本、网页、代码数据的“超级输入法”。

它看过的书太多了,多到它掌握了语言之间极其复杂的概率联系。

  • 当你问:“1+1等于几?”
  • 它并不是在做算术运算,它是在预测:在人类的语料中,“1+1等于”这几个字后面,概率最高的下一个字是“2”。

所以,GPT(Generative Pre-trained Transformer) 这个名字其实就暴露了它的本质:

  • Generative(生成): 它是在生成(补全)文字。
  • Pre-trained(预训练): 它提前学下了海量数据的概率关系。

01 它没有“大脑”,它只是在玩“文字接龙”

我们要承认一个反直觉的事实:大模型本质上不理解它在说什么。

它既不懂逻辑,也不懂真理。它唯一擅长的一件事,叫做预测下一个字(Next Token Prediction)。

想象一下你手机上的输入法。
当你打出“我”字的时候,输入法会猜你下一个字想打什么?

  • 大概率是:“们”、“想”、“去”、“爱”这种字。
  • 几乎不可能是:“桌”、“跑”、“飞”这种字,除非你在搞抽象。

如果你一直点击候选词的第一个词,输入法也能连成一句话,虽然可能逻辑不通。

大模型(LLM),其实就是一个吃过了全人类书本、网页、代码数据的“超级输入法”。

它看过的书太多了,多到它掌握了语言之间极其复杂的概率联系。

  • 当你问:“1+1等于几?”
  • 它并不是在做算术运算,它是在预测:在人类的语料中,“1+1等于”这几个字后面,概率最高的下一个字是“2”。

所以,GPT(Generative Pre-trained Transformer) 这个名字其实就暴露了它的本质:

  • Generative(生成): 它是在生成(补全)文字。
  • Pre-trained(预训练): 它提前学下了海量数据的概率关系。
    在这里插入图片描述

02 既然是补全文字,为什么它能跟我“对话”?

有同学会问:“司沐老师,如果它只是补全文字,那应该是我写半句,它补半句才对,就像他帮我写文章一样。为什么我问它问题,它能像个人一样回答我?”

这就要提到大模型训练的第二阶段:后训练(Post-training)

在预训练阶段,模型确实只是个“补全机器”。但在后训练阶段,工程师给它喂了一种特殊格式的数据:

User: 你好。
AI: 你好!有什么我可以帮你的吗?<结束>
User: 讲个笑话。
AI: 有一天…<结束>

模型通过大量学习这种**“对话剧本”**,学会了一种惯性:
当看到“User: xxx”时,它不仅要预测下一个字,还要模仿“AI”的语气生成回答,并且在说完后自动生成一个“停止符”(EOF)。

所以,你在屏幕上看到的“人工智能对话”,在模型眼里,不过是它在努力补全一个**“对话剧本”的下一行**而已。

为了让读者充分理解,我在这里放一份基于Llama3模型特殊Token的一段对话的底层文本,大家可以看看,我们与大模型的所谓“对话”,在大模型眼里到底是什么样子的:

<|begin_of_text|><|start_header_id|>system<|end_header_id|>
你是一位诚实的技术型AI助手,你的任务是用通俗易懂的语言解释大模型的原理。
<|eot_id|>

<|start_header_id|>user<|end_header_id|>
为什么我觉得你在思考?你真的理解我在说什么吗?
<|eot_id|>

<|start_header_id|>assistant<|end_header_id|>
这其实是一种错觉。严格来说,我并没有“理解”或“思考”这种人类的主观意识。

我当下所做的,只是基于你输入的文字序列(Context),计算下一个最可能出现的字(Token)是什么。就像你看到“白日依山”,脑海里大概率会自动补全“尽”一样。现在的对话,本质上就是一场参数规模达到数千亿级别的、极其复杂的“成语接龙”。
<|eot_id|>

<|start_header_id|>user<|end_header_id|>
可是你的回答逻辑很连贯,如果只是“文字接龙”,怎么能做到逻辑自洽呢?
<|eot_id|>

<|start_header_id|>assistant<|end_header_id|>
因为我见过的“接龙”样本足够多(万亿级 Token)。所谓的“逻辑自洽”,本质上是统计学上的高概率路径。

比如现在,当我的输入端接收到了你质疑的“逻辑自洽”这几个字,我的内部权重矩阵被激活,计算出“用统计规律来解释”这一路径的概率最高。所以我生成这段话,不是因为我主观上“想”反驳你,而是因为在人类的语料库里,针对这类质疑的文本后面,通常都接续着类似的解释。我只是顺着概率的滑梯滑下来了而已。
<|eot_id|>

在这里插入图片描述


03 为什么它会撒谎?(大模型幻觉的成因)

理解了“概率预测”的本质,你就明白为什么大模型会有**“幻觉”**(一本正经地胡说八道)了。

很多用户问:“它的数据库是不是该更新了?为什么我问它2015年我家楼下拆迁的事,它说得头头是道,但其实根本没这回事?”

真相是:大模型内部根本没有“数据库”。
它没有挂载一个 SQL 或 NoSQL 数据库去存“事实”。它的所有知识,都“熔化”在了几千亿个参数(权重)里。

当你问它一件不存在的事,如果你的语气非常笃定,模型会根据概率判断:

“在这个语境下,为了让这段话顺畅地接下去,我应该顺着用户说。”

它不在乎真假,它只在乎“顺不顺口”(概率高不高)。 这就是为什么它经常会编造论文、编造代码库,因为它是在用概率拼凑一个看起来像真的的东西。
在这里插入图片描述


04 揭秘“思考模型”:o1 和 DeepSeek 的“脑子”在哪?

在2025年年初前后,OpenAI 的 o1 和国内的 DeepSeek-R1 等“思考模型”非常火。它们在回答问题前,会先展示一段长长的思考过程(Chain of Thought)。

很多人以为:哇,模型进化出了一个“大脑思考区”,在真正地进行逻辑推理!

司沐老师要泼一盆冷水:这也是假象。

所谓的“思考”,本质上也是模型生成的文字(Token)。

对于模型来说,它并没有分出“思考”和“回答”两个脑区。只是工程师在训练时,强行让它学习了一种新格式:

User: 这个问题怎么解?
AI: <思考> 首先,我应该分析一下… 然后… </思考> <回答> 答案是 B。

为什么要多此一举?
因为 Transformer 架构有一个特性:它在生成下一个字时,会回头看之前生成的所有字。

如果让模型直接给答案,它可能因为“想”得不够深而给错答案(概率预测走偏了)。
但如果强制它先生成一段“碎碎念”(也就是思考过程),这些碎碎念就变成了新的上下文(Context)

模型自己给自己铺垫了一堆逻辑,当它终于要生成“<回答>”的时候,前面的上下文已经足够丰富,这时候预测出来的答案,准确率就大大提高了。

所以,并没有什么神奇的“机器意识觉醒”,有的只是更精妙的“上下文工程”。
在这里插入图片描述


司沐老师的总结

对大模型祛魅,是为了更好地了解它,从而搭建出更妙的AI应用。

  • 知道它是概率预测机,你就不会盲信它的事实类回答,而会去核实(或者使用搜索工具 RAG)。
  • 知道它是上下文补全机,你就知道 Prompt(提示词)的重要性——你给的上下文越清晰,它预测的下一个字就越准。
  • 知道思考也是生成,你就明白为什么有时候我们需要引导模型“一步步想”,这其实是在帮它铺路。

这就是大模型,一个没有感情、没有真理,但被数学赋予了惊人能力的“超级输入法”。

那么问题来了:
既然模型只能生成文字,它又是怎么帮我们联网搜索、操作电脑、甚至写文件的呢?

这就涉及到了 AI 应用架构中最迷人的部分——Agent(智能体)


下期预告:
大模型只是个“只会说话的脑子”,它是如何调用工具的呢?
下一篇,司沐老师将为你拆解 Agent 架构——那群“伺候”大模型的人。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐