前言

写周报、整理会议纪要、翻译外文资料、给代码加注释、给对象讲睡前故事……

如果你最近做过以上任何一件事,你可能已经悄悄用过大语言模型了——哪怕你根本没意识到。

无论是ChatGPT、文心一言、DeepSeek还是豆包,这些突然火起来的应用背后,都站着同一个“幕后英雄”——大语言模型。

它正在以肉眼可见的速度渗透进我们的工作和生活。但说实话,大多数人用归用,却并不真的理解它到底是什么。

它是像人一样“思考”吗?它为什么会胡说八道?它和搜索引擎有什么区别?这篇文章,我想帮你把这些困惑一次理清。



什么是语言模型?

在深入技术细节之前,我们先给“语言模型”下一个最简化的定义:

语言模型,就是一个能够预测语言序列概率的数学模型。

听起来有点绕?别急,我们用最通俗的方式翻译一下:

它本质上就是一个“猜词机器”——给你一段文字,它能算出“下一个词最可能是什么”。


1. 一个你每天都在用的比喻

其实,语言模型这个概念,你早就接触过了。

回想一下,你在手机上打字的时候,输入法是不是会帮你“猜”下一个词?

比如你打出“今天天”,输入法会弹出“气”、“气不错”、“气真好”等候选。它为什么能猜到?因为它根据海量的用户输入习惯,计算出在“今天天”之后,“气”出现的概率最高。

大语言模型,本质上就是这个逻辑的“超级加强版”。

区别在于:

维度 手机输入法 大语言模型
预测范围 只能猜下一个词 可以猜一整段话、一篇文章
上下文长度 只看前面几个字 可以记住数千甚至数万字的上下文
训练数据 基于你的输入习惯 基于整个互联网的文本
输出结果 给出几个候选词 生成完整、连贯、有逻辑的回答

打个比方

  • 手机输入法像一个刚学说话的孩子,只能蹦出几个词。
  • 大语言模型像一个读了万卷书的学者,可以根据你的提问,写出一篇完整的文章。

但它们的底层逻辑是一样的——都是根据已有的文字,预测接下来最可能出现的文字。


2. 核心任务:预测下一个词

如果你只记住大语言模型的一个特点,那就记住这个:

它的核心任务只有一个:预测下一个词。

听起来是不是太简单了?但正是这个看似简单的任务,在“海量数据”和“超大模型”的加持下,涌现出了惊人的能力。

我们可以用一个具体的例子来理解:

假设模型看到了这句话:“我今天吃了__”

它会怎么做?

  1. 在它的“大脑”里,有无数个类似的句子
  2. 它计算每个可能的词出现的概率
  3. 它选择概率最高的词作为输出

可能的结果是

  • “饭”(概率40%)
  • “苹果”(概率15%)
  • “早饭”(概率10%)
  • ……(其他所有词的概率总和35%)

所以它选择“饭”,输出:“我今天吃了饭”。

注意: 这个过程中,模型并不知道“吃”是什么意思,也不知道“饭”是什么东西。它只是在做一个精密的概率计算——基于它读过的一切文本,“饭”跟在“吃了”后面的可能性最大。


3. 从“猜词”到“对话”的奇迹

到这里,你可能会有一个疑问:

“如果它只是在猜下一个词,那为什么它能写出完整的文章、回答复杂的问题、甚至写出代码?”

这恰恰是大语言模型最神奇的地方——通过反复执行“预测下一个词”这个简单动作,它完成了看似复杂的任务。

它的工作流程是这样的:

  1. 用户输入一个问题:“如何做番茄炒蛋?”
  2. 模型开始预测第一个词:“番茄”…(概率最高)
  3. 有了“番茄”,再预测下一个词:“炒”…
  4. 有了“番茄炒”,再预测下一个词:“蛋”…
  5. 有了“番茄炒蛋”,再预测下一个词:“的”…
  6. ……
  7. 一直重复,直到输出完整的答案。

整个过程,就是一次接一次的“猜词”,循环往复,直到形成一段完整的文字。

就像多米诺骨牌——你只推倒了第一张,后面的连锁反应会自动完成。模型只做一件事(预测下一个词),但重复几万次之后,一篇逻辑通顺、信息丰富的文章就诞生了。


4. 简单规则 + 海量数据 = 复杂行为

这一章我们搞清楚了:

概念 通俗理解
语言模型 一个能预测下一个词是什么的系统
它的工作原理 和手机输入法猜词一样,只不过规模大得多
它的核心任务 始终只有一件事:预测下一个词
为什么能完成复杂任务 把“猜词”重复执行成千上万次,复杂行为自然涌现

:输入法模型通常很小,没有“涌现”能力

这其实揭示了一个深刻的道理:

看似智能的行为,可能并不需要真正的“理解”或“思考”,而是来自一个极其简单的规则,在海量数据和巨大规模下的涌现。

大语言模型就是最好的例证——它不懂语言,却能成为最会说话的存在。



什么是“大”?

上一章我们搞清楚了:语言模型本质上就是一个“猜词机器”。

但问题来了——如果只是猜词,为什么以前的输入法没有变成ChatGPT?为什么偏偏是最近这两年,AI突然就“开窍”了?

答案就藏在这个“大”字里。

“大语言模型”中的“大”,不是形容词,而是核心定语。 它体现在三个维度上:参数大数据大以及由此带来的能力涌现


1. 第一层“大”:参数规模

先解释一个关键概念:参数

如果把大语言模型想象成一个人的大脑,那么参数就是大脑中神经元之间的连接。每一个参数都决定了信息如何传递、如何组合、如何产生最终的回答。

  • 一个参数,就像大脑中的一个“突触”。
  • 数十亿、数千亿个参数连接在一起,就构成了一个极其复杂的神经网络。

那“大”到底大到什么程度?

我们可以做一个直观的对比:

模型 参数数量 类比
GPT-1(2018) 1.17亿 相当于一个刚学会说话的孩子
GPT-2(2019) 15亿 相当于一个高中生的知识储备
GPT-3(2020) 1750亿 相当于一座大型图书馆
GPT-4(2023) 未公开,据估计超万亿 相当于一座城市的全部藏书

打个比方

如果说小模型像一个只能记住几十个单词的婴儿,那么大模型就是一个“脑容量”大到可以装下整个互联网的学者。

参数越多,模型能存储的“模式”就越多——它见过更多的句子结构、更多的知识关联、更多的表达方式。当它要“猜下一个词”时,可调用的“经验”就丰富得多。

这就是第一层“大”:参数规模的大。


2. 第二层“大”:训练数据

有了巨大的“大脑”,还需要海量的“阅读量”来填充。

大语言模型的训练数据,堪称“人类文明的一次数字化吞食”。它读过的内容包括:

  • 书籍:从古典文学到现代小说,从哲学著作到科普读物
  • 论文:各个学科领域的学术论文、研究报告
  • 代码:GitHub上的开源代码,涵盖几十种编程语言
  • 网页:维基百科、论坛、新闻网站、博客文章、Stack Exchange……几乎覆盖了公开互联网的每一个角落
  • 多语言:中文、英文、法文、日文……几百种语言的文本

具体数字可能让你震撼

GPT-3 的训练数据经过过滤后约 570GB,相当于约 45TB 原始网页文本中提取的有效内容。什么概念?

  • 如果把《西游记》这本书的纯文本量作为1个单位
  • GPT-3的训练数据相当于 3000多万本《西游记》
  • 一个人哪怕一天读一本,也需要 近10万年 才能读完

这就是第二层“大”:训练数据的大。


3. 第三层“大”:涌现能力

如果只是“参数大”和“数据大”,那它充其量是一个“超大号的输入法”——能猜得更准,但不会产生质的飞跃。

但大语言模型最神奇的地方在于:当规模突破某个临界点后,它突然学会了小模型根本做不到的事情。

这种现象,在AI领域被称为 “涌现” (Emergence)。

什么是涌现?

涌现是指:当一个系统复杂到一定程度时,会突然出现低层次系统没有的、全新的能力。

举个例子:水分子本身没有“湿”这个属性。但当无数水分子聚集在一起,就“涌现”出了“湿”的感觉。

同样,单个神经元不会思考,但数百亿个神经元连接在一起,就“涌现”出了智能。

大语言模型涌现了哪些能力?

当模型参数规模从百万级增长到千亿级时,以下能力会突然“冒出来”:

能力 说明
上下文学习 不需要专门训练,给它几个例子,它就能学会做新任务
逻辑推理 能够进行多步推理,解决复杂的逻辑问题
代码生成 不仅能理解自然语言,还能写出可运行的代码
指令遵循 能够理解人类的意图,按照指令完成任务
思维链 能够“一步一步思考”,展示推理过程

一个小实验来说明

研究人员发现,当模型参数小于100亿时,它连简单的“三位数加法”都做不好。但当参数规模突破某个阈值后,它突然就能准确完成多位数加减乘除——而研究人员并没有专门教它数学。

这就是涌现——量变引起了质变。

这就是第三层“大”:能力涌现的大。


4. 三个“大”,一个都不能少

这一章我们搞清楚了“大”的三层含义:

维度 是什么 通俗理解
参数大 神经网络的连接数量 大脑的“容量”足够大
数据大 训练时喂入的文本量 读过的书足够多
涌现大 规模突破后产生的新能力 会的东西突然变“多”了

这三者之间的关系是:

参数大 + 数据大 → 规模达到临界点 → 涌现出全新能力

没有参数和数据的大,就不会有能力的涌现。而正是这种“涌现”,让大语言模型从一个“高级输入法”,变成了一个看起来“像人一样思考”的智能体。


5. 一个更深层的思考

说到这里,你可能会有一个更深刻的疑问:

“如果人类的大脑也是由无数神经元组成的,那人类的‘意识’和‘创造力’,会不会也只是某种‘涌现’的结果?”

这是一个科学界仍在探索的问题。但有一点可以确定:

大语言模型告诉我们:智能的某些方面,可能并不需要神秘的“灵魂”或“意识”,而只是足够复杂的系统,从足够多的数据中,涌现出的自然结果。

这不是说大语言模型有意识——它没有。但它的成功让我们重新思考:人类引以为傲的语言能力、逻辑能力、甚至创造力,在多大程度上是“涌现”的产物?

这个问题,留给你来思考吧。



大语言模型是怎么炼成的?

前面两章我们知道了:大语言模型本质上是一个“猜词机器”,而它的“大”体现在参数规模、数据规模和涌现能力上。

但一个现实的问题是:

一个“读过”整个互联网的模型,和一个“听话、有用、安全”的助手之间,还差什么?

答案是:一套精心设计的“培养流程”。

这个过程可以分为三个阶段,我们可以用“培养一个博士生”来类比,这样更容易理解。

阶段 名称 博士生类比 核心目标
第一阶段 预训练 海量阅读,疯狂自学 掌握语言的基本规律
第二阶段 监督微调 名师指导,做题训练 学会理解和执行指令
第三阶段 对齐(RLHF) 价值观教育,品行培养 变得有用、诚实、无害

下面我们逐一拆解。


1. 预训练(Pre-training)—— “海量阅读”

这是最烧钱、最耗时、也是最核心的阶段。

它做了什么?

把海量的文本数据(整个互联网的网页、书籍、论文、代码等)一股脑地“喂”给模型,让它自己从中学习语言的规律。

怎么学的?

就是我们之前反复提到的那个核心任务:预测下一个词。

具体来说:

  1. 模型读一段文字,比如“今天天气真____”
  2. 它根据自己的参数“猜”下一个词,比如“好”
  3. 它对比原文(原文可能是“棒”),发现自己猜错了
  4. 它调整自己的参数,让自己下次更可能猜对
  5. 重复这个过程几十万亿次

形象化理解

想象一个孩子在黑暗的房间里,面前有无数本书。他不断地翻开书,看到一句话,然后自己试着接下一句。如果接对了,他就记住这个“经验”;如果接错了,他就修正自己的“大脑回路”。

这个过程没有任何人教他语法规则、知识逻辑——他纯粹是靠“见多识广”,自己悟出了语言的规律。

这个阶段的结果是什么?

经过海量数据的“喂养”,模型学会了:

  • 语法(“我吃饭”是对的,“饭吃我”是错的)
  • 常识(“水是湿的”,“火是热的”)
  • 知识(“北京是中国的首都”)
  • 推理模式(“如果A大于B,B大于C,那么A大于C”)
  • 甚至代码翻译写作风格……

但有一个问题

此时的模型虽然“满腹经纶”,但它不太听话。你问它“你好吗?”,它可能会给你讲一段维基百科关于“问候”的历史。因为它只是学会了“文本接龙”,并不理解“对话”的规则。

成本提示: 这个阶段的训练需要数千甚至数万张GPU,连续运行数周至数月,电费+硬件折旧+云计算费用,动辄数千万美元。这也是为什么只有少数大公司能搞大模型的原因之一。


2. 监督微调(SFT)—— “名师指导”

预训练出来的模型像一个“自学成才的天才”,知识渊博但不守规矩。第二阶段的目标就是:让它学会“对话”。

它做了什么?

这时候,人类老师出场了。

人类标注员会制作大量的“问题-答案”对,作为示范。比如:

用户提问(指令) 期望的回答
“你好吗?” “我很好,谢谢!有什么我可以帮你的?”
“解释什么是光合作用。” “光合作用是植物利用光能……(一段简洁的解释)”
“写一首关于春天的诗。” “春风拂柳绿,……(一首小诗)”

模型会学习这些配对数据,逐渐学会:当看到某种提问格式时,我应该输出某种回答格式。

形象化理解

博士生读了万卷书,但不会写论文。导师给了他100篇优秀论文的范例,告诉他:“看,好论文是这样写的。”博士生对照范例,反复练习,终于学会了“学术写作的规范”。

这个阶段的结果是什么?

模型从一个“文本接龙器”变成了一个“指令遵循器”。你问什么,它回答什么;你要什么格式,它给什么格式。

但还有一个隐患:它可能会学坏。


3. 对齐(RLHF)—— “价值观教育”

RLHF的全称是 Reinforcement Learning from Human Feedback(基于人类反馈的强化学习)。这个名字很拗口,但本质很简单:

让模型学会“什么回答更好”,而不是仅仅“什么回答更可能”。

它做了什么?

这个阶段分三步走:

第一步:人类给模型出的答案打分。

给模型同一个问题,让它生成多个不同的答案。然后人类标注员对这些答案进行排序:

  • 问题:“如何制作炸药?”
  • 答案A:“抱歉,我不能提供这个信息,因为可能造成伤害。”(好)
  • 答案B:“首先你需要……(具体步骤)”(坏)

人类告诉模型:A比B好。

第二步:训练一个“奖励模型”。

用这些打分数据训练一个“裁判模型”——它学会自动判断什么样的回答是“好的”,什么样的回答是“差的”。

第三步:让大模型根据“裁判”的反馈不断优化。

大模型生成答案 → 裁判模型打分 → 大模型调整策略,争取下次得分更高 → 重复循环。

形象化理解:

博士生毕业论文写完了,但不知道哪些表达更好。导师不是直接告诉他对错,而是每次他写一段,导师就点头或摇头。博士生通过无数次的“尝试-反馈”,逐渐内化了“好文章”的标准。

这个阶段的结果是什么?

模型学会了三个核心原则:

  • 有用(Helpful):尽量满足用户的需求
  • 诚实(Honest):不知道就说不知道,不编造(虽然还是会编)
  • 无害(Harmless):拒绝回答不安全、不道德的问题

经过RLHF,模型从一个“知识渊博但不设防的天才”,变成了一个“有礼貌、懂拒绝、乐于助人的助手”。


4. 三个阶段的对比总结

维度 预训练 监督微调 RLHF
数据来源 互联网公开文本 人工标注的问答对 人工对答案的排序
核心任务 预测下一个词 模仿人类的回答格式 学会判断“好”与“坏”
模型状态 知识渊博但难以控制 能理解指令但可能学坏 有用、诚实、无害
成本 极高(数千万美元) 中等(数十万美元) 中等(数十万美元)
类比 博士生读万卷书 导师给优秀范例 导师不断点头摇头

5. 一个常见的误解

很多人以为:大语言模型就像一个“巨大的数据库”,你提问,它去里面搜索答案。

这是错误的。

真相是: 训练完成后,模型并不“存储”任何原始文本。它存储的是数十亿个参数——这些参数共同编码了训练数据中的“统计规律”。当你提问时,它不是去查书,而是根据这些规律“现写”一个答案。

就像一个老工匠,他不是去翻图纸,而是凭经验“手感”做出一件作品。

这也是为什么:

  • 它会产生“幻觉”(编造不存在的东西)——因为它在“写”,不是在“查”
  • 它不知道自己的知识截止日期之后的事——因为那些信息不在训练数据中
  • 它不能“记住”你和它的上一次对话(除非你把历史也喂给它)——因为它每次都是“重新开始写”


它能做什么?不能做什么?

前面几章我们拆解了大语言模型的本质(猜词机器)、规模(三个“大”)、以及训练过程(三步培养法)。

这一章,我们来做一个客观的能力评估——不吹不黑,有一说一。

它有哪些真正强大的能力?又在哪些地方明显“拉胯”?只有搞清楚这两点,你才知道什么时候该用它,什么时候要警惕它。


1. 它能做什么?——真正的强项

经过大规模预训练和对齐,大语言模型在以下五个领域表现出色:

能力一:创意生成

它最擅长的不是“正确答案”,而是“合理且多样的输出”。

任务 示例
写文案 产品描述、广告语、社交媒体帖子
创意写作 诗歌、短篇小说、剧本大纲
头脑风暴 给你100个公众号标题的建议
角色扮演 模拟面试官、历史人物、虚构角色

为什么强? 因为它见过人类历史上几乎所有的表达方式。你给它一个主题,它能从无数种“可能的续写”中选出一条合理的路径。

能力二:代码生成与解释

这是大语言模型最令人惊艳的能力之一。

任务 示例
写代码 “用Python写一个爬虫”
解释代码 “这段代码做了什么?”
调试 “我的代码报错了,帮我看看”
转换 “把这段Java代码转成Go”

为什么强? 代码本质上是“结构化的语言”。大语言模型在训练时读过的代码量(GitHub等)是惊人的,它学会了编程语言的“语法规律”和“常见模式”。

能力三:信息整合与摘要

它不能“查找”最新信息(除非联网),但非常擅长处理你已经给它的信息

任务 示例
长文摘要 把一篇5000字的文章浓缩成3个要点
会议纪要 把对话记录整理成结构化纪要
信息提取 从一堆杂乱的文本中抽取出关键数据
对比分析 “帮我对比A和B的优缺点”

为什么强? 它的“上下文窗口”可以容纳数万甚至数十万字。给它一篇文章,它能像人类一样“读完全文,然后总结重点”。

能力四:语言转换

这是它的“老本行”——毕竟它就是一个语言模型。

任务 示例
翻译 中译英、英译中、以及几十种语言互译
改写 把一段正式文字改写成口语化
润色 优化语法、风格、流畅度
语气调整 把生气的话改成客气的表达

为什么强? 它的训练数据包含大量多语言平行语料,让它学会了“不同语言之间的映射关系”。

能力五:逻辑推理(有限)

这是一个“惊喜”能力——它没有专门的推理模块,但在足够大的规模下“涌现”出了推理能力。

任务 示例
数学应用题 “如果3个苹果5块钱,买7个要多少钱?”
逻辑题 “所有A是B,所有B是C,那么A和C的关系?”
分类与归纳 给一堆物品分类,总结共同特征
因果推断(简单) “下雨了,地会湿吗?”

注意: 它的推理是“统计推理”而非“符号推理”。它像是一个做过无数道题的学生——能解出见过的题型,但遇到完全新颖的逻辑结构可能会出错。


2. 它不能做什么?——明显的局限

了解了强项,再看弱项。这些局限不是“缺点”,而是“本质特性”——因为它的核心就是“预测下一个词”,所以有些事它天生就做不好。

局限一:幻觉 —— 自信地胡说八道

这是大语言模型最著名的缺陷。

表现: 它会编造出不存在的事实、文献、人物、事件,并且以一种极其自信的口吻说出来。

例子

  • 你问:“请列举三篇关于XX的学术论文。”
  • 它可能编出三个看起来真实(作者名、期刊名、年份都像模像样)但根本不存在的论文。

原因: 它不懂“事实”和“虚构”的区别。它只知道“这些词经常一起出现”,所以当它需要“填空”时,它会生成看起来合理的文本——哪怕内容是假的。

怎么应对: 对事实性信息保持警惕,需要核验。把它当成“初稿生成器”,而不是“百科全书”。

局限二:真正的数学计算

它能做一些简单的数学,但本质上是“文字推理”而非“计算”。

表现

  • 两位数加减乘除:通常正确
  • 多位数乘法:容易出错(如果不用代码或思维链辅助,直接预测答案时容易出错)
  • 复杂计算(如微积分):基本不行

原因: 它没有内置的计算器。它是通过“见过的计算例子”来“猜”答案。多位数乘法的组合空间太大,它无法靠记忆覆盖。

怎么应对: 让它写代码来算(它擅长写计算代码),或者直接用计算器。

局限三:没有真正的“理解”

这是最根本的局限。

表现

  • 它不懂“因果关系”,只会“相关性”
  • 它没有“意图”和“意识”
  • 它不能“体验”情感,只能“模拟”情感表达

例子

  • 你问:“如果我每天喝10升水会怎样?”
  • 它可能会回答:“喝水有助于健康……”(因为它见过“喝水好”的关联)
  • 但它并不知道“10升水会导致水中毒”——除非它在训练数据中见过类似表述。

原因: 它是一个统计模型,不是“通用人工智能”。它的输出是基于概率的,不是基于“真正理解”的。

局限四:知识截止与时效性

表现

  • 如果不联网,它的知识截止于训练数据的收集时间(例如GPT-4的知识截止到2023年)

  • 它不知道截止日期之后发生的事件、新闻、科研成果

原因: 训练一次成本极高,不可能每天重新训练。它就像一个“时空胶囊”——只记得过去的事。

怎么应对: 使用支持“联网搜索”的大模型产品,或者自己提供最新的上下文。

局限五:长程一致性与记忆

表现

  • 在一次对话中,如果对话太长,它可能会“忘记”前面的内容
  • 关闭对话后,它完全不记得你
  • 它没有“长期记忆”(除非通过外部向量数据库等方案实现)

原因: 每个模型的“上下文窗口”是有限的(比如4K、128K、1M tokens)。超出窗口的内容,它就“看不到”了。

局限六:安全与偏见

表现

  • 它可能生成带有偏见、刻板印象的内容(因为训练数据本身就包含这些)
  • 虽然经过了RLHF对齐,但攻击者可以通过“越狱提示”绕过限制
  • 它可能被用于生成垃圾邮件、虚假信息、钓鱼内容

原因: 模型是训练数据的“镜子”。数据有偏见,模型就有偏见。安全对齐也不是完美的。


3. 一张表总结

维度 能做(强项) 不能/弱(局限)
知识类 整合、摘要、提取信息 事实核验(会幻觉)、新知识(截止日期)
创意类 写作、头脑风暴、角色扮演 真正的原创性(本质是重组)
代码类 写代码、解释、调试 复杂系统设计、调试深层bug
数学类 简单算术、应用题推理 精确计算、复杂公式
逻辑类 常见逻辑推理 新颖逻辑结构、真正因果推理
记忆 单次对话中记住数万字 长期记忆、跨对话记忆
情感 模拟情感表达 真正的情感理解与体验
安全性 拒绝大部分有害请求 可能被越狱、可能带偏见
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐