Chapter3：大语言模型基础 Part 9：能力的边界——缩放法则与模型幻觉

大语言模型的发展揭示了模型性能与参数量、数据量和计算资源之间的幂律关系（缩放法则）。研究发现模型规模达到阈值后会出现能力涌现现象，但也面临幻觉问题（生成错误或矛盾内容）。为解决这一问题，可采用检索增强生成（RAG）、多步推理验证和外部工具调用等方法。这些理论为智能体设计奠定了基础，下一阶段将转向实践应用。

のハス

739人浏览 · 2026-01-09 09:00:00

のハス · 2026-01-09 09:00:00 发布

本文是基于Datawhale的hello-agent开源项目做的一些笔记，内容仅供参考，原PDF以及代码可以去github仓库获取https://datawhalechina.github.io/hello-agents

在掌握了模型的原理、交互、分词和部署后，我们终于来到了理论层面的最后一站。
为什么现在的模型越来越大？为什么它们有时候会突然“开窍”学会推理，有时候又会一本正经地胡说八道？本篇将深入探讨支配大模型能力的缩放法则 (Scaling Laws) 以及它们目前最大的软肋——幻觉 (Hallucination)。

3.3 大语言模型的缩放法则与局限性

大语言模型 (LLMs) 在近年来取得了令人瞩目的进展。这些成就的背后，离不开对模型规模、数据量和计算资源之间关系的深刻理解。

3.3.1 缩放法则 (Scaling Laws)

缩放法则是近年来 LLM 领域最重要的发现之一。它揭示了模型性能与三个核心要素之间存在着可预测的幂律关系 (Power Law) ：

模型参数量 (Parameters)
训练数据量 (Data)
计算资源 (Compute)

简单来说，只要我们持续、按比例地增加这三个要素，模型的性能（通常用 Loss 衡量）就会平滑地提升，而不会出现明显的瓶颈。

关键修正：Chinchilla 定律

早期的研究盲目追求“越大越好”（增加参数量）。但 DeepMind 在 2022 年提出的 Chinchilla 定律 纠正了这一认知。

该定律指出，在给定的计算预算下，为了达到最优性能，模型参数量和训练数据量之间存在一个最优配比。

结论：最优的模型应该比之前认为的要小，但需要用多得多的数据进行训练。
影响：这一发现指导了后来的 Llama 等模型的设计——使用相对较小的参数量（如 7B, 70B）配合海量的高质量数据（Trillions of tokens），从而实现更高效的推理。

能力的涌现 (Emergent Abilities)

缩放法则最令人惊奇的产物是“能力的涌现”。

所谓涌现，是指当模型规模达到一定阈值（通常是数百亿参数）后，会突然展现出在小规模模型中完全不存在或表现不佳的全新能力。

例子：链式思考 (CoT)、指令遵循 (Instruction Following)、多步推理、代码生成。

💡 注解：
对于智能体开发者而言，涌现意味着选择一个足够大规模的模型（通常至少 7B 或 13B 以上），是实现复杂自主决策和规划能力的前提。小模型可能能聊得很好，但在逻辑规划上往往力不从心。

3.3.2 模型幻觉 (Model Hallucination)

尽管模型越来越强，但它有一个致命的缺陷：幻觉。
模型幻觉通常指的是大语言模型生成的内容与客观事实、用户输入或上下文不一致，简而言之，就是一本正经地胡说八道 。

幻觉的类型

事实性幻觉 (Factual Hallucinations)：生成与现实世界事实不符的信息。

例：告诉你是爱因斯坦发明了互联网。

忠实性幻觉 (Faithfulness Hallucinations)：在摘要或翻译时，未忠实反映源文本。
内在幻觉 (Intrinsic Hallucinations)：生成的内容与前面的输入直接矛盾。

为什么会产生幻觉？

幻觉的本质是模型过度自信地“编造”了概率最高的词，而非准确地检索。

数据源头：训练数据本身包含错误或偏见。
机制缺陷：自回归生成机制只预测下一个词，没有内置的“事实核查”模块。
知识过时：模型的知识截止于训练数据收集的那一天，无法回答最新的问题。

解决方案：如何缓解幻觉？

为了构建可靠的智能体，我们需要通过外部手段来弥补模型的不足：

检索增强生成 (RAG)：

这是目前最有效的方法。在生成回答前，先从外部知识库检索相关信息，作为上下文喂给模型。
作用：让模型“开卷考试”，基于事实回答。

多步推理与验证：

引导模型进行 CoT 推理，并要求它在每一步进行自我检查。

引入外部工具：

允许模型调用搜索引擎（获取实时信息）、计算器（精确计算）或代码解释器。
作用：这就是 Agent 的核心思想——用工具弥补模型能力的短板。

3.4 本章小结

本章介绍了构建智能体所需的基础知识，重点围绕作为其核心组件的大语言模型 (LLM) 展开。

核心知识点回顾

模型演进：

从 N-gram 统计模型到词嵌入。
从 RNN/LSTM 的循环记忆到 Transformer 的并行注意力机制。
详细拆解了 Transformer 的 Encoder-Decoder 架构及 Decoder-Only (GPT) 范式。

交互与实践：

提示工程：掌握了 Zero-shot, Few-shot, CoT 等激发模型潜能的技巧。
分词 (Tokenization)：理解了 BPE 算法及 Token 对上下文窗口和成本的影响。
本地部署：利用 Hugging Face 在本地运行了开源模型 Qwen。

生态与局限：

模型选型：对比了闭源 (GPT-4, Claude 3) 与开源 (Llama, Mistral) 模型的优劣。
缩放与幻觉：理解了数据与计算量的缩放法则，并认识到通过 RAG 和工具调用来解决幻觉问题的必要性。

下一步：从 LLM 到 Agent

这一章的学习主要是为了帮助大家更好地理解“大脑”是如何运作的。我们明白了：

为什么需要 Prompt Engineering？ -> 因为模型本质是概率预测，需要引导。
为什么 Agent 需要工具？ -> 因为模型有幻觉，且无法获取实时信息。
为什么 Agent 需要记忆？ -> 因为模型的上下文窗口有限，且没有长期记忆能力。

现在，我们已经准备好从理论转向实践。在下一章，我们将正式探索 智能体经典范式构建，将本章所学的知识应用于实际的智能体设计之中。

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

马尔可夫向量自回归模型（MSVAR）相关探索

cover

论文开题“黑科技”：书匠策AI如何让你的研究赢在起点？

cover

A2UI协议，打破Agent交互壁垒，让智能系统自主“搭建”界面

所有评论(0)

查看更多评论

のハス

已为社区贡献15条内容