为什么大模型会“撒谎“:幻觉问题的根源与解决之道!
本文从统计学和激励机制角度分析大模型幻觉问题。研究表明,幻觉并非模型bug,而是预训练阶段不可避免的统计必然,因为生成任务比分类任务更难。当前主流评测体系的"二元评分"机制(答对得分,答错或不答都得0分)实际上奖励了模型的"猜测"行为,而非鼓励"诚实表达不确定性"。解决之道在于改革评测体系,引入置信度目标或对错误答案的惩罚,从根本上改变对模型的激励导向。
简介
本文从统计学和激励机制角度分析大模型幻觉问题。研究表明,幻觉并非模型bug,而是预训练阶段不可避免的统计必然,因为生成任务比分类任务更难。当前主流评测体系的"二元评分"机制(答对得分,答错或不答都得0分)实际上奖励了模型的"猜测"行为,而非鼓励"诚实表达不确定性"。解决之道在于改革评测体系,引入置信度目标或对错误答案的惩罚,从根本上改变对模型的激励导向。

❝
一句话概括,本文是一篇对AI幻觉问题的“病理学分析报告”,它诊断出病因并非模型本身,而是整个行业的“激励机制”出了问题——幻觉是模型在当前“二元评分”体系下为了最大化得分而采取的最优策略,我们正在亲手把AI塑造成“高分低能的撒谎者”。(原论文题目见文末,点击阅读原文可直接跳转至原文链接, Published on arxiv on 04 Sep 2025, by OpenAI, Georgia Tech)
第一阶段:识别核心概念
论文的Motivation分析
当你正在使用一个智能助手,问它一个你不知道答案的问题,比如“著名物理学家费曼的结婚纪念日是哪天?”。这个助手没有直接说“我不知道”,而是编造了一个看似合理的日期,比如“6月29日”。这就是“幻觉”。
这篇论文的作者们观察到,即使是当今最顶尖的语言模型(LLMs)也普遍存在这种问题。这种“一本正经地胡说八道”的行为极大地损害了我们对AI系统的信任。如果一个模型连自己知识的边界都分不清,我们又怎能放心地在重要任务(如医疗咨询、法律分析)中使用它呢?
因此,论文的核心动机就是回答两个根本问题:
- 为什么语言模型会产生幻觉?这种行为是偶然的bug,还是系统内在的必然结果?
- 为什么尽管我们投入了大量精力去修复,幻觉问题依然顽固地存在?
作者们认为,只有从根本的统计学原理和系统性的激励机制上找到答案,才能真正地解决这个问题,而不是头痛医头、脚痛医脚。
论文主要贡献点分析
这篇论文的贡献是双重的,既有深刻的理论分析,也有极具实践意义的社会技术洞察。
- 主要创新点列表:
- 揭示了幻觉的统计学起源——论文石破天惊地指出,幻觉并非什么神秘现象,它本质上源于一个更基础的问题——二元分类(Binary Classification)的错误。它在理论上证明了,语言模型产生幻觉(一种生成任务的错误)是不可避免的,只要它无法完美地区分"有效"和"无效"的陈述(一个分类任务)。
- 解释了幻觉的持续存在——论文提出了一个"社会-技术"层面的解释。它认为,幻觉之所以顽固,是因为我们当前评估和衡量语言模型的方式存在根本性缺陷。现有的主流基准测试(Benchmarks)就像一场不惩罚错误答案的考试,这无形中奖励了模型的"猜测"行为,而不是鼓励它承认"不确定性"。
- 提出了一个系统性的解决方案——基于以上分析,论文没有提出一种新的模型架构或算法,而是建议改革现有的评测体系。通过在主流评测中引入明确的"置信度目标"或对错误答案的惩罚,来改变对模型的激励导向,从而引导整个领域朝向更值得信赖的AI发展。
- 支撑创新的关键技术/方法:
- 从生成到分类的"规约"(Reduction)——这是支撑第一个创新点的核心技术。作者巧妙地构建了一个名为"Is-It-Valid (IIV)"的虚拟分类问题,并证明了任何生成模型(如LLM)的生成错误率都有一个由IIV分类错误率决定的数学下限。这个理论工具将一个复杂的无监督生成问题,转化为了一个更容易分析的有监督分类问题。
- 对主流评测基准的元分析(Meta-analysis)——这是支撑第二个创新点的关键方法。作者没有自己做实验,而是"分析了别人的实验(评测)“,系统地审视了MMLU、GPQA等顶级评测基准的评分规则,用证据表明它们普遍采用"二元评分”,从而证实了"奖励猜测"这一论点。
- 显著性结果:
- 理论上的必然性——论文最重要的结果是,它从理论上证明了,对于一个经过良好训练(即"校准良好")的语言模型,在面对它知识范围之外的"任意事实"(如某个不知名人士的生日)时,产生幻觉是一种统计上的必然,而非偶然。
- 范式转移的呼吁——论文的另一个重大意义在于,它将解决幻觉问题的焦点从模型本身转移到了整个AI研究和评测的生态系统上。这是一种"范式转移",呼吁社区关注我们如何定义"好"模型,而不仅仅是如何构建模型。
理解难点识别
- 理解论文的关键概念/方法:
- 核心技术:从生成到分类的"规约"(Reduction)——这是全篇论文的理论基石,理解了它,就理解了幻觉的起源。
- 核心观点:评测体系的"激励失调"(Misaligned Incentives)——这是理解幻觉为何持续存在的关键,也是论文实践意义的体现。
- 最具挑战性的部分:**"规约"过程的数学推导**——为什么一个生成模型的错误率会和一个虚构的分类问题联系在一起?这背后的数学关系是如何建立的?Corollary 1 和 Theorem 1 中的公式是如何得出的?
- 需要重点解释的核心概念:
- "Is-It-Valid (IIV)"问题——这个虚拟的分类问题到底是怎么构建的?它和语言模型生成幻觉有什么关系?
- "规约"的逻辑——如何理解"生成任务比分类任务更难"这一核心思想,并将其与论文的数学证明联系起来。
概念依赖关系
这些概念之间的关系非常清晰,形成了一个完整的论证链条:
- 入口点:幻觉问题。
- 第一层解释(起源):为了理解幻觉(生成错误),我们引入一个更简单的**“Is-It-Valid”分类任务**。
- 核心连接(规约):通过数学证明,我们发现生成错误率被IIV分类错误率所限制。如果一个模型连判断对错都做不好,它自然也无法保证自己说的都是对的。
- 第二层解释(持续存在):我们发现,现有的评测体系只关心模型是否“答对”,而不在乎它是否“猜对”,这种激励失调导致模型倾向于去猜测,从而让幻觉问题在后训练阶段依然存在。
- 最终解决方案:改变评测体系的激励机制。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

第二阶段:深入解释核心概念
设计生活化比喻:伪造大师与艺术鉴定师
想象一个世界,里面有两种角色:
- 艺术伪造大师(Art Forger):他的任务是创作一幅能够以假乱真的名画赝品。这是一项生成任务,他需要从零开始,画出一幅看起来毫无破绽的作品。
- 艺术鉴定师(Art Authenticator):他的任务是判断一幅画是真品还是赝品。这是一项二元分类任务,他只需要给出一个“真”或“假”的结论。
成为一个顶级的伪造大师,和成为一个顶级的鉴定师,哪个更难?
答案显而易见:成为伪造大师更难。一个顶级的伪造大师,必须首先是一个顶级的鉴定师。他必须对自己要模仿的画作的每一个细节——从笔触、颜料成分到画布年代——都有着深刻的理解,这样才能骗过专家的眼睛。换句话说,他内心必须有一个完美的“分类器”,能够分辨出哪些特征是“真”的,哪些是“假”的。
如果一个人连真品和赝品都分不清(即他是一个很差的鉴定师),他绝无可能成为一个伪造大师。他画出来的东西,很可能漏洞百出。
这篇论文的核心思想与此完全一致:语言模型的生成任务(像伪造大师)比判断一个句子是否有效的分类任务(像鉴定师)要难得多。 如果一个模型在“判断”上做得不好,那么它在“生成”时就必然会犯错(产生幻觉)。
建立比喻与实际技术的对应关系
| 比喻中的元素 | 对应的技术概念 | 解释 |
|---|---|---|
| 伪造大师 | 语言模型 (LLM) | 都在执行一个复杂的“生成”任务。 |
| 创作赝品 | 生成文本(可能产生幻觉) | 伪造大师的目标是生成看似真实的作品,LLM的目标是生成看似真实(有效)的文本。 |
| 鉴定师 | “Is-It-Valid (IIV)”分类器 | 都在执行一个“判断真伪”的二元分类任务。 |
| 真品画作 | 有效的、真实的陈述集合 () | 这些是模型应该学习和生成的目标。 |
| 赝品画作 | 无效的、错误的陈述集合 () | 这些就是幻觉。 |
| 伪造大师的“翻车率” | 模型的幻觉率 () | 伪造大师创作出失败赝品的概率,对应模型生成幻觉的概率。 |
| 鉴定师的“失误率” | IIV分类器的错误率 () | 鉴定师把真品当赝品,或把赝品当真品的概率。 |
深入技术细节
“Is-It-Valid (IIV)” 问题的设置如下:
- 创建一个特殊的测试集:我们从**真实的、有效的文本()中抽一半样本,标记为“+”(真品);再从所有可能的错误文本()**中均匀随机地抽另一半样本,标记为“-”(赝品)。
- 把LLM变成一个分类器:任何一个LLM都能输出任意给定文本 的概率 。我们可以设定一个规则:如果 高于某个阈值(比如 ,即随机猜对一个错误的概率的倒数),我们就认为LLM在“预测” 是“+”(有效);反之,则预测为“-”(无效)。这样,LLM就摇身一变成了一个IIV分类器。
基于这个设定,论文给出了它们之间最核心的数学关系(以Corollary 1为例):
-
原始数学形式:
-
符号替换版本:
(模型的幻觉率) 2 * (作为鉴定师时的失误率) * (有效陈述与错误陈述的数量比例) - (一个小的校准偏差)
-
公式解读:
- ****——就是我们关心的,模型"胡说八道"的概率。
- ****——是把模型当作"鉴定师"时,它判断对错的失误率。
- ****——这是一个比例因子。对于某些问题,正确的答案只有一个,而错误的答案有无数个(比如一个人的生日),此时这个比例会很小。
- ****——代表模型的"校准误差"。一个校准良好的模型,它的 会非常小,可以忽略不计。预训练的目标之一就是让模型校准良好。
这个公式用数学语言精确地表达了我们的比喻:模型的幻觉率()有一个由其内在的“判断能力”()所决定的下限。
将技术细节与比喻相互映射
- 公式在比喻中的体现——“一个伪造大师的翻车率(),必然大于等于他作为鉴定师失误率()的两倍,再乘以一个反映市场上真品与赝品数量的系数,最后减去一个可以忽略的小偏差。”
- 比喻如何帮助理解技术——比喻让我们直观地理解了为什么 和 之间存在一个"大于等于"的不等式关系。因为生成(伪造)是一项要求更高的技能,它内在地包含了判断(鉴定)的能力。
- 数学概念在比喻中的对应—— 高意味着这个鉴定师眼光很差,经常看走眼; 高意味着这个伪造大师手艺不行,经常画出失败的作品; 表明眼光差的鉴定师,手艺肯定不行,他的翻车率被他的失误率牢牢地限制住了。
- 比喻的局限性——比喻很难直观地解释公式中的常数"2"和比例因子 。这些是数学推导的精确结果,而比喻主要用于建立核心逻辑的直观理解。
总结
通过“伪造大师与鉴定师”的比喻,我们成功地将论文最核心的理论——从生成到分类的规约——变得通俗易懂。
- 核心联系:语言模型(伪造大师)生成有效文本的能力,受限于它区分有效与无效文本的能力(作为鉴定师的能力)。
- 关键数学原理总结:模型的幻觉率() 不可能低于其内在的判断失误率()。对于那些判断本身就很困难的任务(比如分辨没有规律的任意事实), 必然很高,因此模型产生幻觉()也就在所难免。这揭示了幻觉的统计学根源,它不是一个bug,而是在现有训练范式下一个统计上的必然结果。
第三阶段:详细说明流程步骤
这个流程可以分为两大阶段:
- 第一阶段:幻觉的起源——预训练(Pre-training)中的“无心之失”
- 第二阶段:幻觉的固化——后训练(Post-training)与评测中的“激励扭曲”
流程详解
第一阶段:幻觉的起源 (预训练)
在这个阶段,语言模型的目标是从海量的文本数据中学习语言的统计规律。我们假设输入的训练数据都是高质量、无事实错误的。
- 输入:一个巨大的、事实基本准确的文本语料库(例如维基百科、书籍、网页等)。
- 处理过程:学习成为一个"世界知识的压缩器"
- **Step 1: 密度估计 (Density Estimation)**——模型的目标是学习文本的概率分布 。简单来说,就是模型要学会判断什么样的句子是"正常的"、“常见的”,并给它们打高分(高概率);什么样的句子是"不正常的"、“罕见的”,并给它们打低分(低概率)。比如 “天空是蓝色的” 概率就很高,而 “天空是绿色的” 概率就很低。
- **Step 2: 统计压力的产生 (The Emergence of Statistical Pressure)**——此时,论文的核心理论开始发挥作用。虽然模型只是在学习"什么话听起来更像人话",但它不可避免地会面临一些"硬骨头"任务。举例:任意事实的学习。比如语料库中提到了"亚当·卡莱的生日在秋天",但没有具体日期。对于模型来说,“亚当·卡莱的生日是10月26日"和"亚当·卡莱的生日是10月27日"这两句话,在语言结构上都非常"正常”。
- Step 3: 隐式的"Is-It-Valid"分类挑战——正如我们第二阶段分析的,模型在试图生成正确文本时,其实也在隐式地解决一个"Is-It-Valid"的分类问题。对于生日这个问题,正确的答案只有一个(集合大小为1),而 plausible 的错误答案有364个(集合大小为364)。这是一个极其困难的分类任务,因为数据中没有足够的信息来让模型学会区分这365个选项。这就像让一个鉴定师在没有任何参考资料的情况下,从365幅极其相似的画中找出唯一真品。
- Step 4: “分类失败"导致"生成失败”——由于IIV分类任务的错误率 在这个问题上必然很高,根据核心公式 ,模型的生成错误率 也必然会很高。模型为了最小化整体的预测误差,它会倾向于给所有这些"看似合理"的生日日期一个差不多的、不高不低的概率。当被强制要求给出一个具体答案时,它就会从中随机采样一个,结果就是幻觉。
- 输出:一个预训练好的基础模型。这个模型对语言有深刻的理解,知识渊博,但由于上述统计原因,它已经内在地、不可避免地会产生幻觉。这是一种"原罪"。
第二阶段:幻觉的固化 (后训练与评测)
预训练模型虽然强大,但还不太“听话”。后训练阶段(如指令微调、RLHF)的目标是让模型更好地理解和遵循人类的指令,变得更有用、更安全。人们也希望通过这个阶段减少幻觉。但论文指出,事与愿违。
- 输入:上一阶段产生的、已经会产生幻觉的预训练模型;人工标注的指令-回答数据,以及人类对模型回答的偏好反馈。
- 处理过程:在"考场"规则下被异化
- **Step 1: 对齐人类偏好 (Alignment)**——通过指令微调和RLHF等技术,模型被训练得更倾向于生成人类喜欢的回答。这在很大程度上提高了模型的有用性,并减少了一些明显的、低级的幻觉。
- Step 2: 进入"考场"——面向基准测试的优化——AI公司和研究者如何判断一个模型比另一个更好?他们会让模型去"考试",也就是在各种标准化的基准测试(如MMLU, GPQA)上跑分。模型的性能直接与它在这些排行榜上的得分挂钩。
- Step 3: 分析"考试规则"——二元评分体系 (Binary Grading)——论文的核心洞察来了:绝大多数主流考试的规则是**“答对给1分,答错或不答(说’我不知道’)都给0分”**。举例:问模型一个难题,它有30%的把握答对。策略A(承认不会,回答"我不知道")得分:0分;策略B(大胆猜测,给出它认为最可能的答案)得分期望值:分分分。
- Step 4: 模型学习"最优应试策略"——在这种"不回答就没分,猜一下或许有分"的规则下,最优策略就是永远不要说"我不知道",永远要猜一个最可能的答案。因为模型在RLHF阶段就是被不断优化的,以最大化在类似评估中的"奖励"(得分),所以它会逐渐学会并固化这种"应试"行为模式。
- Step 5: “应试策略"等于"幻觉行为”——这种在不确定时选择猜测而不是承认不确定的行为,在现实世界中,就是我们所说的幻觉。模型并非"有意"撒谎,它只是在执行一个在当前评测体系下能够获得最高分数的策略。
- 输出:一个经过后训练的、对用户指令响应良好,但在知识边界处被训练得更倾向于"自信地猜测"而不是"诚实地承认不知"的语言模型。幻觉问题不仅没有被根除,反而在某种程度上被现有评测生态系统"鼓励"和"固化"了。
第四阶段:实验设计与验证分析
1. 主实验设计解读:核心论点的验证
- 核心主张1:幻觉起源于预训练的统计必然性。
- "实验"设计——这里的"实验"是理论推导。作者通过将复杂的语言生成问题"规约"到一个简单的"Is-It-Valid"二元分类问题,并建立两者错误率之间的数学关系(如Theorem 1和Corollary 1),来证明这一主张。
- 合理性分析——数据集:理论推导不依赖特定数据集,而是建立在一个通用的概率模型上,这使其结论具有普适性。评价指标:(生成错误率)和 (IIV分类错误率)是直接衡量问题核心的理论指标。基线方法:隐性的基线是一个"从不犯错"的理想模型。理论证明了在某些条件下,任何现实的模型都无法达到这个理想基线。
- 实验结论——对于那些内在困难(IIV分类错误率高)的问题,任何经过良好校准的预训练模型都必然会产生幻觉。这个结论是数学上的,而非经验上的,因此非常有力。
- 核心主장2:幻觉的持续存在是由于当前评测生态的激励失调。
- "实验"设计——这是一个元分析(Meta-analysis),作者系统地调研了社区中最具影响力的评测基准和排行榜。具体研究对象在论文的Table 2和附录F中有详细列出。
- 合理性分析——数据集(即评测基准):作者选择了如GPQA、MMLU-Pro、SWE-bench、WildBench等,这些都是领域内公认的、被顶级AI公司和研究社区广泛用于衡量模型能力的**黄金标准 (Benchmark)**。选择它们是合理的,因为正是这些基准在引导着模型优化的方向。评价指标:作者使用的"元评价指标"是:“是否为二元评分 (Binary grading)“和"是否为’我不知道’(IDK)提供任何分数 (IDK credit)”。这两个指标直接命中了论文要探讨的核心问题——评测是否在惩罚不确定性。基线方法:这里的基线是一个理想的、能够奖励诚实表达不确定性的"对齐的评测体系”。
- 实验结论——分析结果显示,绝大多数(10个里有9个)主流评测基准都采用严格的二元评分,并且不给"IDK"任何分数(见Table 2)。WildBench虽然不是严格的二元评分,但其评分细则也可能给"IDK"打出比一个有小错误的回答更低的分数。这个强有力的证据直接支撑了论文的核心论点:我们现有的"考场规则"确实在系统性地奖励"猜测"(幻觉),惩罚"诚实"(不确定性)。
2. 消融实验分析:内部组件的贡献
传统意义上的消融实验在这篇论文中并不存在。但我们可以把作者的思想实验看作是一种概念上的“消融研究”。
- "消融"的关键设计——作者的核心提议是修改评测体系。我们可以设想一个思想实验,即"消融"掉当前评测体系中的**“二元评分”**机制。
- 对应的创新点——这直接对应了论文的核心贡献——识别出评测体系是导致幻欠持续存在的关键因素。
- "实验"结果的预测——根据论文的逻辑,如果我们将二元评分替换为一个带有"明确置信度目标"(例如,错误答案扣分)的评分系统,那么:模型的"最优应试策略"将从"永远猜测"变为"仅在有足够把握时回答";为了在这种新规则下获得高分,模型开发者将被激励去训练那些能够更好地评估自身不确定性,并诚实地表达出来的模型;最终,幻觉行为会因为不再是"得分最优策略"而得到显著抑制;这个思想实验雄辩地证明了**"二元评分"这个组件对于幻觉的持续存在是"必要"的**,移除它将从根本上改变游戏的激励机制。
3. 深度/创新性实验剖析:洞察方法的内在特性
作者通过一系列精妙的**案例研究(Case Study)**来提供对其理论的深刻洞见。这些案例就像物理学中的关键实验,用最简洁的方式揭示了深刻的原理。
- 案例研究1:亚当·卡莱的生日(Arbitrary Facts)
- 实验目的——展示在**知识缺失(Epistemic Uncertainty)**的情况下,幻觉是如何产生的。
- 巧妙设计——这个问题选择得非常好。一个非公众人物的生日是一个任意事实,它与其它日期之间没有任何逻辑关系或可学习的模式。模型无法"推理"出答案,只能依赖于记忆。如果训练数据中没有,模型就真的不知道。
- 实验结论——模型输出了多个错误的日期。这完美地印证了理论:当IIV分类任务(从365个日期中选一个)因信息缺失而变得不可能时,模型就会被迫产生幻觉。
- 案例研究2:数字母’D’的数量(Poor Models)
- 实验目的——展示即使信息是完备的(答案可以从问题中直接推导),模型的内在表示能力或推理能力的缺陷也会导致幻觉。
- 巧妙设计——"How many Ds are in DEEPSEEK?“这个问题对人类来说很简单。但对于一个以"词块”(token)而非单个字母(character)为基本单位的语言模型来说,这可能是个难题。
DEEPSEEK可能被拆分成D,EEP,SEE,K等词块,模型很难直接在这些词块上执行精确的字母计数。 - 实验结论——模型给出了"2"或"3"等错误答案。这揭示了幻觉的另一个来源:模型的能力瓶颈。即使答案在逻辑上是确定的,如果模型的"架构"或"算法"不适合解决这类问题,它仍然会"计算错误"并产生幻觉。
- 案例研究3:密码学解密(Computational Hardness)
- 实验目的——提供一个幻觉不可避免的理论上限。
- 巧妙设计——作者在附录D中构建了一个场景:要求模型解密一段用强加密算法加密的信息。如果一个模型能够零幻觉地完成这个任务,即总是能给出正确的明文,那么它就相当于破解了一个公认的"计算上不可能"的密码学难题。
- 实验结论——这雄辩地证明了,要求模型在所有问题上都零幻觉,等同于要求它解决超越现代计算能力的难题。因此,一定程度的"我不知道"不仅是可接受的,更是理论上必须的。
如何系统的学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K(数据来源:BOSS直聘报告)
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
02.大模型 AI 学习和面试资料
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)






第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐


所有评论(0)