一、初识大模型

人工智能的演进历程

人工智能的发展经历了多个阶段,从早期的符号主义到现代的深度学习。20世纪50年代,图灵测试和逻辑推理机奠定了理论基础。80年代专家系统兴起,但受限于计算能力和数据量。90年代机器学习逐渐成熟,支持向量机等算法广泛应用。2010年后,深度学习在图像识别、自然语言处理领域取得突破,GPU算力提升和大数据加速了这一进程。

作者提问:什么是图灵测试和逻辑推理机

图灵测试 (Turing Test)

图灵测试是由计算机科学先驱阿兰·图灵在1950年提出的一个思想实验,目的是评估机器是否能表现出与人类无法区分的智能行为。其核心思想是:

  1. 测试方式
    让一个人(评判者)通过文本界面同时与一台机器和一个人进行交流。评判者不知道哪个是机器,哪个是人。如果评判者无法可靠地区分两者,则认为该机器通过了图灵测试。

  2. 核心问题
    机器能否模仿人类的对话行为,使得其回应与人类无异?例如,机器需要处理模糊语言、幽默、错误等问题。

  3. 争议与局限性

    • 该测试仅关注外部行为,而非机器是否真正“理解”对话内容。
    • 一些哲学家(如约翰·塞尔)提出“中文房间”思想实验质疑其有效性。
    • 现代聊天机器人(如ELIZA)虽能模拟简单对话,但多数不具备深层推理能力。

逻辑推理机

逻辑推理机是一种能够自动执行形式化逻辑推理的系统。其目标是:

  1. 核心功能
    根据给定的前提(公理或事实)和推理规则,自动推导出新的结论。例如:

    • 若已知 $A \to B$ 和 $A$,则推出 $B$(假言推理)。
    • 处理命题逻辑、一阶谓词逻辑或更复杂的系统。
  2. 实现方式

    • 定理证明器:如Coq、Isabelle,用于数学定理的形式化验证。
    • 专家系统:结合知识库与推理引擎,模拟人类专家的决策过程(如医疗诊断)。
    • 自动推理引擎:在程序验证、人工智能规划中应用。
  3. 局限性与挑战

    • 计算复杂性:一阶逻辑的完备推理是半可判定的,某些问题可能无限循环。
    • 知识表示:如何将现实世界知识转化为形式逻辑是一大难点。
    • 哥德尔不完备性:任何足够强的形式系统都存在无法证明的真命题。

两者关系与区别

  • 目标不同:图灵测试关注行为模仿,逻辑推理机关注内部推理机制。
  • 智能观差异:图灵测试持行为主义立场,而逻辑推理机体现符号主义人工智能路径。
  • 实际应用:现代AI系统(如大型语言模型)尝试结合两者——模仿对话行为的同时嵌入一定推理能力,但仍面临泛化性与可解释性挑战。

作者理解:

图灵测试:用人的感官去评判机器的外在表现(类似于面向对象)

逻辑推理机:用定义的一套逻辑去推导判别(类似于面向过程)

作者提问:什么是支持向量机?

你有一堆红豆和一堆绿豆,你的任务是在地上画一条线,把两种颜色的豆子分开。

🧠 核心思想:找到最宽的“马路”

  • 第一步:随便画条线

    刚开始,你可能会画一条线能把红豆和绿豆分开。但你会发现,这样的线其实可以画出无数条,斜着画、竖着画都可以。

  • 第二步:找到“最宽”的马路

    支持向量机(SVM)的聪明之处在于,它不满足于随便画一条线。它会想:“我要画一条线,让这条线的两边都留出尽可能宽的‘马路’。这样,即使有些淘气的豆子(新数据)稍微跑偏了一点,也不会跑错阵营。”这条最宽的“马路”的中间线,就是SVM要找的最优分界线

  • 第三步:谁是“支持向量”?

    那么,这条“马路”的宽度是由谁决定的呢?是由那些离分界线最近的、最难分的豆子决定的。这些处在“马路”边缘的、关键的豆子,就叫 “支持向量”​ 。整个分界线的位置,只由这少数几颗豆子决定,其他离得远的豆子怎么动都没关系。这也是它名字“支持向量机”的由来——由这些“支持向量”在支撑着这台分类机器。

🔄 应对复杂情况:把豆子吹起来(升纬,把复杂的简单问题拓展为复杂的简单问题)

有时候,豆子会混在一起,在地上无论如何也画不出一条直的线把它们分开。这时候SVM有个绝招:它像一个神奇的“吹风机”,会把所有豆子吹到空中。

  • 在空中,红豆和绿豆可能会停留在不同的高度,这时候SVM就能在空中找到一个平整的“板子”(这其实就是高维空间中的超平面),完美地把它们隔开。

  • 这个把数据从“地面”映射到“空中”的巧妙方法,就叫做 “核技巧”​ 。它让SVM有能力处理非常复杂的、非线性的分类问题

大模型与通用人工智能的认知

为了帮助你更直观地把握两者的核心异同,下表从认知的关键维度进行了对比。

认知维度

大模型 (如 ChatGPT, 文心一言)

通用人工智能 (AGI) 目标

任务范围

擅长处理基于训练数据的、有限的任务,尤其是在语言理解和生成方面表现卓越。

目标是像人一样完成无限的任务,并能自主发现和定义新任务。

驱动方式

数据驱动。依赖海量数据进行模式匹配和统计概率计算,本质上是“大数据,小任务”的“鹦鹉范式”。

价值与因果驱动。由内在的价值体系和目标驱动,能够进行因果推理,即“小数据,大任务”的“乌鸦范式”。

学习模式

主要基于大量标注或未标注数据进行预训练,需要人类提供大量示例。

强调自主学习和持续进化,能像人一样从少量经验中举一反三,适应新环境。

交互与协作

优秀的人机交互接口,但主要是被动响应指令。

能够像智能体一样主动感知环境,并与人类或其他智能体进行有效的协作。

可解释性

“黑箱”特性显著,决策过程不透明,难以解释其生成内容的内在逻辑。

追求决策过程的透明可解释,能够建立与人类之间的信任关系。

主流大模型的介绍

主流大模型正在推动人工智能的发展,下面这个表格能帮你快速了解几个代表性模型的核心特点。

模型名称

主要开发者/机构

核心特点

典型应用场景

GPT系列

OpenAI

生成能力强,擅长文本创作、对话;采用解码器(Decoder-only)​ 架构

通用聊天、内容创作、代码生成

DeepSeek系列

深度求索

强大的数学推理代码能力;支持长上下文(如128K Tokens)

学术研究、编程辅助、复杂逻辑推理

混元模型

腾讯

采用混合专家(MoE)​ 架构,优化计算效率;与腾讯丰富业务场景深度结合

社交、游戏、内容等腾讯生态内应用

通义千问

阿里巴巴

强调多模态能力(理解与生成图文、音频等);电商场景优化

电商智能客服、多媒体内容处理

文心一言

百度

知识增强,产业级应用;在中文理解上有深度优化

企业级解决方案、中文语义理解

豆包

字节跳动

面向普通用户的AI助手,注重用户体验成本控制

日常问答、写作辅助、创意生成

💡 理解大模型的“计数原理”:Token

大模型处理和“计数”文本的基本单位是 Token。你可以把它理解为一种“语义积木”,模型通过将文本拆成Token序列来理解和生成语言。

  • Token是什么:一个Token可以是一个字、一个词、单词的一部分或一个标点。例如,“人工智能”这个词,在不同模型里可能被拆成1个或2个Token。

  • 中英文差异:由于语言结构不同,中文通常比英文消耗更多Token。比如,一个汉字可能对应1-2个Token,而一个英文单词通常只对应1个多Token。这也是为什么处理同样篇幅的文字,中文的成本可能会更高。

  • 如何计费:大模型API服务通常按Token使用量计费,费用基于输入Token(你的问题)和输出Token(模型的回答)总量计算。

🔧 支撑大模型的核心技术

除了表格中的模型特点,还有一些关键技术共同塑造了模型的能力:

  1. 模型参数:参数是模型内部的变量,其数量如同模型的“脑容量”。参数量越大,模型能存储和学习的知识通常越丰富,处理复杂任务的能力也可能越强。

  2. 上下文长度:这决定了模型单次处理能“看到”多长的文本。更长的上下文意味着模型能更好地理解长文档、维持长对话的连贯性。

  3. 混合专家(MoE)架构:这是一种高效的设计,模型内部有多个“专家”网络。处理任务时,系统只激活相关的少数专家,而不是动用全部参数,从而在保持强大能力的同时大幅提升计算效率。DeepSeek-V3腾讯混元等都采用了这种架构。

💡 大模型的价值与AGI的挑战

大模型的技术突破

Transformer架构的出现(2017年)是重大转折点,其自注意力机制解决了长距离依赖问题。预训练-微调范式(如BERT/GPT)通过海量无监督数据学习通用表征,再适配具体任务。模型规模呈指数增长:GPT-3(2020)达1750亿参数,PaLM(2022)突破5400亿。多模态模型如CLIP、DALL-E实现了跨模态理解与生成。

作者提问:Transformer是什么?

Transformer是在2017年由Google团队在论文《Attention Is All You Need》中提出的一种架构,Transformer架构的提出,直接催生了当今如雷贯耳的大语言模型时代,

不仅如此,Transformer的应用范围已远超文本,进入了计算机视觉、语音识别甚至生物信息学等领域,成为了真正意义上的通用架构。

当然,Transformer也面临挑战,比如其自注意力机制在处理极长序列时计算开销较大(复杂度随序列长度平方增长)。研究人员正致力于改进,例如开发更高效的注意力变体。

Attention Is All You Need》这篇论文以后做解读。

如果你能开发出更牛的,应该能名垂青史。

关键技术特征

  • 规模化效应:模型性能随参数增加呈现幂律提升
  • 涌现能力:超过临界规模后产生零样本学习等新能力
  • 思维链(CoT):通过分步推理提升复杂任务表现
  • 对齐技术:RLHF等方法优化人类偏好对齐

应用场景扩展

自然语言处理领域实现对话系统(ChatGPT)、代码生成(Copilot)等突破。计算机视觉出现Stable Diffusion等生成模型。科学计算中AlphaFold解决蛋白质结构预测。企业应用涵盖智能客服、文档摘要、设计辅助等场景。

当前挑战与方向

算力需求导致高碳排放与资源门槛。幻觉问题影响可靠性评估。持续研究方向包括:

  • 模型压缩与高效推理
  • 可信AI与可解释性
  • 多模态认知架构
  • 具身智能与物理世界交互

人工智能演进与大模型兴起 :

- AI1.0:感知智能时代 (传统AI):通过传感器接收外部信息并作出简单反应,代表产品如早期图像识别、语音识别系统。
- AI2.0:认知智能时代 (现代AI):具备理解、推理、创造能力,代表应用为AIGC(生成式AI),如ChatGPT、AI绘画等。
- 同时强调了"人工智能的核心能力与应用场景",体现了AI从"工具"到"智能体"的转变。

大模型与通用人工智能认知 : 解释大模型与AGI(通用人工智能)的关系:

- 大模型深度认知解析 :从技术层面对大模型的本质进行拆解。
- 通用人工智能技术特征 :定义AGI的核心能力(如泛化学习、常识推理等)。
- 大模型与通用人工智能之间的联系 :说明大模型是实现AGI的重要路径。


二、大语言模型基础认知

大语言模型(Large Language Model, LLM)是人工智能领域的一项革命性技术,它通过在海量文本数据上训练深度学习模型,使计算机能够生成自然语言文本并理解语言含义。以下是从基础概念、技术原理到发展历程的全面认知框架。

1. 核心定义与特征

大语言模型是一种基于深度学习的自然语言处理模型,其核心特征体现在三个“大”上:

  • 参数规模大:参数量通常达数十亿至万亿级别。例如,GPT-3拥有1750亿参数,而GPT-4采用混合专家模型架构,参数总量高达1.8万亿。

  • 训练数据规模大:预训练需消耗海量数据。例如,GPT-3的训练数据量达45TB,但经过清洗后仅保留570GB高质量文本。

  • 算力需求大:训练过程需数千张高端GPU协同工作,成本高达数百万美元。

关键能力

  • 涌现能力当参数规模突破约650亿阈值时,模型会突然获得小模型不具备的能力,如编程、逻辑推理等。

  • 泛化能力:通过预训练学习语言通用规律,可灵活适应翻译、摘要、对话等多种任务,无需为每个任务单独设计模型。

2. 技术演进历程

大模型的发展可分为三个阶段,其关键突破均依赖于底层技术的革新:

阶段

时间跨度

核心技术

代表模型/事件

局限性

统计语言模型

2000s-2016

N-gram统计模型

ELIZA聊天机器人

无法处理长距离依赖关系

神经网络模型

2017-2020

Transformer架构

BERT、GPT-1/2/3

并行化能力受限

大模型时代

2021至今

自注意力机制

ChatGPT、多模态大模型

涌现能力突破

革命性突破——Transformer架构

2017年,Google提出Transformer架构,其核心创新在于:

  • 自注意力机制:动态计算词与词之间的关联权重,解决长距离依赖问题。

  • 并行化训练:摆脱循环神经网络的序列处理限制,大幅提升训练效率。

    这一架构成为GPT、BERT等现代大模型的技术基石。

3. 训练流程与关键技术

大模型的训练通常分为三个阶段,每一阶段对应不同的技术目标:

(1)预训练:学习语言统计规律
  • 目标:通过自监督学习,使模型掌握词汇、语法及语义规律。

  • 方法:采用掩码语言建模或自回归预测任务。例如,BERT通过预测被掩盖的词汇学习上下文关系。

  • 数据处理:需经过去噪、去重、隐私过滤等清洗步骤,仅高质量数据被保留。

(2)指令微调:对齐人类意图
  • 目的:让模型学会遵循指令,适应具体任务。

  • 方法:使用少量标注数据对预训练模型进行有监督微调。例如,DeepSeek通过1200万条指令数据覆盖文学、数学等36个领域。

(3)人类反馈强化学习:优化价值观对齐
  • 流程:收集人类对模型输出的评分→训练奖励模型→通过强化学习优化策略。

  • 作用:减少“幻觉”问题,使模型输出更符合人类偏好。

4. 当前局限与未来方向

尽管大模型展现出强大能力,仍面临以下挑战:

  • 幻觉问题:生成内容可能包含虚构事实。

  • 高能耗与成本:训练与推理需消耗巨大算力。

  • 推理能力有限:复杂逻辑推理和可解释性仍待提升。

未来重点方向

  • 轻量化与高效化:发展参数高效微调技术。

  • 多模态融合:处理文本、图像、音频的跨模态理解。

  • 通用人工智能路径:结合具身智能,实现与物理世界的交互。

5. 总结:大模型的技术本质

大语言模型的核心是以Transformer架构为基础,通过海量数据预训练获得语言通用知识,再经由指令微调与对齐技术适应具体任务。其技术范式实现了从“针对特定任务训练专用模型”到“通用基座模型+任务适配”的转变,成为推动人工智能迈向通用智能的关键引擎。

作者感兴趣的方向:

可成长智能体和智能体互联,我觉得这是人工智能的应用未来

理解可成长智能体及其互联互通的具体原理,确实能帮助我们看清AI技术发展的脉络。简单来说,可成长智能体让单个AI具备了“学习”和“进化”的能力,而智能体互联则让多个AI能够像团队一样协作,两者结合,极大地提升了解决复杂问题的潜力。

下面这个表格可以帮你快速抓住两者的核心区别与联系。

特性维度

可成长智能体 (Self-Evolving Agent)

智能体互联 (Agent Interconnection)

核心目标

单个智能体在运行中持续优化自身,实现“越用越聪明”

多个智能体能够通信与协作,共同完成复杂任务

实现原理

反馈循环(执行→评估→优化)​ 与记忆机制,如案例记忆库

通信协议与标准,如A2A协议中的智能体标签(Agent Card)和任务管理机制

关键技术

Planner-Executor循环、元提示(Meta-Prompt)优化、经验积累

A2A(Agent-to-Agent)、MCP(Model Context Protocol)等协议,以及数据空间治理

主要作用

提升智能体在特定任务上的准确性、适应性和鲁棒性

实现能力互补,完成单个智能体无法独立处理的跨领域、长周期任务

🔄 可成长智能体如何实现“进化”

可成长智能体的核心在于建立一个持续的自我优化闭环。其“进化”并非改变模型本身的参数,而是通过优化策略和积累经验来实现。

  1. 核心驱动:反馈循环:这是智能体进化的引擎。以处理一份文档为例:智能体(如一个文本摘要Agent)首先执行任务生成摘要。接着,一个评估器(可能是另一个LLM或一套规则)会对摘要打分,并提供定性反馈,如“摘要遗漏了关键细节”。如果分数不达标,优化模块便会介入。它可能会利用“元提示”技术,根据当前提示词、生成的摘要和反馈,自动重写出一版更优的提示词。之后,用新提示词生成的新摘要会再次进入评估环节,循环往复,直到产出满意结果。

  2. 经验固化:记忆机制:为了让智能体“吃一堑,长一智”,需要记忆模块。例如,Memento框架中的案例记忆库会存储成功的任务规划和解法。当遇到相似的新任务时,智能体会优先从记忆库中检索并借鉴历史方案,避免重复过去的错误,直接应用最佳实践。

🤝 智能体互联如何实现“协作”

单个智能体能力再强也有局限,互联协作能实现“1+1>2”的效果。这背后依赖一系列协议和标准。

  1. 通信的“通用语言”:接口协议

    • A2A协议:专注于智能体之间的直接对话。其核心是 “智能体标签”​ ,它像一张电子名片,清晰地描述了某个智能体具备什么能力、如何被调用。当一个智能体需要帮助时,它可以通过查询这些标签来发现合适的合作伙伴,并通过标准化的方式派发任务、跟踪进度和接收结果。

    • MCP协议:更侧重于智能体与外部工具和数据源的安全调用。它为标准化的工具调用提供了可能。

  2. 协作的“安全基石”:数据空间治理:当智能体跨组织协作,涉及敏感数据流转时,安全合规至关重要。数据空间理念被引入,它像一个配备了安检和监控的安全协作区。所有跨组织的数据请求都必须通过一个叫“连接器”的网关,在这里进行身份认证、合约审查,确保数据使用符合事先约定,并且全程可追溯。这为智能体在金融、医疗等敏感领域的应用提供了信任基础。

💎 总结与展望

总而言之,可成长智能体通过内在的反馈与记忆机制获得持续进步的个人能力,而智能体互联则通过外部的协议与治理框架将无数个体连接成高效的协作网络。

这两项技术正在深度融合,推动我们走向 “智能体互联网”​ 的未来。可以想象,一个高度进化的、负责市场分析的智能体,可以通过互联协议,直接、安全地将任务委托给另一个专精于数据可视化的智能体,共同完成一份复杂的商业报告。这种“成长”与“互联”的结合,将真正释放AI的生产力,使其成为我们更加强大和可靠的合作伙伴。


三、大模型行业赋能分析

大模型已从技术热词走向产业实践,其价值正通过重塑业务流程、优化要素配置在千行百业中显现。下面这个表格梳理了不同行业的赋能场景,帮你快速把握核心应用。

赋能路径

典型行业

核心场景与案例

关键价值

流程再造与效率提升

能源

国家管网大模型实现管网3800余个核心业务环节的智能闭环,保障供气稳定

提升效率、保障安全

制造

百度与中车集团的空气动力学仿真大模型,将高铁外形设计周期从数月缩短至数分钟

大幅缩短研发周期

决策优化与运营智能化

金融

某国有大行基于华为云盘古大模型打造千亿级金融大模型,夯实智能风控与认知决策基础

增强决策精准性

城市治理

百度文心大模型赋能北京海淀区“接诉即办”系统,提升派单和处置效率

优化公共资源调配

安全增强与人力解放

钢铁/矿业

中煤大海则煤矿实现固定岗位无人值守,采煤工人从“黑领”变“白领”

提升安全性、改变工作性质

工业制造

海康威视机械臂防撞摄像机结合大模型,准确检测人员滞留以避免碰撞

保障生产安全


四、大模型的发展趋势与挑战

大模型的发展正从技术狂热走向产业深耕,机遇与挑战并存。下面这个表格梳理了核心发展趋势与挑战,帮你快速把握全局。

发展趋势

核心挑战

推理能力突破:从知识记忆迈向逻辑推理与自主决策

技术瓶颈:算力芯片存在差距,高质量数据短缺

多模态融合:从纯文本处理迈向文本、图像、视频、音频的综合理解与生成

安全与对齐:“幻觉”输出、隐私泄露、恶意攻击等安全风险

智能体(Agent)普及:从“对话大脑”演进为能自主使用工具、执行任务的“手脚”

能源与成本:训练与推理耗能巨大,成本高昂

小型化与高效化:从盲目追求“大”参数到注重“能力密度”,轻量化模型降低成本门槛

治理与合规:全球治理规则碎片化,伦理对齐与合规挑战巨大

混合AI架构:云端公共大模型与终端私有模型协同,平衡能力与隐私

普惠与鸿沟:技术资源集中可能导致“智能鸿沟”加剧

让模型更好用的三个主要方法

主要有三个层层递进的核心方法:提示工程检索增强生成RAG 模型微调。它们就像是为模型配备的三样工具,分别解决了“如何清晰下达指令”、“如何补充最新知识”和“如何量身定制”的问题。

下面这个表格可以帮你快速把握它们的核心区别。

优化方法

核心逻辑

适用场景

技术门槛与成本

主要局限性

提示工程

通过优化输入指令来引导模型输出,无需改动模型本身。

快速验证想法、简单任务优化、作为其他方法的辅助手段。

极低,只需修改文字提示,适合立即上手。

无法让模型学会训练数据之外的新知识;复杂任务提示设计难度高。

检索增强生成

从外部知识库实时检索相关信息,将其作为上下文提供给模型,提升回答的准确性和时效性。

智能客服、企业知识库问答、需要最新信息的分析任务。

中等,需要构建和维护外部知识库(如向量数据库)。

依赖外部知识库的质量和检索精度;不适合为模型注入通用知识。(适合专家)

模型微调

使用特定领域的数据对模型参数进行训练,让模型从根本上掌握专业领域的知识和风格。

法律、医疗等专业领域应用;需要稳定输出特定风格或结构的内容。

较高,需要数据准备和计算资源,通常需要专业算法人员参与。

需要高质量的标注数据;训练有成本;可能导致模型“遗忘”部分通用知识。

💡 组合使用效果更佳

这三种方法并非互斥,而是可以协同工作,形成更强大的解决方案。最常见的组合是 “RAG + 微调”​ 。

  • 典型工作流:你可以先通过提示工程快速验证一个应用原型。然后,使用RAG为其接入公司的最新知识库,确保信息准确。最后,如果该应用需要处理大量专业术语或遵循特定行文规范,再对模型进行微调,使其成为该领域的真正专家。

  • 实例参考:例如,京东的JoyBuild平台就通过结合模型蒸馏、数据治理等多种技术,帮助企业将通用大模型转化为专业模型,实现了推理效率平均提升30%,训练成本降低70%的效果。


五、理解大模型的训练和推理

理解大模型的训练和推理,关键在于把它想象成一个在学习时“博览群书”、在工作时“妙笔生花”的系统。它的核心秘密在于其概率模型的本质,同时也正是这一本质划定了其能力的边界

下面这个表格可以帮你快速把握大模型训练与推理的核心对比。

对比维度

训练

推理

核心目标

让模型学习知识,掌握语言的内在规律和世界知识

利用训练好的模型执行具体任务,生成答案

工作性质

数据驱动,在海量数据中寻找统计规律

提示驱动,根据用户的输入(提示)进行计算和生成

数据依赖

需要海量的无标注或标注数据(TB甚至PB级别)

通常只需单条用户输入(一个问题或指令)

资源消耗

极高,需要成千上万个GPU/TPU,耗时数周甚至数月

相对较低,可在单个GPU或专业芯片上快速完成

关键活动

预训练、监督微调(SFT)、基于人类反馈的强化学习(RLHF)

文本生成、问答、翻译、内容总结等

💡 大模型的核心:概率模型

你可以把大模型理解为一个极其复杂的“下一个词预测机”。它的根本任务很简单:根据已经出现的所有词,计算出下一个最可能出现的词是什么

  • 工作原理:当你输入“天空是”时,模型并不会“思考”,而是进行一场复杂的概率计算。它会遍历其庞大的词汇表,计算每个词接在“天空是”后面的概率,例如:“蓝色的”概率85%,“灰色的”概率10%,“晴朗的”概率3%…… 然后,模型会根据一个叫“温度”的参数设置,从这个概率分布中选择一个词输出(比如选择了“蓝色的”)。

  • 生成式过程:接下来,它会将“天空是蓝色的”作为新的上下文,继续预测下一个词,如此循环往复,就生成了我们看到的流畅文本。因此,大模型本质上是一个概率生成模型,其所有看似智能的行为,都源于对海量文本数据中统计规律的建模和学习。

🎓 模型的“学习”过程:训练三阶段

大模型的训练是一个分阶段、逐步精炼的过程,目标是调整其数十亿甚至万亿的参数,使其预测的概率分布尽可能接近真实数据的分布。

  1. 预训练:构建知识基座

    • 这是最基础、最昂贵的阶段。模型在海量互联网文本(如网页、书籍、新闻,可达TB甚至PB级别)上进行训练,核心任务就是预测被掩盖的词预测下一个词

    • 通过这个过程,模型学会了语法、事实知识、一定的逻辑推理能力,以及语言的统计规律。这个阶段的产物是一个“基础模型”,它像一个掌握了通用知识但尚未确定专业方向的大学生。

  2. 监督微调(SFT):学习对话与指令遵循

    • 基础模型知识渊博,但可能不会很好地遵循人类的指令。这个阶段就是用高质量的指令-回答对数据集(由人类标注)来教模型如何“好好说话”,使其能更好地理解用户意图并给出有用的回答。

  3. 基于人类反馈的强化学习(RLHF):对齐价值观

    • 这是让模型输出更安全、可靠、符合人类偏好的关键一步。

    • 首先,训练一个“奖励模型”,让它学会判断哪个回答更好。

    • 然后,使用强化学习算法让模型学习生成能获得奖励模型高分的回答,同时避免模型为了得高分而偏离其原有知识。ChatGPT出色的对话能力就与RLHF技术的应用密不可分。

⚙️ 模型的“工作”过程:推理

当模型训练完成后,就进入了推理阶段,即为我们提供服务的阶段。

  • 自回归生成:推理时,模型接收你的提示(Prompt),然后基于训练中学到的概率分布,一步一步地生成文本,即每次预测下一个最可能的词,依次进行,直到生成完整的回答。

  • 解码策略:在生成每个词时,模型并非总是选择概率最高的词。为了平衡输出的准确性和创造性,会采用一些策略,如Top-k采样(从概率最高的k个词中随机选)或核采样,并通过温度参数来控制随机性的大小。

🚧 大模型的能力边界

正是其概率模型的本质,决定了大模型拥有强大能力的同时,也存在固有的局限性。

能力边界

具体表现与原因

“幻觉”与事实错误

模型可能会生成看似合理但完全虚构的内容。因为它的目标是生成“概率上合理”的文本,而非追求“事实真理”。当训练数据中存在偏见或信息缺失时,尤其容易发生。

逻辑推理缺陷

模型擅长模仿训练数据中常见的推理模式(思维链),但在处理需要深度数学、逻辑或长链条推理的复杂问题时,它是在进行“概率匹配”而非真正的符号推理。问题表述的微小变化就可能导致答案错误。

知识时效性

模型的知识截止于其训练数据的时间点,无法自动获取最新信息。解决此问题通常需要借助检索增强生成(RAG)​ 等技术,为其接入外部知识库。

复杂系统与长程推理的短板

模型擅长局部数据的统计与抽象,但在处理需要理解复杂系统内部因果、依赖长周期上下文进行推理的任务时,表现不佳。

💎 总结

简单来说,大模型是一个通过海量数据训练获得的、极其强大的概率预测系统。它的“智能”来源于数据中的统计规律。

希望这个从内到外的解释,能帮助你更清晰地理解大模型的工作原理。如果你对某个具体的技术细节(比如Transformer架构如何实现并行计算)或应用场景特别感兴趣,我们可以继续深入探讨。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐