大模型笔记1——李宏毅《2025机器学习》第一讲

摘要：本文介绍了大模型的基本原理与运作机制。主要内容包括：（1）大模型的行为特征，如推理能力、工具使用（DeepResearch、浏览器操作）和人类反馈获取；（2）生成式AI的核心原理"文字接龙"机制，通过概率分布预测下一个token；（3）深度学习的分层计算优势；（4）神经网络由架构（人为设定）和参数（训练获得）组成，其中可调的架构参数称为超参数。文章还提到学习大模型需要预训

鲸鱼在dn

510人浏览 · 2025-08-02 18:35:09

鲸鱼在dn · 2025-08-02 18:35:09 发布

本篇笔记内容

1、学习本节课需要的前置知识

了解大模型的训练过程：预训练、后训练、强化学习（2024年生成式AI导论前8讲）
了解基础机器学习、深度学习概念（如transformer）（2021年机器学习课程）

2、本节课的大纲

大模型有怎样的行为：
- 思考reasoning
- 使用工具（deepreasearch、使用浏览器、询问人类反馈）
运作机制：
- 人类给定输入，大模型给输出（输入输出可以是文字、语言、图片）
- 生成式AI的基本原理——文字接龙
  - 根据给定的一串token，决定下一个token
  - 输入给定的token，确定输出的一串token，哪个token的概率最大。因为有概率的参与，所以一模一样的输入也会有不一样的输出。
  - 为什么需要深度学习？不精准的比喻是，深度学习可以把输入拆解成为多个步骤，因此相较于一次性计算所有数据，深度学习多层计算拆开后减少运算量，比较简单。
模型是怎样产生出来的
- 神经网络包含“架构”和“参数”两部分，其中架构包含如“神经网络有多少层”等，是人为定义好的，一般说工程师调参就是调整架构。（能调整的架构参数，就叫做超参数。参数，则模型是需要通过训练资料学习的）
- 找出参数过程，就是模型训练，需要大量语料

零、前置准备&课程大纲

一、有什么行为

1）大模型会推理

2）大模型会使用工具

deep research
使用浏览器（操作电脑 open ai operator）
询问人类反馈

二、运作机制

1）给定输入，有输出

输入输出都可以是很复杂的东西，比如文字、图片、声音

2）生成式AI的基本原理——文字接龙

给定一串token，决定下一个token

输入给定的token，输出一串概率分布，确定输出的一串token，哪个token的概率最大。因为有概率的参与，所以一模一样的输入也会有不一样的输出。

为什么需要深度学习，不精准的比喻是，深度学习可以把输入拆解成为多个步骤，因此相较于一次性计算，深度学习比较简单。

如果深度学习的层数不够，也可以用前一个深度学习的输出作为下一个深度学习的输入

三、模型是怎样产生出来的

神经网络包含“架构”和“参数”两部分

其中架构包含如“神经网络有多少层”等，是人为定义好的。

一般说工程师调参就是调整架构。

能调整的架构参数，就叫做超参数。参数，则是模型需要通过训练资料学习的。

找出参数过程，就是模型训练

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

cover

Coze开发AI翻译应用

cover

LangGraph 入门

演练：使用VB开发多智能体协作的荣格八维分析器在大

荣格八维理论是心理学家卡尔·荣格提出的认知功能理论，后发展为多个分支，其中人气较高的是 MBTI。该理论认为人的认知功能可以分为八种，在不同的位置中担任不同的原型。这些功能随着人的成长而发展，并且具有先天性。通过这个项目，我展示了如何使用 Visual Basic .NET 构建一个复杂的多智能体协作系统。强制工作流：通过硬编码待办事项列表确保分析按预期顺序进行，部分子智能体会强制调用指定的工具具

所有评论(0)

查看更多评论

鲸鱼在dn

已为社区贡献3条内容