【李宏毅机器学习2025春】笔记——1.一堂课搞懂生成式AI

RichardSchoolbag

765人浏览 · 2025-09-04 12:52:49

RichardSchoolbag · 2025-09-04 12:52:49 发布

01 课程概论——生成式人工智能技术突破与未来发展

1.有什么样的行为
- 1.1过去生成式ai用处及特点
  - 1.2如今生成式AI的特点
- 1.3 Ai Agent
2.运作机制
- 2.1 Generative AI基本原理
  - 2.1.1 基本单位
  - 2.1.2 生成策略
  - 2.1.3 如何决定下一个token
- 2.2 深度学习（DeepLearning）
  - 2.2.1 深度学习是什么
  - 2.2.2 机器的‘思考’也是另一种深度
  - 2.2.3 每层layer中的运作
3.如何被产生出来
- 3.1 类神经网络组成
  - 3.1.1 架构与参数
  - 3.1.2 如何找出参数
- 3.2 分类（Classification）问题
4.怎么赋予ai新的能力](#4怎么赋予ai新的能力)
- 4.1 机器的终身学习（Life-Long Learning）时代

1.有什么样的行为

1.1过去生成式ai用处及特点

在这里插入图片描述

特征：给机器输入一个问题（input），直接给出答案（output），输出可以为多种形式，如图中的文字、图片、视频、音频等.过去各个ai大多专精某个领域.

1.2如今生成式AI的特点

以ChatGPT o1，o3、DeepSeek、Gemini Flash为例，机器展现出“思考”（reasoning）的过程。在得出真正的output之前会进行如人类思考的过程，出演“脑内剧场”，思考多种路径及其走向，展现其对于问题不同角度看法。

1.3 Ai Agent

由于很多任务往往无法一步完成，需细化为多个步骤，未来AI的工作方式将不再局限于一问一答，可执行多个复杂的步骤的AI，我们称其为AI Agent.

部分ai具有的“Deep Research”功能，在问问题后会自行上网搜寻，且不是一搜寻便得出结果，其还会再次对自己提出问题，达到“Deep”的效果
ai不仅具备生成功能，还有操纵功能，例如其可以操作鼠标的移动和点击，因而其可以实现如预约等功能
开发机器学习模型基本步骤：训练一个模型后，根据其表现不断纠正和修改，如此反复.

2.运作机制

2.1 Generative AI基本原理

2.1.1 基本单位

生成式人工智能的输入和输出均可以是较复杂的信息，如文字、图片、语音等

基本原理：将输入转变为基本单位(token)

这些基本单位必须有限，如汉字的个数有限、构成图片的像素(pixel)由RGB构成也有限，声音讯号由取样点构成，同样有限。有限的token能组合出无限的可能

2.1.2 生成策略

根据输入的一串token，按照固定的次序依次生成 $y_i$ （也就是说， $y_1到y_{i-1}$ 也都是 $y_i$ 的输入）,输出以终止符结束.

2.1.3 如何决定下一个token

通过函数(function)f来构成类神经网络(neural network)，其输出为概率分布，再通过某些采样(sample)方式输出具体token，因而输入即使是一样的，输出也可能不同

2.2 深度学习（`DeepLearning`）

2.2.1 深度学习是什么

类神经网络就是把一个大的function拆解成多个函数（layer），每个layer的输入和输出都是一组向量（vector），因而类神经网络又叫作深度学习
深度学习可以把较为复杂的问题简化（以三个个位数相加为不太准确的比喻：三个数字相加可以产生10×10×10种可能，可以把他简化为两遍的两个数字相加，把可能性降低为10×10+19×10种）

2.2.2 机器的‘思考’也是另一种深度

“深度不够，长度来凑”（Testing Time Scaling）能解决layer层数不够的问题。类神经网络的深度是有限的，但是思考的过程可以是无限的，即使每次输入是一致的，仍能得到较好的结果。
、

2.2.3 每层layer中的运作

每层layer中又可细分成多个layer层。layer有两类，一类称作自注意力层（Self-Attention Layer），其可考虑全部输入再产生输出。另一类layer只对单个token进行深入思考。具有自注意力层的类神经网络又叫作Transformer。

3.如何被产生出来

3.1 类神经网络组成

3.1.1 架构与参数

类神经网络由架构（architecture/hyperparameter）和参数（parameter）构成，参数数量以billion为单位（7b模型/70b模型），参数数量是架构的一部分，参数数值须透过训练资料学习。用 $fθf_\theta$ 来表示类神经网络的参数

3.1.2 如何找出参数

找出参数等同于训练模型，通过训练资料找出能让 $fθf_\theta$ 最满足训练资料的 $θ\theta$ ，可理解为 $fθf_\theta$ 输出为概率分布（Possibility Distribution），找出 $θ\theta$ 让满足训练资料的token的分数值最高

3.2 分类（`Classification`）问题

生活中的很多情况都可以看作是分类问题：如信用卡侦测、垃圾邮件侦测、甚至下围棋也是
生成式ai可看作是一系列分类问题的集合，只是我们给定了其Prompt指定了其功能，因而在某种程度上不能够说是全新的技术

4.怎么赋予ai新的能力

4.1 机器的终身学习（`Life-Long Learning`）时代

让已经具备基本能力的通用模型担负某些任务不需要复杂技术，只需给其相关知识，这样模型便可读懂指令和知识，按照需求运作。在这种情况下，其参数是固定的，不会因为输入不同而永久改变。
若想使机器永久具备新能力，则需通过微调（Fine-tune）来改变参数，但若微调不当，则可能造成输出混乱。可以用（Model Editing）的方法，修改类神经网络的参数来手动修改参数。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

《ChatGLM-B微调：实现行业专属大模型的详细步骤》

准备行业专属数据集，需包含至少10万条高质量文本，格式为JSON或CSV，涵盖领域内常见问答、术语及场景。清洗数据去除噪声（如特殊字符、乱码），标准化文本格式（统一标点、大小写）。划分训练集（80%）、验证集（10%）和测试集（10%），确保数据分布均衡。配置训练参数：学习率设为2e-5，批次大小（batch size）为4，启用梯度裁剪（max_grad_norm=1.0）。启动训练循环，每50

2048 AI社区

Expect脚本实战：多条件匹配与防卡死技巧

在自动化测试和系统初始化中，我们常常使用 Expect 脚本来完成一系列交互操作，比如自动输入密码、监听输出并作出响应。然而，实际项目中可能遇到多步骤输出匹配的场景：只有在先匹配到某一行输出，再匹配到另一行输出时，才需要做出响应。同时，如果 “testX failed” 出现了，但 “set params error” 没有在合理时间内出现，不要卡死，而是打印警告并继续。这个写法的问题在于：如