本篇笔记内容

1、学习本节课需要的前置知识

  • 了解大模型的训练过程:预训练、后训练、强化学习(2024年生成式AI导论前8讲)
  • 了解基础机器学习、深度学习概念(如transformer)(2021年机器学习课程)

2、本节课的大纲

  • 大模型有怎样的行为:
    • 思考reasoning
    • 使用工具(deepreasearch、使用浏览器、询问人类反馈)
  • 运作机制:
    • 人类给定输入,大模型给输出(输入输出可以是文字、语言、图片)
    • 生成式AI的基本原理——文字接龙
      • 根据给定的一串token,决定下一个token
      • 输入给定的token,确定输出的一串token,哪个token的概率最大。因为有概率的参与,所以一模一样的输入也会有不一样的输出。
      • 为什么需要深度学习?不精准的比喻是,深度学习可以把输入拆解成为多个步骤,因此相较于一次性计算所有数据,深度学习多层计算拆开后减少运算量,比较简单。
  • 模型是怎样产生出来的
    • 神经网络包含“架构”和“参数”两部分,其中架构包含如“神经网络有多少层”等,是人为定义好的,一般说工程师调参就是调整架构。(能调整的架构参数,就叫做超参数。参数,则模型是需要通过训练资料学习的)
    • 找出参数过程,就是模型训练,需要大量语料

零、前置准备&课程大纲

一、有什么行为

1)大模型会推理

2)大模型会使用工具

  • deep research
  • 使用浏览器(操作电脑 open ai operator)
  • 询问人类反馈

二、运作机制

1)给定输入,有输出

输入输出都可以是很复杂的东西,比如文字、图片、声音

2)生成式AI的基本原理——文字接龙

给定一串token,决定下一个token

输入给定的token,输出一串概率分布,确定输出的一串token,哪个token的概率最大。因为有概率的参与,所以一模一样的输入也会有不一样的输出。

为什么需要深度学习,不精准的比喻是,深度学习可以把输入拆解成为多个步骤,因此相较于一次性计算,深度学习比较简单。

如果深度学习的层数不够,也可以用前一个深度学习的输出作为下一个深度学习的输入

三、模型是怎样产生出来的

神经网络包含“架构”和“参数”两部分

其中架构包含如“神经网络有多少层”等,是人为定义好的。

一般说工程师调参就是调整架构。

能调整的架构参数,就叫做超参数。参数,则是模型需要通过训练资料学习的。

找出参数过程,就是模型训练

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐