在这里插入图片描述


简单来说, 大模型的参数可以理解为模型的“记忆”和“知识”,是模型在训练过程中通过学习数据而不断调整的“内部变量”

如果把大模型(比如GPT-3)比作一个人类的大脑,那么:

  • 1750亿参数就是大脑中1750亿个神经元突触的连接强度
  • 训练数据(比如互联网上所有的文本)就是这个人从小到大阅读过的所有书籍和文章。
  • 训练过程就是这个人通过阅读这些书籍,不断地调整神经元之间的连接强度,最终形成了自己的知识体系和思考能力。

下面我们从几个维度来详细拆解一下这个概念:

1. 参数的数学本质:可调整的旋钮

从数学和编程的角度看,大模型本质上是一个极其复杂的数学函数。这个函数可能有几千甚至上万亿个组成部分。

  • 参数就是这些组成部分中的系数权重。它们是些具体的数值。
  • 一开始,这些数值是随机的,所以模型什么也不会。
  • 然后,我们向模型输入海量数据,比如“中国的首都是北京”。
  • 模型会尝试输出一个答案。如果错了,我们就用一个优化算法告诉它:“你刚才的那个‘旋钮’拧得不对,稍微往这个方向调一点点,下次输出就能更接近正确答案。”
  • 经过无数次这样的调整(即在数千张显卡上训练数月),这1750亿个数值最终被调整到一个相对最优的状态。此时,模型的输出就变得非常准确和通顺了。

所以说,GPT-3的1750亿个参数,就是1750亿个经过精心调整的小数,它们共同编码了模型从海量数据中学到的“世界知识”和“语言规律”。

2. 一个直观的类比:线性函数

为了更直观地理解,我们来看一个最简单的数学公式: y = ax + b

这是一个线性函数,用来描述x和y之间的关系。

  • 这里的 ab 就是参数(一共2个参数)。
  • 如果我们要描述身高和体重的关系,a可能是斜率(比如每高1厘米,体重重多少公斤),b是截距(基础体重)。
  • 我们通过收集大量人的身高和体重数据,来计算出最合适的a和b的值。

现在,GPT-3做的事情,本质上和上面这个例子是一样的。只不过,它的输入(x)不是简单的身高,而是一个由成千上万个单词组成的序列;它的输出(y)是下一个最可能出现的单词。为了实现如此复杂的功能,它需要的参数不再是2个,而是1750亿个

3. 为什么参数越多越好?

参数的多少,直接决定了模型的容量

  • 容量小(参数少): 就像一个小书架,能装的书有限。模型只能学习到非常简单的规律,处理复杂问题时就会显得“笨笨的”。
  • 容量大(参数多): 就像一座巨大的图书馆,可以装下海量的书籍。模型能够记住和学习数据中极其细微、复杂的模式和知识。

GPT-3有1750亿参数,这意味着它有足够大的“容量”去存储互联网级别的语料中的知识。因此,它不仅能写诗、编程,还能做一些简单的逻辑推理,这都是因为它有足够多的“旋钮”来精细地调整自己的反应。

总结

  • 参数是什么? 是模型内部的、通过训练数据学习到的、用来决定模型行为的数值。可以理解为模型的“知识存储单元”。
  • 1750亿意味着什么? 意味着这个模型极其巨大,拥有极高的“容量”,能够学习非常复杂的模式,从而生成非常逼真和连贯的文本。它也是模型需要巨大算力(数千张显卡、数月时间)进行训练的根本原因。

可以说,在过去几年里,AI能力的巨大飞跃,很大程度上就是通过不断增加这个参数数量(从百万级到亿级,再到千亿级)来实现的。GPT-3的1750亿参数,正是这场“规模竞赛”中的一个重要里程碑。


结束语
Flutter是一个由Google开发的开源UI工具包,它可以让您在不同平台上创建高质量、美观的应用程序,而无需编写大量平台特定的代码。我将学习和深入研究Flutter的方方面面。从基础知识到高级技巧,从UI设计到性能优化,欢饮关注一起讨论学习,共同进入Flutter的精彩世界!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐