AI大模型Transformer架构教程:从零基础到精通,程序员提升必备,这一篇就够了!
文章详细解析了AI大模型的反向更新过程,包括正向传播(模型预测)和反向传播(参数调整)两个核心阶段。通过梯度下降算法,模型不断调整权重和偏置,减少预测值与目标值间的交叉熵损失。学习率作为关键超参数控制更新步长,影响模型收敛速度与性能。整个过程类似于人类学习解题思路的反复迭代,最终使模型掌握解决问题的能力。
文章详细解析了AI大模型的反向更新过程,包括正向传播(模型预测)和反向传播(参数调整)两个核心阶段。通过梯度下降算法,模型不断调整权重和偏置,减少预测值与目标值间的交叉熵损失。学习率作为关键超参数控制更新步长,影响模型收敛速度与性能。整个过程类似于人类学习解题思路的反复迭代,最终使模型掌握解决问题的能力。
反向更新在干啥?
其实就是我们上学一直做的事情一样,做题–对答案–调整做题思路–再做一次–再对答案,一直反复这个过程,知道把题做对了。
我们学习到了什么?
我们其实学习的是解题思路,大模型也是这样,就像 y = Kx + b,我们已知的是y 和 x,通过反复调整权重 K 和 偏置 b ,最终拟合到了最完美的权重和偏置,大模型最终得到了解题思路。
这个反复迭代的过程分为两个部分:正向传播和反向传播。
正向传播(推理过程):
按自己的思路做题,以y = Kx + b 为例,我们第一轮先带入随机数值(k=2, b =1),再带入问题 x(训练数据问题)和 答案 y(训练数据答案),再通过损失函数(一种计算预测值和样本值差异的公式),得到了当前样本的偏差值。
反向传播(更新过程):
我知道了输入样本X得到的Y 和 模型里存储的参数 Y的偏差,按我们的思路,下一步就是要知道错在哪里,我们需要调整模型权重 K 和 偏置 b,调整的过程就是反向传播,调整的方式叫梯度下降。
反向传播到底更新了啥?
模型里藏着无数个“神经元”(权重参数和偏置),比如:
-
注意力机制
这里涉及三个大家熟知的矩阵,Wq Wk Wv,具体含义可以看我另一篇文章:谁都能听懂的Transformer架构-注意力机制QVK到底计算了什么?
-
前馈网络
主要用于线性变化,捕捉更多语义信息,详见:谁都能听懂的Transformer架构-前馈神经网络(FFN)
-
损失函数
损失函数用于计算损失值,也称为loss,用于描述预测结果和预期结果的差异,损失值越小,说明模型的预测结果越准确。损失函数的选取取决于具体的任务,比如对于分类任务,常用的损失函数是交叉熵损失;对于回归任务,常用的损失函数是均方误差损失;对于排序任务,常用的损失函数是列对数损失等。
反向更新过程,利用梯度下降算法是迭代的执行反向传播过程,去改变模型参数的权重,让这个损失值不断变小,让预测结果不断逼近预期结果。
-
**梯度**梯度(Gradient),梯度是一个向量,既有数值,又有方向,是多变量函数在某一点的偏导数,所描述的是函数沿着参数的哪个方向变化速率最快
梯度的数值,反映了函数变化速率的剧烈程度:
绝对值越大,变化的越剧烈;绝对值越小,变化的越平稳;绝对值为零,说明不再变化。
梯度的方向,反映了函数值的增减性:
梯度为正,则函数值在该点处于递增状态;梯度为负,则函数值在该点处于递减状态。
梯度的数学概念就是求导数,求解梯度就是求解导数。当然,更精确一点,对于一元函数来说,梯度就是导数,对于多元函数来说,梯度则是偏导数,反向更新的过程就是利用链式法则,逆向的对模型的权重和偏置求偏导数:
-
梯度下降
梯度下降(Gradient Descent)是机器学习中求解最小损失值常用的一种算法,其核心是尽可能保证始终沿着负梯度的方向前进。
其基本原理是:
1)随机选择一个初始点,计算该点的梯度。
-
2)沿着负梯度方向,也就是沿着局部最“陡峭”的方向,移动一小步,到达新的点。
-
3)计算新点的梯度,并沿着它的负梯度方向再移动一小步。
-
4)重复这个过程,一步一步的移动,直到梯度为零,这意味着损失函数不再随着参数发生变化,参数也就不用再调整了。
-
-
注:我们在微调或者是在训练过程中,无需过分要求梯度为0,过于追求梯度为零可能会导致模型过度拟合,即模型在训练数据上表现很好,但在测试数据上的泛化能力却较差。不能忘记模型训练的根本目的,并不是追求梯度为零,而是应该在保证模型泛化能力符合期望的前提下,去寻找损失函数的近似最小值。
-
损失值计算
损失值的计算,就是用预测结果矩阵“减去”目标结果矩阵。损失值的本质是用来衡量模型的性能和准确度。如果预测结果和目标结果相同,损失值就是 0,模型性能最好,预测结果非常准确,没有性能和准确度的损失。而训练的目标,就是要让损失值不断减少,逐渐趋近于 0。
**计算损失值的这个减法并非简单的对两个矩阵进行逐位相减,而是采用了一种叫做“交叉熵损失(Cross-Entropy LOSS)”的算法。**交叉熵损失算法是机器学习中常用的一种损失函数,其公式为:
yi 代表目标结果的概率值, ��
pi 代表预测结果的概率值。
当预测结果与目标结果越接近时,交叉熵损失函数的值就越小;反之,预测偏差越大,交叉熵损失函数值就越大**。**在机器学习模型中,交叉熵损失函数常与梯度下降等优化算法一起使用,通过反向传播和参数更新,使模型能够更好地进行预测。
-
模型权重和偏置的更新
经过反向传播的过程,Transformer 每一层都计算出了自己的梯度,也就是有了参数调整的目标和方向,接下来就是具体的调整过程了,也就是如何实现梯度下降,从而减少模型的损失值。要说明的是,参数权重调整是在梯度的反向传播过程中同步进行的,而不是完成所有层的梯度计算后,再进行每一层参数的调整。分成两个章节,主要是这样更便于从独立知识点的角度来说明。
梯度下降公式:
这里引入了一个名词叫做“学习率”的概念。
**学习率是机器学习中一个非常重要的超参数,用来控制模型参数更新步长的大小。**合适的学习率不仅能够帮助模型参数尽快收敛到最优解,还能避免梯度消失或梯度爆炸等问题。
目前提出了多种学习率的调整策略,比如固定学习率、动态学习率、指数衰减学习率等,这些策略共同的策略思想都是在不同的训练阶段,采用不同的学习率,来让模型参数收敛的速度和性能达到平衡。
学习率通常是很小的数字,比如 0.00001。常用的学习率调整方式是 Adam(Adaptive Moment Estimation,自适应学矩估计算法)的算法,属于动态学习率的一种,它会对梯度进行方差和均值计算后形成新的梯度矩阵。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型实战项目&项目源码👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
为什么分享这些资料?
只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
更多推荐
所有评论(0)