AI大模型本质是复杂函数,通过调整海量参数实现功能。训练即寻找参数最优解,使用梯度下降等方法优化。根据输入输出不同可分为NLP、CV等应用领域。当前最火的是Transformer架构的大语言模型,通过海量文本训练,看似具备推理能力。模型本身不记忆上下文,而是应用层将历史对话作为重新计算的输入。


现如今,谁还不知道AI大模型啊。好歹总会知道个ChatGPT,DeepSeek。不懂的问一问,查一查,遇事不决,DeepSeek一下?

这这里的背后到底是一个什么样的技术?是什么东西赋予了计算机,一个用来进行数学计算的机器,有了类似人工智能的能力?强化学习,监督学习,CNN,Transformer,NLP,CV。这些概念看起来如此的高大上。期间相互之间又到底是什么关系?

这里尽量用最简单的方式去说明,由浅入深的说明,其中可能会有很多实际上的了解偏差,但是能最简单和直白的去了解,目前离我们最近的AI、或者说大模型,到底是什么?

首先,AI其实是一个很宽泛的概念,即人工智能。而最近我们一直讨论很多的「大模型」其实是人工智能实现的一种技术,而这个技术最近达到了一个可用的程度,呈现了一种爆发的态势。

大模型:一个海量变量的公式

大模型,其实在AI这个语境下,可以简单的认为,一个模型其实是一个函数公式,输入之后,输出结果。

比如我们最熟悉的:

y = 2x + 3
输入:x
公式:2x + 3
输出:y
当 x=1,输出 y=5;
当 x=10,输出 y=23。

这就是最简单的“模型”——它规定了输入和输出之间的关系。

AI大模型,本质上也是一样的套路。

区别在于:

  • 它的公式不是 “2x+3” 这么简单
  • 而是一个超级复杂、多层嵌套的函数
  • 里面有成千上万,甚至上亿个参数(这个例子就只有2和3)

这些参数,就像无数个小旋钮,通过不断调整旋钮,整个“公式机器”才能给出更符合人类期望的答案。

训练:找最优解的过程

如果你还记得初中数学,函数往往有 极大值极小值

AI的训练,本质上就是:

  • 不断尝试、不断修正
  • 调整函数里的参数,让“输出”越来越接近我们想要的结果
  • 就像在复杂的山谷中,寻找那个“最低点”或者“最高点”

这,就是AI为什么需要海量数据和算力的原因。

因为它要在“参数山谷”里,一点点往最优的方向爬。

比如我们都知道极大值和极小值有一个特点,就是导数为0,所以当机器想调整参数的时候,就可以通过计算哪一边的导数比较小,那么就往哪个方向去调整参数。这就是机器学习里面的「梯度下降」和「反向传播」。

应用:输入参数,输出结果

所以根据输入和输出的不同,就有不同类型的应用,比如有。

  • 输入文字,输出文字(NLP, 自然语言处理 )

  • 输入图片,输出文字(CV,计算机视觉)

  • 输入文字,输出图片(生成模型)


当我们有了这些初步的认知后,我们就可以从机器学习里面的学习范式,模型架构,训练方法/优化方法,具体任务/应用,一步一步来区分开这些概念。

学习范式(训练方式)

  • 监督学习

    有明确的输入-输出对,比如 「图像->标签」,句子 -> 翻译」

  • 无监督学习

    只给输入,没有标签。比如「图像生成」

  • 自监督学习

    使用数据本身生成「伪标签」,掩盖一个词,让模型预测它。比如「语言大模型」,本质上就是往外蹦字。

  • 强化学习

    通过「奖励信号」来选择动作

模型架构(大函数的结构)

本质上是一个网络架构,它既可以用于监督学习,也可以用于自监督学习,甚至能嵌入强化学习。

  • MLP(多层感知机)
  • CNN(卷积神经网络)
  • RNN/LSTM(循环神经网络)
  • Transformer(注意力机制架构)

训练方法/优化方法(调整参数的方法)

不管是监督学习还是强化学习,最后都需要某种优化方法来更新模型参数。

  • 梯度下降(SGD, Adam,RMSProp)
  • 策略梯度(Policy Gradient,PPO, A3C)
  • Q-learning
  • 反向传播(Backpropagation)

具体任务/应用

  • NLP(机器翻译、对话,问答)
  • CV(图像识别、分割、检测)
  • 多模态(文生图、语音识别)
  • 强化学习(下棋,玩Atari、机器人导航)

但是其实目前最火的应用,就是基于Transformer的大语言应模型(Large Language Model,LLM),输入文字,输出文字。

输入一段文字,然后通过蹦字的方式来输出另外一半文字。但是因为是使用了海量的语言文字训练资料来训练,使得模型(函数)貌似从语言文字中,都学到了推理和思维的能力。

不得不思考,说不定语言和思想上到底有多少关系。那个「脑海里的声音」。

但是这里有一点要注意的是,输入文字给模型,然后让模型输出问题。其实每一次都是一次完整的计算,模型本身并不会记住你之前问过些什么。(毕竟函数只能输入输出,又不会存储。)

但你感觉到每一次的模型的回答,仿佛记住了上下文,是因为其实你使用的很多工具都是包装过的,这些工具在底层实现上,实际上每一次都会把你的聊天记录搜集给模型重新计算。所以如果你持续跟聊天应用聊天的话,你会发现AI貌似会忘记你之前的对话。很有可能就是因为,你输入的文字太多,超过了模型一次能输入的窗口了。

如何学习AI大模型?

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

请添加图片描述
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐