从数学公式到AI大模型:一篇读懂人工智能核心技术,小白也能看懂
AI大模型本质上是包含海量参数的复杂函数,通过调整参数实现不同功能。其训练过程是通过梯度下降等方法寻找参数最优解。根据输入输出差异可分为NLP、CV等应用领域,当前最热门的Transformer架构大语言模型通过海量文本训练获得类似推理能力。值得注意的是,模型本身不存储上下文,而是由应用层将历史对话作为输入重新计算。文章还提供了从基础到进阶的大模型学习路线图,包含系统设计、提示词工程、平台开发等七
AI大模型本质是复杂函数,通过调整海量参数实现功能。训练即寻找参数最优解,使用梯度下降等方法优化。根据输入输出不同可分为NLP、CV等应用领域。当前最火的是Transformer架构的大语言模型,通过海量文本训练,看似具备推理能力。模型本身不记忆上下文,而是应用层将历史对话作为重新计算的输入。
现如今,谁还不知道AI大模型啊。好歹总会知道个ChatGPT,DeepSeek。不懂的问一问,查一查,遇事不决,DeepSeek一下?
这这里的背后到底是一个什么样的技术?是什么东西赋予了计算机,一个用来进行数学计算的机器,有了类似人工智能的能力?强化学习,监督学习,CNN,Transformer,NLP,CV。这些概念看起来如此的高大上。期间相互之间又到底是什么关系?
这里尽量用最简单的方式去说明,由浅入深的说明,其中可能会有很多实际上的了解偏差,但是能最简单和直白的去了解,目前离我们最近的AI、或者说大模型,到底是什么?
首先,AI其实是一个很宽泛的概念,即人工智能。而最近我们一直讨论很多的「大模型」其实是人工智能实现的一种技术,而这个技术最近达到了一个可用的程度,呈现了一种爆发的态势。
大模型:一个海量变量的公式
大模型,其实在AI这个语境下,可以简单的认为,一个模型其实是一个函数公式,输入之后,输出结果。
比如我们最熟悉的:
y = 2x + 3
输入:x
公式:2x + 3
输出:y
当 x=1,输出 y=5;
当 x=10,输出 y=23。
这就是最简单的“模型”——它规定了输入和输出之间的关系。
AI大模型,本质上也是一样的套路。
区别在于:
- 它的公式不是 “2x+3” 这么简单
- 而是一个超级复杂、多层嵌套的函数
- 里面有成千上万,甚至上亿个参数(这个例子就只有2和3)
这些参数,就像无数个小旋钮,通过不断调整旋钮,整个“公式机器”才能给出更符合人类期望的答案。
训练:找最优解的过程
如果你还记得初中数学,函数往往有 极大值 和 极小值。
AI的训练,本质上就是:
- 不断尝试、不断修正
- 调整函数里的参数,让“输出”越来越接近我们想要的结果
- 就像在复杂的山谷中,寻找那个“最低点”或者“最高点”
这,就是AI为什么需要海量数据和算力的原因。
因为它要在“参数山谷”里,一点点往最优的方向爬。

比如我们都知道极大值和极小值有一个特点,就是导数为0,所以当机器想调整参数的时候,就可以通过计算哪一边的导数比较小,那么就往哪个方向去调整参数。这就是机器学习里面的「梯度下降」和「反向传播」。
应用:输入参数,输出结果
所以根据输入和输出的不同,就有不同类型的应用,比如有。
当我们有了这些初步的认知后,我们就可以从机器学习里面的学习范式,模型架构,训练方法/优化方法,具体任务/应用,一步一步来区分开这些概念。
学习范式(训练方式)
-
监督学习
有明确的输入-输出对,比如 「图像->标签」,句子 -> 翻译」
-
无监督学习
只给输入,没有标签。比如「图像生成」
-
自监督学习
使用数据本身生成「伪标签」,掩盖一个词,让模型预测它。比如「语言大模型」,本质上就是往外蹦字。
-
强化学习
通过「奖励信号」来选择动作
模型架构(大函数的结构)
本质上是一个网络架构,它既可以用于监督学习,也可以用于自监督学习,甚至能嵌入强化学习。
- MLP(多层感知机)
- CNN(卷积神经网络)
- RNN/LSTM(循环神经网络)
- Transformer(注意力机制架构)
训练方法/优化方法(调整参数的方法)
不管是监督学习还是强化学习,最后都需要某种优化方法来更新模型参数。
- 梯度下降(SGD, Adam,RMSProp)
- 策略梯度(Policy Gradient,PPO, A3C)
- Q-learning
- 反向传播(Backpropagation)
具体任务/应用
- NLP(机器翻译、对话,问答)
- CV(图像识别、分割、检测)
- 多模态(文生图、语音识别)
- 强化学习(下棋,玩Atari、机器人导航)
但是其实目前最火的应用,就是基于Transformer的大语言应模型(Large Language Model,LLM),输入文字,输出文字。
输入一段文字,然后通过蹦字的方式来输出另外一半文字。但是因为是使用了海量的语言文字训练资料来训练,使得模型(函数)貌似从语言文字中,都学到了推理和思维的能力。
不得不思考,说不定语言和思想上到底有多少关系。那个「脑海里的声音」。
但是这里有一点要注意的是,输入文字给模型,然后让模型输出问题。其实每一次都是一次完整的计算,模型本身并不会记住你之前问过些什么。(毕竟函数只能输入输出,又不会存储。)
但你感觉到每一次的模型的回答,仿佛记住了上下文,是因为其实你使用的很多工具都是包装过的,这些工具在底层实现上,实际上每一次都会把你的聊天记录搜集给模型重新计算。所以如果你持续跟聊天应用聊天的话,你会发现AI貌似会忘记你之前的对话。很有可能就是因为,你输入的文字太多,超过了模型一次能输入的窗口了。
如何学习AI大模型?
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

更多推荐


所有评论(0)