11月24日,斯坦福大学教授、 World Labs创始人、“AI 教母”李飞飞接受海外播客Eye on AI的访谈。本次对话深入探讨了空间智能的定义、世界模型的技术路径、显式与隐式表示的路线之争、AI 对物理定律的理解边界以及李飞飞对未来五年技术演进的预测。

李飞飞指出,空间智能是计算机视觉发展的必然阶段,技术已从单纯的图像识别进化为深度的空间感知与互动能力。她并未将自己置于 Yann LeCun 的对立面,而是提出通用的世界模型虽然内部依然依赖隐式表示进行推理,但为了服务于人类的创造与设计,必须具备生成显式 3D 表达的能力。

李飞飞强调,目前的 AI 模型(包括视频生成模型)本质上仍是基于统计学的模仿,并未真正理解牛顿力学等因果物理定律。她认为,简单的“下一个 Token 预测”在视觉领域不足以捕捉世界的 3D 结构,简单的 2D 帧预测会造成信息的浪费。对于科学发现,她提出,当前的 AI 或许能推导 DNA 双螺旋结构(基于几何),但受限于 Transformer 架构对抽象概念的提取能力,很难推导出狭义相对论这种高度抽象的物理法则。

一、空间智能与技术路线

为什么你会将重心放在空间智能上,这是源于你在环境智能领域的研究,还是一条并行的探索路线?Yann LeCun 主张从直接经验中构建内部表示,让模型学习物理定律,而你的方法似乎侧重于提取模型学到的世界内部表示并构建外部视觉现实。这两者之间是互补还是重叠的?

**李飞飞:**过去几年我对空间智能的思考,实际上是我整个职业生涯在计算机视觉和视觉智能领域研究的自然延续。之所以强调空间,是因为技术发展到了一个临界点:它的复杂度和深层能力已不再局限于注视图像或简单理解视频,它已经演变成一种深度的感知能力和空间理解力,并与机器人技术、具身 AI 以及环境 AI 紧密相连。所以从这个角度看,这确实是我在计算机视觉和 AI 领域生涯的延续。

(关于与 Yann LeCun 的路线比较)首先我不会把自己和 Yann 对立起来,我认为我们在空间智能和世界建模的智力探索上处于同一个连续谱系。如果你读过我最近发的长文《空间智能宣言》,我在里面表达得很清楚:若最终要构建一个通用的全能世界模型,我认为隐式表示和最终某种程度的显式表示,尤其是在输出层可能都是必需的,它们各司其职。例如 World Labs 目前的世界模型 Marble 确实会显式输出 3D 表示,但在模型内部,隐式表示与显式输出共存。老实说我认为最终两者缺一不可。

(关于输入模态)在输入模态方面,从视频中学习固然重要,因为世界本身就是由无数帧连续输入的。但对于智能体或动物来说,世界不仅是被动观看的对象,更是一种包含运动、互动、触觉、声音、气味以及物理力、温度等在内的具身体验,所以我认为它是深度多模态的。虽然 Marble 目前只是第一步,但在我们发布的技术文章中明确表示,我们坚信多模态既是一种学习范式也是一种输入范式。这方面有很多学术讨论,恰恰体现了这个领域正处于令人兴奋的早期阶段,我不会说我们已经完全搞定了模型架构和表示形式的所有问题。

你似乎专注于从抽象的内部表示中生成显式表示,而 Yann 更专注于内部表示和学习本身。这是否意味着这两者可以结合?此外,在你们的世界模型中,输入主要是视频吗?除了 Marble 这一产品,你们的野心是否在于构建一个系统,一个能够通过直接经验(视频或其他模态)而非文本这种二手媒介进行学习的系统?

**李飞飞:**这是一种可能性。正如我之前所说,我们正在同时探索这两者。显式输出实际上是一种经过深思熟虑的策略,因为我们要服务于那些正在创造、模拟和设计的人们。放眼当今产业界,无论是制作视觉特效、开发游戏、设计室内装潢,还是为机器人、自动驾驶汽车进行模拟,亦或是构建工业数字孪生,所有这些都具有极强的 3D 属性。各行各业的工作流都高度依赖 3D,我们希望这些模型能对使用它们的人和企业产生真正的价值。

(关于模型输入)输入不完全是视频。如果你体验过 Marble 就会发现输入非常多模态。可以输入纯文本,一张或多张图像,也可以是视频,甚至输入粗略的 3D 布局,比如包围盒或体素。它是多模态的,随着发展我们会进一步深化这一点。

(关于非文本学习)是的,世界模型的核心在于理解世界,而世界本质上是多模态的。无论是机器还是动物都是多感官生物,学习是通过感知发生的。感知有不同模态,文本只是其中一种形式。这就是人类与动物的区别,大多数动物不通过复杂的语言学习,但人类会。不过未来的 AI 世界模型虽然也会从大量语言输入及其他模态中学习,但其认知过程不会仅仅被压缩在语言这一种形式中。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

二、单纯的下一帧预测会将世界压缩为 2D

LLM 的一个局限性是模型参数在训练后就固定了,理论上世界模型在遇到新环境时应该不断学习,这仅仅是一个工程问题吗?另外,你能深入解析作为 Marble 基础的实时帧模型(RTFM)吗?生成式 AI 的突破在于发现了“下一个 Token 预测”这一目标函数,但在计算机视觉或世界建模中,什么样的任务或目标函数能像它一样强大?是 3D 重建,还是像 RTFM 这个名字暗示的那样,在保持 3D 一致性的前提下预测下一帧?

**李飞飞:**关于持续学习,持续学习绝对是一个非常重要的范式,尤其是对生命体而言,这是我们的生存方式。甚至在持续学习中还分在线学习和离线学习。目前我们的世界模型仍更多处于批处理或离线学习模式,但我们绝对对持续学习,特别是最终实现在线学习持开放态度。我会保持开放态度,我认为这将是两者的结合,显然优秀的工程设计和微调可以实现一定程度的在线学习,但也可能需要全新的架构。

(关于 RTFM 模型)你指的是我们发布的另一篇技术博客,里面专门深入解析了我们的实时帧模型。World Labs 是一个非常侧重研究的组织,现阶段很多工作都是模型优先,致力于推动空间智能的发展。这条特定的研究路线与 Marble 紧密相关,主要关注如何实现基于帧的生成,并尽可能保持几何一致性和持久性。因为在早期基于帧的生成工作中,当画面推进时往往会丢失这种物体存在的持久性。在这个具体案例中,我们试图在保持平衡的同时实现推理阶段的高算力效率,仅用单张 H100 就完成了推理。至于名字,这是一个非常精彩的双关语,每个计算机科学家都懂这个梗,所以我们觉得拿这个名字玩个即兴创作真的很有趣。

(关于通用目标函数)生成式 AI 最大的突破之一实际上是发现了下一个 Token 预测这一目标函数。这是一个非常精妙的公式,拥有一个与最终任务完全对齐的目标函数简直太棒了。但在计算机视觉或世界建模中情况没那么简单,因为如果看我们与语言的关系,主要是说或生成,但我们与世界的关系要多模态得多。外部有一个世界供你观察、解释、推理并最终与之互动,那么什么样的任务或目标函数能定义一个通用函数,且像下一个 Token 预测一样强大呢,这是一个非常深刻的问题。

(关于 3D 重建与帧预测)比如是 3D 重建吗,有些人可能会争辩说世界建模的通用任务就是能够对世界进行 3D 重建,但我并不这么认为,因为大多数动物的大脑并不一定在做精确的 3D 重建。或者是像预测下一个 Token 一样预测下一帧,这确实有一定威力。首先这方面有海量的训练数据,其次为了预测下一帧,模型必须学习世界的结构。如果你能把这一点做好,也许这就是正确的通用任务。但这也有让人不满意的地方,因为它把世界视为了 2D,而世界并非 2D。这种做法是否以一种令人遗憾的方式强行压缩了表示,而且即使你完美做到了这一点,你可以说 3D 结构是隐式的。这没错但也非常浪费,因为 3D 结构本身包含很多信息,不必像基于帧的预测那样丢失掉,所以关于这一点目前还有很多探索空间。

三、AI 尚未掌握物理定律,目前的物理特性是基于视频数据的统计学模仿

RTFM 模型能在保持 3D 一致性的前提下预测下一帧,这让人即使在 2D 屏幕上也能像绕着物体移动一样看到背面,这本质上就是空间智能。我想探讨这种学习是否包含自然界的物理定律。例如,如果创建了一个悬崖的物理表示,当 AI Agent 或观察者的视点移出悬崖边缘,它会知道自己因重力而下坠吗?或者它是否理解不能穿过固体物体?目前的模型对物理世界的理解到了什么程度?

**李飞飞:**是的,这正是模型学习到的内部表示有趣的地方。比如我现在坐在这里看着电脑屏幕,虽然我看不到屏幕背面但我知道它长什么样,我的脑海里有那个物体的内部表示。你的模型也是这样做的,这就是为什么你可以在场景中绕着物体移动,即使这是在 2D 屏幕上呈现的 3D 表示,你依然可以移动并看到事物的另一面。所以模型拥有 3D 对象的内部表示,即使当前的视角看不到背面。

(关于物理定律与统计学特性)老实说你描述的情况既涉及物理也涉及语义。比如掉下悬崖当然取决于重力定律等物理法则,但能不能穿过一堵墙则更多基于材料和语义,是固体还是非固体。目前的 RTFM 模型还没有专注于物理层面。目前大多数生成式 AI 模型表现出的物理特性其实都是统计学结果。你看那些生成视频的模型,水在流树在动,那并不是基于牛顿力学的力和质量计算出来的,而是基于看过足够多水和树叶这样运动的视频,就照着这个统计模式生成。所以我们要谨慎一点。目前 World Labs 仍然专注于生成和探索静态世界。未来我们会探索动态世界,而在那里很多依然将是统计学习。我认为目前的任何 AI,无论是语言 AI 还是像素 AI,都还没有能力在抽象层面上推导出像牛顿定律那种级别的物理规则。我们所看到的一切都是基于统计的物理和动力学学习。另一方面,我们可以把这些生成的世界放入物理引擎中,比如虚幻引擎,这些引擎内置了物理定律。最终这些物理引擎、游戏引擎和世界生成模型将结合成神经引擎。我甚至不知道该叫什么,也许该叫神经空间引擎之类的。我认为我们正在朝那个方向发展,但这仍处于早期阶段。

四、空间智能需适应多种时间维度的持续学习

我之所以提到持续学习,是因为最终目标是构建一个能随时间推移而学习的模型。或许它搭载在机器人上,或者连接到现实世界的摄像机,最终不仅能学习场景,还能通过互动理解空间的物理性。当你将其与语言结合时,就拥有了一个真正强大的智能。这是你在思考的方向吗?鉴于你们进展迅速,对五年后这项技术的发展有什么预感?届时模型内部会内置某种物理引擎吗,或者通过长期学习建立更丰富的内部表示?

**李飞飞:**毫无疑问,特别是当用例需要持续学习的时候。持续学习有很多种方式,比如在大语言模型中,将上下文本身纳入考量就是一种持续学习,即利用上下文作为记忆来辅助推理。当然还有在线学习或微调等其他方法。所以持续学习这个术语可以涵盖多种实现路径。我认为在空间智能领域,特别是像你提到的那些用例,无论是定制场景下的机器人,还是具有特定风格的艺术家和创作者,这些需求最终都会推动技术在用例所需的时间范围内变得更加敏捷。有些是实时的,有些从时间跨度来看可能更具分段性,视具体情况而定。

(关于五年预测)作为一名科学家,很难给出精确的时间预测,因为技术的某些部分发展得比我想象的快得多,而有些则慢得多。但我认为这是一个非常好的目标。五年其实是一个比较合理的估算,我不知道我们会不会更快,但这比预测 50 年要靠谱得多,当然也不会是五个月。

五、人类大量关键智能无法被语言记录,空间智能旨在解锁这部分“暗知识”

你能谈谈为什么认为空间智能是下一个前沿领域吗?包含在文本中的人类知识只是所有人类知识的一个子集,虽然它非常丰富,但不能指望一个 AI 模型仅仅通过文本就能理解世界。你能谈谈为什么这一点很重要,以及 Marble 和 World Labs 如何与这个更大的目标相关联吗?

**李飞飞:**从根本上讲,技术应该帮助人类。与此同时,理解智能本身的科学是我能想到的最迷人、最大胆、最雄心勃勃的科学探索,这是属于 21 世纪的探索。无论你是被科学的好奇心所吸引,还是被利用技术造福人类的愿景所驱动,这两者都指向一个事实:我们的智能以及我们在工作中运用的智能,有很大一部分是超越语言的。我曾打趣地说,你不能用语言来灭火。在我的宣言中我举了一些例子,无论是推导 DNA 双螺旋结构时的空间推理,还是急救人员与同事在瞬息万变的火场中灭火,这些活动很多都超越了语言。所以很明显,无论是从用例的角度还是从科学探索的角度,我们都应该尽最大努力去解锁如何开发空间智能技术,将我们带向下一个层级。

(关于应用前景)这是一个 3 万英尺高空的宏观视角,描述了我如何被科学发现和为人类制造有用工具这两个双重目标所驱动。我们可以深入探讨如何变得有用,就像之前提到的,无论是在谈论创造力、模拟、设计、沉浸式体验,还是教育、医疗保健或制造业,利用空间智能能做的事情太多了。实际上让我非常兴奋的是,许多关注教育、沉浸式学习和体验的人告诉我,Marble 作为我们发布的首个模型,正在启发他们思考如何将其用于沉浸式体验,使学习变得更加互动和有趣。这非常自然,因为牙牙学语前的儿童完全是通过沉浸式体验来学习的。即使是今天的成年人,我们生活的大部分时间都沉浸在这个世界中,涉及说话、写作和阅读,但也涉及行动、互动和享受等等,这一切都是如此自然。

六、高效推理让数字世界的“多重宇宙”成为可能,打破物理世界的边界

让大家都感到震惊的一点是,Marble 竟然只在一个 H100 GPU 上运行。我在其他谈话中听你提到体验“多重宇宙”,大家本来都很兴奋,直到意识到那通常需要巨大的算力和高昂的成本。你们降低计算负载的突破,是否意味着向为教育等领域创造“多重宇宙”迈出了实质性的一步?

**李飞飞:**不仅如此。首先我真的相信在推理方面我们会加速,效率会更高,而且体验也会更好、规模更大、质量更高、时长更久,这是技术发展的趋势。我也确实相信多重宇宙的体验。据我们所知,人类的整个历史体验都局限在一个世界里,也就是物理上的这个地球。虽然有极少数人去过月球,但也仅此而已,这是唯一共享的 3D 空间。我们在其中建立文明,通过它生活,在其中做所有事情。但是随着数字革命和数字爆炸,我们将生活的一部分转移到了数字世界中,这中间也有很多交叉。我不想描绘一幅反乌托邦的画面说我们已经抛弃了物理世界,也不会描绘一个完全夸张的乌托邦世界说每个人都戴着头显不再注视美丽的真实世界,那才是生活最充实的部分。我拒绝这两种极端观念。

(关于数字世界的无限性)但无论是从务实角度还是展望令人兴奋的未来,数字世界都是无边无际的。它是无限的,给予了我们物理世界无法提供的更多维度和体验。例如我们已经谈到了学习,我真希望能以一种更加互动和沉浸的方式学习化学。我记得大学化学课很大程度上与排列分子、理解分子结构的奇偶性和不对称性有关,天哪,我真希望我能以沉浸式的方式体验那个过程。我遇到过很多创作者,意识到在他们的脑海中,每一个时刻都有无数种方式来讲故事,脑子里有太多东西,但他们的速度受限于工具的效率。如果你使用 Unreal Engine,要表达脑海中的一个世界可能需要数周甚至数小时的时间。无论你是要制作一部奇幻的音乐作品,还是为刚出生的孩子设计卧室,这样的时刻数不胜数。如果我们允许人们像利用物理世界一样,利用数字宇宙去实验、迭代、交流和创造,那将会更加有趣。

七、AI 的理解力边界:是语义操作而非人类意识

关于数字世界打破物理边界*,*在你的模型明确投射这些空间之前,它对正在内化的空间究竟有多少“理解”?这也是我比产品化更关注的一点:致力于构建一个真正理解世界的 AI。这不仅仅是拥有 3D 空间的表示,而是真正理解物理定律、看到了什么,甚至所见事物的价值或用途。你认为目前 AI 具备多少这种理解?为了让模型真正理解世界还需要发生什么?

**李飞飞:**这是个好问题。“理解”是一个非常深刻的词。当 AI 理解某事时,它在本质上就与人类的理解不同。部分原因在于我们是非常不同的存在,人类在具身的躯体中拥有一定程度的意识和自我意识。例如当我们理解“我的朋友真的很高兴”时,这不仅仅是一个抽象的理解,你体内实际上会发生化学反应,释放快乐荷尔蒙或其他化学物质,心跳可能会加速,情绪会变化。所以这种水平的理解与一个抽象的 AI Agent 是非常不同的,后者具备正确分配意义并将意义相互关联的能力。

(关于沙发变色的例子)例如在 Marble 我们的模型产品中,你可以进入一个高级的世界生成模式进行编辑。你可以预览世界并说:“我不喜欢这个沙发是粉红色的,把它改成蓝色的”,然后它就改成了蓝色。它是否在“蓝色”、“沙发”和“改变”这个词的层面上理解了?它理解,因为如果没有那种理解它就无法执行修改。但它是否像你我那样理解它,包括关于这个沙发的一切有用甚至无用的信息?它有关于沙发的记忆吗?它会将沙发的概念关联到功能可供性以及许多其他事物上吗?不,它没有。作为一个模型,它局限于允许你做模型需要做的任何必要事情,即创建一个带有蓝色沙发的空间。所以我认为 AI 确实有所理解,但不要把这种理解误认为是拟人化的人类水平的理解。

八、为何 AI 难以此构建相对论

你在沙特阿拉伯与 Peter Diamandis 和 Eric Schmidt 的谈话时讨论了 AI 是否具有创造力或在科学研究中提供帮助的潜力。当时给出的类比是:如果在爱因斯坦提出相对论之前就有 AI,AI 能推理出那个发现吗?直觉上似乎是可能的,那么 AI 究竟缺乏什么才能进行这种级别的科学推理?

**李飞飞:**我认为我们更接近于让 AI 推导出 DNA 双螺旋结构,而不是让 AI 构建狭义相对论。部分原因是我们已经在蛋白质折叠方面看到了很多伟大的工作,也因为推导双螺旋结构的表示更扎根于空间和几何。而狭义相对论的构建是在抽象层面上,不仅仅是用无限数量的词汇来表达的。我们在物理学中看到的一切,从牛顿定律到量子力学,都被抽象到一个因果层面,即世界的关系、概念,无论是质量还是力,都被抽象到一个不再是纯粹统计模式生成的水平。语言可以是高度统计性的,3D 或 2D 世界以及动力学都可以是统计性的。但是力、质量和磁性等因果抽象不是纯粹统计的,它是非常深刻的因果关系和抽象概念。所以我现在更多是在进行一种理论性的探讨。我认为 Eric 和我在台上是在说,我们现在世界上有足够多的天体数据、运动数据,只要聚合所有的卫星数据等等交给今天的 AI,它能推导出牛顿运动定律吗?

九、Transformer 不是终点,AI 需要新架构来实现超越统计学的抽象思维

对于天体运动的数据,凭直觉我认为,即使今天的 AI 做不到,但只要给予足够的数据和思考时间,人工智能应该能推导出运动定律。你为什么认为它做不到?这是否意味着你需要一种新的架构来解锁你所说的“通用任务功能”,从而超越当前 Transformer 的局限?

**李飞飞:**当我们说这些定律是“被推导”出来时,要明白牛顿必须抽象出力、质量、加速度以及基本常数等概念。这些概念处于非常抽象的层面。目前我还没看到今天的 AI 能够从海量数据中提取出这种层面的抽象表示、变量或关系。现有的证据还不多。当然,我并不了解 AI 领域发生的所有事情,如果事实证明我错了,我很乐意接受。但我确实没听说过有哪项工作做到了这种程度的抽象。而且在 Transformer 架构中,我也看不出这种抽象能力能从何而来。这就是我质疑这一点的理由。

(关于新架构)我并不是说 AI 不应该或不能尝试,但这可能需要我们在算法的基础架构上取得更多进步。我确实这么认为。我相信会有架构上的突破。我不认为 Transformer 是 AI 的终极发明。从宏观角度看,相比于我们所知的整个宇宙历史,人类存在的时间并不长。但在几千年的短暂历史中,我们从未停止创新。所以我认为 Transformer 不会是 AI 的最后一个算法架构。

你曾说过,曾经觉得如果能让 AI 系统给图像打标签或生成说明文字,就是职业生涯的巅峰了。当然,你早就超越了那个阶段。如今,你想象中未来职业生涯的最高成就会是什么?

**李飞飞:**我认为解锁空间智能,创造一个能真正将感知与推理、空间推理连接起来的模型,实现从感知到行动,包括规划,以及从想象到创造。如果有一个模型能同时做到这三点,那将是不可思议的。

十、如何系统的学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐