DeepSeek是如何思考的?一文读懂大模型的工作原理
特性搜索引擎(如Google)大语言模型(如DeepSeek)工作方式检索:在庞大的索引数据库中查找最相关的现有文档。生成:利用内部的知识网络,从头开始创造新的文本。结果来源直接返回其他网页的链接和摘要。生成一个全新的、独一无二的回答。核心能力快速查找和筛选信息。理解、推理、总结和创造内容。比喻一个极其高效的图书管理员,帮你找到相关的书。一个博览群书的领域专家,现场为你解答问题。我的知识截止于20
DeepSeek(以及所有类似的大模型)在回答你的问题时,并不是像搜索引擎那样去“调取”或“查询”一个后台数据库。
它不会去翻阅它训练时看过的资料,然后找出一段话复制给你。它的工作方式要更加神奇和复杂。
一、DeepSeek是如何“回答”问题的?
你可以把大模型想象成一个超级“大脑”,这个大脑通过阅读了海量的书籍、论文、网页等数据(训练过程),形成了一个极其复杂的“知识网络”或“思维模式”。
-
理解你的问题:当你输入一个问题时,模型首先将你的文字转换成它能够处理的数学表示(一串数字,称为向量)。
-
激活相关知识网络:这个输入就像一把钥匙,激活了它内部知识网络中与你的问题相关的“节点”和“路径”。比如,你问“黑洞是什么?”,与“天体物理学”、“引力”、“事件视界”等相关的知识路径就会被激活。
-
逐字生成回答:模型不会“调取”一个完整的答案。相反,它基于被激活的知识网络,开始预测下一个最有可能出现的词是什么。它生成第一个词(比如“黑”),然后把这个词和之前的问题一起作为新的输入,再预测第二个词(比如“洞”),如此循环,一个字一个字地“写”出整个回答。
-
本质是“模式匹配”与“生成”:整个过程是基于它在训练中学到的数十亿种语言模式和知识结构,进行的一种高度复杂的“概率预测”和“内容生成”。
一个简单的比喻:这不像你去图书馆按索引找一本书(搜索引擎),而像是你问一位博览群书的专家一个问题。专家不会去回忆他看过的哪一页书,而是综合他所有的知识,现场组织语言,用他自己的话为你讲解。DeepSeek就是在做类似的事情。
二、“大模型”指的是什么意思?
“大模型”这个术语,主要“大”在以下几个方面:
-
巨大的参数规模
-
“参数”是模型内部的可调节的“旋钮”,是模型从数据中学习到的知识和规律的具体载体。
-
模型的“大”首先就体现在参数的数量上。比如,DeepSeek这样的模型拥有数千亿甚至更多的参数。
-
你可以把每个参数想象成大脑中的一个突触连接。参数越多,模型的“脑容量”就越大,能学习和存储的信息就越复杂、越细微。
-
-
海量的训练数据
-
为了训练这样一个庞大的“大脑”,需要喂给它极其海量的数据。这些数据通常来自互联网上的公开资源,如百科、新闻、书籍、学术论文、代码库、论坛等,总量可达数万亿个单词/字符。
-
数据是模型知识的来源,没有高质量的海量数据,就无法训练出强大的模型。
-
-
巨大的计算资源消耗
-
训练这些模型需要强大的计算能力,通常需要成千上万个高端GPU/TPU连续运算数周甚至数月。这导致了巨大的电力成本和硬件投入。所以,“大模型”也意味着背后巨大的算力投入。
-
总结与类比
|
特性 |
搜索引擎(如Google) |
大语言模型(如DeepSeek) |
|---|---|---|
| 工作方式 | 检索
:在庞大的索引数据库中查找最相关的现有文档。 |
生成
:利用内部的知识网络,从头开始创造新的文本。 |
| 结果来源 |
直接返回其他网页的链接和摘要。 |
生成一个全新的、独一无二的回答。 |
| 核心能力 |
快速查找和筛选信息。 |
理解、推理、总结和创造内容。 |
| 比喻 |
一个极其高效的图书管理员,帮你找到相关的书。 |
一个博览群书的领域专家,现场为你解答问题。 |
最后,关于知识的时效性:我的知识截止于2024年7月。对于这之后的事件,我无法提供信息。这也是为什么DeepSeek提供了联网搜索功能的原因——当需要最新信息时,它可以像搜索引擎一样去互联网上检索实时数据,然后将检索到的信息作为生成回答的参考,结合其内在的知识来给你一个更准确的答案。
如何学习AGI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取