DeepSeek(以及所有类似的大模型)在回答你的问题时,并不是像搜索引擎那样去“调取”或“查询”一个后台数据库。

它不会去翻阅它训练时看过的资料,然后找出一段话复制给你。它的工作方式要更加神奇和复杂。


一、DeepSeek是如何“回答”问题的?

你可以把大模型想象成一个超级“大脑”,这个大脑通过阅读了海量的书籍、论文、网页等数据(训练过程),形成了一个极其复杂的“知识网络”或“思维模式”。

  1. 理解你的问题:当你输入一个问题时,模型首先将你的文字转换成它能够处理的数学表示(一串数字,称为向量)。

  2. 激活相关知识网络:这个输入就像一把钥匙,激活了它内部知识网络中与你的问题相关的“节点”和“路径”。比如,你问“黑洞是什么?”,与“天体物理学”、“引力”、“事件视界”等相关的知识路径就会被激活。

  3. 逐字生成回答:模型不会“调取”一个完整的答案。相反,它基于被激活的知识网络,开始预测下一个最有可能出现的词是什么。它生成第一个词(比如“黑”),然后把这个词和之前的问题一起作为新的输入,再预测第二个词(比如“洞”),如此循环,一个字一个字地“写”出整个回答。

  4. 本质是“模式匹配”与“生成”:整个过程是基于它在训练中学到的数十亿种语言模式和知识结构,进行的一种高度复杂的“概率预测”和“内容生成”。

一个简单的比喻:这不像你去图书馆按索引找一本书(搜索引擎),而像是你问一位博览群书的专家一个问题。专家不会去回忆他看过的哪一页书,而是综合他所有的知识,现场组织语言,用他自己的话为你讲解。DeepSeek就是在做类似的事情。


二、“大模型”指的是什么意思?

“大模型”这个术语,主要“大”在以下几个方面:

  1. 巨大的参数规模

    • “参数”是模型内部的可调节的“旋钮”,是模型从数据中学习到的知识和规律的具体载体。

    • 模型的“大”首先就体现在参数的数量上。比如,DeepSeek这样的模型拥有数千亿甚至更多的参数。

    • 你可以把每个参数想象成大脑中的一个突触连接。参数越多,模型的“脑容量”就越大,能学习和存储的信息就越复杂、越细微。

  2. 海量的训练数据

    • 为了训练这样一个庞大的“大脑”,需要喂给它极其海量的数据。这些数据通常来自互联网上的公开资源,如百科、新闻、书籍、学术论文、代码库、论坛等,总量可达数万亿个单词/字符。

    • 数据是模型知识的来源,没有高质量的海量数据,就无法训练出强大的模型。

  3. 巨大的计算资源消耗

    • 训练这些模型需要强大的计算能力,通常需要成千上万个高端GPU/TPU连续运算数周甚至数月。这导致了巨大的电力成本和硬件投入。所以,“大模型”也意味着背后巨大的算力投入

总结与类比

特性

搜索引擎(如Google)

大语言模型(如DeepSeek)

工作方式 检索

:在庞大的索引数据库中查找最相关的现有文档

生成

:利用内部的知识网络,从头开始创造新的文本。

结果来源

直接返回其他网页的链接和摘要。

生成一个全新的、独一无二的回答。

核心能力

快速查找和筛选信息。

理解、推理、总结和创造内容。

比喻

一个极其高效的图书管理员,帮你找到相关的书。

一个博览群书的领域专家,现场为你解答问题。

最后,关于知识的时效性:我的知识截止于2024年7月。对于这之后的事件,我无法提供信息。这也是为什么DeepSeek提供了联网搜索功能的原因——当需要最新信息时,它可以像搜索引擎一样去互联网上检索实时数据,然后将检索到的信息作为生成回答的参考,结合其内在的知识来给你一个更准确的答案。

 如何学习AGI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

**

一、2025最新大模型学习路线

一个明确的学习路线可以帮助新人了解从哪里开始,按照什么顺序学习,以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。

我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。

L1级别:AI大模型时代的华丽登场

L1阶段:我们会去了解大模型的基础知识,以及大模型在各个行业的应用和分析;学习理解大模型的核心原理,关键技术,以及大模型应用场景;通过理论原理结合多个项目实战,从提示工程基础到提示工程进阶,掌握Prompt提示工程。

L2级别:AI大模型RAG应用开发工程

L2阶段是我们的AI大模型RAG应用开发工程,我们会去学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3级别:大模型Agent应用架构进阶实践

L3阶段:大模型Agent应用架构进阶实现,我们会去学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造我们自己的Agent智能体;同时还可以学习到包括Coze、Dify在内的可视化工具的使用。

L4级别:大模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,我们会更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调;并通过Ollama、vLLM等推理部署框架,实现模型的快速部署。

整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握;而L3 L4更多的是通过项目实战来掌握大模型的应用开发,针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。

二、大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

三、大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

四、大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

五、大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。


因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐