今天,我们来看看RNN、Encoder技术最终累积导向的成果:LLM(Large Language Model)大型语言模型


从RNN 到Transformer

这边稍微回顾一下前几天讲过的深度学习模型架构:

  1. RNN(Recurrent Neural Network)

    • 特点:逐步处理序列资料
    • 问题:长距离的文字关系比较难捕捉、训练时间比较长
  2. Encoder–Decoder 架构

    • 应用:翻译、摘要等序列转换任务
    • 优点:分为Encoder(编码器)与Decoder(解码器)两个阶段

      LLM Transformer Architecture

  3. Transformer

    • 能平行化运算(加快训练速度)
    • 擅长捕捉长距离关系
    • 核心:使用Self-Attention机制,同时考虑整句话的所有词。
    • 优点:
    • 搭配Positional Encoding,补足模型对「词序」的理解。
    • Transformer 是现代LLM 的大大基石。

LLM 是什么?

LLM,全名为Large Language Model(大型语言模型),是基于Transformer 架构、使用巨量文字资料训练而成的模型

不过,它的核心任务仍然是:预测下一个词

这项看似简单的任务,却演变成如今非常非常强大的语言模型能力🤯

LLM 的几个关键要素

  1. 巨量参数(Parameters)
    • 模型规模从几百万个参数(RNN 时代)提升至数千亿个参数(GPT-5、Claude、Gemini 等)。
    • 每个参数都代表模型对语言的一种「微小的理解」。
  2. 庞大训练资料(Data)
    • 来源包括:维基百科、书籍、网页、对话、程式码等。
    • 目标是让模型学会语言规则、语意关系、常识知识。
  3. 强大的运算资源(Compute)
    • 利用GPU/TPU 进行数周甚至数月的训练。

LLM 的核心理念

虽然LLM 是「语言模型」,但它其实学到的不只是文字的规则。
在预测下一个词的过程中,模型同时学会了:

  • 语法结构:知道句子怎么组成
  • 语意关联:理解不同词之间的语意距离
  • 世界知识:从大量文本中归纳出事实与常识
  • 推理能力:能在上下文中做出逻辑推断

LLM 的强项与限制

  • 理解能力:LLM 能够处理复杂的语意与上下文,但是有时候还是会误解指令,像是我之前在请LLM 帮我产出一段程式码的时候,它说的跟它做的东西就是不一样,甚至一直鬼打墙😤。我相信大家应该多多少少都有遇过类似的情形...
  • 幻觉😵‍💫:LLM 虽然说有强大的能力,我们有想问的东西就会拿去给LLM 解答,但是有一点要注意的是LLM 可能会有Hallucination(幻觉)... 听起来很神秘吼,但其实这个幻觉就是在说LLM 可能会产出与事实不符的文字资讯。
    • 为什么会有这样的情况发生呢? ➔ 因为LLM 基本上是从海量的资料在学习文字的规律,并根据学习到的东西,依据机率来去预测下个字,也就是说,它并不是在学「正确」的东西,而只是从被喂进去的东西当中再找出规律性而已
    • 总而言之,很多人会以为LLM 提供的回答都是正确的,但是其实不尽然,因此这是要特别注意的地方哦~
  • 非即时资料:一般来说,在训练模型的资料并不会是即时更新的,它都是有一定的时间限制,因此若不搭配网页搜寻的功能,很有可能得到的资讯就会不是最新的

LLM 的相关应用

LLM 不只是单一模型,而是整个AI 生态链的核心。
以下为环绕LLM 的一些应用与技术,包括:

  • Chain-of-Thought(CoT:让模型「逐步推理」。
  • RAG(Retrieval-Augmented Generation):让模型「查资料再回答」。
  • Ollama:让使用者在本地执行开源模型,兼顾隐私与可控性。

其实还有很多很多的技术,这边就举这些为例。

  如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

 三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

在这里插入图片描述

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程

 😝有需要的小伙伴,可以 下方小卡片领取🆓↓↓↓ 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐