01|语言模型到底在做什么?

把语言模型想成“补全句子的小助手”。 它的日常工作只有一件事:猜下一个词

  • 早期的方法叫 N-gram:只看前面有限几个词来猜下一个(像蒙题时只看上一题)。简单但记忆短、遇到新词就懵。

  • 后来有了 RNN/LSTM:带“记忆”的网络,一步步读句子,能记更远的上下文,但速度慢、训练难

  • 真正改变游戏规则的是 Transformer:不再一字一字排队处理,而是用“注意力”一次性看全句,并行又高效

一句话总结:LLM=超大号的“下一个词预测机”。它厉害,是因为看过的书足够多、脑容量足够大、并且会抓重点。


02|Transformer:为什么它这么强?

想象你在写作文,碰到“it”这个词,会自然回头看它指谁。自注意力(Self-Attention)做的就是这件事: 给当前词分配“注意力权重”,谁更相关就多看谁。

核心三件套好理解:

  • Q(Query):我是谁(我要找信息)

  • K(Key):别人是谁(能被查到的标签)

  • V(Value):别人携带的内容(有用的信息)

计算“相关性”(Q和K做匹配),用权重把V加权求和,就得到了“融合上下文的新表示”。 再加上:

  • 多头注意力:像请来多位不同视角的评委,分别打分,再综合意见。

  • 位置编码:给单词标上序号,模型才知道“谁在谁前面”。

  • 残差连接+层归一化:让训练更稳,堆得更深也不“窒息”。

优点:能并行训练、能看远距离依赖、可扩到巨型模型 —— 这就是今天LLM的根基。


03|Decoder-Only:聊天模型为什么只留“解码器”?

做翻译要“先理解再生成”,用到编码器+解码器; 但聊天、写作、答题,本质就是在已有文本后面继续写。 于是GPT系列做了简化:只保留解码器(Decoder-Only),每次根据前文自回归地产生下一个词。

一个关键小技巧:遮罩(Mask)。 在生成第 t 个词时不准偷看后面的词,这样模型才会老老实实“接龙”。


04|和模型打交道:提示工程要点(会用就强)

把提示(Prompt)当成给高手写的“任务说明书”。

常用调参:

  • Temperature(温度):小=更稳重、少发散;大=更有创意、也更跑题。

  • Top-k / Top-p:限制候选词的范围,k是“保留前k个”,p是“保留到累计概率≥p”。

喂示例的三种方式:

  • 零样本:直接下指令(最省事)

  • 单/少样本:给一两条示范,模型照着学(更稳)

  • 思维链(CoT):加一句“一步步想”,复杂题更容易对

小技巧:让模型扮演角色(如“你是资深运维工程师”),输出更聚焦。


05|分词:模型吃的不是“字”,而是“Token”

计算机只懂数字,把文本切成模型能处理的Token很重要。 直接按“词”切会遇到新词就不认识;按“字”切虽然都认识,但太碎。 现代模型用 子词分词(BPE/SentencePiece)

  • 高频词保留整体(如“agent”)

  • 生僻词拆成可组合的片段(如“Token|ization”)

这对开发者很关键:

  • 上下文窗口按Token算,超了就截断。

  • 计费按Token算,分词不同,钱也不同。

  • 格式坑:空格、大小写、符号都会影响分词,从而影响理解与结果。


06|怎么选模型:闭源 vs 开源

闭源(如 GPT、Claude、Gemini)

  • ✅ 开箱即用、能力强、生态成熟

  • ⚠️ 成本按调用算;隐私需审慎;有时不易定制

开源(如 Llama、Qwen、Mistral)

  • ✅ 可本地部署、可微调、成本可控

  • ⚠️ 需要算力与工程投入;能力上限取决于模型体量与调优

简单建议:

  • 企业内外接入、追求SLA:先闭源API;有合规/私有化需求再引入开源方案混合部署。

  • 教学/原型:小参数开源模型(如 Qwen 0.5/0.6B 级别)足够起步。


07|LLM“变强”的规律与短板

缩放法则(Scaling Laws)告诉我们: 数据量、模型大小、算力一起加,效果按规律平滑变好; 但也有更“省钱”的平衡点(如“Chinchilla 定律”:模型别一味做大,数据量也要跟上)。

短板:幻觉(编造)模型会一本正经地说错。 工程上的常见补救:

  • RAG(检索增强):先搜权威资料,再让模型基于资料作答。

  • 多步推理+自检:让模型“想一步,验一步”。

  • 外部工具:计算器、搜索、数据库,减少“拍脑袋”。


相关术语

  • LLM:只会“下一个词预测”的超大模型

  • Attention:为当前词找重点

  • Decoder-Only:像接龙一样写下去

  • Prompt:给模型的任务说明书

  • Temperature:创意 vs 稳定

  • Token:模型吃的单位,不等于字

  • RAG:先检索,后生成,减少瞎编


总结

理解 LLM 的关键并不在复杂公式,而是抓住“预测下一个词”这一件事:看到什么 → 该关注谁 → 写什么。 当你会写好提示、懂一点分词、知道怎么选模型,再加上RAG等工程策略,一个稳定好用的智能体就离你不远了

  如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

 三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

在这里插入图片描述

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程

 😝有需要的小伙伴,可以 下方小卡片领取🆓↓↓↓ 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐