智能体入门:一文速通 LLM
本文系统介绍了大型语言模型(LLM)的核心原理与实用技巧。主要内容包括:1) 语言模型本质是预测下一个词的"句子补全器",从N-gram到Transformer的进化过程;2) Transformer的核心机制是自注意力,通过QKV三件套实现上下文理解;3) Decoder-Only架构更适合生成任务;4) 提示工程技巧如温度调节、few-shot学习等;5) 分词(token
01|语言模型到底在做什么?
把语言模型想成“补全句子的小助手”。 它的日常工作只有一件事:猜下一个词。
-
早期的方法叫 N-gram:只看前面有限几个词来猜下一个(像蒙题时只看上一题)。简单但记忆短、遇到新词就懵。
-
后来有了 RNN/LSTM:带“记忆”的网络,一步步读句子,能记更远的上下文,但速度慢、训练难。
-
真正改变游戏规则的是 Transformer:不再一字一字排队处理,而是用“注意力”一次性看全句,并行又高效。
一句话总结:LLM=超大号的“下一个词预测机”。它厉害,是因为看过的书足够多、脑容量足够大、并且会抓重点。
02|Transformer:为什么它这么强?
想象你在写作文,碰到“it”这个词,会自然回头看它指谁。自注意力(Self-Attention)做的就是这件事: 给当前词分配“注意力权重”,谁更相关就多看谁。
核心三件套好理解:
-
Q(Query):我是谁(我要找信息)
-
K(Key):别人是谁(能被查到的标签)
-
V(Value):别人携带的内容(有用的信息)
计算“相关性”(Q和K做匹配),用权重把V加权求和,就得到了“融合上下文的新表示”。 再加上:
-
多头注意力:像请来多位不同视角的评委,分别打分,再综合意见。
-
位置编码:给单词标上序号,模型才知道“谁在谁前面”。
-
残差连接+层归一化:让训练更稳,堆得更深也不“窒息”。
优点:能并行训练、能看远距离依赖、可扩到巨型模型 —— 这就是今天LLM的根基。
03|Decoder-Only:聊天模型为什么只留“解码器”?
做翻译要“先理解再生成”,用到编码器+解码器; 但聊天、写作、答题,本质就是在已有文本后面继续写。 于是GPT系列做了简化:只保留解码器(Decoder-Only),每次根据前文自回归地产生下一个词。
一个关键小技巧:遮罩(Mask)。 在生成第 t 个词时不准偷看后面的词,这样模型才会老老实实“接龙”。
04|和模型打交道:提示工程要点(会用就强)
把提示(Prompt)当成给高手写的“任务说明书”。
常用调参:
-
Temperature(温度):小=更稳重、少发散;大=更有创意、也更跑题。
-
Top-k / Top-p:限制候选词的范围,k是“保留前k个”,p是“保留到累计概率≥p”。
喂示例的三种方式:
-
零样本:直接下指令(最省事)
-
单/少样本:给一两条示范,模型照着学(更稳)
-
思维链(CoT):加一句“一步步想”,复杂题更容易对
小技巧:让模型扮演角色(如“你是资深运维工程师”),输出更聚焦。
05|分词:模型吃的不是“字”,而是“Token”
计算机只懂数字,把文本切成模型能处理的Token很重要。 直接按“词”切会遇到新词就不认识;按“字”切虽然都认识,但太碎。 现代模型用 子词分词(BPE/SentencePiece):
-
高频词保留整体(如“agent”)
-
生僻词拆成可组合的片段(如“Token|ization”)
这对开发者很关键:
-
上下文窗口按Token算,超了就截断。
-
计费按Token算,分词不同,钱也不同。
-
格式坑:空格、大小写、符号都会影响分词,从而影响理解与结果。
06|怎么选模型:闭源 vs 开源
闭源(如 GPT、Claude、Gemini)
-
✅ 开箱即用、能力强、生态成熟
-
⚠️ 成本按调用算;隐私需审慎;有时不易定制
开源(如 Llama、Qwen、Mistral)
-
✅ 可本地部署、可微调、成本可控
-
⚠️ 需要算力与工程投入;能力上限取决于模型体量与调优
简单建议:
-
做企业内外接入、追求SLA:先闭源API;有合规/私有化需求再引入开源方案混合部署。
-
做教学/原型:小参数开源模型(如 Qwen 0.5/0.6B 级别)足够起步。
07|LLM“变强”的规律与短板
缩放法则(Scaling Laws)告诉我们: 数据量、模型大小、算力一起加,效果按规律平滑变好; 但也有更“省钱”的平衡点(如“Chinchilla 定律”:模型别一味做大,数据量也要跟上)。
短板:幻觉(编造)模型会一本正经地说错。 工程上的常见补救:
-
RAG(检索增强):先搜权威资料,再让模型基于资料作答。
-
多步推理+自检:让模型“想一步,验一步”。
-
外部工具:计算器、搜索、数据库,减少“拍脑袋”。
相关术语
-
LLM:只会“下一个词预测”的超大模型
-
Attention:为当前词找重点
-
Decoder-Only:像接龙一样写下去
-
Prompt:给模型的任务说明书
-
Temperature:创意 vs 稳定
-
Token:模型吃的单位,不等于字
-
RAG:先检索,后生成,减少瞎编
总结
理解 LLM 的关键并不在复杂公式,而是抓住“预测下一个词”这一件事:看到什么 → 该关注谁 → 写什么。 当你会写好提示、懂一点分词、知道怎么选模型,再加上RAG等工程策略,一个稳定好用的智能体就离你不远了
如何系统的去学习大模型LLM ?
大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。
事实上,抢你饭碗的不是AI,而是会利用AI的人。
继科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?
与其焦虑……
不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!
但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。
针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等
一、LLM大模型经典书籍
AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

二、640套LLM大模型报告合集
这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

三、LLM大模型系列视频教程

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等
😝有需要的小伙伴,可以 下方小卡片领取🆓↓↓↓
更多推荐

所有评论(0)