智能体入门：一文速通 LLM

本文系统介绍了大型语言模型(LLM)的核心原理与实用技巧。主要内容包括：1) 语言模型本质是预测下一个词的"句子补全器"，从N-gram到Transformer的进化过程；2) Transformer的核心机制是自注意力，通过QKV三件套实现上下文理解；3) Decoder-Only架构更适合生成任务；4) 提示工程技巧如温度调节、few-shot学习等；5) 分词(token

码农Q！

338人浏览 · 2025-11-18 16:57:41

码农Q！ · 2025-11-18 16:57:41 发布

01｜语言模型到底在做什么？

把语言模型想成“补全句子的小助手”。它的日常工作只有一件事：猜下一个词。

早期的方法叫 N-gram：只看前面有限几个词来猜下一个（像蒙题时只看上一题）。简单但记忆短、遇到新词就懵。
后来有了 RNN/LSTM：带“记忆”的网络，一步步读句子，能记更远的上下文，但速度慢、训练难。
真正改变游戏规则的是 Transformer：不再一字一字排队处理，而是用“注意力”一次性看全句，并行又高效。

一句话总结：LLM=超大号的“下一个词预测机”。它厉害，是因为看过的书足够多、脑容量足够大、并且会抓重点。

02｜Transformer：为什么它这么强？

想象你在写作文，碰到“it”这个词，会自然回头看它指谁。自注意力（Self-Attention）做的就是这件事：给当前词分配“注意力权重”，谁更相关就多看谁。

核心三件套好理解：

Q（Query）：我是谁（我要找信息）
K（Key）：别人是谁（能被查到的标签）
V（Value）：别人携带的内容（有用的信息）

计算“相关性”（Q和K做匹配），用权重把V加权求和，就得到了“融合上下文的新表示”。再加上：

多头注意力：像请来多位不同视角的评委，分别打分，再综合意见。
位置编码：给单词标上序号，模型才知道“谁在谁前面”。
残差连接+层归一化：让训练更稳，堆得更深也不“窒息”。

优点：能并行训练、能看远距离依赖、可扩到巨型模型 —— 这就是今天LLM的根基。

03｜Decoder-Only：聊天模型为什么只留“解码器”？

做翻译要“先理解再生成”，用到编码器+解码器；但聊天、写作、答题，本质就是在已有文本后面继续写。于是GPT系列做了简化：只保留解码器（Decoder-Only），每次根据前文自回归地产生下一个词。

一个关键小技巧：遮罩（Mask）。在生成第 t 个词时不准偷看后面的词，这样模型才会老老实实“接龙”。

04｜和模型打交道：提示工程要点（会用就强）

把提示（Prompt）当成给高手写的“任务说明书”。

常用调参：

Temperature（温度）：小=更稳重、少发散；大=更有创意、也更跑题。
Top-k / Top-p：限制候选词的范围，k是“保留前k个”，p是“保留到累计概率≥p”。

喂示例的三种方式：

零样本：直接下指令（最省事）
单/少样本：给一两条示范，模型照着学（更稳）
思维链（CoT）：加一句“一步步想”，复杂题更容易对

小技巧：让模型扮演角色（如“你是资深运维工程师”），输出更聚焦。

05｜分词：模型吃的不是“字”，而是“Token”

计算机只懂数字，把文本切成模型能处理的Token很重要。直接按“词”切会遇到新词就不认识；按“字”切虽然都认识，但太碎。现代模型用 子词分词（BPE/SentencePiece）：

高频词保留整体（如“agent”）
生僻词拆成可组合的片段（如“Token｜ization”）

这对开发者很关键：

上下文窗口按Token算，超了就截断。
计费按Token算，分词不同，钱也不同。
格式坑：空格、大小写、符号都会影响分词，从而影响理解与结果。

06｜怎么选模型：闭源 vs 开源

闭源（如 GPT、Claude、Gemini）

✅ 开箱即用、能力强、生态成熟
⚠️ 成本按调用算；隐私需审慎；有时不易定制

开源（如 Llama、Qwen、Mistral）

✅ 可本地部署、可微调、成本可控
⚠️ 需要算力与工程投入；能力上限取决于模型体量与调优

简单建议：

做企业内外接入、追求SLA：先闭源API；有合规/私有化需求再引入开源方案混合部署。
做教学/原型：小参数开源模型（如 Qwen 0.5/0.6B 级别）足够起步。

07｜LLM“变强”的规律与短板

缩放法则（Scaling Laws）告诉我们：数据量、模型大小、算力一起加，效果按规律平滑变好；但也有更“省钱”的平衡点（如“Chinchilla 定律”：模型别一味做大，数据量也要跟上）。

短板：幻觉（编造）模型会一本正经地说错。工程上的常见补救：

RAG（检索增强）：先搜权威资料，再让模型基于资料作答。
多步推理+自检：让模型“想一步，验一步”。
外部工具：计算器、搜索、数据库，减少“拍脑袋”。

总结

理解 LLM 的关键并不在复杂公式，而是抓住“预测下一个词”这一件事：看到什么 → 该关注谁 → 写什么。当你会写好提示、懂一点分词、知道怎么选模型，再加上RAG等工程策略，一个稳定好用的智能体就离你不远了

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等

😝有需要的小伙伴，可以 下方小卡片领取🆓↓↓↓

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【收藏必看】大模型时代，程序员如何不被AI淘汰？

2048 AI社区

算法记录-A2 | 题目-数字反转

说的比较啰嗦，可以直接看解法代码博主刚学的时候，好多都不懂，所以写的详细点，给别人撑把伞有些人可能只学了c语言，不懂 c++。下面是本文章中出现的c++语法的解释是一个万能头，跟c语言一样，写代码前都是要包含一些库什么的。这个头包含的 C++ 中的库函数等等的定义，之所以万能是因为它啥都有，方便。而且这只在竞赛中用。正常的c++格式int main()return 0;string 是 C++ 中

2048 AI社区

AI编程工具大盘点，哪个最适合你

它和ServBay的侧重点不同，ServBay更偏向于为开发者提供一个完整的、包含AI能力的开发套件，而LM Studio则更像一个纯粹的、用来探索和运行AI模型的独立工具。使用的时候，可以框选一段代码，直接让它重构，或者直接像聊天一样，直接对它说出需求，它就能帮你把文件创建好，代码写进去。前面提到的工具大多是云服务，代码要上传，还得联网，有时候还担心数据安全。：能调用Gemini 2.5 Pro