【大模型漫游指南】1：零基础入门，初识大语言模型（LLM）及黑话

本文介绍了大模型的基本原理，以及在大模型中常见的一些专业术语，作为零基础扫盲文章。

WuYuhangggg

536人浏览 · 2026-02-24 01:05:37

WuYuhangggg · 2026-02-24 01:05:37 发布

0.引言

过去这一两年，无论是计算机行业的从业者还是学校里的学生，甚至是在日常生活里，大模型（LLM）、ChatGPT这些词几乎每天都在刷屏。我们眼睁睁看着 AI 从“只能认猫狗”的玩具，变成了能写代码、写文章、画图甚至做视频的超级助理。

AI的迅猛发展、模型的快速迭代让我这个初学者不断感慨，自己也必须去深入学习AI了。我们不应该只停留在“会用工具”的层面。去了解它背后的运转逻辑，掌握相关的基础概念，是我们拥抱这个时代的必经之路。

因此，我决定开启这个【大模型漫游指南】系列。本系列不堆砌枯燥的数学公式，力求以我这个初学者的视角，用最通俗的语言、最直观的图解，带你从零开始拆解大语言模型，也是为后面学习RAG项目做铺垫。今天的第一篇，我们就先来理清最基础的两个问题：大模型到底是什么？大家平时嘴里说的那些“AI 黑话”到底是什么意思？

1.大模型是什么？

我们以一个智能客服系统为例，最传统的开发模式中，我们要把所有的规则写死，然后让程序去进行判断。

if (question.contains("退货")) {
    return "请在订单详情页点击申请退货";
} else if (question.contains("发货")) {
    return "下单后 48 小时内发货";
} else {
    return "请联系人工客服";
}

这样编程的特点很明显，程序只认两个词：退货和发货，凡是没有识别到这两个词，就要去走人工客服，这样整体效率就非常低下。因为顾客不一定会直接咨询退货或发货，他可能会说“我不想要了”，“什么时候发出”等等这样的类似问题，难道我要把这些全部写进去吗？

因此后来有了传统 **NLP（自然语言处理）**技术，比如关键词匹配、TF-IDF、朴素贝叶斯分类器。这些方法比传统的if-else聪明一点，因为能做一些统计层面的文本分析，但本质上还是在“数词频”、“算概率”，还是没有真正理解你的话。你说东西不想要了，他可能会把侧重点放在东西上，以为你是要它推荐东西。

而 大语言模型（Large Language Model，LLM） 的出现改变了这一切。大语言模型听起来很高大上，但它的底层逻辑其实非常简单，就是文字接龙。

大语言基于概率统计，它里面没有写死任何规则，而是通过阅读海量文本，找出了人类语言的规律。它更像是一个凭直觉说话的“黑盒”，每次回答可能都不一样。传统的编程就好比是一个技术手册，我们要按照上面来操作，上面如果没有写，那我们就不知道要怎么办；传统NLP就是去数词频，可以进行一些简单的判断，但是没法去深入理解人类语言；而大语言模型不一样，它就好像读了几百万本书，然后从这里找到了人类语言的规律，退货这个词，在人类语言中有各种不同的表达形式，它都能在训练过程中理解这些话。

2.大模型究竟大在哪？

上面一节我们简单地介绍了一下大语言模型，也讲清楚了它为什么是“语言模型”，这一节我们来说下他为什么“大”。大模型这个名字里的“大”，指的是模型的参数量。

最早的时候看到AI模型相关的推文，里面绝对绕不开7B、14B这样的描述。B是Billion（十亿）的缩写，因此7B就是代表这个模型有70亿个参数，72B就是720亿个参数。

参数可以理解为是模型大脑里的连接数。人类大脑有大约 100 万亿个突触连接，这些连接存储了我们的记忆、知识和思维能力。大模型的参数类似——每个参数都是一个数字，所有参数组合在一起，构成了模型对语言的理解能力。

参数越多，模型能记住的知识就越多，能处理的语言现象就越复杂，回答的质量通常也越高，但万事万物都有其正反两面，模型的参数增多带来的问题就是要消耗更多的资源，包括算力、显存等。因此，参数不是越大越好，对于很多场景，14B的参数就已经绝对够用了，更大的参数反而会导致推理速度变慢、资源浪费。

3.“大模型黑话”词典

在我们阅读各种技术文章的时候，永远离不开下面这些核心术语，理解它们能帮助我们更好地理解大模型。

3.1 Token：大模型眼里的最小数据单位

我们小时候无论是学习中文还是学习英文，都是先学字再学词，字和词就是人类处理文本的方式。然而大模型处理的方式却不是这样的，Token是LLM处理文本的基础单元。

3.2 上下文窗口：模型的内存大小

上下文窗口指的是模型在一次交互中，能够同时处理的输入和输出Token的总数上限。这就好比我们和别人聊八卦，我们的记忆也是有限的，如果只是简单的八卦，那么我们聊起来很顺畅；但是如果对方讲的八卦太长了，涉及到的人物又多，那我们这时候就会绕晕，记不清一开始的一些事情，这就好比超出了上下文窗口。

以前的模型上下文只有4K（约等于几页纸），聊着聊着就把前面的设定忘了，就像内存溢出。现在的模型动辄 128K甚至1M的上下文，意味着你可以直接把几十万字的代码库或一整本长篇小说塞进它的“内存”里，它能精准地在里面进行全局检索和推理。

这个概念在RAG中非常有用，因为理论上来说，大模型学习能力这么强，那我直接把整本书都塞给它，让它自己找答案不就行了？但是一本书可能有几十万甚至几百万字，超出了很多模型的上下文窗口，而且即便上下文窗口够大，过多的内容也会导致模型找不到重点。因此RAG系统需要先检索出相关的片段，只把这些片段塞给模型。

3.3 Temperature：控制回答的创造力

Temperature是调用大模型时的一个重要参数，用来控制回答的随机性。

Temperature = 0：模型每次都会选择概率最高的那个词，回答最确定、最稳定，但可能比较死板；
Temperature = 1.0：模型的选择更加随机，回答更有创意，但也有可能是胡乱回答；

Temperature=0就好比是一个求稳的人，每一步都走地很稳定，平平淡淡，让人觉得有点死板；Temperature=1就好比是一个激进的人，有可能会给你带来一些惊喜，但也有可能是胡乱说的。

适用场景任务	推荐 Temperature 取值	核心原因分析
代码生成、数据提取、逻辑推理	0.0 - 0.2 (极低)	需要绝对的准确性和一致性。极低的温度能锁死随机性，让模型每次都选择概率最高的词，防止模型“自由发挥”导致代码报错或捏造假数据。
日常问答、文章摘要、公文撰写	0.3 - 0.7 (中等)	需要兼顾逻辑严谨与语言自然。在保证事实准确和条理清晰的前提下，给予模型微小的遣词造句自由，让生成的文本读起来不至于像死板的机器。
头脑风暴、小说创作、营销文案	0.8 - 1.2+ (较高)	需要最大化的创意和发散思维。高温度会鼓励模型去选择那些“不那么常见”的词汇组合，打破常规思维局限，为你提供意想不到的灵感火花。

3.4 预训练 (Pre-training) vs 微调 (Fine-tuning)

这是大模型训练生命周期的两个核心阶段。

预训练（Pre-training / 也就是常说的 Foundation Model）：它就好像是模型的“通识教育”或“九年义务教育”。使用海量未标注的无监督数据（全网文本），让模型学会语言的规律和世界常识。这个阶段成本极其高昂，动辄花费数百万美元，只有科技巨头玩得起。训练出来的模型懂得多，但不知道怎么跟你对话。
微调（Fine-tuning）：它就好比是模型的“大学专业课”或“入职培训”。在预训练模型的基础上，使用少量高质量、带标注的数据（比如特定的医疗问答对、或者你们公司的私有代码规范），对模型的权重进行小幅调整。这个阶段成本较低，普通开发者也能通过 LoRA 等技术，在消费级显卡上训练出专属于自己的垂直领域模型。

3.5 幻觉 (Hallucination)：AI 的致命弱点

它的意思是模型生成了看似合理，但实际上是错误、虚构或与事实不符的信息。我们之前提到，LLM 的本质是概率拼接，而不是检索数据库。当模型被问到盲区知识时，它并没有一个明确的“我不知道”的判定机制，而是会强行根据现有的概率分布，拼接出一个语法通顺但内容虚假的答案，这也就是产生幻觉的原因。

因此我们可以通过 RAG（检索增强生成） 技术，先从本地知识库检索出真实内容，再喂给模型，从而大大降低幻觉的发生率。

3.6 提示词工程 (Prompt Engineering)：如何与“黑盒”沟通

上面我们聊的都是模型层面的，对于我们用户而言也有一些可以操作的空间。提示词工程就是用户通过精心设计输入文本，引导模型输出符合预期的结果。

优秀的 Prompt 需要包含清晰的上下文、明确的任务目标、具体的输出格式以及充足的示例。

4.拓展科普

大家在很多开源平台上下载模型，或者调用大厂API时，你可能会发现同一个名字的模型，后缀却五花八门，比如Llama-3-8B-Base、Llama-3-8B-Instruct。

这是因为除了按参数量级分类，大模型还会根据训练阶段和专攻领域衍生出不同的形态。对于开发者来说，认清以下几种最常见的模型分类至关重要：

4.1 基座模型（Base Model）

我们上面提到模型的训练分为预训练和微调，预训练得到的模型就是基座模型，它阅读了海量的互联网文本，掌握了丰富的知识和语言规律，但它的唯一本能只是“文字接龙”。

如果你输入“中国首都是”，它会接“北京”。但如果你输入“请帮我写一段 Python 代码”，它大概率不会回答代码，而是顺着你的话继续生成，因为它以为你在写需求文档。

普通开发者一般不会直接使用 Base 模型。它通常作为底座，供企业和研究机构用自己的私有数据去进一步微调。

4.2 指令/对话模型（Chat Model）

它在 Base 模型的基础上，经过了指令微调和人类反馈强化学习，它被刻意训练成“一问一答”的对话模式。

当你输入“请帮我写一段 Python 代码”，它会立刻回答“好的，这是为您编写的代码：…”并附上代码块。它学会了听从指令、拒绝恶意提问、并以人类喜欢的语气回答。适用于日常对话、智能客服、绝大多数的 API 调用和应用开发

4.3 多模态模型（Multimodal Model）

传统的 LLM 只能处理文本。而多模态模型打破了文本的界限，能够同时理解和生成文字、图片、甚至音频和视频。适用于OCR 识别、视频内容总结、看图写代码、实时语音对话翻译等高级应用场景。

4.4 向量模型（Embedding Model）

它不负责和你对话，也不生成任何人类能读懂的文字。它的作用是把一段文本转换成一串极其漫长的数字（向量）。在数学空间里，语义越相近的句子，它们对应的数字距离就越近。

这是RAG开发必备。当你想让大模型基于本地知识库回答问题时，必须先用 Embedding 模型把文档变成向量存入数据库，才能实现精准检索。

5. 总结

通过这篇文章，我们终于对大模型是什么有了一个大概的了解，它是基于极大规模参数和海量数据训练出来的。此外我们了解了它与传统编程的本质区别，也掌握了其中的一些专业术语，例如Token、微调、上下文等，这将帮助我们在阅读一些文档时能够更加得心应手。

在下一期的【大模型漫游指南】中，我们将直接上手，开始研究在RAG项目中调用API。

我们下期见！如果这篇文章对你有帮助，欢迎点赞、收藏并在评论区交流你的看法！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

《我看见的世界：李飞飞自传》第1-6章阅读笔记：从移民少女到AI教母的“看见“之旅

2048 AI社区

打造智能电商客服 Agent：基于 LLM 的工具调用与多轮推理实践

2048 AI社区

构建可观测Harness：Agent全链路追踪与监控

可观测Harness是一套统一的可观测性管控框架，向下对接所有的基础设施、业务服务，向上提供统一的可观测数据出口和管控能力，核心是统一Agent和控制平面，实现采集规则统一、数据标准统一、管控策略统一。全链路追踪是指对一个请求从发起到结束的整个生命周期进行跟踪，记录经过的所有服务、组件、节点的调用关系、延迟、错误状态等信息，用唯一的traceId作为整个链路的标识。