【大模型漫游指南】1:零基础入门,初识大语言模型(LLM)及黑话
本文介绍了大模型的基本原理,以及在大模型中常见的一些专业术语,作为零基础扫盲文章。
0.引言
过去这一两年,无论是计算机行业的从业者还是学校里的学生,甚至是在日常生活里,大模型(LLM)、ChatGPT这些词几乎每天都在刷屏。我们眼睁睁看着 AI 从“只能认猫狗”的玩具,变成了能写代码、写文章、画图甚至做视频的超级助理。
AI的迅猛发展、模型的快速迭代让我这个初学者不断感慨,自己也必须去深入学习AI了。我们不应该只停留在“会用工具”的层面。去了解它背后的运转逻辑,掌握相关的基础概念,是我们拥抱这个时代的必经之路。
因此,我决定开启这个【大模型漫游指南】系列。本系列不堆砌枯燥的数学公式,力求以我这个初学者的视角,用最通俗的语言、最直观的图解,带你从零开始拆解大语言模型,也是为后面学习RAG项目做铺垫。今天的第一篇,我们就先来理清最基础的两个问题:大模型到底是什么?大家平时嘴里说的那些“AI 黑话”到底是什么意思?
1.大模型是什么?
我们以一个智能客服系统为例,最传统的开发模式中,我们要把所有的规则写死,然后让程序去进行判断。
if (question.contains("退货")) {
return "请在订单详情页点击申请退货";
} else if (question.contains("发货")) {
return "下单后 48 小时内发货";
} else {
return "请联系人工客服";
}
这样编程的特点很明显,程序只认两个词:退货和发货,凡是没有识别到这两个词,就要去走人工客服,这样整体效率就非常低下。因为顾客不一定会直接咨询退货或发货,他可能会说“我不想要了”,“什么时候发出”等等这样的类似问题,难道我要把这些全部写进去吗?
因此后来有了传统 **NLP(自然语言处理)**技术,比如关键词匹配、TF-IDF、朴素贝叶斯分类器。这些方法比 传统的if-else聪明一点,因为能做一些统计层面的文本分析,但本质上还是在“数词频”、“算概率”,还是没有真正理解你的话。你说东西不想要了,他可能会把侧重点放在东西上,以为你是要它推荐东西。
而 大语言模型(Large Language Model,LLM) 的出现改变了这一切。大语言模型听起来很高大上,但它的底层逻辑其实非常简单,就是文字接龙。
大语言基于概率统计,它里面没有写死任何规则,而是通过阅读海量文本,找出了人类语言的规律。它更像是一个凭直觉说话的“黑盒”,每次回答可能都不一样。传统的编程就好比是一个技术手册,我们要按照上面来操作,上面如果没有写,那我们就不知道要怎么办;传统NLP就是去数词频,可以进行一些简单的判断,但是没法去深入理解人类语言;而大语言模型不一样,它就好像读了几百万本书,然后从这里找到了人类语言的规律,退货这个词,在人类语言中有各种不同的表达形式,它都能在训练过程中理解这些话。
2.大模型究竟大在哪?
上面一节我们简单地介绍了一下大语言模型,也讲清楚了它为什么是“语言模型”,这一节我们来说下他为什么“大”。大模型这个名字里的“大”,指的是模型的参数量。
最早的时候看到AI模型相关的推文,里面绝对绕不开7B、14B这样的描述。B是Billion(十亿)的缩写,因此7B就是代表这个模型有70亿个参数,72B就是720亿个参数。
参数可以理解为是模型大脑里的连接数。人类大脑有大约 100 万亿个突触连接,这些连接存储了我们的记忆、知识和思维能力。大模型的参数类似——每个参数都是一个数字,所有参数组合在一起,构成了模型对语言的理解能力。
参数越多,模型能记住的知识就越多,能处理的语言现象就越复杂,回答的质量通常也越高,但万事万物都有其正反两面,模型的参数增多带来的问题就是要消耗更多的资源,包括算力、显存等。因此,参数不是越大越好,对于很多场景,14B的参数就已经绝对够用了,更大的参数反而会导致推理速度变慢、资源浪费。
3.“大模型黑话”词典
在我们阅读各种技术文章的时候,永远离不开下面这些核心术语,理解它们能帮助我们更好地理解大模型。
3.1 Token:大模型眼里的最小数据单位
我们小时候无论是学习中文还是学习英文,都是先学字再学词,字和词就是人类处理文本的方式。然而大模型处理的方式却不是这样的,Token是LLM处理文本的基础单元。
3.2 上下文窗口:模型的内存大小
上下文窗口指的是模型在一次交互中,能够同时处理的输入和输出Token的总数上限。这就好比我们和别人聊八卦,我们的记忆也是有限的,如果只是简单的八卦,那么我们聊起来很顺畅;但是如果对方讲的八卦太长了,涉及到的人物又多,那我们这时候就会绕晕,记不清一开始的一些事情,这就好比超出了上下文窗口。
以前的模型上下文只有4K(约等于几页纸),聊着聊着就把前面的设定忘了,就像内存溢出。现在的模型动辄 128K甚至1M的上下文,意味着你可以直接把几十万字的代码库或一整本长篇小说塞进它的“内存”里,它能精准地在里面进行全局检索和推理。
这个概念在RAG中非常有用,因为理论上来说,大模型学习能力这么强,那我直接把整本书都塞给它,让它自己找答案不就行了?但是一本书可能有几十万甚至几百万字,超出了很多模型的上下文窗口,而且即便上下文窗口够大,过多的内容也会导致模型找不到重点。因此RAG系统需要先检索出相关的片段,只把这些片段塞给模型。
3.3 Temperature:控制回答的创造力
Temperature是调用大模型时的一个重要参数,用来控制回答的随机性。
- Temperature = 0:模型每次都会选择概率最高的那个词,回答最确定、最稳定,但可能比较死板;
- Temperature = 1.0:模型的选择更加随机,回答更有创意,但也有可能是胡乱回答;
Temperature=0就好比是一个求稳的人,每一步都走地很稳定,平平淡淡,让人觉得有点死板;Temperature=1就好比是一个激进的人,有可能会给你带来一些惊喜,但也有可能是胡乱说的。
| 适用场景任务 | 推荐 Temperature 取值 | 核心原因分析 |
|---|---|---|
| 代码生成、数据提取、逻辑推理 | 0.0 - 0.2 (极低) | 需要绝对的准确性和一致性。 极低的温度能锁死随机性,让模型每次都选择概率最高的词,防止模型“自由发挥”导致代码报错或捏造假数据。 |
| 日常问答、文章摘要、公文撰写 | 0.3 - 0.7 (中等) | 需要兼顾逻辑严谨与语言自然。 在保证事实准确和条理清晰的前提下,给予模型微小的遣词造句自由,让生成的文本读起来不至于像死板的机器。 |
| 头脑风暴、小说创作、营销文案 | 0.8 - 1.2+ (较高) | 需要最大化的创意和发散思维。 高温度会鼓励模型去选择那些“不那么常见”的词汇组合,打破常规思维局限,为你提供意想不到的灵感火花。 |
3.4 预训练 (Pre-training) vs 微调 (Fine-tuning)
这是大模型训练生命周期的两个核心阶段。
-
预训练(Pre-training / 也就是常说的 Foundation Model):它就好像是模型的“通识教育”或“九年义务教育”。使用海量未标注的无监督数据(全网文本),让模型学会语言的规律和世界常识。这个阶段成本极其高昂,动辄花费数百万美元,只有科技巨头玩得起。训练出来的模型懂得多,但不知道怎么跟你对话。
-
微调(Fine-tuning):它就好比是模型的“大学专业课”或“入职培训”。在预训练模型的基础上,使用少量高质量、带标注的数据(比如特定的医疗问答对、或者你们公司的私有代码规范),对模型的权重进行小幅调整。这个阶段成本较低,普通开发者也能通过 LoRA 等技术,在消费级显卡上训练出专属于自己的垂直领域模型。
3.5 幻觉 (Hallucination):AI 的致命弱点
它的意思是模型生成了看似合理,但实际上是错误、虚构或与事实不符的信息。我们之前提到,LLM 的本质是概率拼接,而不是检索数据库。当模型被问到盲区知识时,它并没有一个明确的“我不知道”的判定机制,而是会强行根据现有的概率分布,拼接出一个语法通顺但内容虚假的答案,这也就是产生幻觉的原因。
因此我们可以通过 RAG(检索增强生成) 技术,先从本地知识库检索出真实内容,再喂给模型,从而大大降低幻觉的发生率。
3.6 提示词工程 (Prompt Engineering):如何与“黑盒”沟通
上面我们聊的都是模型层面的,对于我们用户而言也有一些可以操作的空间。提示词工程就是用户通过精心设计输入文本,引导模型输出符合预期的结果。
优秀的 Prompt 需要包含清晰的上下文、明确的任务目标、具体的输出格式以及充足的示例。
4.拓展科普
大家在很多开源平台上下载模型,或者调用大厂API时,你可能会发现同一个名字的模型,后缀却五花八门,比如Llama-3-8B-Base、Llama-3-8B-Instruct。
这是因为除了按参数量级分类,大模型还会根据训练阶段和专攻领域衍生出不同的形态。对于开发者来说,认清以下几种最常见的模型分类至关重要:
4.1 基座模型(Base Model)
我们上面提到模型的训练分为预训练和微调,预训练得到的模型就是基座模型,它阅读了海量的互联网文本,掌握了丰富的知识和语言规律,但它的唯一本能只是“文字接龙”。
如果你输入“中国首都是”,它会接“北京”。但如果你输入“请帮我写一段 Python 代码”,它大概率不会回答代码,而是顺着你的话继续生成,因为它以为你在写需求文档。
普通开发者一般不会直接使用 Base 模型。它通常作为底座,供企业和研究机构用自己的私有数据去进一步微调。
4.2 指令/对话模型(Chat Model)
它在 Base 模型的基础上,经过了指令微调和人类反馈强化学习,它被刻意训练成“一问一答”的对话模式。
当你输入“请帮我写一段 Python 代码”,它会立刻回答“好的,这是为您编写的代码:…”并附上代码块。它学会了听从指令、拒绝恶意提问、并以人类喜欢的语气回答。适用于日常对话、智能客服、绝大多数的 API 调用和应用开发
4.3 多模态模型(Multimodal Model)
传统的 LLM 只能处理文本。而多模态模型打破了文本的界限,能够同时理解和生成文字、图片、甚至音频和视频。适用于OCR 识别、视频内容总结、看图写代码、实时语音对话翻译等高级应用场景。
4.4 向量模型(Embedding Model)
它不负责和你对话,也不生成任何人类能读懂的文字。它的作用是把一段文本转换成一串极其漫长的数字(向量)。在数学空间里,语义越相近的句子,它们对应的数字距离就越近。
这是RAG开发必备。当你想让大模型基于本地知识库回答问题时,必须先用 Embedding 模型把文档变成向量存入数据库,才能实现精准检索。
5. 总结
通过这篇文章,我们终于对大模型是什么有了一个大概的了解,它是基于极大规模参数和海量数据训练出来的。此外我们了解了它与传统编程的本质区别,也掌握了其中的一些专业术语,例如Token、微调、上下文等,这将帮助我们在阅读一些文档时能够更加得心应手。
在下一期的【大模型漫游指南】中,我们将直接上手,开始研究在RAG项目中调用API。
我们下期见!如果这篇文章对你有帮助,欢迎点赞、收藏并在评论区交流你的看法!
更多推荐



所有评论(0)