一、LLM(大型语言模型):AI的“大脑”

1. 一句话说清楚LLM是什么

LLM就是通过阅读海量文本,学会了“像人一样说话和思考”的AI程序。

2. 具体理解(用熟悉的东西类比)

类比1:像训练一个超级书虫

普通学生:读了100本书
学霸:读了1000本书  
LLM:读了整个互联网(数百万本书+所有网页+维基百科+...)
→ 所以它“懂得多”

类比2:像手机的输入法预测,但是超级加强版

普通输入法:你打“今天”,它建议“天气”
LLM:你问“如何做红烧肉”,它能给出完整菜谱
→ 所以它“更智能”

3. LLM的三大特征

特征 什么意思 现实例子
参数多(70亿到上万亿) 相当于大脑有更多神经元
语言 专门处理文字 擅长写作、翻译、对话
模型 数学公式的集合 就像做菜的配方

关键点:LLM不是真的“理解”,而是通过统计规律“猜”下一个词应该是什么。


二、Token:AI的“识字单位”

1. Token就是AI能认的最小文字块

不是按“字”算,也不是按“词”算,而是按“块”算

2. 具体例子看Token怎么划分

原文: "我喜欢吃苹果"
按字分: ["我","喜","欢","吃","苹","果"] ← 这不是Token!
按词分: ["我","喜欢","吃","苹果"] ← 也不完全是!
实际Token: ["我","喜欢","吃","苹果"] 或 ["我","喜","欢","吃","苹果"]
→ 取决于分词器怎么切

3. 中英文Token的区别

英文例子

"Hello, world!" = ["Hello", ",", " world", "!"]
→ 4个Token

中文例子

“人工智能很有趣” = ["人工", "智能", "很", "有趣"]
→ 4个Token(但不同模型可能不同)

4. 为什么要关心Token?

因为Token = 钱/时间

  • OpenAI API收费:按Token数算钱

  • 本地运行:Token越多,生成越慢

  • 内存限制:一次能处理的Token有限

一般电脑能处理多少Token?

3B模型(适合CPU):约2000-4000个Token
→ 相当于:800-1600个汉字
→ 够写:2-4条长微信消息

三、生成:AI的“说话”过程

1. 生成就是“接龙游戏”

你开个头,AI往下接

你: "从前有座山,"
AI: "山上有座庙,"
AI: "庙里有个老和尚,"
AI: "老和尚在讲故事..."

2. 生成的具体步骤(以“今天天气很好”为例)

# 内部过程(你看不到)
输入:"今天天气"
第一步:分析上下文
第二步:计算概率
    - "很":80%概率
    - "不":15%概率  
    - "真":5%概率
第三步:选"很"(因为概率最高)
输出:"很"

输入:"今天天气很"
第四步:继续计算
    - "好":90%概率
    - "差":8%概率
    - "热":2%概率
第五步:选"好"
输出:"好"

最终输出:"今天天气很好"

3. 生成的两个关键参数

温度(Temperature)

温度低(0.1):保守派,总选最安全的词
温度高(1.0):创意派,可能选冷门词
例子:
输入:"猫喜欢吃"
温度低 → "鱼"(99%概率)
温度高 → 可能输出"披萨"(虽然概率低但有可能)

最大长度(Max Length)

就像给AI说:“最多说50个字就停”
避免它一直说个不停

四、推理:AI的“思考”过程

1. 推理不是真的思考,而是“模式匹配”

AI不会像人一样逻辑推理,但能“假装”会

2. 推理的三个层次

层次1:简单匹配(它真的会)

你问:"地球是圆的吗?"
AI答:"是的,地球是近似球体。"
→ 因为训练数据里有这个知识

层次2:表面推理(它假装会)

你问:"小明比小红高,小红比小刚高,谁最高?"
AI答:"小明最高。"
→ 不是真的推理,而是见过类似句式
→ 换复杂一点就可能错

层次3:多步推理(它努力会)

你问:"如果冰箱里有3个苹果,我吃了1个,又买了2个,现在有几个?"
AI需要:
1. 3-1=2
2. 2+2=4
→ 现在的AI能做,但不稳定

3. 为什么LLM能“推理”?

因为训练数据里有“推理的答案”

训练数据包括:
- 数学题和答案
- 逻辑谜题和解法
- 考试题和解析
所以当看到类似问题,它能“回忆”起答案

五、用自己的电脑体验这些概念

1. 安装Ollama并运行小模型

# 拉取一个小模型(适合CPU)
ollama pull qwen2.5:3b

# 运行
ollama run qwen2.5:3b

2. 测试生成

# 直接输入
>>> 请续写:今天天气很好,
# 看它如何生成下文

3. 测试Token

# 用Python查看Token划分
import tiktoken  # 安装:pip install tiktoken

encoder = tiktoken.get_encoding("cl100k_base")
tokens = encoder.encode("我喜欢人工智能")
print(len(tokens))  # 看看几个Token
print(tokens)       # 看看Token是什么数字

4. 测试推理

# 问几个问题
>>> 树上有10只鸟,开枪打死1只,还剩几只?
>>> 为什么答案是0只?
>>> 用简单的逻辑解释一下

六、关键要点总结

1. LLM

  • 不是魔法,是数学公式

  • 不会思考,是统计预测

  • 不是万能,会胡说八道(幻觉)

2. Token

  • 不是字词,是AI的“识字单位”

  • 影响速度,Token越多越慢

  • 影响成本,API按Token收费

3. 生成

  • 不是创作,是概率接龙

  • 可以控制,用温度调整创意度

  • 需要引导,好的提示词很重要

4. 推理

  • 不是真推理,是模式匹配

  • 表面很强,深度不够

  • 还在进步,一代比一代强


七、现在可以立刻尝试的

实验1:感受Token

  1. 打开 https://platform.openai.com/tokenizer

  2. 输入中文句子,看怎么分Token

  3. 对比英文,感受差异

实验2:感受生成

  1. 用你的模型生成文本

  2. 同样的开头,用不同温度生成

  3. 对比结果

实验3:感受推理

  1. 问简单数学题:23+45=?

  2. 问逻辑题:所有猫都怕水,汤姆是猫,汤姆怕水吗?

  3. 观察答案质量


八、常见误解澄清

误解1:AI真的理解我的话
真相:它只是匹配最相似的训练数据

误解2:Token就是字数
真相:中文1个字≈1.3个Token,英文1个词≈1.3个Token

误解3:生成越长越好
真相:太长会跑题,需要控制长度

误解4:AI会自己思考
真相:所有输出都是输入的“回声”(经过复杂变换)


一个直观感受

想象LLM是一个超级强大的文本预测器

你输入前几个词 → 它预测下一个词 → 不断重复 → 形成完整回答

就像:

  • : "天空是"

  • AI: "蓝色的"

  • : "天空是蓝色的,云朵是"

  • AI: "白色的"

  • 最终: "天空是蓝色的,云朵是白色的"

这就是LLM的核心——基于概率的文本续写

理解了这一点,就理解了现在所有大模型的基本原理。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐