AI 思维

AI/ ML/ DL/ LLM/ Token/ Context Window/ Self-Attention/ Emergent Abilities/ Prompt Engineering

admiraldeworm

1647人浏览 · 2025-08-14 10:18:11

admiraldeworm · 2025-08-14 10:18:11 发布

AI 基础认知

一： AI（人工智能）、ML（机器学习）、DL（深度学习）

1.1：人工智能（AI，Artificial Intelligence）

定义：

指让机器模拟人类智能行为的技术总和，目标是使机器具备 “像人一样思考、学习和解决问题” 的能力

核心特点：

范围最广，涵盖所有使机器表现出智能的技术，包括但不限于学习能力、推理能力、感知能力（如视觉、听觉）、自然语言理解等

例子：

早期的 “专家系统”（基于预定义规则的决策系统，如医疗诊断规则库）；

现代的语音助手（如 Siri）、自动驾驶、AlphaGo（围棋 AI）等。

1.2：机器学习（ML，Machine Learning）

定义：

是 AI 的一个分支，专注于 “让机器通过数据自动学习规律，而无需人工编写显式规则”。传统编程是 “人定义规则→机器执行”，而机器学习是 “人提供数据→机器从数据中学习规则→机器执行”

核心特点：

依赖数据驱动，通过算法从数据中提取模式，实现对未知数据的预测或决策

1.3：深度学习（DL，Deep Learning）

定义：

是机器学习的一个子领域，核心是 “使用深层神经网络（多层非线性变换的模型）从数据中学习”，本质是通过模拟人脑神经元的连接方式，用多层网络自动提取数据的抽象特征（从简单到复杂）

核心特点：

依赖 “深度” 神经网络（通常包含多层隐藏层）

擅长处理非结构化数据（如图像、语音、文本）和高复杂度问题

需要大量数据和计算资源（如 GPU）

典型模型：

CNN（卷积神经网络，用于图像识别）、RNN（循环神经网络，用于时序数据）、Transformer（注意力机制模型，用于大语言模型）等

例子：

图像识别（如人脸识别）、语音转文字、ChatGPT 等大语言模型

总结：

AI 是最宽泛的概念，机器学习是 AI 的一个重要分支，而深度学习是机器学习的一个子领域。

AI ⊃ 机器学习 ⊃ 深度学习

二：大语言模型（LLM）

大语言模型（LLM，Large Language Model）是当前 AI 领域的核心技术

其本质是基于海量文本数据训练的、能理解和生成人类语言的深度学习模型

2.1：核心定义与目标

定义：通过大规模参数（通常数十亿到数万亿）的神经网络，学习人类语言的统计规律、语法结

构、语义逻辑甚至世界知识，从而实现对自然语言的理解（如问答、摘要）和生成（如创作、

译）

核心目标：模拟人类的语言能力，实现 “与人类自然对话”“处理复杂语言任务”（如逻辑推理、代

码生成）

2.2：底层架构 Transformer

解决了传统 RNN（循环神经网络）处理长文本时的 “信息遗忘” 问题，通过自注意力机制实现对

文本中 “远距离依赖关系” 的捕捉（例如理解一句话中前后词语的关联）

结构特点：

由 “编码器（Encoder）” 和 “解码器（Decoder）” 组成，不同 LLM 会侧重使用其中一部分：

仅用解码器：如 GPT 系列（擅长生成文本，自回归生成）；
仅用编码器：如 BERT（擅长理解文本，双向编码）；
编码器 + 解码器：如 T5（兼顾理解与生成）。

2.3：关键技术概念

（1）Token 与 Tokenization（分词）

Token：

模型处理语言的基本单位，不是直接处理字符，而是将文本拆分为 “子词 / 符号”（如 “苹

果” 可能拆为 “苹”+“果”，英文 “unhappiness” 拆为 “un”+“happiness”）

作用：

平衡词汇量（避免生僻词过多）和语义准确性，是模型理解文本的第一步

例子：

GPT-3 使用的 Tokenizer 能处理约 5 万种 Token，中文通常按字或子词拆分

（2）上下文窗口（Context Window）

定义：

模型一次能处理的最大 Token 长度（输入 + 输出），例如 GPT-4 为 8k/128k Token，LLaMA2 为 4k/16k Token

意义：

窗口越大，模型能 “记住” 的上下文越长（如处理长文档、多轮对话），但计算成本也越高

限制：

超过窗口长度的文本会被截断，是当前 LLM 的重要局限（需结合 RAG 等技术弥补）

（3）自注意力机制（Self-Attention）

核心逻辑：

让模型在处理文本时，自动计算 “每个词与其他所有词的关联程度”（注意力权重），从而理解语义依赖（如 “他” 指代前文的 “小明”）

优势：

并行计算（比 RNN 快），能捕捉长距离依赖，是 Transformer 的 “灵魂”

扩展：

多头注意力（Multi-head Attention）—— 同时从多个角度计算注意力，提升语义捕捉能力

（4）涌现能力（Emergent Abilities）

定义：

当模型参数规模达到某个阈值（通常数十亿以上）后，突然表现出的 “未被显式训练的能力”（如逻辑推理、数学计算、跨语言翻译）

例子：

GPT-3（1750 亿参数）能做简单编程，而 10 亿参数的模型几乎无法完成 —— 这是 LLM 规模效应的核心体现

（5）提示工程（Prompt Engineering）

定义：

通过设计 “提示词（Prompt）” 引导模型输出符合预期的结果，无需修改模型参数。

核心技巧：

指令明确（如 “总结以下文本，不超过 200 字”）

少样本示例（Few-shot）：给模型展示几个例子，让它模仿

思维链（Chain-of-Thought）：引导模型 “一步步推理”（如 “先分析问题，再计算，最后总结”）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

告别闲鱼盯店！自动回复系统 + cpolar，副业党也能轻松管店

2048 AI社区

【无标题】

首个完整的 Claude Skills 中文适配项目，16 个官方 AI 技能模板全部翻译，**支持 GPT/CodeX等多种模型（需基座模型支持agent skill）**！

2048 AI社区

原型污染漏洞基础

定义：原型污染是指攻击者通过特定手段，向基础对象原型（如Object.prototype）或应用中广泛使用的构造函数原型中注入恶意属性，导致所有继承自该原型的对象自动拥有这些属性，从而改变应用程序逻辑或行为的攻击手法。图释：在污染发生后，任何自身及直接原型链上不包含pollutedProperty的对象，在查找该属性时，最终都会走到被污染的Object.prototype，从而返回攻击者设置的“恶