AI 思维
AI/ ML/ DL/ LLM/ Token/ Context Window/ Self-Attention/ Emergent Abilities/ Prompt Engineering
AI 基础认知
一: AI(人工智能) 、ML(机器学习)、DL(深度学习)
1.1:人工智能(AI,Artificial Intelligence)
定义:
指让机器模拟人类智能行为的技术总和,目标是使机器具备 “像人一样思考、学习和解决问题” 的能力
核心特点:
范围最广,涵盖所有使机器表现出智能的技术,包括但不限于学习能力、推理能力、感知能力(如视觉、听觉)、自然语言理解等
例子:
早期的 “专家系统”(基于预定义规则的决策系统,如医疗诊断规则库);
现代的语音助手(如 Siri)、自动驾驶、AlphaGo(围棋 AI)等。
1.2:机器学习(ML,Machine Learning)
定义:
是 AI 的一个分支,专注于 “让机器通过数据自动学习规律,而无需人工编写显式规则”。传统编程是 “人定义规则→机器执行”,而机器学习是 “人提供数据→机器从数据中学习规则→机器执行”
核心特点:
依赖数据驱动,通过算法从数据中提取模式,实现对未知数据的预测或决策
1.3:深度学习(DL,Deep Learning)
定义:
是机器学习的一个子领域,核心是 “使用深层神经网络(多层非线性变换的模型)从数据中学习”,本质是通过模拟人脑神经元的连接方式,用多层网络自动提取数据的抽象特征(从简单到复杂)
核心特点:
依赖 “深度” 神经网络(通常包含多层隐藏层)
擅长处理非结构化数据(如图像、语音、文本)和高复杂度问题
需要大量数据和计算资源(如 GPU)
典型模型:
CNN(卷积神经网络,用于图像识别)、RNN(循环神经网络,用于时序数据)、Transformer(注意力机制模型,用于大语言模型)等
例子:
图像识别(如人脸识别)、语音转文字、ChatGPT 等大语言模型
总结:
AI 是最宽泛的概念,机器学习是 AI 的一个重要分支,而深度学习是机器学习的一个子领域。
AI ⊃ 机器学习 ⊃ 深度学习
二:大语言模型(LLM)
大语言模型(LLM,Large Language Model)是当前 AI 领域的核心技术
其本质是基于海量文本数据训练的、能理解和生成人类语言的深度学习模型
2.1:核心定义与目标
定义:通过大规模参数(通常数十亿到数万亿)的神经网络,学习人类语言的统计规律、语法结
构、语义逻辑甚至世界知识,从而实现对自然语言的理解(如问答、摘要)和生成(如创作、
译)
核心目标:模拟人类的语言能力,实现 “与人类自然对话”“处理复杂语言任务”(如逻辑推理、代
码生成)
2.2:底层架构 Transformer
解决了传统 RNN(循环神经网络)处理长文本时的 “信息遗忘” 问题,通过自注意力机制实现对
文本中 “远距离依赖关系” 的捕捉(例如理解一句话中前后词语的关联)
结构特点:
由 “编码器(Encoder)” 和 “解码器(Decoder)” 组成,不同 LLM 会侧重使用其中一部分:
- 仅用解码器:如 GPT 系列(擅长生成文本,自回归生成);
- 仅用编码器:如 BERT(擅长理解文本,双向编码);
- 编码器 + 解码器:如 T5(兼顾理解与生成)。
2.3:关键技术概念
(1)Token 与 Tokenization(分词)
Token:
模型处理语言的基本单位,不是直接处理字符,而是将文本拆分为 “子词 / 符号”(如 “苹
果” 可能拆为 “苹”+“果”,英文 “unhappiness” 拆为 “un”+“happiness”)
作用:
平衡词汇量(避免生僻词过多)和语义准确性,是模型理解文本的第一步
例子:
GPT-3 使用的 Tokenizer 能处理约 5 万种 Token,中文通常按字或子词拆分
(2)上下文窗口(Context Window)
定义:
模型一次能处理的最大 Token 长度(输入 + 输出),例如 GPT-4 为 8k/128k Token,LLaMA2 为 4k/16k Token
意义:
窗口越大,模型能 “记住” 的上下文越长(如处理长文档、多轮对话),但计算成本也越高
限制:
超过窗口长度的文本会被截断,是当前 LLM 的重要局限(需结合 RAG 等技术弥补)
(3)自注意力机制(Self-Attention)
核心逻辑:
让模型在处理文本时,自动计算 “每个词与其他所有词的关联程度”(注意力权重),从而理解语义依赖(如 “他” 指代前文的 “小明”)
优势:
并行计算(比 RNN 快),能捕捉长距离依赖,是 Transformer 的 “灵魂”
扩展:
多头注意力(Multi-head Attention)—— 同时从多个角度计算注意力,提升语义捕捉能力
(4)涌现能力(Emergent Abilities)
定义:
当模型参数规模达到某个阈值(通常数十亿以上)后,突然表现出的 “未被显式训练的能力”(如逻辑推理、数学计算、跨语言翻译)
例子:
GPT-3(1750 亿参数)能做简单编程,而 10 亿参数的模型几乎无法完成 —— 这是 LLM 规模效应的核心体现
(5)提示工程(Prompt Engineering)
定义:
通过设计 “提示词(Prompt)” 引导模型输出符合预期的结果,无需修改模型参数。
核心技巧:
指令明确(如 “总结以下文本,不超过 200 字”)
少样本示例(Few-shot):给模型展示几个例子,让它模仿
思维链(Chain-of-Thought):引导模型 “一步步推理”(如 “先分析问题,再计算,最后总结”)
更多推荐


所有评论(0)