AI 基础认知

一: AI(人工智能) 、ML(机器学习)、DL(深度学习)

1.1:人工智能(AI,Artificial Intelligence)

定义:

指让机器模拟人类智能行为的技术总和,目标是使机器具备 “像人一样思考、学习和解决问题” 的能力

核心特点:

范围最广,涵盖所有使机器表现出智能的技术,包括但不限于学习能力、推理能力、感知能力(如视觉、听觉)、自然语言理解等

例子:

早期的 “专家系统”(基于预定义规则的决策系统,如医疗诊断规则库);

现代的语音助手(如 Siri)、自动驾驶、AlphaGo(围棋 AI)等。

1.2:机器学习(ML,Machine Learning)

定义

是 AI 的一个分支,专注于 “让机器通过数据自动学习规律,而无需人工编写显式规则”。传统编程是 “人定义规则→机器执行”,而机器学习是 “人提供数据→机器从数据中学习规则→机器执行”

核心特点

依赖数据驱动,通过算法从数据中提取模式,实现对未知数据的预测或决策

1.3:深度学习(DL,Deep Learning)

定义

是机器学习的一个子领域,核心是 “使用深层神经网络(多层非线性变换的模型)从数据中学习”,本质是通过模拟人脑神经元的连接方式,用多层网络自动提取数据的抽象特征(从简单到复杂)

核心特点:

依赖 “深度” 神经网络(通常包含多层隐藏层)

擅长处理非结构化数据(如图像、语音、文本)和高复杂度问题

需要大量数据和计算资源(如 GPU)

典型模型:

CNN(卷积神经网络,用于图像识别)、RNN(循环神经网络,用于时序数据)、Transformer(注意力机制模型,用于大语言模型)等

例子:

图像识别(如人脸识别)、语音转文字、ChatGPT 等大语言模型

总结:

AI 是最宽泛的概念,机器学习是 AI 的一个重要分支,而深度学习是机器学习的一个子领域

AI ⊃ 机器学习 ⊃ 深度学习

二:大语言模型(LLM)

大语言模型(LLM,Large Language Model)是当前 AI 领域的核心技术

其本质是基于海量文本数据训练的、能理解和生成人类语言的深度学习模型

2.1:核心定义与目标

定义:通过大规模参数(通常数十亿到数万亿)的神经网络,学习人类语言的统计规律、语法结

构、语义逻辑甚至世界知识,从而实现对自然语言的理解(如问答、摘要)和生成(如创作、

译)

核心目标:模拟人类的语言能力,实现 “与人类自然对话”“处理复杂语言任务”(如逻辑推理、代

码生成)

2.2:底层架构 Transformer

解决了传统 RNN(循环神经网络)处理长文本时的 “信息遗忘” 问题,通过自注意力机制实现对

文本中 “远距离依赖关系” 的捕捉(例如理解一句话中前后词语的关联)

结构特点:

由 “编码器(Encoder)” 和 “解码器(Decoder)” 组成,不同 LLM 会侧重使用其中一部分:

  • 仅用解码器:如 GPT 系列(擅长生成文本,自回归生成);
  • 仅用编码器:如 BERT(擅长理解文本,双向编码);
  • 编码器 + 解码器:如 T5(兼顾理解与生成)。

2.3:关键技术概念

(1)Token 与 Tokenization(分词)

Token

模型处理语言的基本单位,不是直接处理字符,而是将文本拆分为 “子词 / 符号”(如 “苹

果” 可能拆为 “苹”+“果”,英文 “unhappiness” 拆为 “un”+“happiness”)

作用

平衡词汇量(避免生僻词过多)和语义准确性,是模型理解文本的第一步

例子

GPT-3 使用的 Tokenizer 能处理约 5 万种 Token,中文通常按字或子词拆分

(2)上下文窗口(Context Window)

定义

模型一次能处理的最大 Token 长度(输入 + 输出),例如 GPT-4 为 8k/128k Token,LLaMA2 为 4k/16k Token

意义

窗口越大,模型能 “记住” 的上下文越长(如处理长文档、多轮对话),但计算成本也越高

限制

超过窗口长度的文本会被截断,是当前 LLM 的重要局限(需结合 RAG 等技术弥补)

(3)自注意力机制(Self-Attention)

核心逻辑

让模型在处理文本时,自动计算 “每个词与其他所有词的关联程度”(注意力权重),从而理解语义依赖(如 “他” 指代前文的 “小明”)

优势

并行计算(比 RNN 快),能捕捉长距离依赖,是 Transformer 的 “灵魂”

扩展

多头注意力(Multi-head Attention)—— 同时从多个角度计算注意力,提升语义捕捉能力

(4)涌现能力(Emergent Abilities)

定义

当模型参数规模达到某个阈值(通常数十亿以上)后,突然表现出的 “未被显式训练的能力”(如逻辑推理、数学计算、跨语言翻译)

例子

GPT-3(1750 亿参数)能做简单编程,而 10 亿参数的模型几乎无法完成 —— 这是 LLM 规模效应的核心体现

(5)提示工程(Prompt Engineering)

定义

通过设计 “提示词(Prompt)” 引导模型输出符合预期的结果,无需修改模型参数。

核心技巧:

指令明确(如 “总结以下文本,不超过 200 字”)

少样本示例(Few-shot):给模型展示几个例子,让它模仿

思维链(Chain-of-Thought):引导模型 “一步步推理”(如 “先分析问题,再计算,最后总结”)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐