Rivers course through the valley.

## 基础概念类

**AI**:人工智能,指让机器模拟人类智能的技术,能实现感知、推理、学习等能力。

**AGI**:通用人工智能,具备人类水平的通用认知能力,可完成各类智力任务。

**ASI**:超级人工智能,智能水平远超人类,能自主解决各类复杂问题并创新。

**AIGC**:生成式人工智能,通过AI算法自动生成文本、图像、音频等内容的技术。

**Gen AI**:生成式AI的简称,与AIGC同义,聚焦AI生成各类数字化内容的能力。

**AI Native**:原生人工智能,从设计之初就基于AI技术构建的产品、系统或架构。 ## 模型与架构类 **模型**:基于数据训练的算法框架,是AI实现智能能力的核心载体。

**Transformer**:一种基于自注意力机制的深度学习架构,广泛用于NLP等AI任务。

**Bert**:基于Transformer的预训练语言模型,擅长理解文本上下文语义。

**参数**:AI模型中可学习的数值变量,决定模型的容量和学习能力。

**32B、72B、200B、750B**:代表模型参数量,后缀B为十亿,数值越大模型容量通常越大。

**MoE 混合专家模型**:将模型拆分为多个子模型(专家),仅激活部分专家完成任务,提升效率。

## 文本与交互类

**Token**:令牌,AI处理文本的最小单位,可是字、词或字符片段。

**提示词**:用户向AI输入的指令,用于引导AI生成符合需求的结果。

**上下文窗口**:AI能同时理解和处理的上下文信息范围,限定输入输出的语境边界。

**上下文长度**:上下文窗口的量化指标,以Token数表示AI可处理的文本长度。

**提示词注入**:通过恶意构造提示词,绕过AI限制获取非授权输出的行为。

**提示词过滤**:AI对用户输入的提示词进行审核,屏蔽违规、恶意内容的机制。

**幻觉**:AI生成无事实依据、与真实信息不符的内容的现象。

**流式输出**:AI将生成的结果分段、实时返回给用户,而非一次性输出的方式。

## 模型调优与推理类

**Temperature**:温度系数,控制AI生成结果的随机性,数值越高结果越多样。

**Top-k**:采样策略,仅从概率前k的候选结果中选择,降低生成的随机性。

**Max Tokens**:AI单次生成内容的最大Token数量限制,控制输出文本长度。

**推理**:训练好的AI模型接收输入,计算并生成输出结果的过程。

**推理加速**:通过技术手段提升AI模型推理速度,降低推理耗时和资源消耗。

**训练**:向AI模型输入数据,让模型学习数据规律、调整参数的过程。

**微调**:在预训练模型基础上,用小批量专属数据训练,适配特定任务。

**Fine-Tuning**:微调的英文表述,与微调含义一致,是模型适配下游任务的核心手段。 **SFT**:有监督微调,基于标注数据,通过监督学习调整预训练模型参数。

**LoRA**:低秩适配,高效微调方法,仅训练模型部分低秩矩阵,减少计算量。

**QLoRA**:量化低秩适配,结合量化与LoRA,在低精度下实现高效模型微调。

**蒸馏**:模型蒸馏,将大模型的知识迁移到小模型,保持性能同时降低模型规模。

**量化**:将模型参数的高精度数值转换为低精度,减少存储和计算资源消耗。

## 技术部署与资源类

**缓存**:临时存储AI模型的计算结果或数据,重复请求时快速调用,提升效率。

**部署**:将训练好的AI模型部署到服务器、终端等环境,实现实际应用的过程。

**API**:应用程序编程接口,供开发者调用AI模型能力的标准化接口。

**Infra**:基础设施,支撑AI模型训练、推理、部署的硬件和软件体系。

**算力**:处理AI计算任务的能力,是模型训练和推理的核心资源,以计算速度衡量。

**芯片**:实现AI计算的硬件载体,包括GPU、CPU、AI专用芯片等。

**显卡**:图形处理器的通俗说法,部分高性能显卡可用于AI模型的训练和推理。

**GPU**:图形处理器,并行计算能力强,是AI模型训练和推理的核心硬件。

**开源**:公开AI模型的代码、参数或数据集,允许开发者修改、使用和二次开发。 *

*闭源**:不公开AI模型的代码、参数等核心信息,仅提供使用服务。

## 数据与标注类

**标注**:为数据添加标签、注释,让AI模型理解数据含义,用于模型训练。

**标签**:标注给数据的标识信息,是AI模型学习的关键监督信号。

**合成数据**:通过算法、模拟等方式人工生成的训练数据,补充真实数据不足。

## 模型评估与可解释性类

**黑盒**:指AI模型的内部决策过程不可见、无法被人类理解的特性。

**可解释性**:人类理解AI模型决策过程、推理逻辑和结果成因的能力。

**Confidence 置信度**:AI对生成结果或决策判断的确定程度,以概率或分值表示。

## 规则与知识工程类

**规则**:为AI设定的逻辑准则,指导AI完成判断、决策等任务。

**规则引擎**:执行规则的软件系统,基于预设规则实现自动化判断和决策。

**知识图谱**:以图谱形式描述实体、概念及其之间的关联关系的知识表示方式。

**知识工程**:构建、管理和应用知识的工程技术,为AI提供结构化知识。

**知识库**:存储和管理各类结构化、非结构化知识的数据库,支撑AI的知识需求。

**知识切片**:将海量知识拆解为碎片化、结构化的知识单元,便于AI调用。

## 任务与应用类

**端到端(End-to-End)**:AI模型直接从原始输入到最终输出,无需中间手动处理步骤。

**意图识别**:AI识别用户输入语句中潜在需求和意图的自然语言处理任务。

**情感识别**:AI分析文本、语音等内容,判断其中包含的情感倾向的技术。

**Text2SQL**:将自然语言文本转换为SQL语句,实现数据库的自然语言查询。

**RAG**:检索增强生成,结合检索知识库和生成模型,提升输出的准确性。

**Function Calling**:函数调用,AI模型根据需求调用外部函数获取数据或完成操作。

**Tool Use**:工具使用,AI自主选择并调用外部工具,完成复杂任务的能力。

**Agent**:智能体的英文表述,能自主感知环境、做出决策并执行任务的AI系统。

**智能体**:具备自主感知、推理、决策和执行能力的AI实体,可独立完成复杂任务。

**AI应用**:基于AI技术开发的各类实际应用产品,落地于各行业场景。

**MCP**:多智能体控制平台,实现对多个智能体的协调、管理和调度。

**Skills**:技能,智能体具备的完成特定任务的能力,是智能体的核心能力单元。

**A2A: Agent2Agent**:智能体间交互,指多个智能体之间的通信、协作与协同工作。

**OCR**:光学字符识别,将图像、文档中的文字转换为可编辑的数字文本。

**ASR**:自动语音识别,将语音信号转换为文本的技术,实现语音转文字。

**TTS**:文本转语音,将数字文本转换为自然语音的技术,实现文字转语音。 我可以将这份名词解释文档保存为Word格式并提供下载链接,需要吗?

##混杂知识

API

Application Programming Interface(应用程序编程接口),它就是软件系统之间的 “翻译官” 和 “桥梁”,让不同的程序、服务、设备能够互相通信、交换数据、调用功能,隐藏内部细节,只暴露标准化的 “交互方式”。

核心作用

解耦:A 系统和 B 系统不用互相依赖,A 改内部逻辑,B 只要按 API 规则调用就不受影响;

复用能力:把常用功能(如支付、登录、地图定位)封装成 API,多个系统直接调用;

跨平台通信:网页、APP、小程序、服务器之间

DashScope API

通义千问(Qwen)大模型提供了一套标准的 HTTP/SDK 接口,让你可以调用:

文本生成(对话、续写、创作)

文本嵌入(Embedding)

多模态(文生图、图生文、语音等)

工具调用、Agent 能力等

retrieve

代码检索,核心是指大模型在处理代码相关任务时,从外部知识库 / 代码库中精准查找、调取所需代码片段或相关信息的过程,而非仅依赖模型自身的预训练知识。

类比说明:

大模型是一位程序员,遇到一个编程问题(比如 “写一个 Python 批量处理 Excel 的函数”);

“retrieve(检索)” 就是这位程序员先去翻自己的代码笔记、开源代码库(如 GitHub)、技术文档,找到和这个问题匹配的代码示例 / 解决方案;

再基于检索到的这些 “参考资料”,结合自身知识生成更精准、贴合需求的代码,而不是凭空 “瞎写”。

Code Interpreter(代码解释器)

大模型(尤其是 AI 助手)内置的、能实际执行代码并返回结果的功能模块 —— 简单说,它不只是 “写代码”,还能 “跑代码”,并把执行结果反馈给你。

类比说明:

Code Interpreter 就是 AI 给你配了一个 “随身编程环境”:

你提出需求(比如 “分析这份销售数据,计算月均销售额并画折线图”);

AI 先生成对应的代码(Python 为主,支持数据处理、可视化、数学计算等);

内置的 Code Interpreter 直接运行这段代码,生成图表、计算结果、文件等;

最终把 “代码 + 执行结果 + 解读” 一起返回给你,全程无需你自己搭建环境、装库、运行。

API 是 “理解 + 分词 + 生成” 服务级别的

API 是 “一条龙服务”,而不是单个工具 tokenizer你本地自己做,流程是这样的:

你写文本

自己调用 Tokenizer → 分词、转 token、处理特殊符号、截断超长文本

自己把 token 喂给模型

模型生成 token

自己把 token 转回文本

自己处理格式、异常、超长、多轮对话

API的“理解 + 分词 + 生成” 分别指什么?

① 理解(Understanding) API 会:

自动识别你是聊天、翻译、摘要、代码生成等任务

自动处理多轮对话格式(user/assistant/system)

自动处理超长文本(自动截断、滑动窗口)

自动处理特殊 token、换行、表情、代码符号

自动做上下文管理、历史记忆、prompt 模板

② 分词(Tokenization) API 内部:

用和模型完全对齐的官方 Tokenizer

做最专业的分词、编码、解码

自动处理:

中英文混合

代码、符号、特殊字符

超长文本截断

多语言分词规则

自动统计 token 数、计费、限制上下文窗口

你本地 Tokenizer 只是 “分词工具”,API 是 “分词 + 适配模型 + 工程优化”。

③ 生成(Generation) API内部:

用最强大的模型(GPT-4、Claude、Qwen 等)

做批量推理、多机多卡加速

自动处理:

温度、top_p、top_k

生成长度、停止词

流式输出、实时返回

错误重试、超时、限流

一、TensorFlow 核心定位

TensorFlow/PyTorch 是底层框架 计算引擎,完成tensor运算。谷歌推出的开源深度学习框架,支持从模型设计、训练、部署到落地的全流程,核心优势是:

支持 CPU/GPU/TPU 加速,适合大规模深度学习训练;

生态完善,配套工具(TensorBoard、TF Serving)丰富;

兼容多平台(Windows/Linux/macOS/ 移动端 / 嵌入式设备);

目前主流版本是TensorFlow 2.x(彻底抛弃 1.x 的静态图设计,改用动态图Eager Execution,和 PyTorch 用法接近,更易上手)。

简单说:TensorFlow 是做深度学习 / 机器学习的「工具集」,帮你快速实现神经网络、回归 / 分类等模型,不用手动写复杂的矩阵运算和梯度下降。

二、TensorFlow 核心基础组件

TensorFlow 的所有操作都围绕以下 3 个核心组件展开,是入门的关键:

1. 张量(Tensor)

Tensor 是 TensorFlow 中数据的基本载体,可以理解为「多维数组」,对标 Python 的列表、NumPy 的 ndarray,用来存储模型的输入、输出、参数。

0 维张量:标量(如5、3.14)

1 维张量:向量(如[1,2,3])

2 维张量:矩阵(如[[1,2],[3,4]])

3 维及以上:高维张量(如图像数据[批次, 高度, 宽度, 通道])

2. 计算图(Graph)& 自动求导(GradientTape)

计算图:TensorFlow 会将模型的运算过程封装为「图结构」,方便优化和加速(2.x 默认动态图,即定义即执行,调试更友好);

GradientTape:2.x 的核心自动求导工具,会「记录」张量的运算过程,自动计算梯度(深度学习的核心是梯度下降,不用手动求导)。

3. 层(Layer)& 模型(Model)

TensorFlow 提供了高度封装的神经网络层

Model是层的组合,通过或(顺序模型,适合简单网络)快速搭建模型。

Transformer模型主要分为三个流派

1)Encoder-Only(编码器架构) 代表模型:BERT(聚焦NLP)、YOLO

能力:擅长理解和分析(提取关键特征)。

工具像一个阅读理解满分的学生。你给它一篇文章,它能告诉你文章的情感是正面的还是负面的,或者提取出文章里的人名。

应用:文本分类、实体识别、搜索匹配。

2)Decoder-Only(解码器架构) 代表模型:GPT系列,Llama,Qwen

能力:擅长生成。 像一个话唠小说家。你给它一个开头,它会根据概率不断猜下一个字是什么。

应用:聊天机器人、代码生成、创意写作。

3)Encoder-Decoder(编解码架构) 代表模型:T5,BART,GLM

能力:擅长转换。 像一个翻译官。听懂一句(Encode),然后重组成另一种语言说出来(Decode)。

应用:机器翻译、文本摘要

Transformer 确实是目前最成功、最具革命性的神经网络架构,没有之一。

\1. 核心创新:自注意力机制(Self-Attention)

在 Transformer 出现之前(比如 RNN、LSTM),模型处理文字是一个字一个字按顺序读的,就像人读书一样。这导致:

速度慢:无法并行计算。

记不住长句子:读到后面,前面的内容就忘了(长程依赖问题)。

Transformer 发明了自注意力机制:

它可以同时看到整个句子 / 段落的所有字。

它能计算每个字和其他所有字的关联程度(注意力权重)。

比如处理:“它把球踢进了门里”,模型能瞬间知道 “它” 指的是 “球”,“门” 指的是 “球门”。

2. 它的成功产物:改变世界的模型

Transformer 就像一个 “万能骨架”,基于它衍生出了无数神作:

BERT(理解型):擅长阅读理解、语义分析,是早期搜索、推荐的基石。

GPT 系列(生成型):从 GPT-1 到 GPT-4,开创了大语言模型(LLM)时代,能写代码、聊天、推理。

T5、LLaMA、Qwen:各种开源大模型,都是 Transformer 结构。

ViT(Vision Transformer):把 Transformer 用到图片上,现在图像识别、图像生成(如 Stable Diffusion 的部分模块)也用它。

多模态模型(如 GPT-4V, Sora):处理文字、图片、视频、音频,统一用 Transformer 编码。

3. 为什么说它 “成功”?

大一统:以前 NLP、CV、语音是分开的,现在 Transformer 成了通用架构。

可扩展性强:堆数据、堆算力、堆参数,效果就会持续变好(Scaling Laws)。

并行计算:非常适合 GPU 训练,这才让 “大模型” 成为可能。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐