[人工智能]一文吃透大模型 — — AI 黑话50词
[人工智能]一文吃透大模型 — — AI 黑话50词
·
[人工智能]AI 黑话50词 — — 快速入门

1. 核心概念
- 人工智能 (AI):全称artificial intelligence。目标是让机器能像人一样思考、学习的广义科学。好比“会学习的机器”。
- 机器学习 (ML):全称machine learning。AI的核心实现方法,让机器从数据中自动学习规律,而无需显式编程。好比“从经验中学习”。
- 深度学习 (DL):全称Deep Learning。机器学习的一个分支,使用类似人脑的“神经网络”来学习,特别擅长处理图像、语音等复杂数据。好比“用多层神经网络进行复杂学习”。
- 神经网络 (Neural Network):受大脑启发的计算模型,由大量互联的“神经元”(节点)组成,是深度学习的基础。好比“人工神经元组成的网络”。
- 算法 (Algorithm):解决问题的一套明确指令和步骤。在机器学习(ML)中,就是学习数据模式的具体数学方法。好比“菜谱”。
- 模型 (Model):算法从数据中学到的“规律”或“函数”的最终结果。训练好后,可以用来做预测。好比“背完答案的学生”。
- 训练 (Training):让模型从数据中学习的过程。好比“学生刷题学习”。
- 推理/预测 (Inference/Prediction):用训练好的模型对新数据做出判断。好比“学生参加考试”。
- 数据集 (Dataset):用来训练或测试模型的数据集合。通常分为训练集、验证集和测试集。好比“教材、模拟卷和真题”。
2. 模型训练与评估
- 特征 (Feature):描述数据的属性或变量,是模型的输入。例如,预测房价时,“面积”、“地段”就是特征。好比“解题的关键信息点”。
- 标签 (Label):在监督学习中,数据对应的正确答案或结果。好比“标准答案”。
- 损失函数 (Loss Function):衡量模型预测与真实标签之间差距的函数。训练的目标就是最小化这个损失。好比“扣分规则”。
- 梯度下降 (Gradient Descent):通过计算损失函数的“梯度”(坡度),找到最快降低损失的方向,来优化模型参数的核心算法。好比“蒙眼下山,用脚试探最陡的方向走”。
- 反向传播 (Backpropagation):神经网络中高效计算梯度的方法。误差从输出层向输入层反向传播,用于更新权重。好比“考后复盘,从最后一道错题倒推哪里基础没学好”。
- 前向传播 (Forward Propagation):数据从神经网络的输入层流向输出层,并得出预测结果的过程。好比“正式考试答题”。
- 权重 (Weight):神经网络中连接的重要性系数,在训练中不断调整。好比“神经元之间连接的强弱”。
- 过拟合 (Overfitting):模型过度记忆了训练数据的细节和噪声,导致在新数据上表现很差。好比“死记硬背了所有习题,但不会解新题型”。
- 欠拟合 (Underfitting):模型太简单,连训练数据的基本模式都没学好。好比“没学好基础知识,连练习题都做不对”。
- 泛化 (Generalization):模型在未见过的新数据上表现良好的能力,是机器学习的终极目标。好比“举一反三的能力”。
- 验证集 (Validation Set):训练时用来调参和防止过拟合的“模拟考”数据,不参与最终训练。
- 测试集 (Test Set):完全留到最后,用于最终评估模型泛化能力的“高考”数据,训练中绝不能碰。
- 准确率 (Accuracy):分类正确的样本占总样本的比例。最直观的指标,但在类别不平衡时可能失真。
- 监督/半监督/自监督/无监督学习:监督(全有答案)→ 半监督(答案+无答案)→ 自监督(自己造答案)→ 无监督(完全无答案)。
- 监督学习 (Supervised Learning):最常见的范式。模型从 “带标准答案” 的数据中学习输入到输出的映射。好比 学生刷带答案的习题册,学习解题方法。用于图像分类、房价预测等任务。
- 无监督学习 (Unsupervised Learning):模型从 “完全没有答案” 的数据中学习,目标是发现其内在结构或分组。好比 学生面对一堆杂乱资料,自己整理出不同主题的文件夹。用于客户细分、数据聚类等。
- 半监督学习 (Semi-supervised Learning):介于监督与无监督之间。利用 “少量带答案习题”+“大量无答案资料” 共同学习,以提升效果。好比 学生用一本习题册掌握基础,再通过阅读海量书籍来深化理解。
- 自监督学习 (Self-supervised Learning):无监督学习的一种高明变体。模型通过 “自己给数据出题”(如挖空预测)来构造标签进行学习。好比 学生通过完成文章的“完形填空”来掌握语言规律,无需老师给答案。是大模型预训练的核心技术。
- 召回率 (Recall):所有真实的正例中,被模型正确找出的比例。关注“查得全不全”。
- F1分数 (F1 Score):精确率和召回率的调和平均数,是综合衡量指标。
3. 神经网络与架构
- 卷积神经网络 (CNN):全称convolutional neural network。专为处理图像等网格数据设计的网络,通过“卷积核”提取局部特征。视觉领域的基石。
- 循环神经网络 (RNN):全称Recurrent Neural Network。专为处理序列数据(如文本、时间序列)设计的网络,具有“记忆”能力。处理前后有关联的数据。
- 长短期记忆网络 (LSTM):RNN的改进版,能更好地捕捉长距离依赖,缓解原始RNN的“遗忘”问题。
- Transformer:完全基于“自注意力机制”的架构,彻底改变了自然语言处理领域,并行效率极高。GPT、BERT的基石。
- 自注意力机制 (Self-Attention):让序列中的每个元素都能直接关注到序列中所有其他元素,并动态计算其重要性。好比“读句子时,让每个词都看看上下文其他词来决定自己的意思”。
- 生成对抗网络 (GAN):全称 generative adversarial network。包含一个生成器和一个判别器,两者相互对抗、共同进步,用于生成逼真数据。好比“造假币 vs 验钞机”。
- 大语言模型 (LLM):全称 large language model。基于海量文本训练的、参数巨大的Transformer模型,如GPT系列,具有强大的理解和生成能力。
- 分词 (Tokenization):将文本切分成模型能处理的基本单元(Tokens)的过程。中文可能是词或字,英文可能是单词或子词。
- 词向量/嵌入 (Word Embedding):将词语映射为高维空间中的稠密向量,使得语义相近的词在空间中也靠近。“让机器理解词语的意思”。
- 微调 (Fine-tuning):在一个预训练好的大模型基础上,用特定领域的小数据继续训练,使其适应新任务。“给通才专家做专项培训”。
- 提示工程 (Prompt Engineering):通过精心设计输入提示(Prompt),来引导大语言模型生成更符合期望的输出。“学会向AI正确提问”。
- 多模态模型 (Multimodal Model):能同时理解和处理文本、图像、声音等多种类型信息的模型。“全能型AI”。
4. 实践与应用
- 参数 (Parameter):模型内部可以通过学习来调整的变量,如权重和偏置。参数数量常代表模型复杂度。
- 超参数 (Hyperparameter):训练开始前人为设定的参数,如学习率、网络层数。“训练前的设置选项”。
- 学习率 (Learning Rate):控制每次参数更新步长的超参数。太大容易震荡,太小收敛慢。“下山的步幅”。
- 批次 (Batch):由于内存限制,训练时通常将数据分成小批喂给模型。一批数据的大小叫批次大小。饭太多,一口吃不下,需要多吃几口。
- 端到端 (End-to-End, E2E): 描述的是一种设计方法,就是从一端到另一端,没有任何中间环节。AI系统直接从输入数据中学习,并产生期望的输出,而不需要人为地分解成多个步骤。举个例子:要教AI认猫,传统方法是先教它认识耳朵、胡须等多个模块,而端到端是直接给它看无数张猫和不是猫的图片,让它自己从像素中悟出“猫”的整体概念。
- 周期 (Epoch):整个训练集被完整训练一遍。
- 优化器 (Optimizer):实现梯度下降算法的具体工具(如Adam、SGD),负责更新模型参数。
- 正则化 (Regularization):防止过拟合的技术(如L1/L2正则化、Dropout),给模型增加一些约束,让其更简单、更泛化。“防止学生钻牛角尖,鼓励掌握通用解法”。
- Dropout:训练时随机“丢弃”一部分神经元,是一种有效的正则化方法,让网络不过度依赖某些局部特征。
- 归一化 (Normalization):将数据或网络层的输出调整到标准范围(如均值为0,方差为1),加速训练并提升稳定性。
- GPU/显卡:因为其并行计算能力极强,是训练深度学习模型的主要硬件,比CPU快得多。
- 部署 (Deployment):将训练好的模型集成到实际应用中(如网站、APP)提供服务的过程。
- Token (在LLM语境下):大语言模型处理文本的基本单位。可以是一个词、一个字或一个子词。注意:Token数量直接影响API调用成本和文本长度限制。
更多推荐



所有评论(0)