一、基础数学视角:向量是什么?

在最基本的数学中,向量是一个 有方向、有大小 的量。

  • 二维/三维空间(我们最熟悉的):一个箭头。例如 [3, 4] 表示从原点出发,沿X轴走3个单位,沿Y轴走4个单位的箭头。它的“大小”(模长)是5,方向是特定的角度。

  • 高维空间(大模型的核心):当维度扩展到几百、几千甚至数万时,我们无法可视化,但数学形式完全一致。一个向量就是一个有序的数字列表。例如 [0.2, -1.7, 0.8, ..., 0.05],长度为1024。这个列表定义了在高维空间中的一个“点”或一个“方向”。

核心思想每个数字代表该向量在某个“抽象维度”上的坐标值。 就像用“甜度”、“酸度”、“脆度”三个维度描述一个苹果,我们可以用几千个维度描述一个词、一句话的“语义”。


二、在大模型中的关键角色:向量即“表示”

在大模型中,一切皆可向量化。向量是模型理解和处理信息的“通用语言”。

1. 词的表示:词向量/词嵌入

这是最经典的应用。每个词(如“国王”、“皇后”、“巴黎”)都被映射为一个固定的高维向量(如300维)。

  • 神奇之处在于关系:经过训练后,词向量之间的几何关系会捕捉语义关系

    • 例如向量(“国王”) - 向量(“男人”) + 向量(“女人”) ≈ 向量(“皇后”)

    • 相似的词(如“猫”、“狗”)在向量空间中位置会很接近。

  • 你可以理解为:词向量就是这个词的 “语义身份证” 或 “语义DNA”。模型不认识字,只认识这一串数字。

2. 上下文表示:动态向量

在大模型(如Transformer)中,一个词的最终表示会根据它所在的句子而动态变化。

  • 例如:“苹果”在“我吃了一个苹果”和“苹果公司发布了新产品”中,会有两个不同的向量。这个向量不仅包含词本身的语义,还包含了它在当前句子中的上下文信息

  • 这就是“注意力机制”的功劳:模型在编码“苹果”时,会去看句子中其他词(如“吃”、“公司”)的向量,并加权融合到当前词的表示中。

3. 位置表示:位置编码向量

Transformer本身不考虑词序,所以需要显式地告诉模型每个词的位置。

  • 通过“位置编码向量”(一个包含位置信息的向量,可用正弦余弦公式生成),加到词向量上,让模型知道“我”是第一个词,“苹果”是第五个词。

4. 模型内部:思想流的载体
  • 输入:一句话被转换成一系列词向量 + 位置向量。

  • 每一层计算:这些向量在模型的每一层(Transformer Block)中被加工、转换。每一层的输出是一组新的、更富含语义信息的向量

  • 输出:最终,最后一个词的输出向量(或所有向量的汇总)被送入一个分类头,用于预测下一个词(生成任务),或进行情感分类等。

  • 类比:你可以把向量看作是在工厂(模型)的流水线上被加工的“原材料”。每经过一个车间(网络层),它就被赋予新的、更高级的“特征”和“含义”。


三、如何直观理解高维向量空间?

虽然无法可视化,但可以借助比喻和性质来理解:

  1. “语义地图”比喻

    • 想象一个拥有768个维度的“语义宇宙”。

    • 每个词、每个句子都是这个宇宙中的一个星球

    • 意义相近的星球(如“快乐”、“高兴”)会形成星团

    • “星系”之间存在规律的向量通道(如“国王”到“女王”的向量,平行于“男人”到“女人”的向量)。

  2. “特征画像”比喻

    • 一个300维的词向量,就像用300个问题给一个词打分。

    • 问题可能是:“与‘皇室’相关吗?”(维度1)、“是生物吗?”(维度2)、“是动词吗?”(维度3)、“情感积极吗?”(维度4)…… 这些“问题”不是人工设定的,而是模型自己学出来的、最有利于完成预测任务的特征。

    • 最终,一个词就由这300个“特征分数”构成了一幅完整的画像。

  3. 运算即推理

    • 向量的加减、点积(相似度计算)就是模型进行类比、推理和检索的基本运算。

    • 点积(内积)计算两个向量的相似度,这是注意力机制的核心:模型通过计算当前词向量与句子中所有词向量的点积,来决定“关注”谁。


四、总结:为什么向量如此重要?

  1. 统一表示:将离散的、符号化的文字(或图像、声音)转化为连续的、可计算的数学对象。

  2. 可微分:向量表示使得模型可以通过梯度下降进行优化。模型通过微调海量的向量参数来学习。

  3. 承载语义:向量空间中的几何关系(距离、方向)直接对应语义和逻辑关系。

  4. 高效计算:现代GPU/TPU非常擅长对大规模的向量和矩阵进行并行计算,这正是大模型训练和推理的基石。

简单来说,在大模型中,向量就是思想的原子,是意义的坐标,是模型进行所有“思考”和“创造”所依赖的基本数据单元。 理解了向量,你就理解了深度学习模型如何“看见”和“理解”世界。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐