🔗 导航到原文
本资料为《从垃圾堆到AI工程师》第一章的配套学习内容。
阅读小说原文:第一章《废土》
专栏总目录:《智能重生》AI工程师成长小说专栏
本章配套:思考题解答 + 知识记忆卡片 + 常见面试题及参考答案


一、本章核心知识点回顾

  • 数据的数字本质:AI处理的一切信息(图像、声音、文字等)都必须先转换成数字。
  • 向量:数字的有序列表,是AI中最基本的表示单位。
  • 向量的维度:维度越高,能携带的信息量越大。
  • 欧氏距离:衡量两个向量在空间中的直线距离,反映绝对差异
  • 余弦相似度:衡量两个向量的方向是否一致,与长度无关,反映模式相似
  • 数学基础的重要性:线性代数是AI的基石,向量是入门的第一步。

二、第一章思考题解答

问题一

如果一个人的身高、体重、年龄组成了一个三维向量,那么“相似的人”在这个向量空间中会呈现怎样的分布?

解答
每个人的(身高,体重,年龄)可以看作三维空间中的一个点。

  • 同类聚集:同龄、体型相近的人,向量之间的距离(欧氏距离)较小,会聚集在空间中的某个“簇”内。
  • 差异性方向:年龄差异会导致点在“年龄轴”上分散;身高体重差异在另外两维上形成分散。
  • 整体分布:所有人会形成一个近似椭球形的云团,中心对应平均身高、体重、年龄;离中心越远的人越“不典型”。
  • 意义:我们可以通过计算两点间的欧氏距离来量化两个人的“相似度”,距离越近越相似。

问题二

在垃圾分类的场景中,如何用向量和距离来描述“铜零件”和“铁零件”的区别?

解答
每个零件可以用一个特征向量表示,例如:
[
[重量(克), 颜色灰度值(0-255), 导电率(0-1)]
]

  • 铜与铁的典型向量:铜密度大(8.96 g/cm³),颜色偏红黄;铁密度较小(7.87 g/cm³),颜色偏灰。
  • 区分方法:计算待测零件的向量与“铜标准向量”和“铁标准向量”之间的欧氏距离。
    • 若与铜的距离 < 与铁的距离 → 更可能是铜。
    • 也可用余弦相似度:如果只关心“方向”(即特征比例),不关心绝对值,可用余弦相似度判断更接近哪一种材料的“特征模式”。
  • 实践:陆鸣用手掂重量(一维特征)就已经是在做一维空间的欧氏距离比较。

问题三

余弦相似度在什么情况下比欧氏距离更适合用来衡量相似度?

解答

  • 余弦相似度关注方向,欧氏距离关注绝对差值
  • 适用场景
    1. 文本相似度:两篇文章的词频向量通常长度不同(一篇长一篇短),但它们的方向(即词语分布比例)相似时,内容就相似。欧氏距离会因长度差异而认为不相似,余弦则不受影响。
    2. 用户偏好:用户A对电影的评分均值高(4.5),用户B评分均值低(2.5),但两人对不同电影的相对喜好顺序一致(都喜欢科幻片、不喜欢爱情片)。余弦相似度能捕捉这种偏好模式,欧氏距离会被绝对值差异掩盖。
    3. 任何关注“形状”而非“大小”的场合:例如净土地不同时间段的能源消耗曲线,如果关心的只是波峰波谷的模式,而不是消耗总量,用余弦更合适。

三、知识记忆卡片(张小卡片)

┌─────────────────────────────────────────────┐
│  📚 第一章 · 向量与相似度                    │
├─────────────────────────────────────────────┤
│  🔹 向量 = 数字列表,描述一切数据            │
│     例:[身高,体重,年龄]                  │
│                                             │
│  🔹 欧氏距离 = √Σ(差²)                     │
│     含义:空间直线距离,看绝对差异          │
│     适用:评分、坐标、尺寸                  │
│                                             │
│  🔹 余弦相似度 = (A·B)/(|A||B|)            │
│     含义:方向夹角余弦,看模式              │
│     适用:文本、偏好、形状                  │
│                                             │
│  💡 记忆技巧:                              │
│     “欧氏量长短,余弦辨方向”               │
│                                             │
│  ✅ 面试常见:                              │
│     区别、适用场景、维度灾难                │
└─────────────────────────────────────────────┘

四、常见面试题与参考答案

❓ 问题1:什么是向量?在机器学习中为什么常用向量表示数据?

参考答案
向量是数字的有序列表,例如 [身高, 体重, 年龄]。在机器学习中,所有数据(图像、文本、音频等)都必须转换为数值形式才能被模型处理。向量可以方便地表示一个样本的多个特征,并且支持数学运算(加法、点积、距离计算等),是机器学习算法的基础数据结构。

扩展点:向量可以是行向量或列向量;高维向量通常需要降维(如PCA)避免维度灾难。


❓ 问题2:请解释欧氏距离和余弦相似度的区别,并各举一个应用场景。

参考答案

对比项 欧氏距离 余弦相似度
公式 (\sqrt{\sum (x_i - y_i)^2}) (\frac{A\cdot B}{|A||B|})
关注点 绝对差值(位置) 方向一致性(角度)
受长度影响
取值范围 [0, +∞),越小越相似 [-1, 1],越大越相似

应用场景

  • 欧氏距离:推荐系统中的协同过滤(用户对电影评分的绝对差异)、KNN分类、聚类(K-Means)。
  • 余弦相似度:文本相似度(文档-词频向量)、商品偏好模式匹配(不考虑用户评分尺度差异)。

❓ 问题3:为什么在训练神经网络之前需要对特征进行归一化(Normalization)?归一化与向量距离有什么关系?

参考答案
特征归一化是将不同量纲的特征缩放到相近的范围(如 [0,1]),原因:

  1. 避免大数值特征主导距离计算:比如“年龄”(0100)和“年收入”(010^6)若不做归一化,欧氏距离几乎完全由收入决定,年龄几乎不起作用。
  2. 加速梯度下降收敛:各维度尺度一致时,损失函数的等高线更接近圆形,优化更稳定。

与向量距离的关系:归一化后,欧氏距离和余弦相似度会更有意义,因为每个维度贡献权重相同。


❓ 问题4:在推荐系统中,什么时候用欧氏距离更合适,什么时候用余弦相似度?

参考答案

  • 用欧氏距离:当特征值的绝对值代表实际意义时。例如用户对电影的评分,评分1分和5分差异巨大,此时我们需要考虑用户打分的高低差异。
  • 用余弦相似度:当关注偏好模式而非绝对评分时。例如用户A普遍打高分(平均4.5),用户B普遍打低分(平均2.5),但两人都喜欢悬疑片、不喜欢爱情片,余弦相似度能捕捉到这个模式,欧氏距离则会因评分尺度不同而误判为不相似。

一句话记忆:欧氏距离看“距离”,余弦看“角度”。


❓ 问题5:什么是“维度灾难”?它对向量距离计算有什么影响?

参考答案
维度灾难是指随着特征维度的增加,数据在高维空间中变得越来越稀疏,所有样本之间的欧氏距离趋向于相等,导致距离度量失效。

影响

  • 在高维空间(如几百维),任意两个向量之间的距离几乎一样,无法区分远近。
  • 基于距离的算法(KNN、K-Means)性能严重下降。
  • 需要降维技术(PCA、t-SNE)或选择其他度量(如余弦相似度在高维相对稳定)。

五、自测练习题(答案附后)

  1. 计算点 (1, 2) 和点 (4, 6) 之间的欧氏距离。
  2. 计算向量 [1, 0] 和 [0, 1] 的余弦相似度。
  3. 简述为什么在文本分类中常用余弦相似度而非欧氏距离。
  4. (开放题)如果你要为净土地的居民推荐营养膏口味,你会用哪种相似度?为什么?

练习题答案

  1. 距离 = 5。
  2. 余弦相似度 = 0(垂直)。
  3. 文本词频向量的长度差异大,欧氏距离会被长度主导,余弦只看方向即主题分布。
  4. 建议用余弦相似度:因为居民口味可能有“咸党”和“甜党”,关注偏好模式而非绝对评分值。

📌 本文是《从垃圾堆到AI工程师》第一章配套学习资料。
欢迎收藏、转发,一起从零走进AI工程师的世界。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐