第一章《废土》完整学习资料
《从垃圾堆到AI工程师》第一章配套学习资料聚焦向量与相似度的核心概念。文章回顾了数据的数字本质、向量基础及距离度量方法(欧氏距离与余弦相似度),通过思考题解析了三维向量分布、垃圾分类应用等实际问题。配套提供知识记忆卡片、常见面试题及参考答案,涵盖向量表示、归一化必要性、推荐系统度量选择等关键知识点,并附有自测练习题帮助巩固理解。本文可作为AI入门学习参考,强调数学基础对AI工程师的重要性。
🔗 导航到原文
本资料为《从垃圾堆到AI工程师》第一章的配套学习内容。
阅读小说原文:第一章《废土》
专栏总目录:《智能重生》AI工程师成长小说专栏
本章配套:思考题解答 + 知识记忆卡片 + 常见面试题及参考答案
一、本章核心知识点回顾
- 数据的数字本质:AI处理的一切信息(图像、声音、文字等)都必须先转换成数字。
- 向量:数字的有序列表,是AI中最基本的表示单位。
- 向量的维度:维度越高,能携带的信息量越大。
- 欧氏距离:衡量两个向量在空间中的直线距离,反映绝对差异。
- 余弦相似度:衡量两个向量的方向是否一致,与长度无关,反映模式相似。
- 数学基础的重要性:线性代数是AI的基石,向量是入门的第一步。
二、第一章思考题解答
问题一
如果一个人的身高、体重、年龄组成了一个三维向量,那么“相似的人”在这个向量空间中会呈现怎样的分布?
解答:
每个人的(身高,体重,年龄)可以看作三维空间中的一个点。
- 同类聚集:同龄、体型相近的人,向量之间的距离(欧氏距离)较小,会聚集在空间中的某个“簇”内。
- 差异性方向:年龄差异会导致点在“年龄轴”上分散;身高体重差异在另外两维上形成分散。
- 整体分布:所有人会形成一个近似椭球形的云团,中心对应平均身高、体重、年龄;离中心越远的人越“不典型”。
- 意义:我们可以通过计算两点间的欧氏距离来量化两个人的“相似度”,距离越近越相似。
问题二
在垃圾分类的场景中,如何用向量和距离来描述“铜零件”和“铁零件”的区别?
解答:
每个零件可以用一个特征向量表示,例如:
[
[重量(克), 颜色灰度值(0-255), 导电率(0-1)]
]
- 铜与铁的典型向量:铜密度大(8.96 g/cm³),颜色偏红黄;铁密度较小(7.87 g/cm³),颜色偏灰。
- 区分方法:计算待测零件的向量与“铜标准向量”和“铁标准向量”之间的欧氏距离。
- 若与铜的距离 < 与铁的距离 → 更可能是铜。
- 也可用余弦相似度:如果只关心“方向”(即特征比例),不关心绝对值,可用余弦相似度判断更接近哪一种材料的“特征模式”。
- 实践:陆鸣用手掂重量(一维特征)就已经是在做一维空间的欧氏距离比较。
问题三
余弦相似度在什么情况下比欧氏距离更适合用来衡量相似度?
解答:
- 余弦相似度关注方向,欧氏距离关注绝对差值。
- 适用场景:
- 文本相似度:两篇文章的词频向量通常长度不同(一篇长一篇短),但它们的方向(即词语分布比例)相似时,内容就相似。欧氏距离会因长度差异而认为不相似,余弦则不受影响。
- 用户偏好:用户A对电影的评分均值高(4.5),用户B评分均值低(2.5),但两人对不同电影的相对喜好顺序一致(都喜欢科幻片、不喜欢爱情片)。余弦相似度能捕捉这种偏好模式,欧氏距离会被绝对值差异掩盖。
- 任何关注“形状”而非“大小”的场合:例如净土地不同时间段的能源消耗曲线,如果关心的只是波峰波谷的模式,而不是消耗总量,用余弦更合适。
三、知识记忆卡片(张小卡片)
┌─────────────────────────────────────────────┐
│ 📚 第一章 · 向量与相似度 │
├─────────────────────────────────────────────┤
│ 🔹 向量 = 数字列表,描述一切数据 │
│ 例:[身高,体重,年龄] │
│ │
│ 🔹 欧氏距离 = √Σ(差²) │
│ 含义:空间直线距离,看绝对差异 │
│ 适用:评分、坐标、尺寸 │
│ │
│ 🔹 余弦相似度 = (A·B)/(|A||B|) │
│ 含义:方向夹角余弦,看模式 │
│ 适用:文本、偏好、形状 │
│ │
│ 💡 记忆技巧: │
│ “欧氏量长短,余弦辨方向” │
│ │
│ ✅ 面试常见: │
│ 区别、适用场景、维度灾难 │
└─────────────────────────────────────────────┘
四、常见面试题与参考答案
❓ 问题1:什么是向量?在机器学习中为什么常用向量表示数据?
参考答案:
向量是数字的有序列表,例如 [身高, 体重, 年龄]。在机器学习中,所有数据(图像、文本、音频等)都必须转换为数值形式才能被模型处理。向量可以方便地表示一个样本的多个特征,并且支持数学运算(加法、点积、距离计算等),是机器学习算法的基础数据结构。
扩展点:向量可以是行向量或列向量;高维向量通常需要降维(如PCA)避免维度灾难。
❓ 问题2:请解释欧氏距离和余弦相似度的区别,并各举一个应用场景。
参考答案:
| 对比项 | 欧氏距离 | 余弦相似度 |
|---|---|---|
| 公式 | (\sqrt{\sum (x_i - y_i)^2}) | (\frac{A\cdot B}{|A||B|}) |
| 关注点 | 绝对差值(位置) | 方向一致性(角度) |
| 受长度影响 | 是 | 否 |
| 取值范围 | [0, +∞),越小越相似 | [-1, 1],越大越相似 |
应用场景:
- 欧氏距离:推荐系统中的协同过滤(用户对电影评分的绝对差异)、KNN分类、聚类(K-Means)。
- 余弦相似度:文本相似度(文档-词频向量)、商品偏好模式匹配(不考虑用户评分尺度差异)。
❓ 问题3:为什么在训练神经网络之前需要对特征进行归一化(Normalization)?归一化与向量距离有什么关系?
参考答案:
特征归一化是将不同量纲的特征缩放到相近的范围(如 [0,1]),原因:
- 避免大数值特征主导距离计算:比如“年龄”(0100)和“年收入”(010^6)若不做归一化,欧氏距离几乎完全由收入决定,年龄几乎不起作用。
- 加速梯度下降收敛:各维度尺度一致时,损失函数的等高线更接近圆形,优化更稳定。
与向量距离的关系:归一化后,欧氏距离和余弦相似度会更有意义,因为每个维度贡献权重相同。
❓ 问题4:在推荐系统中,什么时候用欧氏距离更合适,什么时候用余弦相似度?
参考答案:
- 用欧氏距离:当特征值的绝对值代表实际意义时。例如用户对电影的评分,评分1分和5分差异巨大,此时我们需要考虑用户打分的高低差异。
- 用余弦相似度:当关注偏好模式而非绝对评分时。例如用户A普遍打高分(平均4.5),用户B普遍打低分(平均2.5),但两人都喜欢悬疑片、不喜欢爱情片,余弦相似度能捕捉到这个模式,欧氏距离则会因评分尺度不同而误判为不相似。
一句话记忆:欧氏距离看“距离”,余弦看“角度”。
❓ 问题5:什么是“维度灾难”?它对向量距离计算有什么影响?
参考答案:
维度灾难是指随着特征维度的增加,数据在高维空间中变得越来越稀疏,所有样本之间的欧氏距离趋向于相等,导致距离度量失效。
影响:
- 在高维空间(如几百维),任意两个向量之间的距离几乎一样,无法区分远近。
- 基于距离的算法(KNN、K-Means)性能严重下降。
- 需要降维技术(PCA、t-SNE)或选择其他度量(如余弦相似度在高维相对稳定)。
五、自测练习题(答案附后)
- 计算点 (1, 2) 和点 (4, 6) 之间的欧氏距离。
- 计算向量 [1, 0] 和 [0, 1] 的余弦相似度。
- 简述为什么在文本分类中常用余弦相似度而非欧氏距离。
- (开放题)如果你要为净土地的居民推荐营养膏口味,你会用哪种相似度?为什么?
练习题答案:
- 距离 = 5。
- 余弦相似度 = 0(垂直)。
- 文本词频向量的长度差异大,欧氏距离会被长度主导,余弦只看方向即主题分布。
- 建议用余弦相似度:因为居民口味可能有“咸党”和“甜党”,关注偏好模式而非绝对评分值。
📌 本文是《从垃圾堆到AI工程师》第一章配套学习资料。
欢迎收藏、转发,一起从零走进AI工程师的世界。
更多推荐


所有评论(0)