第一章《废土》完整学习资料

《从垃圾堆到AI工程师》第一章配套学习资料聚焦向量与相似度的核心概念。文章回顾了数据的数字本质、向量基础及距离度量方法（欧氏距离与余弦相似度），通过思考题解析了三维向量分布、垃圾分类应用等实际问题。配套提供知识记忆卡片、常见面试题及参考答案，涵盖向量表示、归一化必要性、推荐系统度量选择等关键知识点，并附有自测练习题帮助巩固理解。本文可作为AI入门学习参考，强调数学基础对AI工程师的重要性。

风落无尘

82人浏览 · 2026-04-30 16:42:00

风落无尘 · 2026-04-30 16:42:00 发布

🔗 导航到原文
本资料为《从垃圾堆到AI工程师》第一章的配套学习内容。
阅读小说原文：第一章《废土》
专栏总目录：《智能重生》AI工程师成长小说专栏
本章配套：思考题解答 + 知识记忆卡片 + 常见面试题及参考答案

一、本章核心知识点回顾

数据的数字本质：AI处理的一切信息（图像、声音、文字等）都必须先转换成数字。
向量：数字的有序列表，是AI中最基本的表示单位。
向量的维度：维度越高，能携带的信息量越大。
欧氏距离：衡量两个向量在空间中的直线距离，反映绝对差异。
余弦相似度：衡量两个向量的方向是否一致，与长度无关，反映模式相似。
数学基础的重要性：线性代数是AI的基石，向量是入门的第一步。

二、第一章思考题解答

问题一

如果一个人的身高、体重、年龄组成了一个三维向量，那么“相似的人”在这个向量空间中会呈现怎样的分布？

解答：
每个人的（身高，体重，年龄）可以看作三维空间中的一个点。

同类聚集：同龄、体型相近的人，向量之间的距离（欧氏距离）较小，会聚集在空间中的某个“簇”内。
差异性方向：年龄差异会导致点在“年龄轴”上分散；身高体重差异在另外两维上形成分散。
整体分布：所有人会形成一个近似椭球形的云团，中心对应平均身高、体重、年龄；离中心越远的人越“不典型”。
意义：我们可以通过计算两点间的欧氏距离来量化两个人的“相似度”，距离越近越相似。

问题二

在垃圾分类的场景中，如何用向量和距离来描述“铜零件”和“铁零件”的区别？

解答：
每个零件可以用一个特征向量表示，例如：
[
[重量（克），颜色灰度值（0-255），导电率（0-1）]
]

铜与铁的典型向量：铜密度大（8.96 g/cm³），颜色偏红黄；铁密度较小（7.87 g/cm³），颜色偏灰。
区分方法：计算待测零件的向量与“铜标准向量”和“铁标准向量”之间的欧氏距离。
- 若与铜的距离 < 与铁的距离 → 更可能是铜。
- 也可用余弦相似度：如果只关心“方向”（即特征比例），不关心绝对值，可用余弦相似度判断更接近哪一种材料的“特征模式”。
实践：陆鸣用手掂重量（一维特征）就已经是在做一维空间的欧氏距离比较。

问题三

余弦相似度在什么情况下比欧氏距离更适合用来衡量相似度？

解答：

余弦相似度关注方向，欧氏距离关注绝对差值。
适用场景：
1. 文本相似度：两篇文章的词频向量通常长度不同（一篇长一篇短），但它们的方向（即词语分布比例）相似时，内容就相似。欧氏距离会因长度差异而认为不相似，余弦则不受影响。
2. 用户偏好：用户A对电影的评分均值高（4.5），用户B评分均值低（2.5），但两人对不同电影的相对喜好顺序一致（都喜欢科幻片、不喜欢爱情片）。余弦相似度能捕捉这种偏好模式，欧氏距离会被绝对值差异掩盖。
3. 任何关注“形状”而非“大小”的场合：例如净土地不同时间段的能源消耗曲线，如果关心的只是波峰波谷的模式，而不是消耗总量，用余弦更合适。

三、知识记忆卡片（张小卡片）

┌─────────────────────────────────────────────┐
│  📚 第一章 · 向量与相似度                    │
├─────────────────────────────────────────────┤
│  🔹 向量 = 数字列表，描述一切数据            │
│     例：[身高，体重，年龄]                  │
│                                             │
│  🔹 欧氏距离 = √Σ(差²)                     │
│     含义：空间直线距离，看绝对差异          │
│     适用：评分、坐标、尺寸                  │
│                                             │
│  🔹 余弦相似度 = (A·B)/(|A||B|)            │
│     含义：方向夹角余弦，看模式              │
│     适用：文本、偏好、形状                  │
│                                             │
│  💡 记忆技巧：                              │
│     “欧氏量长短，余弦辨方向”               │
│                                             │
│  ✅ 面试常见：                              │
│     区别、适用场景、维度灾难                │
└─────────────────────────────────────────────┘

四、常见面试题与参考答案

❓ 问题1：什么是向量？在机器学习中为什么常用向量表示数据？

参考答案：
向量是数字的有序列表，例如 [身高，体重，年龄]。在机器学习中，所有数据（图像、文本、音频等）都必须转换为数值形式才能被模型处理。向量可以方便地表示一个样本的多个特征，并且支持数学运算（加法、点积、距离计算等），是机器学习算法的基础数据结构。

扩展点：向量可以是行向量或列向量；高维向量通常需要降维（如PCA）避免维度灾难。

❓ 问题2：请解释欧氏距离和余弦相似度的区别，并各举一个应用场景。

参考答案：

对比项	欧氏距离	余弦相似度
公式	(\sqrt{\sum (x_i - y_i)^2})	(\frac{A\cdot B}{\|A\|\|B\|})
关注点	绝对差值（位置）	方向一致性（角度）
受长度影响	是	否
取值范围	[0, +∞)，越小越相似	[-1, 1]，越大越相似

应用场景：

欧氏距离：推荐系统中的协同过滤（用户对电影评分的绝对差异）、KNN分类、聚类（K-Means）。
余弦相似度：文本相似度（文档-词频向量）、商品偏好模式匹配（不考虑用户评分尺度差异）。

❓ 问题3：为什么在训练神经网络之前需要对特征进行归一化（Normalization）？归一化与向量距离有什么关系？

参考答案：
特征归一化是将不同量纲的特征缩放到相近的范围（如 [0,1]），原因：

避免大数值特征主导距离计算：比如“年龄”（0_{100）和“年收入”（0}10^6）若不做归一化，欧氏距离几乎完全由收入决定，年龄几乎不起作用。
加速梯度下降收敛：各维度尺度一致时，损失函数的等高线更接近圆形，优化更稳定。

与向量距离的关系：归一化后，欧氏距离和余弦相似度会更有意义，因为每个维度贡献权重相同。

❓ 问题4：在推荐系统中，什么时候用欧氏距离更合适，什么时候用余弦相似度？

参考答案：

用欧氏距离：当特征值的绝对值代表实际意义时。例如用户对电影的评分，评分1分和5分差异巨大，此时我们需要考虑用户打分的高低差异。
用余弦相似度：当关注偏好模式而非绝对评分时。例如用户A普遍打高分（平均4.5），用户B普遍打低分（平均2.5），但两人都喜欢悬疑片、不喜欢爱情片，余弦相似度能捕捉到这个模式，欧氏距离则会因评分尺度不同而误判为不相似。

一句话记忆：欧氏距离看“距离”，余弦看“角度”。

❓ 问题5：什么是“维度灾难”？它对向量距离计算有什么影响？

参考答案：
维度灾难是指随着特征维度的增加，数据在高维空间中变得越来越稀疏，所有样本之间的欧氏距离趋向于相等，导致距离度量失效。

影响：

在高维空间（如几百维），任意两个向量之间的距离几乎一样，无法区分远近。
基于距离的算法（KNN、K-Means）性能严重下降。
需要降维技术（PCA、t-SNE）或选择其他度量（如余弦相似度在高维相对稳定）。

五、自测练习题（答案附后）

计算点 (1, 2) 和点 (4, 6) 之间的欧氏距离。
计算向量 [1, 0] 和 [0, 1] 的余弦相似度。
简述为什么在文本分类中常用余弦相似度而非欧氏距离。
（开放题）如果你要为净土地的居民推荐营养膏口味，你会用哪种相似度？为什么？

练习题答案：

距离 = 5。
余弦相似度 = 0（垂直）。
文本词频向量的长度差异大，欧氏距离会被长度主导，余弦只看方向即主题分布。
建议用余弦相似度：因为居民口味可能有“咸党”和“甜党”，关注偏好模式而非绝对评分值。

📌 本文是《从垃圾堆到AI工程师》第一章配套学习资料。
欢迎收藏、转发，一起从零走进AI工程师的世界。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI图像革命：GPT-Image-2攻克文字渲染难题

2048 AI社区

GEO优化系统源码技术人员匹配条件，贴牌、二开、定制

2048 AI社区

uniapp-template：基于 uni-app + Vue 3 + Vite 的多端业务项目模板实践

本文介绍了一个基于 uni-app + Vue 3 + Vite 的多端业务启动模板，旨在解决实际开发中的常见问题。该模板集成了登录态管理、页面权限控制、角色化 TabBar、Wot UI组件库、Tailwind CSS、Mock数据、H5扫码、图表分包、小程序上传等核心功能。采用模块化设计，通过Pinia管理状态，利用Vite插件自动生成配置，实现了权限路由、暗黑模式、分包优化等工程化实践。特别