机器学习与深度学习day6——思考如何更好的提取特征

无监督学习，一般指只有数据没有标签，核心特点是：训练数据没有人工标注的标签，模型需要自主从原始数据中挖掘潜在的结构、规律、特征或模式。可以把它理解成：让模型自己 “观察” 和 “总结” 数据的特点，而不是有人手把手教它 “什么是什么”。用一个生活化的例子就能快速区分：无监督学习的任务围绕 “发现数据规律”展开，主要分为三类：核心思想是让模型从未标注数据中通过生成或重建任务自动学习数据的内在结构与语

Bashlalalallall

538人浏览 · 2026-01-22 17:42:29

Bashlalalallall · 2026-01-22 17:42:29 发布

1.无监督学习

无监督学习，一般指只有数据没有标签，核心特点是：训练数据没有人工标注的标签，模型需要自主从原始数据中挖掘潜在的结构、规律、特征或模式。可以把它理解成：让模型自己 “观察” 和 “总结” 数据的特点，而不是有人手把手教它 “什么是什么”。

用一个生活化的例子就能快速区分：

学习范式	核心特点	生活化类比	常见任务
监督学习	数据带标签	老师教你：苹果是红色圆形的、香蕉是黄色长条形的	图像分类、房价预测
无监督学习	数据无标签	你自己整理书架：把大小相近、内容类似的书放在一起	客户分群、图像压缩

无监督学习的任务围绕 “发现数据规律”展开，主要分为三类：

聚类
- 目标：把相似的数据自动归为一类，不相似的分在不同类。
- 核心逻辑：模型计算数据之间的 “相似度”（比如距离），然后划分族群。
- 常见算法：K-Means、DBSCAN、层次聚类。
- 应用场景：电商用户分群（高消费群、低频群）、图像分割（把同一物体的像素聚在一起）。
降维
- 目标：在保留数据核心信息的前提下，降低数据的维度，简化计算。
- 核心逻辑：把高维数据（比如 100 维特征）映射到低维空间（比如 2 维），方便可视化或后续处理。
- 常见算法：PCA（主成分分析）、t-SNE、Umap。
- 应用场景：把高维的图像特征降到 2 维，用散点图直观展示不同类别的分布。
生成模型
- 目标：学习数据的分布规律，然后生成和原始数据相似的新数据。
- 核心逻辑：模型 “记住” 数据的特征（比如人脸的五官分布、文本的语法规律），然后 “创造” 新样本。
- 常见算法 / 模型：自编码器（AutoEncoder）、生成对抗网络（GAN）、变分自编码器（VAE）。
- 应用场景：生成逼真的人脸图像、文本续写、图像去噪。