深度学习第六节无监督学习 Unsupervised learning

gggggfs

301人浏览 · 2026-01-10 14:29:44

gggggfs · 2026-01-10 14:29:44 发布

AI学习人类其实是 AI在学习特征

无监督学习的核心意义在于摆脱对人工标注数据的依赖，让模型从海量无标签数据中自主发现隐藏结构与模式，降低数据使用门槛、拓展 AI 的应用边界，同时为探索通用人工智能提供关键路径。以下从多个维度展开说明：

核心价值与意义

降低数据使用成本与门槛
- 现实中 90% 以上数据无标注，人工标注耗时、耗力且易出错，无监督学习可直接利用这些原始数据，避免高昂标注成本，尤其适合标注困难的领域（如基因测序、天文观测、工业传感器数据）。例如，在金融风控中，无需人工标注正常 / 异常交易，通过聚类或密度估计就能识别欺诈行为，大幅提升效率。
挖掘未知模式与隐藏价值
- 无监督学习以 “数据为中心”，不受预设标签限制，能发现人类难以察觉的深层关联，比如用户行为的潜在群体划分、基因数据中的致病片段关联、文本数据的主题聚类等。例如，电商平台用聚类算法分析用户购买记录，可发现交叉销售机会，如购买婴儿奶粉的用户常搭配辅食工具，从而优化推荐策略。
数据预处理与特征工程的核心工具
- 降维算法（如 PCA、t-SNE、UMAP）可压缩高维数据、保留核心信息，解决 “维度灾难”，同时实现数据可视化、去噪和加速计算。例如，将 100 维的用户行为数据降为 3 个核心维度，便于后续监督学习模型训练，提升性能与效率。聚类结果还可作为新特征输入监督模型，如用户分群 ID 用于精准营销预测。
赋能 AI 自主认知与通用智能探索
- 无监督学习让模型自主构建数据的内在表示，是大模型预训练的核心（如 BERT、GPT 的自监督预训练），使其从海量文本中学习语言规律，为下游任务提供强大基础。同时，生成式无监督模型（如 GAN、VAE）能创造新数据，推动图像生成、文本合成等任务发展，为通用人工智能提供 “从经验中自主学习” 的路径。
适配复杂场景的灵活解决方案
- 在缺乏先验知识的探索性场景中（如宇宙学研究、社会学调查），无监督学习可作为 “数据侦探”，快速梳理数据结构，为后续研究提供方向。此外，异常检测能力在网络安全、设备预测性维护中至关重要，如通过分析服务器日志的异常模式，提前预警入侵或故障。
与监督学习互补，提升整体效能
- 无监督学习与监督学习形成 “探索 - 验证” 闭环：先用无监督发现数据结构、生成假设，再用监督学习验证并优化预测精度。例如，先用聚类划分客户群体，再针对不同群体训练个性化推荐模型，兼顾效率与精准度。

下游任务（Downstream Tasks）指在预训练模型基础上，通过微调（Fine-tuning）或迁移学习（Transfer Learning）解决的特定问题。这些任务通常依赖于预训练模型提取的通用特征，并针对具体场景（如文本分类、目标检测等）进行优化。

常见下游任务类型

自然语言处理（NLP）

文本分类：情感分析、新闻主题分类。
序列标注：命名实体识别（NER）、词性标注。
生成任务：机器翻译、文本摘要。

计算机视觉（CV）

图像分类：识别物体类别。
目标检测：定位并识别图像中的多个物体。
图像分割：像素级分类（如语义分割）。

多模态任务

图文匹配：判断文本与图像的相关性。
视觉问答（VQA）：根据图像回答文本问题。

下游任务实现步骤

数据准备
标注数据需与任务匹配，例如分类任务需标注类别标签，检测任务需标注边界框。

模型选择
基于预训练模型（如BERT、ResNet）初始化，根据任务调整输出层。例如：

文本分类任务在BERT后接全连接层。
目标检测任务在ResNet后接FPN（特征金字塔网络）。

微调策略

学习率调整：下游任务通常使用更低的学习率（如预训练的1/10）。
分层训练：先微调顶层，逐步解冻底层参数。

评估指标

分类任务：准确率（Accuracy）、F1值。
检测任务：mAP（平均精度均值）。
生成任务：BLEU（机器翻译）、ROUGE（文本摘要）。

典型应用案例

BERT微调：通过添加分类层实现情感分析。
ResNet迁移：替换ImageNet预训练模型的最后一层，用于医学图像分类。

下游任务的核心在于利用预训练模型的通用能力，通过少量标注数据实现高性能的特定场景应用。

刚开始的分类回归是有监督也就是有x 有 y 半监督是 x中有一些有y 有一些无y 无监督：没有人工标注的 y（标签）

一、机器学习类无监督方法

PCA（主成分分析）
用来压缩数据维度：比如把几百个特征的高维数据，简化成几个核心特征（保留主要信息），方便后续分析 / 建模（比如高维图像数据降维后可视化）。
聚类
用来给数据分组：比如把用户按消费行为分成 “高活跃”“低活跃” 群，或把商品按属性分成不同类别（不需要提前给标签）。

二、深度学习类无监督方法

生成对抗网络（GAN）
用来生成新数据：比如生成逼真的图片、文本（例：AI 画头像、自动写文案），或修复模糊图像。
自监督学习（对比学习 / 生成式自监督）
用 “数据本身当标签”训练模型提取特征：比如让模型自己学 “同一张图的不同裁剪是相似的”，再用这个模型去做分类 / 检测（省掉人工标标签的成本）。

对比学习：让自己和自己靠的更近 相似样本拉近距离，不相似样本推开距离

模型：必须拥有某种提取特征的能力

Simsaim 是自监督学习里的对比学习方法，核心逻辑可以简单总结为：
给同一张图做两次不同的随机变换（比如裁剪、翻转、调色），让模型把这两个 “版本” 的特征学得尽可能像（拉近距离），同时不用额外的负样本 —— 靠 “自己监督自己” 学会提取通用的图像特征，之后能直接用到分类、检测等任务里。

GAN（生成对抗网络）是一种用 “两个模型互相对抗” 来生成逼真数据的方法，核心逻辑：

一个 “生成器”：负责造假数据（比如假图片、假文本）；

一个 “判别器”：负责区分 “生成器造的假数据” 和 “真实数据”；

两者互相博弈、不断升级，最终生成器能造出和真实数据几乎一样的内容（比如 AI 画的逼真人像、模拟的真实语音）。

Cycle GAN 是专门做 “跨域数据转换”的 GAN，核心逻辑：
比如要把 “照片转成手绘”“猫图转成狗图”—— 它用两个生成器（A→B、B→A）+ 两个判别器（判 B 真假、判 A 真假），通过 “循环一致性”（A 转 B 再转回 A，得和原 A 差不多）来保证转换后既像目标域，又不丢原数据的核心特征。

典型场景：风格迁移（照片转油画）、图像翻译（白天转夜景）