一、三大问题

机器学习的核心问题可以根据「是否有标签」「标签类型」两大维度划分,本质差异在于学习目标和数据形态

1. 回归(Regression)

  • 核心定义:有监督学习任务,目标是构建输入特征(X)与连续型标签(y)之间的映射模型,输出为连续数值。
  • 关键判定标准: ① 存在明确标签y(属于有监督学习,需依赖标注数据训练); ② 标签y是连续型数值(可取某一范围内的任意实数,而非固定类别)。
  • 核心逻辑:模型学习的是“量化关系”,比如“特征变化1个单位时,标签会变化多少”。

2. 分类(Classification)

  • 核心定义:有监督学习任务,目标是将输入特征(X)映射到离散的类别标签(y),输出为预定义类别的概率或直接类别。
  • 关键判定标准: ① 存在明确标签y(有监督学习,依赖标注数据); ② 标签y是离散型类别(有限个固定选项,不可取中间值)。
  • 核心逻辑:模型学习的是“类别边界”,通过特征区分不同类别的样本。
  • 典型案例:人脸识别(输入:人脸图像;输出:对应人物姓名)、文本情感分析(输入:用户评论;输出:正面/负面/中性)、恶意软件检测(输入:程序特征;输出:病毒/正常软件)。

3. 聚类(Clustering)

  • 核心定义:无监督学习任务,目标是在无标签的输入特征(X)中,根据样本间的相似度自动划分“簇”(Cluster),实现数据的自然分组。
  • 关键判定标准: ① 无标签y(无监督学习,无需人工标注,仅依赖数据本身特征); ② 核心依赖“相似度度量”(如欧氏距离、余弦相似度),簇内样本相似度高,簇间样本相似度低。
  • 核心逻辑:模型学习的是“数据分布结构”,自动发现隐藏的分组规律。

二、五大任务

五大任务是机器学习在实际场景中的具体落地形式,覆盖计算机视觉、自然语言处理、时序数据等领域,核心围绕“识别-定位-跟踪-结构化分析”展开:

1. 分类(Classification)

  • 任务定义:最基础的判别任务,将整个输入样本(如图像、文本、音频)直接判定为某一预定义类别,不关注样本内部的位置、结构信息。
  • 核心目标:回答“是什么”(What),仅输出类别标签或概率。
  • 关键特征:不涉及空间定位或时序关联,仅对“整体样本”做类别判断。

2. 目标检测(Object Detection)

  • 任务定义:有监督任务,在分类基础上增加“空间定位”功能,需同时识别输入中的目标类别和目标在输入中的具体位置。
  • 核心目标:回答“是什么+在哪里”(What + Where),输出每个目标的「边界框坐标」(如x1,y1,x2,y2,对应矩形框左上角和右下角坐标)+「类别标签」。
  • 与分类的核心差异:分类仅判断“有什么”,检测需明确“每个目标的具体位置”(支持单图多目标识别)。

3. 分割(Segmentation)

  • 任务定义:有监督任务,将输入(如图像)按语义或实例进行「像素级划分」,每个像素都对应一个类别标签,实现目标轮廓的精准刻画。
  • 核心目标:回答“是什么+哪个像素属于它”(What + Which Pixel),输出像素级的类别掩码(Mask)。
  • 细分类型
    • 语义分割(Semantic Segmentation):不区分同一类别的不同实例,仅标注像素类别(如道路图像中,所有“车”的像素统一标为“车”类);
    • 实例分割(Instance Segmentation):区分同一类别的不同实例(如道路图像中,每辆车的像素分别标为“车1”“车2”“车3”);
    • 全景分割(Panoptic Segmentation):结合语义分割与实例分割,同时标注所有类别(含背景)和实例。

  • 与检测的核心差异:检测输出矩形边界框(粗略定位),分割输出像素级掩码(精准到轮廓)。

4. 关键点/姿态识别(Keypoint Detection / Pose Estimation)

  • 任务定义:有监督任务,检测输入中目标的「关键特征点」(如人体关节、人脸五官、物体角点),输出关键点的坐标集合,进而还原目标的姿态或形态。
  • 核心目标:回答“关键位置在哪里+目标姿态是什么”(Key Positions + Structure),通过关键点串联描述目标的空间结构。

5. 目标追踪(Object Tracking)

  • 任务定义:在连续的输入序列(如视频帧、时序数据)中,对指定目标(或自动检测到的目标)进行「持续身份关联和位置更新」,跟踪目标的运动轨迹。
  • 核心目标:回答“目标是谁+持续在哪里”(Who + Continuous Where),解决视频中目标遮挡、形变、运动等问题,保持目标身份不混淆。
  • 核心挑战:目标遮挡(如行人被树木、车辆遮挡)、目标形变(如动物奔跑时身体姿态变化)、背景干扰(相似目标出现)、光照变化、目标进出画面。
  • 与检测的核心差异:检测是单帧独立判断,追踪是多帧连续关联(需维持目标身份一致性)。

三、总结

  1. 三大问题是机器学习的“基础框架”:按「有无标签」「标签类型」划分,回归(连续标签)、分类(离散标签)属于有监督学习,聚类(无标签)属于无监督学习;
  2. 五大任务是“落地形态”:分类是基础,检测(分类+定位)、分割(像素级分类)、关键点识别(结构级分类)是分类任务的延伸,目标追踪是检测任务在时序维度的拓展;
  3. 学习关键:区分任务的核心“输出结果形态”——连续数值(回归)、离散类别(分类)、簇编号(聚类)、边界框(检测)、像素掩码(分割)、关键点坐标(姿态识别)、轨迹信息(追踪)。
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐