目的

为避免一学就会、一用就废,这里做下笔记

说明

本文内容紧接前文-AI发展史

机器学习

是什么

从范畴看:机器学习是实现AI的一种途径,是一个专门的学科,除此之外,还有基于规则的专家系统、群体智能等其他途径
从内涵看:机器学习,就是从数据中分析获得规律,并利用规律对未知数据进行预测、分类或者决策的过程。

为什么

因为人类终于同时具备了:

  1. 强烈的愿望(让机器自主获得知识);
  2. 清晰的理论路径(统计学习、神经网络);
  3. 充足的“养料”(大数据);
  4. 强大的“消化器官”(算力);
  5. 广泛的应用场景(商业、科研、社会需求)。

这就像一门新科学的诞生:当“问题”、“方法”和“条件”同时成熟,学科便水到渠成地出现了。机器学习不是替代人类,而是延伸了人类从数据中获取洞见的能力,成为了数字时代的“基础科学”之一

怎么办

(传统)机器学习的步骤

步骤1:模型训练
步骤1.1:数据收集与预处理
  1. 获取数据:从数据库、日志、传感器等来源收集原始数据。

  2. 数据清洗
    1)处理缺失值(删除、填充均值/中位数等)。
    2)处理异常值。
    3)纠正不一致的数据。

  3. 数据格式化:确保数据是结构化的表格形式(如CSV),每一行是一个样本,每一列是一个特征。

步骤1.2:特征工程(最核心、最耗时的步骤)

这是传统机器学习的灵魂,目标是从原始数据中提取、构造出对预测任务最有用的特征。这是一个 “人工智慧” 密集型过程。

  1. 特征提取:将原始数据转化为可用的数值特征
    例如:从文本中提取词频(TF-IDF),从图像中提取颜色直方图、SIFT特征。

  2. 特征构造/转换:利用领域知识创造新的特征
    例如:从“出生日期”构造出“年龄”;从“交易次数”和“总金额”构造出“平均交易额”。

  3. 特征选择:从所有特征中挑选出最重要的子集,以降低维度、防止过拟合、提升效率。
    方法:过滤法(如相关系数)、包裹法(如递归特征消除)、嵌入法(如Lasso回归)。

  4. 特征缩放/归一化:将不同量纲的特征缩放到同一尺度
    如[0,1]区间或标准正态分布,这对于基于距离的模型(如SVM、KNN)至关重要。

步骤1.3:模型选择与训练
  1. 划分数据集:将数据分为训练集(用于训练模型)、验证集(用于调参和选择模型)和测试集(用于最终评估模型性能)。

  2. 选择算法:根据问题类型(分类、回归、聚类等)和数据特点选择合适的传统ML算法。
    经典算法举例:
    1)线性模型(线性回归、逻辑回归)
    2)支持向量机(SVM)
    3)决策树及其集成方法(随机森林、梯度提升树如XGBoost, LightGBM)
    4)朴素贝叶斯
    5)K近邻(KNN)
    6)聚类算法(K-Means)

  3. 训练模型:在训练集上使用优化算法(如梯度下降、最大似然估计)来学习模型参数。

步骤1.4:模型评估与调优
  1. 评估指标:使用测试集评估模型性能。
    1)分类:准确率、精确率、召回率、F1分数、AUC。
    2)回归:均方误差(MSE)、平均绝对误差(MAE)、R²分数。

  2. 超参数调优:调整模型的预设参数
    如SVM的核函数与惩罚系数C、随机森林的树数量与深度。
    常用方法:网格搜索、随机搜索、贝叶斯优化。

  3. 验证与选择:在验证集上比较不同模型或不同超参数配置的表现,选择最优者。

步骤2:模型部署和预测
  1. 模型部署:将训练好的模型固化为API服务、嵌入到应用程序或系统中。

  2. 预测推断:对新输入的数据(需经过与训练数据相同的特征工程处理流程)进行预测。

  3. 性能监控与更新:监控模型在生产环境中的表现。当数据分布发生变化(概念漂移)或性能下降时,需要重新收集数据、重新训练和更新模型。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐