机器学习的基础概念
人工智能与机器学习核心概念摘要 人工智能(AI)通过计算机模拟人类智能,包含机器学习(ML)和深度学习(DL)两大分支。ML通过训练模型实现预测,DL则采用深度神经网络模拟人脑。机器学习分为监督学习(分类/回归)、无监督学习(聚类)和强化学习(环境交互获取奖励)。建模流程包括数据获取、预处理、特征工程、模型训练和评估,其中特征工程(提取/预处理/降维)对模型效果起决定性作用。AI发展三要素为数据、
一、人工智能三大概念
人工智能之父:约翰-麦卡锡
机器学习之父:亚瑟-赛缪尔
AI人工智能:用计算机模拟人脑,让计算机能够像人类一样理性的思考,行动
ML机器学习:先训练模型,评估,最后预测
DL深度学习:深度神经网络,大脑仿生,设计一层一层神经元模拟万事万物
1.AI,ML,DL之间的关系
1.机器学习是实现人工智能的一种途径
2.深度学习是机器学习的一种方法发展而来的
2.算法的学习方式
基于规则的学习:程序员根据经验去判断
基于模型的学习:从数据中自动学出规律
二、机器学习的应用领域和发展史
1.应用领域
计算机视觉cv:对人看到的东西进行理解
自然语言处理:对人焦流的东西进行理解
数据挖掘和数据分析:也属于人工智能范畴
2.发展史
1)1956年人工智能元年
2)2012年计算机视觉深度神经网络方法研究兴起
3)2017年自然语言处理应用大幕拉开
4)2022年chatGPT的出现,引起AIGC的发展
3.人工智能发展的三要素
数据、算法、算力
CPU:主要适合I\O密集型任务。
GPU:主要适合计算密集型任务。
TPU:专门针对大型网络训练而设计的一款处理器
三、机器学习常用术语
样本:一行数据就是一个样本;有时一条样本被叫成一条记录
特征:一列数据一个特征,有时也被称为属性
标签:模型要预测的那一列数据。
数据集:多个样本组成数据集
1.数据集划分
数据集可划分两部分:训练集、测试集的比例:7:3~8:2
训练集(training set):用来训l练模型的数据集
测试集(testing set):用来测试模型的数据集
四、机器学习的算法分类
1.有监督学习
定义:输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的
数据集:需要标注数据的标签/目标值
1.1有监督分类问题
目标值(标签值)是不连续的
分类种类:二分类、多分类

1.2有监督回归问题
目标值(标签值)是连续的

2.无监督学习
定义:输入数据没有被标记,即样本数据类别未知,没有标签,根据样本间的相似性,对样本集聚类,以发现事物内部结构及相互关系。
无监督学习特点:1.训练数据无标签
2.根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系
处理聚类问题,根据样本间的相似性
3.半监督学习
工作原理:1.让专家标注少量数据,利用已经标记的数据(也就是带有类标签)训练出一个模型
2.再利用该模型去套用未标记的数据
3.通过询问领域专家分类结果与模型分类结果做对比
好处:半监督学习可以大幅度降低标记成本
4.强化学习
1.强化学习:机器学习的一个重要分支
2.应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景
3.基本原理:通过构建四个要素:agent,环境状态,行动,奖励,agent根据环境状态进行行动获得最多的累计奖励。
强化学习就是寻找最短路径(最优解),以便获得更多奖励
五、机器学习建模流程
1.获取数据:搜集与完成机器学习任务相关的数据集如图像数据,文本数据...
2.数据的基本处理:数据缺失值处理,异常值处理...
3.特征工程:对数据特征进行提取、转成向量,让模型达到最好的效果
4.机器学习(模型训练):选择合适的算法对模型进行训练(线性回归,逻辑回归,决策树,GBDT)
5.模型评估:有回归评测指标,分类评测指标,聚类评测指标;评估效果好上线服务,评估效果不好则重复上述步骤
注意:整个建模流程中数据预处理,特征工程耗时,耗精力最多
六、特征工程概念入门
1.什么是特征工程?
利用专业背景知识和技巧处理数据,让机器学习算法效果最好,这个过程就是特征工程
注意:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
2.概念
1)特征提取:从原始数据中提取与任务相关的特征 (会改变原数据)
2)特征预处理:特征对模型产生影响:因量纲(单位)问题,有比特征对模型影响大有些影响小;不同特征对模型影响一致性
3)特征降维:将原始数据的维度降低,叫做特征降维
4)特征选择:从特征中选择出一些重要特征训练模型(不会改变原数据)
5)特征组合:把多个的特征合并成一个特征。一般利用乘法或加法来完成
更多推荐


所有评论(0)