机器学习概述-面试题
人工智能三大概念与机器学习核心流程人工智能(AI)旨在通过计算机模拟人类智能,机器学习(ML)是其实现路径,通过数据自动学习规律(如房价预测模型),深度学习(DL)则是ML的子集,利用神经网络处理复杂任务(如图像识别)。机器学习关键要素• 数据基础:样本(单条数据)、特征(属性列)、标签(预测目标)构成数据集,需划分为训练集(建模)和测试集(评估)。• 算法分类:监督学习(带标签,分回归/分类)、
1. 人工智能(AI)、机器学习(ML)和深度学习(DL)的定义及关系
-
AI定义:使用计算机模拟或代替人类智能的研究领域(如思考、决策、感知)。
-
ML定义:从数据中自动获取规律(模型),用于新数据的预测(如房价预测公式
y = kx + b
)。 -
DL定义:通过多层神经网络模拟大脑结构,自动学习复杂模式(如图像识别)。
-
三者关系:
-
机器学习是实现人工智能的一种途径。
-
深度学习是机器学习的一种方法发展而来的。
关系图示:
AI ⊃ ML ⊃ DL
-
2. 样本、特征、标签(举例说明)
-
样本(Sample):一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录
-
特征(Feature):一列数据一个特征,有时也被称为属性
-
标签(Label/Target):待预测的目标值,如“就业薪资”。
-
举例:
-
样本:
{学习学科: "Python", 学历: "本科", 工作经验: "2年"}
-
特征:
["学历", "工作经验"]
-
标签:
薪资 = 20k
-
3. x_train, y_train, x_test, y_test
的含义与用途
-
x_train
:训练集的特征数据,用于训练模型。 -
y_train
:训练集的标签数据,指导模型学习规律。 -
x_test
:测试集的特征数据,用于测试模型泛化能力。 -
y_test
:测试集的真实标签,与模型预测结果对比以评估效果。 -
用途:
-
训练集:拟合模型参数(如线性回归中的系数)。
-
测试集:验证模型在新数据上的表现(避免过拟合)。
-
4. 【面试重点】有监督学习 vs 无监督学习的区别与案例
-
核心区别:
监督学习
无监督学习
数据含标签(有目标值)
数据无标签
学习“输入-输出”映射
探索数据内在结构
-
实际案例:
-
监督学习:垃圾邮件分类(输入:邮件内容,标签:垃圾/正常)。
-
无监督学习:用户聚类分析(输入:用户行为数据,无标签,自动分组相似用户)。
-
5. 回归问题 vs 分类问题
-
回归问题:
-
目标值连续(如房价、温度预测)。
-
输出为数值(如
y = 0.8x + 10
)。
-
-
分类问题:
-
目标值离散(如垃圾邮件识别、疾病诊断)。
-
输出为类别(如“0/1”、“猫/狗/鸟”)。
-
-
区分关键:目标值是否连续。
6. 机器学习建模基本流程
-
获取数据:收集相关数据集(如房价数据、图像数据)。
-
数据基本处理:处理缺失值、异常值(如删除无效样本)。
-
特征工程:
-
特征提取(如文本转向量)
-
特征预处理(如标准化缩放)
-
特征降维(如PCA减少维度)
-
-
模型训练:选择合适的算法对模型进行训练。根据不同的任务来选中不同的算法;有监督学习,无监督学习,半监督学习,强化学习
-
模型评估:评估效果好上线服务,评估效果不好则重复上述步骤
7. 【面试重点】特征工程的重要性
-
定义:利用专业背景知识和技巧处理数据,让模型效果更好
-
为什么重要:
-
数据和特征决定模型上限:即使算法优秀,差的特征也会限制性能。
-
提升模型效果:
-
特征预处理(如归一化)避免量纲差异影响模型。
-
特征组合(如将“面积×地段”合并)可挖掘非线性关系。
-
-
降低计算成本:特征降维(如PCA)减少冗余信息,加速训练。
文档引用:“Applied machine learning is basically feature engineering.”
-
8. 【面试重点】过拟合与欠拟合
问题 |
定义 |
原因 |
解决方案 |
---|---|---|---|
欠拟合 |
训练集和测试集表现均差 |
模型过于简单(如线性模型拟合非线性问题) |
增加特征、使用复杂模型(如神经网络) |
过拟合 |
训练集表现好,测试集表现差 |
模型太复杂、数据噪声多、训练数据不足 |
正则化(L1/L2)、增加数据量、特征选择 |
-
泛化(Generalization):模型在新数据上的表现能力。
9. 奥卡姆剃刀原则在机器学习中的体现
-
原则核心:在相同泛化能力的模型中,选择结构最简单的模型。
-
在ML中的体现:
-
避免过度复杂模型(如深度网络)在简单任务上过拟合。
-
优先选择可解释性强的模型(如线性回归 vs 深度神经网络)。
文档引用:“给定两个相同泛化误差的模型,较简单的模型更可取。”
-
更多推荐
所有评论(0)