​1. 人工智能(AI)、机器学习(ML)和深度学习(DL)的定义及关系​

  • ​AI定义​​:使用计算机模拟或代替人类智能的研究领域(如思考、决策、感知)。

  • ​ML定义​​:从数据中自动获取规律(模型),用于新数据的预测(如房价预测公式 y = kx + b)。

  • ​DL定义​​:通过多层神经网络模拟大脑结构,自动学习复杂模式(如图像识别)。

  • ​三者关系​​:

    • 机器学习是实现人工智能的一种途径

    • 深度学习是机器学习的一种方法发展而来的

    关系图示:AI ⊃ ML ⊃ DL


​2. 样本、特征、标签(举例说明)​

  • ​样本(Sample)​​:一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录

  • ​特征(Feature)​​:一列数据一个特征,有时也被称为属性

  • ​标签(Label/Target)​​:待预测的目标值,如“就业薪资”。

  • ​举例​​:

    • 样本:{学习学科: "Python", 学历: "本科", 工作经验: "2年"}

    • 特征:["学历", "工作经验"]

    • 标签:薪资 = 20k


​3. x_train, y_train, x_test, y_test的含义与用途​

  • x_train​:训练集的特征数据,用于训练模型。

  • y_train​:训练集的标签数据,指导模型学习规律。

  • x_test​:测试集的特征数据,用于测试模型泛化能力。

  • y_test​:测试集的真实标签,与模型预测结果对比以评估效果。

  • ​用途​​:

    • 训练集:拟合模型参数(如线性回归中的系数)。

    • 测试集:验证模型在新数据上的表现(避免过拟合)。


​4. 【面试重点】有监督学习 vs 无监督学习的区别与案例​

  • ​核心区别​​:

    ​监督学习​

    ​无监督学习​

    数据含标签(有目标值)

    数据无标签

    学习“输入-输出”映射

    探索数据内在结构

  • ​实际案例​​:

    • ​监督学习​​:垃圾邮件分类(输入:邮件内容,标签:垃圾/正常)。

    • ​无监督学习​​:用户聚类分析(输入:用户行为数据,无标签,自动分组相似用户)。


​5. 回归问题 vs 分类问题​

  • ​回归问题​​:

    • ​目标值连续​​(如房价、温度预测)。

    • 输出为数值(如y = 0.8x + 10)。

  • ​分类问题​​:

    • ​目标值离散​​(如垃圾邮件识别、疾病诊断)。

    • 输出为类别(如“0/1”、“猫/狗/鸟”)。

  • ​区分关键​​:目标值是否连续。


​6. 机器学习建模基本流程​

  1. ​获取数据​​:收集相关数据集(如房价数据、图像数据)。

  2. ​数据基本处理​​:处理缺失值、异常值(如删除无效样本)。

  3. ​特征工程​​:

    • 特征提取(如文本转向量)

    • 特征预处理(如标准化缩放)

    • 特征降维(如PCA减少维度)

  4. ​模型训练​​:选择合适的算法对模型进行训练。根据不同的任务来选中不同的算法;有监督学习,无监督学习,半监督学习,强化学习

  5. ​模型评估​​:评估效果好上线服务,评估效果不好则重复上述步骤


​7. 【面试重点】特征工程的重要性​

  • ​定义​​:利用专业背景知识和技巧处理数据,让模型效果更好  

  • ​为什么重要​​:

    • ​数据和特征决定模型上限​​:即使算法优秀,差的特征也会限制性能。

    • ​提升模型效果​​:

      • 特征预处理(如归一化)避免量纲差异影响模型。

      • 特征组合(如将“面积×地段”合并)可挖掘非线性关系。

    • ​降低计算成本​​:特征降维(如PCA)减少冗余信息,加速训练。

    文档引用:“Applied machine learning is basically feature engineering.”


​8. 【面试重点】过拟合与欠拟合​

​问题​

​定义​

​原因​

​解决方案​

​欠拟合​

训练集和测试集表现均差

模型过于简单(如线性模型拟合非线性问题)

增加特征、使用复杂模型(如神经网络)

​过拟合​

训练集表现好,测试集表现差

模型太复杂、数据噪声多、训练数据不足

正则化(L1/L2)、增加数据量、特征选择

  • ​泛化(Generalization)​​:模型在新数据上的表现能力。


​9. 奥卡姆剃刀原则在机器学习中的体现​

  • ​原则核心​​:在相同泛化能力的模型中,选择结构最简单的模型。

  • ​在ML中的体现​​:

    • 避免过度复杂模型(如深度网络)在简单任务上过拟合。

    • 优先选择可解释性强的模型(如线性回归 vs 深度神经网络)。

    文档引用:“给定两个相同泛化误差的模型,较简单的模型更可取。”

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐