机器学习概述-面试题

人工智能三大概念与机器学习核心流程人工智能（AI）旨在通过计算机模拟人类智能，机器学习（ML）是其实现路径，通过数据自动学习规律（如房价预测模型），深度学习（DL）则是ML的子集，利用神经网络处理复杂任务（如图像识别）。机器学习关键要素• 数据基础：样本（单条数据）、特征（属性列）、标签（预测目标）构成数据集，需划分为训练集（建模）和测试集（评估）。• 算法分类：监督学习（带标签，分回归/分类）、

空白到白

995人浏览 · 2025-09-01 08:40:55

空白到白 · 2025-09-01 08:40:55 发布

1. 人工智能（AI）、机器学习（ML）和深度学习（DL）的定义及关系

AI定义：使用计算机模拟或代替人类智能的研究领域（如思考、决策、感知）。
ML定义：从数据中自动获取规律（模型），用于新数据的预测（如房价预测公式 y = kx + b）。
DL定义：通过多层神经网络模拟大脑结构，自动学习复杂模式（如图像识别）。
三者关系：
- 机器学习是实现人工智能的一种途径。
- 深度学习是机器学习的一种方法发展而来的。
关系图示：AI ⊃ ML ⊃ DL

2. 样本、特征、标签（举例说明）

样本（Sample）：一行数据就是一个样本；多个样本组成数据集；有时一条样本被叫成一条记录
特征（Feature）：一列数据一个特征，有时也被称为属性
标签（Label/Target）：待预测的目标值，如“就业薪资”。
举例：
- 样本：{学习学科: "Python", 学历: "本科", 工作经验: "2年"}
- 特征：["学历", "工作经验"]
- 标签：薪资 = 20k

3. `x_train, y_train, x_test, y_test`的含义与用途

x_train：训练集的特征数据，用于训练模型。
y_train：训练集的标签数据，指导模型学习规律。
x_test：测试集的特征数据，用于测试模型泛化能力。
y_test：测试集的真实标签，与模型预测结果对比以评估效果。
用途：
- 训练集：拟合模型参数（如线性回归中的系数）。
- 测试集：验证模型在新数据上的表现（避免过拟合）。

4. 【面试重点】有监督学习 vs 无监督学习的区别与案例

核心区别：

监督学习	无监督学习
数据含标签（有目标值）	数据无标签
学习“输入-输出”映射	探索数据内在结构

实际案例：
- 监督学习：垃圾邮件分类（输入：邮件内容，标签：垃圾/正常）。
- 无监督学习：用户聚类分析（输入：用户行为数据，无标签，自动分组相似用户）。

5. 回归问题 vs 分类问题

回归问题：
- 目标值连续（如房价、温度预测）。
- 输出为数值（如y = 0.8x + 10）。
分类问题：
- 目标值离散（如垃圾邮件识别、疾病诊断）。
- 输出为类别（如“0/1”、“猫/狗/鸟”）。
区分关键：目标值是否连续。

6. 机器学习建模基本流程

获取数据：收集相关数据集（如房价数据、图像数据）。
数据基本处理：处理缺失值、异常值（如删除无效样本）。
特征工程：
- 特征提取（如文本转向量）
- 特征预处理（如标准化缩放）
- 特征降维（如PCA减少维度）
模型训练：选择合适的算法对模型进行训练。根据不同的任务来选中不同的算法；有监督学习,无监督学习,半监督学习,强化学习
模型评估：评估效果好上线服务,评估效果不好则重复上述步骤

7. 【面试重点】特征工程的重要性

定义：利用专业背景知识和技巧处理数据，让模型效果更好
为什么重要：
- 数据和特征决定模型上限：即使算法优秀，差的特征也会限制性能。
- 提升模型效果：
  - 特征预处理（如归一化）避免量纲差异影响模型。
  - 特征组合（如将“面积×地段”合并）可挖掘非线性关系。
- 降低计算成本：特征降维（如PCA）减少冗余信息，加速训练。
文档引用：“Applied machine learning is basically feature engineering.”

8. 【面试重点】过拟合与欠拟合

问题	定义	原因	解决方案
欠拟合	训练集和测试集表现均差	模型过于简单（如线性模型拟合非线性问题）	增加特征、使用复杂模型（如神经网络）
过拟合	训练集表现好，测试集表现差	模型太复杂、数据噪声多、训练数据不足	正则化（L1/L2）、增加数据量、特征选择

泛化（Generalization）：模型在新数据上的表现能力。

9. 奥卡姆剃刀原则在机器学习中的体现

原则核心：在相同泛化能力的模型中，选择结构最简单的模型。
在ML中的体现：
- 避免过度复杂模型（如深度网络）在简单任务上过拟合。
- 优先选择可解释性强的模型（如线性回归 vs 深度神经网络）。
文档引用：“给定两个相同泛化误差的模型，较简单的模型更可取。”

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI 智能体开发的 6A 原则：从需求到落地的全链路方法论

2048 AI社区

最终生成的消息可能是：“目前计划 V1 支持 CSV 和 JSON，但 JSON 要到下周才能接接口。你这边这两天先按 CSV 做没问题，接口格式我一会儿就在需求列表上进行补充。

2048 AI社区

自定义Traits应用

重新排列范围，使得指定位置的元素等于排序后的元素，并且左边的元素都不大于它，右边的元素都不小于它。算法的原理是 “覆盖” 要删除的元素，将保留的元素移到前面，返回新的逻辑尾迭代器，但。对范围内的每个元素应用一个函数，并将结果存储在另一个范围内。移除范围内连续的重复元素，返回新的逻辑结尾迭代器。旋转范围内的元素，使中间元素成为新的第一个元素。这些算法不会改变它们所操作的容器中的元素。这些算法会修改它