机器学习Day1——机器学习简介

监督学习中提供给算法的示例（数据）要包含正确答案，即正确的标签 Y，通过不断地学习，算法学到X->Y的映射关系。在下图的例子中，给定的数据只有肿瘤大小和患者年龄，无监督学习不是要对这些数据分类，而是从数据中找到一些结构或模式，将数据分成不同的集群或组，这就是无监督学习中的聚类算法。分类问题的预测结果是数字 0，1，2，…此外，还有一些其他常用的无监督学习算法，例如：异常检测（用于检测异常事件，可用

玉兔捣蛋

765人浏览 · 2025-03-14 00:48:15

玉兔捣蛋 · 2025-03-14 00:48:15 发布

注：本系列带领大家从零基础了解并掌握机器学习，并提供代码示例，干货满满。

1.1机器学习是什么？

        机器学习（Machine Learning，ML）的应用在我们的生活中无处不在，当你在百度这一类搜索引擎中搜索怎么做西红柿炒鸡蛋，你会得到一系列的搜索结果，而这些结果的排序使用到了机器学习。当你在购物软件买过或者搜索过某些商品时，软件可能使用机器学习方法向你推荐可能喜欢的东西。当你使用手机上的语音转文字的功能时，那也用到了机器学习。此外，在工业、医疗等领域，都会用到机器学习。
        机器学习是一门在没有明确编程的情况下让计算机学习的科学。我们学过的排序算法、最短路径算法等，这些有明确规则的算法，可以根据算法原理去编程实现。但是在一些复杂的领域，比如自动驾驶，我们没有办法去编程实现，所以需要让一台机器自己去学会做这些事。
        机器学习的两种主要类型是监督学习（Supervised Learning）和无监督学习（Unsupervised Learning）。强化学习（Reinforcement Learning，RL）是另一种机器学习算法。本次实践主要学习监督学习和无监督学习两类算法。

1.2 监督学习

监督学习是学习X ->Y的映射关系的算法。监督学习中提供给算法的示例（数据）要包含正确答案，即正确的标签 Y，通过不断地学习，算法学到X->Y的映射关系。在使用时算法只接受输入X,给出输出结果 Y 的合理预测。

监督学习主要分为分类（Classification）和回归（Regression）两类。

回归案例：下图是一个根据房屋面积预测房屋价格的例子，图中红色的叉是给定的样本数据，它包含房屋面积（X）和房屋价格（Y）。回归指我们试图从无数可能的数字中预测一个数字。

分类案例：下图是一个乳腺癌预测的例子，给定一些数据，这些数据包括肿瘤的大小（X）和肿瘤的性质（Y，良性/恶性）。分类的输出只有有限种可能，这个例子只有两种可能。分类问题的预测结果是数字 0，1，2，…有限个数字。

1.3 无监督学习

在无监督学习中，给定的样本数据仅有输入 X 而不包含输出标签 Y，算法必须在数据中找到一些结构或模式。
在下图的例子中，给定的数据只有肿瘤大小和患者年龄，无监督学习不是要对这些数据分类，而是从数据中找到一些结构或模式，将数据分成不同的集群或组，这就是无监督学习中的聚类算法。聚类算法将未标记的数据放入不同的集群中。

聚类算法有很多应用，比如 Google News 将每天数十万篇新闻文章的相关内容组合在一起。
此外，还有一些其他常用的无监督学习算法，例如：异常检测（用于检测异常事件，可用于金融系统中的欺诈检测），数据降维（将一个大数据集压缩成一个小得多的数据集，同时丢失尽可能少的信息）。

课后问题：

下面的例子中，哪些要用监督学习解决，哪些要用无监督学习解决？
1.判断一封电子邮件是否是垃圾邮件。
2.从网站上搜索到了一些新闻文章，将相同故事的文章分在同一组。
3.有一些客户数据，将这些客户进行分组。
4.给定一些患者信息，包含他们的诊断信息以及是否患有糖尿病，用这些数据进行学习，然后根据新患者的诊断信息判断该患者是否患有糖尿病。

欢迎大家在评论区回答！

本人目前在读本科，有机器学习相关问题欢迎添加微信与我交流vx：15735002648，或有更好的建议可以提出。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

架构设计（一）

项目中的智能穿搭建议，属于文本大模型推理任务，输入衣物标签、场景信息，即可秒级返回文字结果，轻量且稳定。而虚拟试穿（VTON）是图像生成任务，需要完成图像解析、人体适配、衣物形变、画面渲染等一系列复杂操作，耗时普遍在30–120秒，对网络、超时、文件传输的要求远高于普通文本接口。因此我摒弃了将试穿功能嵌入AI聊天窗口的常规做法，采用独立页面、独立接口、独立服务逻辑的设计，从根源避免功能耦合、超时崩