鸢尾花数据集(Iris Dataset)是机器学习领域中最经典的数据集之一,它包含 150 个样本,每个样本有 4 个特征,分别是:


1. 花萼长度(Sepal Length)

  • 描述:花萼(花的外部绿色部分)的长度,单位为厘米。
  • 取值范围:通常为 4.3 cm 到 7.9 cm。

2. 花萼宽度(Sepal Width)

  • 描述:花萼的宽度,单位为厘米。
  • 取值范围:通常为 2.0 cm 到 4.4 cm。

3. 花瓣长度(Petal Length)

  • 描述:花瓣(花的彩色部分)的长度,单位为厘米。
  • 取值范围:通常为 1.0 cm 到 6.9 cm。

4. 花瓣宽度(Petal Width)

  • 描述:花瓣的宽度,单位为厘米。
  • 取值范围:通常为 0.1 cm 到 2.5 cm。

数据集的目标(标签)

鸢尾花数据集的目标是预测鸢尾花的种类,共有 3 个类别

  1. Setosa(山鸢尾)
  2. Versicolor(杂色鸢尾)
  3. Virginica(维吉尼亚鸢尾)

数据集的特点

  • 特征均为连续数值型数据。
  • 数据集较小,适合初学者学习和实验。
  • 特征和目标之间具有一定的线性关系,适合用于分类任务。

示例数据

以下是鸢尾花数据集的一个样本示例:

Sepal Length: 5.1 cm
Sepal Width: 3.5 cm
Petal Length: 1.4 cm
Petal Width: 0.2 cm
Species: Setosa

加载数据集(Python 示例)

from sklearn.datasets import load_iris

# 加载鸢尾花数据集
iris = load_iris()

# 查看特征名称
print("特征名称:", iris.feature_names)

# 查看目标类别
print("目标类别:", iris.target_names)

# 查看数据集形状
print("数据集形状:", iris.data.shape)

输出:

特征名称: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
目标类别: ['setosa' 'versicolor' 'virginica']
数据集形状: (150, 4)

通过这些特征,机器学习模型可以学习到不同鸢尾花种类的特征差异,从而实现分类任务。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐