1. 实验目的
  1. 理解并掌握ID3决策树分类方法
  2. 掌握ID3决策树的组织形式与可视化
  1. 实验内容

实验数据为在线学习学生信息表,共480条学生信息记录,共17个属性,包括基本信息、学习行为信息和成绩,数据类型包括连续变量和离散的枚举型变量,其中成绩属性为低、中、高三个级别。

运用ID3决策树建模方法,根据学生在线学习数据中的基本信息、学习行为信息和成绩,在特征优选的前提下,建立决策树模型,实现根据学生基本信息与学习行为信息,预测课程成绩,并预测结果的效果进行评估,以及对决策树模型进行可视化,步骤如下:

(1)相关性分析:分别利用针对离散变量VS离散变量、离散变量VS连续变量的相关性分析算法分析各属性与成绩属性间的相关性,选择显著相关的属性作为决策树的输入变量,成绩属性作为决策树的输出变量。

(2)数据预处理:如输入变量存在连续变量,则对该变量进行离散化处理,转换为离散变量;将实验数据分为训练数据集和测试数据集,其中训练数据用于决策树建模,测试数据集用于分类预测及模型效果评价。

(3)决策树建模与分类预测:利用训练数据集构建ID3决策树,查看模型训练的评价指标,若干评价指标不佳,则尝试对模型进行优化;利用训练构建的ID3决策树模型对测试数据集进行分类预测;对比测试数据集中的原始成绩数据和预测的成绩数据,利用识别准确度评估ID3决策树模型的分类效果。

(4)ID3决策树可视化:以树状图的形式对ID3决策树模型进行可视化。

  1. 实验知识点
  1. 标准化卡方值(Cramer's V)、Eta平方
  2. ID3决策树图
  1. 实验时长

4课时

  1. 实验环境

基于Python的相关环境,另外安装Chefboost的Python库用于ID3决策树建模,安装Graphviz系统软件及Python库用于决策树可视化。

  1. 实验过程
    1. 相关性分析
  1. 数据探索

实验数据读取与探索,展示数据概况。

  1. 离散属性与离散属性间的相关系数计算

利用标准化卡方值方法计算离散属性与成绩(离散属性)属性间的相关性。

  1. 离散属性与连续属性间的相关系数计算

利用Eta平方方法离散连续属性与成绩(离散属性)属性间的相关性。

  1. 显著相关评价

根据相关性显著的标准化卡方值阈值(0.5为强相关)和Eta平方值阈值(0.14为强相关),选择与成绩属性显著相关的属性,作为ID3决策树的输入属性。

(1)首先读取并探索数据概况:

(2)然后使用标准化卡方值(Cramer's V)方法计算离散属性与成绩(Class)间的相关性:

(3)离散属性与连续属性间的相关系数计算

使用Eta平方方法计算连续属性与成绩(Class)间的相关性:

(4)显著相关评价

根据相关性显著的标准化卡方值阈值(≥0.5为强相关)和Eta平方值阈值(≥0.14为强相关),选择与成绩属性显著相关的属性,作为ID3决策树的输入属性。

根据以上结果分析可得,

离散属性与Class的Cramer's V相关性:

                          Cramer's V

StudentAbsenceDays          0.682623

ParentAnsweringSurvey       0.441484

Relation                    0.407041

ParentSchoolSatisfaction    0.372504

Gender                      0.255716

PlaceofBirth                0.227456

Nationality                 0.223575

Topic                       0.155540

Semester                    0.110205

GradeID                     0.107149

StageID                     0.056858

SectionID                   0.021234

连续属性与Class的Eta平方相关性:

                   Eta squared

VisitedResources      0.491442

RaisedHands           0.425148

AnnouncementsView     0.292757

Discussion            0.095745

根据阈值选择显著相关属性,选择出的显著相关属性为:

VisitedResources      0.491442

RaisedHands           0.425148

AnnouncementsView     0.292757

StudentAbsenceDays          0.682623

完整成果文件提取链接:
链接: https://pan.baidu.com/s/1cAy0nnBxcsLYdWSJaPuZ_A?pwd=tr9s 提取码: tr9s 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐