【python数据统计分析】实验六: 决策树分类
本实验采用ID3算法构建决策树模型预测学生成绩。使用480条学生数据,包含17个属性,通过相关性分析筛选出与成绩显著相关的特征(如VisitedResources、RaisedHands等)。实验步骤包括:数据预处理(离散化连续变量)、ID3建模、效果评估及可视化。结果表明,基于显著相关特征构建的决策树能有效预测成绩等级(准确率待评估)。实验环境为Python,使用Chefboost和Graphv
- 实验目的
- 理解并掌握ID3决策树分类方法
- 掌握ID3决策树的组织形式与可视化
- 实验内容
实验数据为在线学习学生信息表,共480条学生信息记录,共17个属性,包括基本信息、学习行为信息和成绩,数据类型包括连续变量和离散的枚举型变量,其中成绩属性为低、中、高三个级别。

运用ID3决策树建模方法,根据学生在线学习数据中的基本信息、学习行为信息和成绩,在特征优选的前提下,建立决策树模型,实现根据学生基本信息与学习行为信息,预测课程成绩,并预测结果的效果进行评估,以及对决策树模型进行可视化,步骤如下:
(1)相关性分析:分别利用针对离散变量VS离散变量、离散变量VS连续变量的相关性分析算法分析各属性与成绩属性间的相关性,选择显著相关的属性作为决策树的输入变量,成绩属性作为决策树的输出变量。
(2)数据预处理:如输入变量存在连续变量,则对该变量进行离散化处理,转换为离散变量;将实验数据分为训练数据集和测试数据集,其中训练数据用于决策树建模,测试数据集用于分类预测及模型效果评价。
(3)决策树建模与分类预测:利用训练数据集构建ID3决策树,查看模型训练的评价指标,若干评价指标不佳,则尝试对模型进行优化;利用训练构建的ID3决策树模型对测试数据集进行分类预测;对比测试数据集中的原始成绩数据和预测的成绩数据,利用识别准确度评估ID3决策树模型的分类效果。
(4)ID3决策树可视化:以树状图的形式对ID3决策树模型进行可视化。
- 实验知识点
- 标准化卡方值(Cramer's V)、Eta平方
- ID3决策树图
- 实验时长
4课时
- 实验环境
基于Python的相关环境,另外安装Chefboost的Python库用于ID3决策树建模,安装Graphviz系统软件及Python库用于决策树可视化。
- 实验过程
- 相关性分析
- 数据探索
实验数据读取与探索,展示数据概况。
- 离散属性与离散属性间的相关系数计算
利用标准化卡方值方法计算离散属性与成绩(离散属性)属性间的相关性。
- 离散属性与连续属性间的相关系数计算
利用Eta平方方法离散连续属性与成绩(离散属性)属性间的相关性。
- 显著相关评价
根据相关性显著的标准化卡方值阈值(≥
0.5为强相关)和Eta平方值阈值(≥
0.14为强相关),选择与成绩属性显著相关的属性,作为ID3决策树的输入属性。
(1)首先读取并探索数据概况:

(2)然后使用标准化卡方值(Cramer's V)方法计算离散属性与成绩(Class)间的相关性:


(3)离散属性与连续属性间的相关系数计算
使用Eta平方方法计算连续属性与成绩(Class)间的相关性:
(4)显著相关评价
根据相关性显著的标准化卡方值阈值(≥0.5为强相关)和Eta平方值阈值(≥0.14为强相关),选择与成绩属性显著相关的属性,作为ID3决策树的输入属性。
根据以上结果分析可得,
离散属性与Class的Cramer's V相关性:
Cramer's V
StudentAbsenceDays 0.682623
ParentAnsweringSurvey 0.441484
Relation 0.407041
ParentSchoolSatisfaction 0.372504
Gender 0.255716
PlaceofBirth 0.227456
Nationality 0.223575
Topic 0.155540
Semester 0.110205
GradeID 0.107149
StageID 0.056858
SectionID 0.021234
连续属性与Class的Eta平方相关性:
Eta squared
VisitedResources 0.491442
RaisedHands 0.425148
AnnouncementsView 0.292757
Discussion 0.095745
根据阈值选择显著相关属性,选择出的显著相关属性为:
VisitedResources 0.491442
RaisedHands 0.425148
AnnouncementsView 0.292757
StudentAbsenceDays 0.682623
完整成果文件提取链接:
链接: https://pan.baidu.com/s/1cAy0nnBxcsLYdWSJaPuZ_A?pwd=tr9s 提取码: tr9s
更多推荐


所有评论(0)