学生用户画像考勤主题扩展标签构建

实验背景

实验目的

在前期完成学生考勤主题标签表(student_attendance_stats)的基础上,本实验进一步利用 K-Means 聚类算法,基于学生的迟到、早退、请假、校服违规次数等核心考勤行为指标,对学生进行自动分群。通过聚类分析与可视化解读,识别不同考勤行为特征的学生群体,生成可解释的考勤画像标签,为校园学生管理、行为干预与个性化教育提供数据支撑。

实验环境

  1. 实验平台:助睿数智(Uniplore)一站式数据科学实验平台

数据集成平台(助睿 ETL)

人工智能平台(助睿 AI)

助睿 BI 数据可视化探索平台

  1. 实验地址:https://lab.guilian.cn/

  2. 数据库:MySQL(团队私有数据库)

  3. 前置数据:学生考勤主题标签表(student_attendance_stats)

实验范围

本实验覆盖从学生考勤次数数据加载、K-Means 聚类建模、聚类结果可视化分析、群体画像解读,到扩展标签回写至原始考勤表的完整流程。重点验证聚类模型的可解释性、群体划分的合理性,以及标签扩展的实用性。

数据加工整体流程

学生考勤主题标签表 → 数据加载 → K-Means 聚类建模 → 聚类结果入库 → 可视化分析 → 群体画像解读 → 扩展标签回写 → 考勤主题标签表扩展完成

实验步骤

AI Studio 聚类建模

新建工作流

登录助睿 AI Studio,进入人工智能模块,点击【新建工作流】,命名为“学生考勤聚类分析”。

数据导入

拖拽【数据库加载】组件,配置团队私有数据库连接,选择目标表 student_attendance_stats。保留以下字段:student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count,字段类型分别设置为 categorical、categorical、numeric、numeric、numeric、numeric,其余字段跳过。

运行组件,确认数据加载成功。

K-Means 聚类建模

拖拽【K-Means】组件,与数据加载组件连线。配置簇数量为固定 3 个,其余参数保持默认。运行组件,查看输出结果,每个学生被标记为 C1、C2、C3 中的一类。

结果输出与保存

拖拽【数据入库】组件,与 K-Means 组件连线。配置目标数据库为团队私有数据库,新建表 student_cluster,字段自动映射。运行工作流,确认聚类结果成功写入数据库。

聚类群体画像可视化分析

连接数据源

进入助睿 BI 平台,点击【数据源】→【新建连接】→【MySQL】,输入团队私有数据库连接信息,测试连接成功后保存。

构建数据集

点击【数据集】→【新建数据集】,选择刚刚创建的数据源,将 student_cluster 表拖入画布。为字段设置中文别名(学生ID、班级ID、迟到次数、早退次数、请假次数、没穿校服次数、聚类簇编号、轮廓系数),保存并发布数据集。

制作工作表

新建分组“聚类簇分析”,依次创建以下 6 个工作表,每张表使用散点图展示两两指标关系,并按聚类簇编号着色:

迟到次数 vs 早退次数

迟到次数 vs 请假次数

迟到次数 vs 没穿校服次数

早退次数 vs 请假次数

早退次数 vs 没穿校服次数

请假次数 vs 没穿校服次数

每张表设置学生ID为信息字段,颜色分组为聚类簇编号,调整颜色主题为高对比度,保存并发布。

搭建仪表盘

新建仪表盘“聚类簇分析”,拖入文本组件设置标题为“聚类簇分析”,并将上述 6 个工作表拖入画布,调整布局后保存并发布仪表盘。

聚类群体画像解读

结合散点图分布特征,对三个聚类簇进行业务解读:

C1(蓝色,自律模范型):各项异常考勤次数极低,出勤稳定,纪律意识强。

C2(青色,轻微波动型):迟到早退次数低,偶发校服违规或请假,整体可控。

C3(黄色,纪律高危型):各项异常考勤次数偏高,存在高频违纪行为叠加,需重点关注

聚类簇编号

颜色

群体分类名称

核心特征

C1

蓝色

自律模范型

全维度异常次数极低,出勤稳定

C2

青色

轻微波动型

迟到早退低,偶发轻微违规

C3

黄色

纪律高危型

多维度异常偏高,存在极端离群记录

扩展标签回写至考勤主题标签表

新增扩展字段

进入 ETL 项目,新建转换流“增加考勤主题扩展标签字段”。拖拽【执行 SQL 脚本】组件,执行以下 SQL:

sql

ALTER TABLE student_attendance_statsADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号',ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';

运行转换流,确认字段添加成功。

获取聚类簇编号数据

新建转换流“增加考勤群体分类标签”。拖拽【表输入】组件,读取 student_cluster 表中的 student_id、Cluster 字段。

字段选择与类型转换

拖拽【字段选择】组件,仅保留 student_id、Cluster 字段,并将 student_id、class_id 类型修改为 Integer。

聚类簇编号映射

拖拽【值映射】组件,将 Cluster 字段映射为 attendance_group:

C1 → 轻微波动型

C2 → 自律模范型

C3 → 纪律高危型

更新学生考勤主题标签

拖拽【更新】组件,配置目标表为 student_attendance_stats,查询关键字为 student_id,更新字段为 Cluster 和 attendance_group 分别对应表中的 cluster 和 attendance_group 字段。

运行转换流并验证结果

运行转换流,确认执行成功。在元数据中查看 student_attendance_stats 表,确认 cluster 和 attendance_group 字段已正确填充。

实验结果

聚类建模:成功使用 K-Means 算法将学生划分为 3 个聚类簇,聚类结果稳定,轮廓系数合理。

可视化分析:通过 6 组散点图清晰展示各聚类簇在不同考勤指标组合下的分布特征,完成了聚类簇到业务画像的映射。

画像解读:明确区分出自律模范型、轻微波动型、纪律高危型三类考勤群体,画像具有高度可解释性和业务实用性。

标签扩展:成功将聚类簇编号与考勤群体分类回写至原学生考勤主题标签表,丰富了学生画像维度,为后续分析与应用提供了标准化数据支撑。

实验总结

本次实验基于学生考勤次数数据,利用 K-Means 聚类算法完成了学生考勤行为的自动分群建模,并结合助睿 BI 平台实现了聚类结果的可视化分析与业务解读,最终将扩展标签回写至原始考勤主题标签表。整个过程实现了从数据建模、结果解释到标签扩展的完整闭环,验证了零代码平台在机器学习建模与数据可视化分析中的高效性与易用性。

通过本实验,掌握了以下核心能力:

在 AI Studio 中完成数据加载、K-Means 聚类建模与结果入库;

使用助睿 BI 平台进行数据源连接、数据集构建、工作表和仪表盘制作;

结合可视化结果对聚类簇进行业务画像解读;

通过 ETL 流程实现聚类标签回写与原始表扩展。

本次实验输出的扩展考勤主题标签,为校园学生精细化管理、行为干预、个性化教育等场景提供了高质量的数据基础,也为后续更复杂的用户画像建模与可视化分析奠定了实践基础。

可视化部分:

实验范围

本实验覆盖从数据源连接、数据集构建、多类型可视化图表制作到综合仪表盘搭建的完整流程。重点分析纪律高危型学生的整体规模、性别构成、年级分布、校区与年级交叉特征、班级聚集性,并基于分析结果提出管理建议。

数据加工整体流程

学生考勤主题标签表 → 数据源连接 → 数据集构建 → 整体概况指标卡 → 性别特征分析 → 年级特征分析 → 校区+年级交叉分析 → 班级特征分析 → 综合仪表盘搭建 → 画像总结与管理建议

实验步骤

数据准备

进入助睿 BI 平台,使用已有团队私有数据库连接,新建数据集“学生考勤主题数据集”,选择 student_attendance_stats 表。由于建表时已包含字段中文备注,直接保存并发布数据集。

制作可视化分析组件

整体概况指标卡

新建工作表“纪律高危型人数”,使用指标卡组件,对 student_id 进行去重计数,并添加过滤器 attendance_group 包含“纪律高危型”。样式设置标题红色、字体大小16,值红色、字体大小30,边距16。 同理,分别制作“纪律高危型男生人数”“纪律高危型女生人数”“纪律高危型未知性别人数”指标卡,在过滤器中增加性别条件。

性别特征分析

纪律高危型学生男女人数占比:使用饼图,X轴为 gender,值为 student_id 去重计数,过滤性别“未知”和考勤群体“纪律高危型”。设置标签显示百分比,内环大小50%,扇形圆角半径10。

全校学生男女人数占比:同样使用饼图,仅过滤性别“未知”,不过滤考勤群体。 对比两组数据,判断性别基数差异对高危群体构成的影响。

年级特征分析

新建工作表“纪律高危型学生年级特征分析”,使用柱状图,X轴为 grade,Y轴为 student_id 去重计数,过滤器添加考勤群体“纪律高危型”。观察各年级高危学生人数分布。

校区类型与年级交叉特征分析

新建工作表“纪律高危型学生校区类型与年级交叉特征分析”,使用柱状图,X轴为 grade,Y轴为 student_id 去重计数,分组字段为 campus_type,过滤器为考勤群体“纪律高危型”。同时制作“不同校区类型各年级学生人数”柱状图(无过滤器),用于对比基数差异。

班级特征分析

新建工作表“纪律高危型学生班级特征分析”,使用水平条图,Y轴为 class_name,X轴为 student_id 去重计数,过滤器为考勤群体“纪律高危型”,并按学生数降序排序,定位高危学生集中的班级。

搭建综合仪表盘

新建仪表盘“纪律高危型学生用户画像分析”,拖入文本组件作为标题,设置字体、颜色、居中。将上述所有工作表拖入画布,添加文本组件嵌入各图表对应的分析结论。调整布局与大小,发布仪表盘。可生成分享链接供他人查看。

实验结果

整体概况

纪律高危型学生总人数为243,其中男生 19 人、女生 13 人、未知性别 211 人。高危群体整体规模清晰,性别分布存在显著差异。

性别特征

全校(排除未知性别):男生占比 53.03%,女生占比 46.97%。

纪律高危型(排除未知性别):男生占比 54.22%,女生占比 45.78%。 结论:男生在高危群体中的占比高于其在全校的基数占比,说明男生在考勤违纪行为上的真实风险更高,是主要干预对象。

年级特征

纪律高危型学生人数随年级升高而增加:高一年级最少,高三年级最多(261 人)。高三学生面临升学压力、课程安排灵活,考勤纪律重视度下降,是违纪高发阶段。

校区与年级交叉特征

老校区:高一 80 人、高二 130 人、高三 261 人,高危人数随年级递增。

新校区:高一 10 人、高二 19 人、高三 0 人。 结合全校各校区各年级基数可知,新校区整体学生基数小且无高三学生,高危风险可控;老校区高三年级是绝对高发区,需重点整治。

班级特征

纪律高危型学生高度集中在少数班级:高三 09 班(38 人)、高三 08 班、高三 02 班等。高危行为呈现明显班级聚集性,与班级管理强度、班风氛围、同伴影响密切相关。

实验总结

本次实验基于已完成聚类的学生考勤主题标签表,聚焦纪律高危型群体,通过助睿 BI 平台完成了从数据集构建、多维度可视化分析到综合仪表盘搭建的全流程。实验中掌握了指标卡、饼图、柱状图、水平条图等组件的使用方法,学会了通过过滤器与分组实现精准数据切片,并能够结合可视化结果进行业务解读。

通过分析,明确了纪律高危型学生的核心特征:男生为主、高年级集中、老校区高发、少数班级聚集。基于这些发现,提出了针对性的管理建议:重点关注高年级男生群体、加强老校区高年级考勤管理、整治高危学生集中班级、建立高危学生台账并实施家校联动干预。

本实验输出的可视化仪表盘及分析结论,为校园考勤精细化管理提供了直观、可操作的数据支撑,验证了零代码可视化平台在教育管理场景中的实用价值,也为后续更广泛的学生行为画像分析奠定了方法基础。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐