用户画像考勤主题扩展

本次实验基于学生考勤次数数据，利用 K-Means 聚类算法完成了学生考勤行为的自动分群建模，并结合助睿 BI 平台实现了聚类结果的可视化分析与业务解读，最终将扩展标签回写至原始考勤主题标签表。整个过程实现了从数据建模、结果解释到标签扩展的完整闭环，验证了零代码平台在机器学习建模与数据可视化分析中的高效性与易用性。通过本实验，掌握了以下核心能力：在 AI Studio 中完成数据加载、K-Mean

2301_82047179

105人浏览 · 2026-05-25 15:04:38

2301_82047179 · 2026-05-25 15:04:38 发布

学生用户画像考勤主题扩展标签构建

实验背景

实验目的

在前期完成学生考勤主题标签表（student_attendance_stats）的基础上，本实验进一步利用 K-Means 聚类算法，基于学生的迟到、早退、请假、校服违规次数等核心考勤行为指标，对学生进行自动分群。通过聚类分析与可视化解读，识别不同考勤行为特征的学生群体，生成可解释的考勤画像标签，为校园学生管理、行为干预与个性化教育提供数据支撑。

实验环境

实验平台：助睿数智（Uniplore）一站式数据科学实验平台

数据集成平台（助睿 ETL）

人工智能平台（助睿 AI）

助睿 BI 数据可视化探索平台

实验地址：https://lab.guilian.cn/
数据库：MySQL（团队私有数据库）
前置数据：学生考勤主题标签表（student_attendance_stats）

实验范围

本实验覆盖从学生考勤次数数据加载、K-Means 聚类建模、聚类结果可视化分析、群体画像解读，到扩展标签回写至原始考勤表的完整流程。重点验证聚类模型的可解释性、群体划分的合理性，以及标签扩展的实用性。

数据加工整体流程

学生考勤主题标签表 → 数据加载 → K-Means 聚类建模 → 聚类结果入库 → 可视化分析 → 群体画像解读 → 扩展标签回写 → 考勤主题标签表扩展完成

实验步骤

AI Studio 聚类建模

新建工作流

登录助睿 AI Studio，进入人工智能模块，点击【新建工作流】，命名为“学生考勤聚类分析”。

数据导入

拖拽【数据库加载】组件，配置团队私有数据库连接，选择目标表 student_attendance_stats。保留以下字段：student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count，字段类型分别设置为 categorical、categorical、numeric、numeric、numeric、numeric，其余字段跳过。

运行组件，确认数据加载成功。

K-Means 聚类建模

拖拽【K-Means】组件，与数据加载组件连线。配置簇数量为固定 3 个，其余参数保持默认。运行组件，查看输出结果，每个学生被标记为 C1、C2、C3 中的一类。

结果输出与保存

拖拽【数据入库】组件，与 K-Means 组件连线。配置目标数据库为团队私有数据库，新建表 student_cluster，字段自动映射。运行工作流，确认聚类结果成功写入数据库。

聚类群体画像可视化分析

连接数据源

进入助睿 BI 平台，点击【数据源】→【新建连接】→【MySQL】，输入团队私有数据库连接信息，测试连接成功后保存。

构建数据集

点击【数据集】→【新建数据集】，选择刚刚创建的数据源，将 student_cluster 表拖入画布。为字段设置中文别名（学生ID、班级ID、迟到次数、早退次数、请假次数、没穿校服次数、聚类簇编号、轮廓系数），保存并发布数据集。

制作工作表

新建分组“聚类簇分析”，依次创建以下 6 个工作表，每张表使用散点图展示两两指标关系，并按聚类簇编号着色：

迟到次数 vs 早退次数

迟到次数 vs 请假次数

迟到次数 vs 没穿校服次数

早退次数 vs 请假次数

早退次数 vs 没穿校服次数

请假次数 vs 没穿校服次数

每张表设置学生ID为信息字段，颜色分组为聚类簇编号，调整颜色主题为高对比度，保存并发布。

搭建仪表盘

新建仪表盘“聚类簇分析”，拖入文本组件设置标题为“聚类簇分析”，并将上述 6 个工作表拖入画布，调整布局后保存并发布仪表盘。

聚类群体画像解读

结合散点图分布特征，对三个聚类簇进行业务解读：

C1（蓝色，自律模范型）：各项异常考勤次数极低，出勤稳定，纪律意识强。

C2（青色，轻微波动型）：迟到早退次数低，偶发校服违规或请假，整体可控。

C3（黄色，纪律高危型）：各项异常考勤次数偏高，存在高频违纪行为叠加，需重点关注

聚类簇编号

颜色

群体分类名称

核心特征

蓝色

自律模范型

全维度异常次数极低，出勤稳定

青色

轻微波动型

迟到早退低，偶发轻微违规

黄色

纪律高危型

多维度异常偏高，存在极端离群记录

扩展标签回写至考勤主题标签表

新增扩展字段

进入 ETL 项目，新建转换流“增加考勤主题扩展标签字段”。拖拽【执行 SQL 脚本】组件，执行以下 SQL：

sql

ALTER TABLE student_attendance_statsADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号',ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';

运行转换流，确认字段添加成功。

获取聚类簇编号数据

新建转换流“增加考勤群体分类标签”。拖拽【表输入】组件，读取 student_cluster 表中的 student_id、Cluster 字段。

字段选择与类型转换

拖拽【字段选择】组件，仅保留 student_id、Cluster 字段，并将 student_id、class_id 类型修改为 Integer。

聚类簇编号映射

拖拽【值映射】组件，将 Cluster 字段映射为 attendance_group：

C1 → 轻微波动型

C2 → 自律模范型

C3 → 纪律高危型

更新学生考勤主题标签

拖拽【更新】组件，配置目标表为 student_attendance_stats，查询关键字为 student_id，更新字段为 Cluster 和 attendance_group 分别对应表中的 cluster 和 attendance_group 字段。

运行转换流并验证结果

运行转换流，确认执行成功。在元数据中查看 student_attendance_stats 表，确认 cluster 和 attendance_group 字段已正确填充。

实验结果

聚类建模：成功使用 K-Means 算法将学生划分为 3 个聚类簇，聚类结果稳定，轮廓系数合理。

可视化分析：通过 6 组散点图清晰展示各聚类簇在不同考勤指标组合下的分布特征，完成了聚类簇到业务画像的映射。

画像解读：明确区分出自律模范型、轻微波动型、纪律高危型三类考勤群体，画像具有高度可解释性和业务实用性。

标签扩展：成功将聚类簇编号与考勤群体分类回写至原学生考勤主题标签表，丰富了学生画像维度，为后续分析与应用提供了标准化数据支撑。

实验总结

通过本实验，掌握了以下核心能力：

在 AI Studio 中完成数据加载、K-Means 聚类建模与结果入库；

使用助睿 BI 平台进行数据源连接、数据集构建、工作表和仪表盘制作；

结合可视化结果对聚类簇进行业务画像解读；

通过 ETL 流程实现聚类标签回写与原始表扩展。

本次实验输出的扩展考勤主题标签，为校园学生精细化管理、行为干预、个性化教育等场景提供了高质量的数据基础，也为后续更复杂的用户画像建模与可视化分析奠定了实践基础。

可视化部分：

实验范围

本实验覆盖从数据源连接、数据集构建、多类型可视化图表制作到综合仪表盘搭建的完整流程。重点分析纪律高危型学生的整体规模、性别构成、年级分布、校区与年级交叉特征、班级聚集性，并基于分析结果提出管理建议。

数据加工整体流程

学生考勤主题标签表 → 数据源连接 → 数据集构建 → 整体概况指标卡 → 性别特征分析 → 年级特征分析 → 校区+年级交叉分析 → 班级特征分析 → 综合仪表盘搭建 → 画像总结与管理建议

实验步骤

数据准备

进入助睿 BI 平台，使用已有团队私有数据库连接，新建数据集“学生考勤主题数据集”，选择 student_attendance_stats 表。由于建表时已包含字段中文备注，直接保存并发布数据集。

制作可视化分析组件

整体概况指标卡

新建工作表“纪律高危型人数”，使用指标卡组件，对 student_id 进行去重计数，并添加过滤器 attendance_group 包含“纪律高危型”。样式设置标题红色、字体大小16，值红色、字体大小30，边距16。同理，分别制作“纪律高危型男生人数”“纪律高危型女生人数”“纪律高危型未知性别人数”指标卡，在过滤器中增加性别条件。