SimClass: Multi-Agent Classroom Simulation with Large Language Models

m0_51704901

1130人浏览 · 2025-11-06 20:16:28

m0_51704901 · 2025-11-06 20:16:28 发布

1 论文介绍

大语言模型（LLMs）已经在教育领域中被广泛用于各种智能教学任务，例如自动评分、问答系统、教学助理等。这些都是“任务特定（task-specific）”的应用，即每个模型通常完成一个单一的教学任务。

目前仍缺乏一种多智能体（multi-agent）协作框架，能够在真实用户参与的虚拟课堂环境中模拟教师与学生的互动。

目前在真实用户参与下的 LLM 多智能体教学系统仍存在三大未解问题：

模拟性能：多智能体课堂能否逼真地模拟师生实时互动？
学习体验：学生是否能在其中获得真实的“临场感”与有效学习？
群体行为观察：在多智能体场景中可能自发出现哪些行为？

作者提出了解决方案 —— SimClass 框架

Representative Class Roles：
- 识别并设定课堂角色（如教师、学生、小组讨论者）。
Class Control Mechanism：
- 设计新的课堂控制机制（控制发言顺序、主题切换、互动逻辑）。
Two Real Courses：
- 在两门真实课程中部署，使用预设的幻灯片与讲稿。
User Participation：
- 400+ 学生参与在线实验；
- 每节课后测验；
- 全过程行为数据记录。
Ablation Study（消融实验）：
- 额外 48 名学生体验不同版本（如无控制机制版）以进行对比。

评估框架

Flanders Interaction Analysis System (FIAS)
- 量化课堂互动模式，分析教师与学生的发言类型与频率。
Community of Inquiry (CoI)
- 用于评估学习者在虚拟环境中的三重“存在感”：
- 教学存在（Teaching Presence）
- 社会存在（Social Presence）
- 认知存在（Cognitive Presence）
Group Behavior Analysis
- 对多代理课堂中的 emergent behaviors（自发群体行为）进行定性分析。

2 论文框架

设计目标：(1) 如何确保课堂涵盖核心教学行为？(2) 如何保证课堂互动的自然与连贯？

教学行为分类：借鉴教育学经典理论，将课堂上的行为模式分为四大类

Teaching and Initiation（TI）：教师讲授、提出问题，学生回答或表达想法
In-depth Discussion（ID）：师生间或生生间多轮问答、观点对齐、讨论概念理解
Emotional Companionship（EC）：鼓励学习、营造积极氛围、提供情绪支持
Classroom Management（CM）：维持秩序、引导发言、调控节奏

2.1 班级角色代理化

教学过程本质上是一个“信息传递性、多轮次、任务导向”的交流活动。

但若仅靠 LLM 自发对话（即：两个模型互相聊天），就会出现严重问题：

Role flipping（角色混乱）：教师、学生身份混用；
Instruction repeating（重复讲解）：回答内容机械重复；
Fake replies（虚假或敷衍回答）：生成没有依据或无意义的发言。

论文定义了一个核心映射公式：

符号	含义
$LLM$	底层语言模型（如 GPT、Qwen 等）
$P_A$	系统提示词（system prompt），包含角色描述与行为约束
$\rho$	“角色定制操作（role customization operation）”，即用 prompt 注入角色身份
$A$	智能体（agent）
$R_b$	对应课堂行为角色（如教师、助教、学生）

系统允许在角色定义中集成：

自动提问生成（Question Generation）：提高学生代理的互动质量；
检索增强生成（RAG）：让教师/助教代理调用外部知识库以增强回答的准确性。

智能体类型划分

Teacher Agent

角色标签：TI, ID, EC, CM
输入：教学脚本 $C = [c_1, c_2, ..., c_t]$ ，对话历史 $H$
职责：展示教学内容ci；回答学生问题；引导课堂节奏

Assistant Agent

角色标签：ID, EC, CM
输入：对话历史 $H$
职责：补充教师讲解信息；参与讨论（如同学生提问后再解释）；维持课堂纪律与连贯性；提升学习效率。

Classmate Agents

论文中初始化了四种典型学生类型

学生代理名称	行为标签	主要功能
Class Clown （课堂气氛带动者）	TI, EC, CM	活跃课堂气氛，激发互动；在学生分心时协助教师引导课堂方向。
Deep Thinker （思辨型学生）	TI, ID	提出高层次、挑战性问题，推动深入讨论。
Note Taker （记录者）	TI, CM	总结课堂要点、整理并分享笔记，帮助同伴复习。
Inquisitive Mind （好奇提问者）	TI, EC	频繁提问、主动探究，引导他人思考与回应。

2.2 课堂会话控制

课堂情境中的对话是动态且非线性的群聊，需要一个“控制中心”来动态地观察、判断并引导各个智能体的发言和行动。

1. Class State Receptor（课堂状态接收器）

负责理解当前课堂的状态：

到时间 t 的课堂对话历史 $H_t = \{u_i^{a_j}\}_t$
其中 $u_i$ 是某个智能体 $a_j$ （或用户 $a_u$ ）的发言。
当前课堂状态 $S_t$ 定义为：

$C_t\subseteq C$ ：表示到时间 t 已经讲解的教学内容；

$R_b$ ：是背景知识或参考上下文（contextual reference base）

2. Function Executor（功能执行器）

课堂中可执行的动作被划分为功能层级

(1) Tutoring functions $f_X$ —— 教师专属

由教师代理 $a_0$ 执行，例如：

$f_0(c_i, a_0)$ ：展示当前教材页 $c_i$ ；
$f_1(c_{i+1}, a_0)$ ：翻页到下一页；
…

(2) Interacting functions $f_Y$ —— 所有代理可执行

由任何学生或参与者 $a_j \in A$ 执行，例如：

提问、讨论、举例、回答、练习互动等；
定义形式： $f_n(c_i, a_j, H_t)$

3. Manager Agent（管理代理）

这是一个隐形的元代理（meta agent），类似于 AutoGen 框架中的“调度员”

观察当前课堂状态 $S_t$ ；
理解课堂进度；
决定下一个执行动作（谁说 + 说什么类型）。

数学定义：

输入：当前课堂状态 $S_t$
输出：下一个动作执行者 $a_t$ 及其执行函数 $f_t$

执行逻辑：

某个动作执行后，系统会等待一段时间窗口 $\tau$ ；
如果用户发言，或等待超时；
则触发 Manager Agent 做出新的决策；
更新课堂状态 $S_{t+1}$ 。

2.3 课堂运行流程

(1) Initialization 初始化阶段

目标：启动课堂并建立初始状态。

系统执行第一个函数：展示初始讲稿和幻灯片；
此时用户可以开始互动；
Manager Agent 接管课堂流（class flow）控制，负责之后的发言协调和节奏管理。

(2) Tutoring and Interaction 教学与互动阶段

目标： 让课堂在教学与多方互动中动态进行。

Manager Agent 持续观察课堂状态（St）；
根据状态选择：
- 合适的 发言者 ；
- 对应的功能；
- 并协调多个智能体的配合。

(3) Ending 结束阶段

目标： 完成教学、收尾并评估学习成果。

当所有教学材料都讲完；
且最终讨论结束；
系统自动关闭课堂，向用户提供测验。

3 实验

核心目的是回答三个问题：

系统性能（performance）：SimClass 作为多智能体学习环境的效果如何？
互动类型影响（interaction types）：不同交互方式、角色设置对学习的影响是什么？
智能体行为（agent behaviors）：系统中各个智能体的行为模式如何？

3.1 实验设置

Courses and Materials（课程与教学材料）

TAGI（Towards Artificial General Intelligence）——走向通用人工智能
- 内容：涵盖人工智能的发展与语言模型的知识。
- 共六个精心设计的章节。
- 重点：知识获取（knowledge acquisition）。
HSU（How to Study at University）——大学学习方法
- 内容：涵盖学术技能、压力管理、沟通与自我实现。
- 共七个结构化章节。
- 重点：技能培养（skill development）。

Systems（系统）

使用 GLM-4（GLM et al., 2024） 作为主干大语言模型（LLM），用于教师、助教与学生等角色代理（Class Roles）以及课堂管理代理（Manager Agent）

为探索课堂角色的影响，我们还构建了三个消融版本（Ablation Systems），并使用 GPT-4V 代替 GLM-4 进行对比实验：

完整系统：与原始 SimClass 一致。
移除同学代理（classmate agents）：仅保留教师和助教角色。
关闭同学代理与用户输入：由教师代理单向讲授课程，不存在任何互动。

这两种语言模型（GLM-4 与 GPT-4V）都能够在无需修改提示词的情况下完成授课任务

Participants（参与者）

我们从不同专业招募了400 多名大学生参加在线学习实验。
其中有 118 名学生完成了全部章节：

77 人学习 TAGI 课程，
41 人学习 HSU 课程。

另外还有 48 名学生参加了仅涵盖第 1 章的消融实验。

Data Collection（数据收集）

实验数据收集分为两类，分别针对不同的研究问题：

在线系统（Online System）

完整记录了所有用户交互数据，以便进行交互分析。
为评估学生学习成果，我们邀请教育专家为知识类课程（TAGI）设计每章测验与期末考试，用于测试知识保留度。
对于实践类课程（HSU），采用学生自我报告（self-reported）的方式，要求他们撰写自我总结。

消融系统（Ablation Systems）

学生按照详细评分指南，对系统进行 [0,1,2] 三级评分，分数越高代表表现越好。
通过记录交互与问卷调查，分析课堂角色对学习体验的影响。
问卷设计基于广泛使用的 CoI 理论（Community of Inquiry），包含三个维度：
- Cognitive Presence（认知在场）：学习者是否能通过持续的反思与互动构建意义；
- Teaching Presence（教学在场）：课堂是否具备明确目标与教学设计；
- Social Presence（社会在场）：学习者是否能在群体中展现社会与情感存在感。

3.2 线上系统结果

采用 FIAS（Flanders Interaction Analysis System） 对 SimClass 课堂对话行为进行量化分析

FIAS 原本用于分析传统课堂中教师与学生的语言行为类型，

FIAS 将课堂交互分为 9 种类型：

7 类属于教师行为，
2 类属于学生行为。

衡量 SimClass 是否形成了一个互动性强、学生主动参与度高的学习环境

所有课堂交互被编码为一个序列，并记录为一个 9×9 转换矩阵： $M \in \mathbb{N}^{9\times9}$

研究者从完成课程的学生中随机抽取 10 名，将他们的交互矩阵相加：

$M = \sum_{i=1}^{10} M_i$

得到总体课堂互动模式

分为ABCD四个区域，A区域教师->教师，B区域学生->教师，C区域教师->学生，D区域学生->学生

总体来看，SimClass 课堂中教师与学生之间、以及学生之间都有频繁互动

为理解 SimClass 的互动特征，作者报告了以下常见指标：

TT（Teacher Talk）教师话语占比
表示教师主导发言的比例（类别 1–7）。
ST（Student Talk）学生话语占比
表示学生发言的比例（类别 8–9）。
ID Ratio（Indirect/Direct Ratio，间接/直接教学比）
衡量教师采用引导式教学与讲授式教学的平衡：

值越高表示教师越倾向于启发式教学。
SIR（Student Initiation Ratio，学生主动发起比）
衡量学生主动发起交互的比例：

值越高说明学生更积极参与