SimClass: Multi-Agent Classroom Simulation with Large Language Models
大语言模型(LLMs)已经在教育领域中被广泛用于各种智能教学任务,例如自动评分、问答系统、教学助理等。这些都是“任务特定(task-specific)”的应用,即每个模型通常完成一个单一的教学任务。目前仍缺乏一种多智能体(multi-agent)协作框架,能够在真实用户参与的虚拟课堂环境中模拟教师与学生的互动。模拟性能:多智能体课堂能否逼真地模拟师生实时互动?学习体验:学生是否能在其中获得真实的“
1 论文介绍
大语言模型(LLMs)已经在教育领域中被广泛用于各种智能教学任务,例如自动评分、问答系统、教学助理等。这些都是“任务特定(task-specific)”的应用,即每个模型通常完成一个单一的教学任务。
目前仍缺乏一种多智能体(multi-agent)协作框架,能够在真实用户参与的虚拟课堂环境中模拟教师与学生的互动。
目前在真实用户参与下的 LLM 多智能体教学系统仍存在三大未解问题:
- 模拟性能:多智能体课堂能否逼真地模拟师生实时互动?
- 学习体验:学生是否能在其中获得真实的“临场感”与有效学习?
- 群体行为观察:在多智能体场景中可能自发出现哪些行为?
作者提出了解决方案 —— SimClass 框架
- Representative Class Roles:
- 识别并设定课堂角色(如教师、学生、小组讨论者)。
- Class Control Mechanism:
- 设计新的课堂控制机制(控制发言顺序、主题切换、互动逻辑)。
- Two Real Courses:
- 在两门真实课程中部署,使用预设的幻灯片与讲稿。
- User Participation:
- 400+ 学生参与在线实验;
- 每节课后测验;
- 全过程行为数据记录。
- Ablation Study(消融实验):
- 额外 48 名学生体验不同版本(如无控制机制版)以进行对比。
评估框架
- Flanders Interaction Analysis System (FIAS)
- 量化课堂互动模式,分析教师与学生的发言类型与频率。
- Community of Inquiry (CoI)
- 用于评估学习者在虚拟环境中的三重“存在感”:
- 教学存在(Teaching Presence)
- 社会存在(Social Presence)
- 认知存在(Cognitive Presence)
- Group Behavior Analysis
- 对多代理课堂中的 emergent behaviors(自发群体行为)进行定性分析。
2 论文框架

设计目标:(1) 如何确保课堂涵盖核心教学行为?(2) 如何保证课堂互动的自然与连贯?
教学行为分类:借鉴教育学经典理论,将课堂上的行为模式分为四大类
Teaching and Initiation(TI):教师讲授、提出问题,学生回答或表达想法
In-depth Discussion(ID):师生间或生生间多轮问答、观点对齐、讨论概念理解
Emotional Companionship(EC):鼓励学习、营造积极氛围、提供情绪支持
Classroom Management(CM):维持秩序、引导发言、调控节奏
2.1 班级角色代理化
教学过程本质上是一个“信息传递性、多轮次、任务导向”的交流活动。
但若仅靠 LLM 自发对话(即:两个模型互相聊天),就会出现严重问题:
- Role flipping(角色混乱):教师、学生身份混用;
- Instruction repeating(重复讲解):回答内容机械重复;
- Fake replies(虚假或敷衍回答):生成没有依据或无意义的发言。
论文定义了一个核心映射公式:
![]()
| 符号 | 含义 |
|---|---|
| 底层语言模型(如 GPT、Qwen 等) | |
| 系统提示词(system prompt),包含角色描述与行为约束 | |
| “角色定制操作(role customization operation)”,即用 prompt 注入角色身份 | |
| 智能体(agent) | |
| 对应课堂行为角色(如教师、助教、学生) |
系统允许在角色定义中集成:
- 自动提问生成(Question Generation):提高学生代理的互动质量;
- 检索增强生成(RAG):让教师/助教代理调用外部知识库以增强回答的准确性。
智能体类型划分
Teacher Agent
- 角色标签:TI, ID, EC, CM
- 输入:教学脚本
,对话历史
- 职责:展示教学内容ci; 回答学生问题;引导课堂节奏
Assistant Agent
- 角色标签:ID, EC, CM
- 输入:对话历史
- 职责:补充教师讲解信息;参与讨论(如同学生提问后再解释);维持课堂纪律与连贯性;提升学习效率。
Classmate Agents
论文中初始化了四种典型学生类型
| 学生代理名称 | 行为标签 | 主要功能 |
|---|---|---|
| Class Clown (课堂气氛带动者) |
TI, EC, CM | 活跃课堂气氛,激发互动;在学生分心时协助教师引导课堂方向。 |
| Deep Thinker (思辨型学生) |
TI, ID | 提出高层次、挑战性问题,推动深入讨论。 |
| Note Taker (记录者) |
TI, CM | 总结课堂要点、整理并分享笔记,帮助同伴复习。 |
| Inquisitive Mind (好奇提问者) |
TI, EC | 频繁提问、主动探究,引导他人思考与回应。 |
2.2 课堂会话控制
课堂情境中的对话是动态且非线性的群聊,需要一个“控制中心”来动态地观察、判断并引导各个智能体的发言和行动。
1. Class State Receptor(课堂状态接收器)
负责理解当前课堂的状态:
-
到时间 t 的课堂对话历史
其中是某个智能体
(或用户
)的发言。
-
当前课堂状态
定义为:

:表示到时间 t 已经讲解的教学内容;
:是背景知识或参考上下文(contextual reference base)
2. Function Executor(功能执行器)
课堂中可执行的动作被划分为功能层级

(1) Tutoring functions —— 教师专属
由教师代理 执行,例如:
:展示当前教材页
;
:翻页到下一页;
- …
(2) Interacting functions —— 所有代理可执行
由任何学生或参与者 执行,例如:
-
提问、讨论、举例、回答、练习互动等;
-
定义形式:
3. Manager Agent(管理代理)
这是一个隐形的元代理(meta agent),类似于 AutoGen 框架中的“调度员”
- 观察当前课堂状态
;
- 理解课堂进度;
- 决定下一个执行动作(谁说 + 说什么类型)。
数学定义:![]()
- 输入:当前课堂状态
- 输出:下一个动作执行者
及其执行函数
执行逻辑:
- 某个动作执行后,系统会等待一段时间窗口
;
- 如果用户发言,或等待超时;
- 则触发 Manager Agent 做出新的决策;
- 更新课堂状态
。
2.3 课堂运行流程
(1) Initialization 初始化阶段
目标:启动课堂并建立初始状态。
- 系统执行第一个函数:展示初始讲稿和幻灯片;
- 此时用户可以开始互动;
- Manager Agent 接管课堂流(class flow)控制,负责之后的发言协调和节奏管理。
(2) Tutoring and Interaction 教学与互动阶段
目标: 让课堂在教学与多方互动中动态进行。
- Manager Agent 持续观察课堂状态(St);
- 根据状态选择:
- 合适的 发言者 ;
- 对应的 功能 ;
- 并协调多个智能体的配合。
(3) Ending 结束阶段
目标: 完成教学、收尾并评估学习成果。
- 当所有教学材料都讲完;
- 且最终讨论结束;
- 系统自动关闭课堂,向用户提供测验。
3 实验
核心目的是回答三个问题:
- 系统性能(performance):SimClass 作为多智能体学习环境的效果如何?
- 互动类型影响(interaction types):不同交互方式、角色设置对学习的影响是什么?
- 智能体行为(agent behaviors):系统中各个智能体的行为模式如何?
3.1 实验设置
Courses and Materials(课程与教学材料)
- TAGI(Towards Artificial General Intelligence)——走向通用人工智能
- 内容:涵盖人工智能的发展与语言模型的知识。
- 共六个精心设计的章节。
- 重点:知识获取(knowledge acquisition)。
- HSU(How to Study at University)——大学学习方法
- 内容:涵盖学术技能、压力管理、沟通与自我实现。
- 共七个结构化章节。
- 重点:技能培养(skill development)。
Systems(系统)
使用 GLM-4(GLM et al., 2024) 作为主干大语言模型(LLM),用于教师、助教与学生等角色代理(Class Roles)以及课堂管理代理(Manager Agent)
为探索课堂角色的影响,我们还构建了三个消融版本(Ablation Systems),并使用 GPT-4V 代替 GLM-4 进行对比实验:
- 完整系统:与原始 SimClass 一致。
- 移除同学代理(classmate agents):仅保留教师和助教角色。
- 关闭同学代理与用户输入:由教师代理单向讲授课程,不存在任何互动。
这两种语言模型(GLM-4 与 GPT-4V)都能够在无需修改提示词的情况下完成授课任务
Participants(参与者)
我们从不同专业招募了400 多名大学生参加在线学习实验。
其中有 118 名学生完成了全部章节:
- 77 人学习 TAGI 课程,
- 41 人学习 HSU 课程。
另外还有 48 名学生参加了仅涵盖第 1 章的消融实验。
Data Collection(数据收集)
实验数据收集分为两类,分别针对不同的研究问题:
在线系统(Online System)
- 完整记录了所有用户交互数据,以便进行交互分析。
- 为评估学生学习成果,我们邀请教育专家为知识类课程(TAGI)设计每章测验与期末考试,用于测试知识保留度。
- 对于实践类课程(HSU),采用学生自我报告(self-reported)的方式,要求他们撰写自我总结。
消融系统(Ablation Systems)
- 学生按照详细评分指南,对系统进行 [0,1,2] 三级评分,分数越高代表表现越好。
- 通过记录交互与问卷调查,分析课堂角色对学习体验的影响。
- 问卷设计基于广泛使用的 CoI 理论(Community of Inquiry),包含三个维度:
- Cognitive Presence(认知在场):学习者是否能通过持续的反思与互动构建意义;
- Teaching Presence(教学在场):课堂是否具备明确目标与教学设计;
- Social Presence(社会在场):学习者是否能在群体中展现社会与情感存在感。
3.2 线上系统结果
采用 FIAS(Flanders Interaction Analysis System) 对 SimClass 课堂对话行为进行量化分析
FIAS 原本用于分析传统课堂中教师与学生的语言行为类型,
FIAS 将课堂交互分为 9 种类型:
- 7 类属于教师行为,
- 2 类属于学生行为。

衡量 SimClass 是否形成了一个互动性强、学生主动参与度高的学习环境
所有课堂交互被编码为一个序列,并记录为一个 9×9 转换矩阵:
研究者从完成课程的学生中随机抽取 10 名,将他们的交互矩阵相加:
得到总体课堂互动模式

分为ABCD四个区域,A区域教师->教师,B区域学生->教师,C区域教师->学生,D区域学生->学生
总体来看,SimClass 课堂中教师与学生之间、以及学生之间都有频繁互动
为理解 SimClass 的互动特征,作者报告了以下常见指标:
-
TT(Teacher Talk)教师话语占比
表示教师主导发言的比例(类别 1–7)。 -
ST(Student Talk)学生话语占比
表示学生发言的比例(类别 8–9)。 -
ID Ratio(Indirect/Direct Ratio,间接/直接教学比)
衡量教师采用引导式教学与讲授式教学的平衡:
值越高表示教师越倾向于启发式教学。
-
SIR(Student Initiation Ratio,学生主动发起比)
衡量学生主动发起交互的比例:
值越高说明学生更积极参与
下表展示基于 FIAS 的指标结果,展示了 SimClass 的教学风格

ET和NT分别代表专家教师和新手教师
与人类课堂相比较:
- TT 与 ST 比例相近 → 表明 SimClass 的“发言平衡度”与传统课堂相似(为公平起见,两者均排除了沉默时段)。
- IDR 较低 → 说明教师使用了更多“脚本化教学”而非开放引导。
- SIR 较高 → 学生主动发言比例更高,说明 SimClass 营造了更“民主化”的学习氛围,学生更敢提问与表达
学习成果分析
用两种方式评估学习成效
- 客观测验 (quizzes):选择题形式,有明确正确答案。
- 主观调查 (self-reports):让学生自我评估学习效果。

期末考试成绩与平均测验成绩(0.68)一致,表明学生持续掌握了所学内容
建立 参与度(interaction engagement) 与 学习成绩 之间的统计关联,构成散点图,横轴代表消息数量和消息长度,纵轴表示归一化后的平均测验分数

皮尔逊相关系数r=0.3345(message length),r=0.3349(message number)且 p < 0.001
- 两个变量之间存在显著正相关;
- 学生越积极(说得多、说得长),学习成效越好
3.3 消融实验
在所有消融系统中,教师都使用相同的教学脚本(teaching scripts),确保教学内容一致。
系统的变量在于是否包含:
- 互动机制(interaction)
- 同伴代理(classmate agents)

移除同伴代理显著减少学生发言长度,同伴角色能有效激发学生对话意愿,促进更深层互动。
使用CoI 框架(Community of Inquiry) 从三个维度评估用户体验:
- cognitive Presence(认知临在):学生是否能主动思考并构建知识
- Social Presence(社会临在):学生是否感到社交存在、交流真实
- Teaching Presence(教学临在):教学内容的组织与连贯性
从图中可以看出,认知临在和社会临在再去掉同伴代理或去掉互动代理后,两组课程的认知得分都显著下降
教学临在三种情况下变化不大,说明教学临在主要受教学脚本质量和教师代理控制,而非同伴互动。
总结:没有同伴代理或互动机制的课堂,学生会感到孤立,社交存在感减弱。完整多智能体系统最能还原真实课堂的社会动态。
3.4 群体行为
试验期间观察到的四类关键群体行为

- 多智能体协作带来自然的群体行为:教师、助教和同伴代理之间形成了相互补位的互动模式。
- Session Controller 机制有效:它能根据课堂状态自动指派合适发言者,确保互动连贯、自然。
- 系统整体增强了课堂参与感:这些群体行为使学习过程更生动,提升了用户沉浸度与社会存在感。
4 结论
SimClass 是一个基于 大语言模型(LLMs) 的 多智能体课堂教学框架(multi-agent classroom framework)。
研究团队通过在两门真实课程中的实验,验证了该系统在模拟真实教学环境、增强学习体验和促进学生互动方面的有效性。
更多推荐



所有评论(0)