1 论文介绍

大语言模型(LLMs)已经在教育领域中被广泛用于各种智能教学任务,例如自动评分、问答系统、教学助理等。这些都是“任务特定(task-specific)”的应用,即每个模型通常完成一个单一的教学任务。

目前仍缺乏一种多智能体(multi-agent)协作框架,能够在真实用户参与的虚拟课堂环境中模拟教师与学生的互动。

目前在真实用户参与下的 LLM 多智能体教学系统仍存在三大未解问题:

  • 模拟性能:多智能体课堂能否逼真地模拟师生实时互动?
  • 学习体验:学生是否能在其中获得真实的“临场感”与有效学习?
  • 群体行为观察:在多智能体场景中可能自发出现哪些行为?

作者提出了解决方案 —— SimClass 框架

  • Representative Class Roles:
    • 识别并设定课堂角色(如教师、学生、小组讨论者)。
  • Class Control Mechanism:
    • 设计新的课堂控制机制(控制发言顺序、主题切换、互动逻辑)。
  • Two Real Courses:
    • 在两门真实课程中部署,使用预设的幻灯片与讲稿。
  • User Participation:
    • 400+ 学生参与在线实验;
    • 每节课后测验;
    • 全过程行为数据记录。
  • Ablation Study(消融实验):
    • 额外 48 名学生体验不同版本(如无控制机制版)以进行对比。

评估框架

  • Flanders Interaction Analysis System (FIAS)
    • 量化课堂互动模式,分析教师与学生的发言类型与频率。
  • Community of Inquiry (CoI)
    • 用于评估学习者在虚拟环境中的三重“存在感”:
    • 教学存在(Teaching Presence)
    • 社会存在(Social Presence)
    • 认知存在(Cognitive Presence)
  • Group Behavior Analysis
    • 对多代理课堂中的 emergent behaviors(自发群体行为)进行定性分析。

2 论文框架

设计目标:(1) 如何确保课堂涵盖核心教学行为?(2) 如何保证课堂互动的自然与连贯?

教学行为分类:借鉴教育学经典理论,将课堂上的行为模式分为四大类

Teaching and Initiation(TI):教师讲授、提出问题,学生回答或表达想法
In-depth Discussion(ID):师生间或生生间多轮问答、观点对齐、讨论概念理解
Emotional Companionship(EC):鼓励学习、营造积极氛围、提供情绪支持 
Classroom Management(CM):维持秩序、引导发言、调控节奏

2.1 班级角色代理化

教学过程本质上是一个“信息传递性、多轮次、任务导向”的交流活动。

但若仅靠 LLM 自发对话(即:两个模型互相聊天),就会出现严重问题:

  • Role flipping(角色混乱):教师、学生身份混用;
  • Instruction repeating(重复讲解):回答内容机械重复;
  • Fake replies(虚假或敷衍回答):生成没有依据或无意义的发言。

论文定义了一个核心映射公式:

符号 含义
LLM 底层语言模型(如 GPT、Qwen 等)
P_A 系统提示词(system prompt),包含角色描述与行为约束
\rho “角色定制操作(role customization operation)”,即用 prompt 注入角色身份
A 智能体(agent)
R_b 对应课堂行为角色(如教师、助教、学生)

系统允许在角色定义中集成:

  • 自动提问生成(Question Generation):提高学生代理的互动质量;
  • 检索增强生成(RAG):让教师/助教代理调用外部知识库以增强回答的准确性。

智能体类型划分

Teacher Agent

  • 角色标签:TI, ID, EC, CM
  • 输入:教学脚本 C = [c_1, c_2, ..., c_t]  ,对话历史 H
  • 职责:展示教学内容ci; 回答学生问题;引导课堂节奏

Assistant Agent 

  • 角色标签:ID, EC, CM
  • 输入:对话历史 H
  • 职责:补充教师讲解信息;参与讨论(如同学生提问后再解释);维持课堂纪律与连贯性;提升学习效率。

Classmate Agents

论文中初始化了四种典型学生类型

学生代理名称 行为标签 主要功能
Class Clown
(课堂气氛带动者)
TI, EC, CM 活跃课堂气氛,激发互动;在学生分心时协助教师引导课堂方向。
Deep Thinker
(思辨型学生)
TI, ID 提出高层次、挑战性问题,推动深入讨论。
Note Taker
(记录者)
TI, CM 总结课堂要点、整理并分享笔记,帮助同伴复习。
Inquisitive Mind
(好奇提问者)
TI, EC 频繁提问、主动探究,引导他人思考与回应。

2.2 课堂会话控制

课堂情境中的对话是动态且非线性的群聊,需要一个“控制中心”来动态地观察、判断并引导各个智能体的发言和行动。

1. Class State Receptor(课堂状态接收器)

负责理解当前课堂的状态:

  • 到时间 t 的课堂对话历史  H_t = \{u_i^{a_j}\}_t
    其中 u_i 是某个智能体 a_j(或用户 a_u​)的发言。

  • 当前课堂状态 S_t 定义为:

                C_t\subseteq C:表示到时间 t 已经讲解的教学内容;

                R_b:是背景知识或参考上下文(contextual reference base)

2. Function Executor(功能执行器)

课堂中可执行的动作被划分为功能层级

(1) Tutoring functions f_X —— 教师专属

由教师代理 a_0​ 执行,例如:

  • f_0(c_i, a_0):展示当前教材页 c_i
  • f_1(c_{i+1}, a_0):翻页到下一页;

(2) Interacting functions f_Y​ —— 所有代理可执行

由任何学生或参与者 a_j \in A 执行,例如:

  • 提问、讨论、举例、回答、练习互动等;

  • 定义形式:f_n(c_i, a_j, H_t)

3. Manager Agent(管理代理)

这是一个隐形的元代理(meta agent),类似于 AutoGen 框架中的“调度员”

  • 观察当前课堂状态 S_t
  • 理解课堂进度;
  • 决定下一个执行动作(谁说 + 说什么类型)

数学定义:

  • 输入:当前课堂状态 S_t
  • 输出:下一个动作执行者 a_t 及其执行函数 f_t

执行逻辑:

  1. 某个动作执行后,系统会等待一段时间窗口 \tau
  2. 如果用户发言,或等待超时;
  3. 则触发 Manager Agent 做出新的决策;
  4. 更新课堂状态 S_{t+1}​。

2.3 课堂运行流程

(1) Initialization 初始化阶段

目标:启动课堂并建立初始状态。

  • 系统执行第一个函数:展示初始讲稿和幻灯片;
  • 此时用户可以开始互动;
  • Manager Agent 接管课堂流(class flow)控制,负责之后的发言协调和节奏管理。

(2) Tutoring and Interaction 教学与互动阶段

目标: 让课堂在教学与多方互动中动态进行。

  • Manager Agent 持续观察课堂状态(St)
  • 根据状态选择:
    • 合适的 发言者
    • 对应的 功能
    • 并协调多个智能体的配合。

(3) Ending 结束阶段

目标: 完成教学、收尾并评估学习成果。

  • 当所有教学材料都讲完;
  • 且最终讨论结束;
  • 系统自动关闭课堂,向用户提供测验。

3 实验

核心目的是回答三个问题:

  • 系统性能(performance):SimClass 作为多智能体学习环境的效果如何?
  • 互动类型影响(interaction types):不同交互方式、角色设置对学习的影响是什么?
  • 智能体行为(agent behaviors):系统中各个智能体的行为模式如何?

3.1 实验设置

Courses and Materials(课程与教学材料)

  • TAGI(Towards Artificial General Intelligence)——走向通用人工智能
    • 内容:涵盖人工智能的发展与语言模型的知识。
    • 共六个精心设计的章节。
    • 重点:知识获取(knowledge acquisition)。
  • HSU(How to Study at University)——大学学习方法
    • 内容:涵盖学术技能、压力管理、沟通与自我实现。
    • 共七个结构化章节。
    • 重点:技能培养(skill development)。

Systems(系统)

使用 GLM-4(GLM et al., 2024) 作为主干大语言模型(LLM),用于教师、助教与学生等角色代理(Class Roles)以及课堂管理代理(Manager Agent)

为探索课堂角色的影响,我们还构建了三个消融版本(Ablation Systems),并使用 GPT-4V 代替 GLM-4 进行对比实验:

  1. 完整系统:与原始 SimClass 一致。
  2. 移除同学代理(classmate agents):仅保留教师和助教角色。
  3. 关闭同学代理与用户输入:由教师代理单向讲授课程,不存在任何互动。

这两种语言模型(GLM-4 与 GPT-4V)都能够在无需修改提示词的情况下完成授课任务

Participants(参与者)

我们从不同专业招募了400 多名大学生参加在线学习实验。
其中有 118 名学生完成了全部章节:

  • 77 人学习 TAGI 课程,
  • 41 人学习 HSU 课程。

另外还有 48 名学生参加了仅涵盖第 1 章的消融实验。

Data Collection(数据收集)

实验数据收集分为两类,分别针对不同的研究问题:

在线系统(Online System)

  • 完整记录了所有用户交互数据,以便进行交互分析。
  • 为评估学生学习成果,我们邀请教育专家为知识类课程(TAGI)设计每章测验与期末考试,用于测试知识保留度。
  • 对于实践类课程(HSU),采用学生自我报告(self-reported)的方式,要求他们撰写自我总结。

消融系统(Ablation Systems)

  • 学生按照详细评分指南,对系统进行 [0,1,2] 三级评分,分数越高代表表现越好。
  • 通过记录交互与问卷调查,分析课堂角色对学习体验的影响。
  • 问卷设计基于广泛使用的 CoI 理论(Community of Inquiry),包含三个维度:
    • Cognitive Presence(认知在场):学习者是否能通过持续的反思与互动构建意义;
    • Teaching Presence(教学在场):课堂是否具备明确目标与教学设计;
    • Social Presence(社会在场):学习者是否能在群体中展现社会与情感存在感。

3.2 线上系统结果

采用 FIAS(Flanders Interaction Analysis System) 对 SimClass 课堂对话行为进行量化分析

FIAS 原本用于分析传统课堂中教师与学生的语言行为类型,

FIAS 将课堂交互分为 9 种类型

  • 7 类属于教师行为
  • 2 类属于学生行为

衡量 SimClass 是否形成了一个互动性强、学生主动参与度高的学习环境

所有课堂交互被编码为一个序列,并记录为一个 9×9 转换矩阵M \in \mathbb{N}^{9\times9}

研究者从完成课程的学生中随机抽取 10 名,将他们的交互矩阵相加:

M = \sum_{i=1}^{10} M_i

得到总体课堂互动模式

分为ABCD四个区域,A区域教师->教师,B区域学生->教师,C区域教师->学生,D区域学生->学生

总体来看,SimClass 课堂中教师与学生之间、以及学生之间都有频繁互动

为理解 SimClass 的互动特征,作者报告了以下常见指标:

  1. TT(Teacher Talk)教师话语占比
    表示教师主导发言的比例(类别 1–7)。

  2. ST(Student Talk)学生话语占比
    表示学生发言的比例(类别 8–9)。

  3. ID Ratio(Indirect/Direct Ratio,间接/直接教学比)
    衡量教师采用引导式教学与讲授式教学的平衡:

    值越高表示教师越倾向于启发式教学。

  4. SIR(Student Initiation Ratio,学生主动发起比)
    衡量学生主动发起交互的比例:

    值越高说明学生更积极参与

下表展示基于 FIAS 的指标结果,展示了 SimClass 的教学风格

ET和NT分别代表专家教师和新手教师

与人类课堂相比较:

  • TT 与 ST 比例相近 → 表明 SimClass 的“发言平衡度”与传统课堂相似(为公平起见,两者均排除了沉默时段)。
  • IDR 较低 → 说明教师使用了更多“脚本化教学”而非开放引导。
  • SIR 较高 → 学生主动发言比例更高,说明 SimClass 营造了更“民主化”的学习氛围,学生更敢提问与表达

学习成果分析

用两种方式评估学习成效

  • 客观测验 (quizzes):选择题形式,有明确正确答案。
  • 主观调查 (self-reports):让学生自我评估学习效果。

期末考试成绩与平均测验成绩(0.68)一致,表明学生持续掌握了所学内容

建立 参与度(interaction engagement)学习成绩 之间的统计关联,构成散点图,横轴代表消息数量和消息长度,纵轴表示归一化后的平均测验分数

皮尔逊相关系数r=0.3345(message length),r=0.3349(message number)且 p < 0.001

  • 两个变量之间存在显著正相关;
  • 学生越积极(说得多、说得长),学习成效越好

3.3 消融实验

在所有消融系统中,教师都使用相同的教学脚本(teaching scripts),确保教学内容一致。
系统的变量在于是否包含:

  • 互动机制(interaction)
  • 同伴代理(classmate agents)

移除同伴代理显著减少学生发言长度,同伴角色能有效激发学生对话意愿,促进更深层互动。

使用CoI 框架(Community of Inquiry) 从三个维度评估用户体验:

  • cognitive Presence(认知临在):学生是否能主动思考并构建知识
  • Social Presence(社会临在):学生是否感到社交存在、交流真实
  • Teaching Presence(教学临在):教学内容的组织与连贯性 

从图中可以看出,认知临在和社会临在再去掉同伴代理或去掉互动代理后,两组课程的认知得分都显著下降

教学临在三种情况下变化不大,说明教学临在主要受教学脚本质量和教师代理控制,而非同伴互动。

总结:没有同伴代理或互动机制的课堂,学生会感到孤立,社交存在感减弱。完整多智能体系统最能还原真实课堂的社会动态。

3.4 群体行为

试验期间观察到的四类关键群体行为

  • 多智能体协作带来自然的群体行为:教师、助教和同伴代理之间形成了相互补位的互动模式。
  • Session Controller 机制有效:它能根据课堂状态自动指派合适发言者,确保互动连贯、自然。
  • 系统整体增强了课堂参与感:这些群体行为使学习过程更生动,提升了用户沉浸度与社会存在感。

4 结论

SimClass 是一个基于 大语言模型(LLMs)多智能体课堂教学框架(multi-agent classroom framework)
研究团队通过在两门真实课程中的实验,验证了该系统在模拟真实教学环境、增强学习体验和促进学生互动方面的有效性。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐