角色扮演数据集是训练对话系统和AI模型的重要资源,主要用于开发能够模拟特定角色行为和语言风格的智能体。以下是目前主流的角色扮演数据集:

主要角色扮演数据集

CoSER 数据集

这是一个从771本知名书籍中提取的大型角色扮演数据集,包含17,966个角色和29,798段真实对话。 与其他数据集不同,CoSER不仅提供角色概述和对话内容,还包含了剧情摘要、角色经历和详细的对话背景信息,这些对角色扮演的训练和评估非常重要。

ChatHaruhi-RolePlaying 数据集

该数据集包含32个中文/英文电视和动漫角色,以及超过54,000段模拟对话。 数据通过收集电影、小说和剧本语料,并进行结构化抽取而构建,适用于训练能够模仿特定虚构角色的聊天机器人。

人大团队角色扮演能力数据集

中国人民大学高瓴人工智能学院团队构建了一个包含85个角色和14,000段对话的数据集。 该数据集特别之处在于包含多模态信息(约11,000张图片),主要用于评估智能体的多模态角色扮演能力。

Character Codex 人物角色数据集

这是一个综合性的角色数据集,收录了来自各种媒体类型和流派的热门角色。 数据集包含角色的创意场景描述,可用于互动讲故事或角色扮演应用的开发。

其他值得关注的数据集

  • evol-character-entire:该数据集专注于精细化的角色设定,弥补了现有开源角色扮演指令数据中常见的角色设定不足问题,特别涵盖了广泛的二次元角色性格。

  • character AI open2.0:包含具体角色的详细信息,如角色名称、经典台词和身份背景等,例如《新世纪福音战士》中的绫波丽等知名角色。

应用场景

这些角色扮演数据集可用于:

  • 开发能够模仿特定虚构角色的聊天机器人
  • 训练具有角色扮演能力的大型语言模型
  • 构建沉浸式和互动的用户体验场景
  • 进行角色扮演AI的性能评估和基准测试

随着角色扮演AI技术的发展,这些数据集对于推动更自然、更符合角色设定的对话系统具有重要意义。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐