角色扮演数据集概览
角色扮演数据集是训练对话系统和AI模型的重要资源,主要用于开发能够模拟特定角色行为和语言风格的智能体。
·
角色扮演数据集是训练对话系统和AI模型的重要资源,主要用于开发能够模拟特定角色行为和语言风格的智能体。以下是目前主流的角色扮演数据集:
主要角色扮演数据集
CoSER 数据集
这是一个从771本知名书籍中提取的大型角色扮演数据集,包含17,966个角色和29,798段真实对话。 与其他数据集不同,CoSER不仅提供角色概述和对话内容,还包含了剧情摘要、角色经历和详细的对话背景信息,这些对角色扮演的训练和评估非常重要。
ChatHaruhi-RolePlaying 数据集
该数据集包含32个中文/英文电视和动漫角色,以及超过54,000段模拟对话。 数据通过收集电影、小说和剧本语料,并进行结构化抽取而构建,适用于训练能够模仿特定虚构角色的聊天机器人。
人大团队角色扮演能力数据集
中国人民大学高瓴人工智能学院团队构建了一个包含85个角色和14,000段对话的数据集。 该数据集特别之处在于包含多模态信息(约11,000张图片),主要用于评估智能体的多模态角色扮演能力。
Character Codex 人物角色数据集
这是一个综合性的角色数据集,收录了来自各种媒体类型和流派的热门角色。 数据集包含角色的创意场景描述,可用于互动讲故事或角色扮演应用的开发。
其他值得关注的数据集
-
evol-character-entire:该数据集专注于精细化的角色设定,弥补了现有开源角色扮演指令数据中常见的角色设定不足问题,特别涵盖了广泛的二次元角色性格。
-
character AI open2.0:包含具体角色的详细信息,如角色名称、经典台词和身份背景等,例如《新世纪福音战士》中的绫波丽等知名角色。
应用场景
这些角色扮演数据集可用于:
- 开发能够模仿特定虚构角色的聊天机器人
- 训练具有角色扮演能力的大型语言模型
- 构建沉浸式和互动的用户体验场景
- 进行角色扮演AI的性能评估和基准测试
随着角色扮演AI技术的发展,这些数据集对于推动更自然、更符合角色设定的对话系统具有重要意义。
更多推荐
所有评论(0)