原文《Datasets for Large Language Models: A Comprehensive Survey》

https://arxiv.org/pdf/2402.18041v1

1 预训练数据集构建

收集到的数据需要经过预处理流程,以提高数据质量和标准化程度,同时减少有害及敏感内容。通过对现有预训练语料库构建过程的调研,总结出了一个基本的数据预处理工作流程,如图9所示。数据预处理通常包括五个步骤:(1)数据收集。

(2)数据过滤。

(3)数据去重。

(4)数据标准化。

(5)数据审查。

2 指令微调数据集

指令微调数据集用于对预训练的大语言模型进行进一步微调,使模型能够更好地理解和遵循人类指令。这一过程有助于弥合大语言模型在预测下一个单词目标与遵循人类指令目标之间的差距,从而提升大语言模型的能力和可控性。

指令微调数据集由一系列包含 “指令输入” 和 “答案输出” 的文本对组成。“指令输入” 代表人类向模型提出的请求,涵盖分类、总结、释义等多种类型。“答案输出” 则是模型根据指令生成的、符合人类期望的回复。

2.1 指令类别

考虑到当前的分类现状,仅聚焦于单轮对话指令,指令大致可分为 15 类:推理、数学、头脑风暴、封闭问答、开放问答、代码、提取、生成、改写、总结、翻译、角色扮演、社会规范和其他

2.2 通用指令微调数据集

通用指令微调数据集包含一个或多个指令类别,无领域限制,主要旨在提升大语言模型在一般任务中的指令遵循能力。如图所示,通用指令微调数据集依据其构建方法主要分为四类:人工生成数据集、模型构建数据集、现有数据集的收集与改进,以及多方法结合创建的数据集。

2.3 特定领域指令微调数据集

特定领域指令微调数据集是为某一特定领域构建的,通过制定包含与该领域密切相关的知识和任务类型的指令来实现。在预训练的基础模型上使用特定领域指令微调数据集进行微调后,该模型可应用于该领域内的各种场景任务,并展现出出色的性能。

2.3.1 医学领域

目前,存在大量用于医学任务的中英文开源大规模模型。所有这些模型都构建了医学领域的指令微调数据集,用于监督式微调,展现出了出色的泛化能力。在某些情况下,它们在特定场景中的表现甚至接近专业医生的水平。

2.3.2 代码领域

代码指令微调数据集的目的是提升大语言模型在代码生成和工具调用等任务方面的能力。一些数据集专注于为代码生成任务量身定制的指令。

2.3.3 法律领域

法律领域已经推出了各种大语言模型,但可用的开源法律指令数据集相对有限。

DISC-Law-SFT、韩非 1.0、LawGPT zh、Lawyer LLaMA sft

2.3.4 数学领域

大语言模型在数学领域的表现和未来潜力一直是人们关注的焦点。数学问题考查计算、推理、空间思维等多种技能,这使得它们本身就具有挑战性。这往往导致模型在处理数学问题时的表现低于预期。因此,提升模型数学能力的一个常见方法是使用有效的数学指令数据集进行监督式微调

目前,受诸如高准入门槛、复杂符号体系、高昂成本以及数据不公开等因素的限制,高难度的数学指令数据集较为稀缺。

BELL School Math 、Goat、MWP、OpenMathInstruct-1

2.3.5 教育领域

教育领域的大语言模型专注于课程指导、情感支持、儿童陪伴、知识学习等方面,为教师、学生和家长提供服务。它们的目标是成为应用于教育行业的新工具。教育领域的大语言模型会使用专门收集的与教育相关的(数据)进行微调。

Educhat-sft-002-data-osm、 TaoLi data

2.3.6 其他领域

2.3.6.1 金融领域

DISC-Fin-SFT是一个高质量的中文金融数据集。它被用于在百川 - 13B - 聊天模型上进行低秩适应指令微调,最终产生了金融大语言模型 DISC-FinLLM。该数据集包含 24.6 万条指令,分为四个子类型:金融咨询、金融任务、金融计算和检索增强。其数据来源多样,包括金融自然语言处理数据集、人工精心整理的问答对以及模型生成的对话,目前该数据集的一部分已开源。

2.3.6.2 地球科学领域

GeoSignal正被用于对地球科学领域首个大语言模型 K2进行指令微调。创建者们从地球科学领域的各种数据库和网站收集了大量数据。他们将这些数据重新整理成一种统一的序列格式,适用于解释、命名实体识别、推理、文本分类和问答等任务。原始数据集规模为 2260 万个实例,但经过清理后,保留了 4 万个数据实例。计划在未来发布完整版本。

2.3.6.3 心理健康领域

MeChat是中文心理健康对话数据。构建者们使用模型将真实的心理互助问答转化为多轮对话。该数据集包含 5.6 万条指令,适用于扩展的对话场景。

2.3.6.4 生物学领域

Mol-Instructions主要由三个部分组成:面向分子的指令、面向蛋白质的指令和生物分子文本指令。每个部分分别专注于生物化学中的化学反应与分子设计、蛋白质预测以及生物信息学。该数据集的构建结合了人机协作、数据库资源处理以及生物数据的转换。

2.3.6.5 IT领域

Owl-Instruction被用于对 Owl 模型进行指令微调。这些指令是专门为处理与信息技术(IT)相关的任务而设计的,比如故障排除、日志分析等等。该数据集的构建包含四个阶段:数据生成、GPT-4 筛选、人工验证以及监督式微调。它包含了 1.8 万条单轮和多轮指令。

2.3.6.6 社会规范领域

PROSOCIALDIALOG 是一个多轮英语对话数据集,它指导模型根据人类社会规范对有问题的输入做出回应。该数据集涵盖了各种不道德、有问题、有偏见以及有害的场景,是使用人机协作框架创建的。

2.3.6.7 交通领域

交通 GPT 微调数据集(TransGPT-sft)是中国首个开源的交通 GPT 模型(TransGPT)的微调组件。该数据集采用以对话为中心的方法,从 PDF 和 Doc 文件等格式的文档中提取内容。然后利用大语言模型根据文档内容生成与交通相关的对话。

3 偏好数据集

偏好数据集是指令的集合,这些指令针对同一指令输入的多个回复给出偏好评估。一般来说,它们由带有不同回复的指令对,以及来自人类或其他模型的反馈组成。这种构成方式反映了在特定任务或情境下,人类或模型对不同回复的相对偏好。偏好数据集中的反馈信息通常通过投票、排序、打分或其他比较形式来呈现。

偏好数据集主要用于大模型的对齐阶段,旨在帮助使模型的输出更紧密地契合人类的偏好和期望。与人类偏好的校准主要体现在三个方面:实用性,即具备遵循指令的能力;诚实性,即避免编造内容;以及安全性,即避免生成非法或有害信息。

3.1 偏好评估方法

偏好数据集的偏好评估方法可分为投票、排序、打分以及其他方法。每种方法既可以由人类来执行,也可以由经过校准的高质量大语言模型来完成。人类反馈所提供的偏好更符合现实世界的场景,能够捕捉到人类直观的认知和语言理解。然而,由于个体差异,它可能会表现出主观性和不一致性,并且标注需要耗费更多的时间和成本。模型反馈可以利用从高质量模型中学到的人类偏好信息以及广泛的知识,从而节省标注的时间和成本。但是,它可能会受到模型内在偏差的影响,并且与人类反馈相比,其反馈信息的真实性可能会稍差。总的来说,综合运用各种形式和来源的偏好数据的方法可能更具优势。

3.1.1 投票

投票方法通常是指从两个答案中选择更好的一个选项,或者从多个答案中选择几个偏好的选项。其优点是简单直观,便于收集数据,并且能反映群体的意见。然而,其缺点是信息缺乏细致的区分度。

3.1.2 排序

排序方法是指根据预先设定的标准,将针对同一问题的多个回复按降序排列。排序的标准由具体需求来确定。这种方法能提供更详细的信息,反映出相对的偏好顺序,但收集和处理排序信息较为繁琐,而且排序标准需要进行标准化。

数据集:OASST1

3.1.3 打分

打分方法是指对同一问题的多个回复在一定范围内赋予分数。这种方法提供了一种连续的评估方式,能够更灵活地表示偏好的强烈程度,使模型能够以更细致入微的方式理解人类的偏好。然而,需要注意的是,在打分过程中存在打分标准的统一性以及主观意识方面的问题

人类打分:Stack-Exchange-Preferences 、In Summarize from Feedback、WebGPT

模型打分:Alpaca comparison data、Stable Alignment、UltraFeedback

3.1.4 其他

医学领域基于人类反馈的强化学习数据集:Medical-rlhf。该数据集由从一个中文医学对话数据集中采样得到的 4000 个示例组成。每个示例包含两个回复,其中高质量的回复是来自真实医生的真实专业回复,而低质量的回复是由模型生成的。不过,该数据集的规模相对较小,而且对于给定的问题,其高质量和低质量的分类过于直接和绝对。

80 万参数奖励模型数据集:PRM800K。PRM800K 数据集用于对数学思维链(CoT)过程中的步骤进行监督学习。它包含 10.2 万个数学解答样本以及 100 万个步骤级别的标签,涵盖了 1.2 万个数学问题。人工标注人员对模型生成的解答的每一步都进行了标注,给出了正确性评估。这种监督方法也可以被视为向模型提供了一种校准信号。

3.2 偏好数据集的分布统计

  • 强化学习的引入以及对大语言模型校准的深入研究推动了偏好数据集的发展,2023 年呈现出快速增长的趋势。模型与人类之间的校准已成为一个日益重要的方面。

  • 大多数偏好数据集可用于商业用途,其中以 Apache-2.0 许可证最为常见。

  • 在所有的偏好评估方法中,人类投票是最常用的。这种方法的标注过程更为简便,并且能够反映真实的人类偏好。其次受欢迎的是人类打分和模型打分,它们通过分数以更直观可辨的方式呈现偏好。受限于繁琐的流程和标准的不一致性,排序方法以及多种评估方法的组合很少被使用。

  • 从数据集构建的角度来看,偏好数据集最常见的构建方式是人类进行偏好标注,以及通过模型辅助生成质量各异的回复,因为这些数据集需要根据不同的回复来标注反馈信息。第二种构建方式是从社交平台上抓取问答内容,并使用点赞数等指标作为偏好指示。

  • 偏好数据集主要以英语为主,一小部分是中文或多种语言混合的形式。总体而言,非英语的偏好数据集相对较少。

  • 偏好数据集的示例主要集中在通用领域和社会规范领域,尤其是在社会规范领域。其主要目标是确保大语言模型在各种通用任务以及全面的安全考量方面符合人类的期望。目前,专门为其他垂直领域定制的偏好数据集尚未受到太多关注。

4 评估数据集

评估数据集是经过精心整理和标注的一组数据样本,用于评估大语言模型(LLMs)在各种任务中的性能。不同的评估数据集关注不同的评估方面,为不同的模型提供了客观的衡量标准。通过仅仅调整训练条件,包括预训练语料库、指令微调数据集和偏好数据集,大语言模型在相应评估数据集上的性能可以间接反映出这些数据集的质量和有效性。反过来,这有助于对训练数据进行持续优化。

根据不同维度将大语言模型(LLM)评估分为五类评估类别:知识与能力评估、校准评估、安全性评估、专业大语言模型评估以及评估组织。如上图所示,本文聚焦于每个评估数据集的关键评估领域,将 112 个数据集精细地划分为 20 个评估领域,即:通用领域、考试领域、学科领域、自然语言理解(NLU)领域、推理领域、知识领域、长文本领域、工具领域、智能体领域、代码领域、分布外(OOD)领域、法律领域、医学领域、金融领域、社会规范领域、事实性领域、评估领域、多任务领域、多语言领域以及其他领域。“其他” 类别包含七个子领域:电子商务领域、少样本学习领域、地球科学、信息技术、多轮交互、鲁棒性以及情感。

4.1 评估领域

4.1.1 通用领域

通用评估数据集通常规模较小,主要侧重于从两个方面评估大语言模型(LLMs)的表现。第一个方面是评估模型在多个类别和领域的通用指令上的表现,主要考察它们的通用性。Vicuna Evaluation会从九个问题类别对模型进行评估,使用 GPT-4 来判断输出的质量,并对模型的整体质量给出初步评估。第二个方面涉及评估大语言模型遵循指令的能力,尤其是在面对复杂指令时。CELLO从两个角度,即复杂任务描述和复杂输入,系统地评估模型遵循复杂指令的能力,从而提高了指令的复杂性。

4.1.2 考试领域

考试领域的评估数据集是专门为了根据不同国家的重要考试题目来制定指令而设计的。在这种情况下,大语言模型扮演考生的角色,按照指定的规则回答问题。其主要目的是评估大语言模型理解问题意图的细微差别以及它们在考试相关知识储备方面的熟练程度。

高考基准测试(GAOKAO-Bench)采用中国高考(中国的全国普通高等学校招生统一考试)题目作为评估基础,力求评估大语言模型在各个学科方面的熟练程度,涵盖了 10 门学科。AGIEval通过设计以人类为中心的测试基准来扩大问题范围,选取了 20 项官方、公开且严格的入学和资格考试,包括高考、美国学术能力评估测试(SAT)、律师资格考试以及国家公务员考试。

4.1.3 学科领域

学术领域的评估数据集全面衡量大语言模型(LLMs)在不同领域的掌握程度,这些领域包括数学、法律、心理学等学科。

C-CLUE46 是评估文言文理解能力的基准。它以命名实体识别(NER)和关系抽取(RE)等任务为核心,所有任务都基于历史知识图谱。这个数据集主要考查单个学科内的熟练程度,但多样性有限。多模态多学科理解(MMCU,曾,2023 年)通过纳入医学、法律、心理学和教育等学科来拓宽范围,以衡量中文语义理解能力。

一些数据集旨在全面评估学科能力,涵盖广泛的学科范围。科学问答(ScienceQA,卢等人,2022 年)收集了自然科学、社会科学和语言学 26 门子课程的选择题。C-Eval(黄等人,2023 年 c)汇编了 52 门不同学科的问题,分为四个难度级别,对模型的中文综合学科能力进行全面评估。

总体而言,这些学科评估数据集在数据来源上有很高的相似度,主要来源于各自学科相关的在线材料。此外,有利于自动评估的选择题形式特别受青睐。

4.1.4 自然语言理解

这类评估数据集旨在全面评估大语言模型在自然语言理解(NLU)任务中的多方面能力,范围涵盖从对语法结构的基础理解到高级的语义推理以及上下文处理。

MCTS和 RAFT是用于单个自然语言理解任务的基准。前者是目前最广泛的中文文本简化评估数据集,而后者则作为文本分类的基准。大多数数据集都包含多个自然语言理解任务。通用语言理解评估基准纳入了九项英语自然语言理解任务,在情感分析、语义匹配和文本蕴含等任务中对大语言模型进行评估。在 GLUE 的基础上,超级通用语言理解评估基准提高了任务难度,反映了大语言模型在更广泛的语言理解范围内的表现。

4.1.5 推理

推理评估数据集旨在衡量大语言模型在与逻辑推理和推断相关任务中的熟练程度。

Chain-of-Thought Hub选取了八个开源数据集,并通过在数学、科学和符号等领域使用少样本思维链提示来评估大语言模型的多步推理表现。Choice-75让大语言模型在各种给定场景中选择合适的决策方案,以此评估它们在决策推理方面的能力。NeuLR评估演绎推理、归纳推理和溯因推理,强调大语言模型在这些不同推理方向上的能力。TabMWP、LILA和miniF2F 都对大语言模型在数学方面的推理能力进行考察。TabMWP 数据集要求大语言模型根据提供的文本和表格数据进行基于表格的问答和数学推理。LILA 数据集是一个全面的数学推理基准,评估包括基本能力、代数、微积分等在内的各种数学技能。miniF2F v1 数据集是奥林匹克水平数学问题的汇编,对大语言模型的数学敏锐度构成了重大挑战。

总之,推理评估数据集涵盖了不同的评估方向,可分为多步推理、决策推理、演绎推理、数学推理以及其他形式的推理。

4.1.6 知识

用于评估知识的数据集不仅要衡量大语言模型(LLMs)的知识记忆能力,还要评估诸如知识分析、学习新知识以及知识归纳等额外技能。

LLMEVAL-2源自外部数据库,构建了一个涵盖 12 个领域的知识问题库。由 GPT-4 精心整理的语言模型考试问答集(LMExamQA)根据所需的知识水平对问题进行分类,范围涵盖记忆、理解和分析层面。知识语言应用(KoLA)主要考查大语言模型在掌握和应用世界知识方面的熟练程度,根据知识的认知层次将其分为记忆、理解、应用和创造四类。

虽然之前的数据集是从现有知识的角度来评估模型,但挑战在于评估模型对完全陌生的新知识的学习能力。因此,尹等人采用知识生成(knowGen)方法来生成新知识,从而产生了首个基准数据集 ——ALCUNA用于评估和审视模型对新知识的理解、区分和关联能力。

4.1.7 长文本

近年来,包括 ChatGLM2 和 Gemini 1.5 在内的众多大语言模型在保持性能的同时,试图将模型的上下文长度扩展到数百万个词元的规模。这促使了长文本评估数据集的发展,以便更好地评估大语言模型在处理和理解大量文本输入方面的能力。这一领域的著名数据集包括ZeroSCROLLS、L-Eva、LongEval、LooGLE,这些数据集都专注于对长篇英语文本的评估。

ZeroSCROLLS 将来自不同来源的数据集标准化为一致的输入格式,平均长度为 1 万个单词,用于评估 10 项自然语言任务。L-Eval 是一个用于长上下文语言模型的综合评估套件,涵盖输入长度从 4000 词到 60000 词的范围。它包含 18 项多领域任务,涉及对长文档的推理、问答、摘要等。LongEval 引入了两项难度不同的任务,以评估大语言模型在细粒度主题检索和行检索方面的性能,输入长度在 5000 到 16000 个词元之间。LooGLE 专注于更具挑战性的具有长依赖关系的任务,评估平均长度为 2 万个单词的多项信息检索和时间线重排等任务的性能。

相比之下,LongBench包含 14 项英语任务、5 项中文任务和 2 项代码任务,大多数任务的平均长度在 5000 到 15000 个词元之间。尽管有些模型声称支持超过 10 万个词元的上下文,但上述数据集在评估如此长度的上下文时仍存在局限性。为了解决这一问题,无限基准测试(InfiniteBench,张等人,2023 年 j)将中文和英文评估的平均长度提高到 20 万个词元,在 12 项评估任务中引入了 10 项新任务,以填补评估超过 10 万个词元的长文本方面的空白。

4.1.8 工具

用于评估工具使用能力的数据集,衡量的是大语言模型(LLMs)在运用工具以及调用应用程序编程接口(API)方面的熟练程度。API-Bank模拟现实场景,建立了一个包含 53 种常用工具的 API 库,供大语言模型调用。涉及 API 调用的任务旨在评估模型在给定对话情境中,为满足用户需求而有效使用 API 的能力。APIBench是为评估而设计的,它从 1645 份 API 文档中生成了 16450 条指令。这些指令被设计成适合大语言模型的聊天交互格式,并且配有评估脚本。ToolBench作为工具操作的基准,涵盖了现实任务中使用的各种软件工具。工具调用包括单步和多步操作生成,涉及八项子任务,如天气查询和网上商店购物等。

4.1.9 智能体

大语言模型作为人工智能智能体的研究和应用,以 AutoGPT 和 AgentGPT 等为代表,正在不断取得进展。智能体评估数据集专门聚焦于大语言模型作为智能体时的能力。AgentBench在英语场景中进行评估。它是首个旨在评估大语言模型作为智能体在各种环境中性能的基准,涵盖了八种不同的场景设置,对大语言模型作为独立智能体的能力进行了全面的考查。SuperCLUE-Agent则在中文语境中接受评估。该数据集通过三项核心能力和十项基础任务,衡量大语言模型在中文语境下作为智能体的能力,涵盖工具使用、任务规划以及短期和长期记忆等方面。

4.1.10 代码

代码评估数据集旨在评估大语言模型处理编程相关任务的能力,包括但不限于代码解释、代码生成、代码纠错和代码优化。

这些数据集主要分为两类。第一类是单任务评估。APPS是代码生成方面的基准,专门评估生成 Python 代码的能力。其他数据集,如 DS-1000、HumanEval、MTPB和 ODEX以不同形式考查代码生成能力。DS-1000 引入了与七种 Python 库相关的数据科学问题。HumanEval 使用人工编写的编程问题来评估大语言模型,在一定程度上减少了数据泄露的问题。MTPB 要求大语言模型在每一步都合成一个子例程,这需要同时考虑当前的任务描述和之前的步骤。ODEX 扩展了自然语言的种类,使用英语、西班牙语、日语和俄语来描述代码意图,评估大语言模型在多语言环境下生成代码的能力。

第二类是多任务评估。CodeXGLUE根据输入输出对将代码能力分为四种类型:代码到代码、文本到代码、代码到文本以及文本到文本。HumanEvalPack是 HumanEval 的扩展版本,涵盖了六种编程语言和三项代码任务,包括代码修复、代码注释生成和代码生成。

4.1.11 分布外

分布外(OOD)评估数据集旨在衡量预训练基础模型在使用来自任务子集的指令进行微调后,在之前未见过的任务上的能力。重点在于考查大语言模型的鲁棒性。

袁等人在BOSS数据集上进行了实验,该数据集包含5项任务和20个子数据集,以考查大语言模型的分布外性能。杨等人使用GLUE-X来评估模型的分布外性能,并对模型分布外性能的度量和提升提供了见解。

4.1.12 法律

法律评估数据集在大语言模型在法律领域的应用中起着至关重要的作用,它提供了标准化的性能评估,并推动了法律领域大语言模型的研究与发展。这些数据集可以根据其针对的语言环境进行分类。

LAiW和LawBench是为中文语言环境设计的。LAiW是一个中文法律大语言模型评估基准,专注于三个法律能力维度下的13项基础任务。它从自然语言处理基本能力、基础应用能力和复杂应用能力等方面对大语言模型进行比较。LawBench以中国法律体系为基准,通过模拟知识记忆、理解和应用的20项任务来评估大语言模型的法律能力,这些任务与实际应用密切相关。

在英语语言环境中,相关的数据集有LegalBench和LexGLUE。LegalBench是在跨学科专业人士的协助下构建的,是一个由六种类型的法律推理和162项任务组成的法律推理基准。LexGLUE整合了开源的英语法律数据集作为评估基准,考查法律问答和分类任务。

对于多语言环境,LEXTREME和SCALE是适用的。LEXTREME将来自11个开源数据集的18项与法律相关的任务进行了划分,涵盖24种语言。SCALE从四个维度对当前的大语言模型提出了挑战:处理长文档、应用法律知识、多语言理解以及多任务处理。该基准源于瑞士法律体系,涉及五种语言。

4.1.13 医学领域

医学评估数据集专注于考查大语言模型在医学任务中的综合能力,比如医学术语解释、疾病诊断以及治疗建议等。这使得我们能够比较不同医学模型与专业医生之间在熟练程度上的差距。

MultiMedQA是一个医学问答的评估基准,它融合了多个开源数据集和专有数据集,用于评估大语言模型处理医学问题的能力。QiZhenGPT-eval53则专注于药物适应症评估,让大语言模型识别给定药物适用的疾病。然而,单任务数据集在评估维度上过于受限,可能无法反映其他医学能力。因此,各种综合数据集逐渐被提出。

CBLUE是一个用于中文医学语言理解的评估数据集,它使用真实的医学数据提出了五项医学任务。它从医学文本信息提取和医学问答等方面评估大语言模型。CMB的设计基于中文语言和文化框架,从中国式医学考试和复杂临床诊断的角度来评估大语言模型。HuaTuo26M-test是从包括医学百科全书和知识图谱等各种来源中随机抽样得到的,提供了多样的任务类型。PromptCBLUE54 将医学场景中的 16 种不同的自然语言处理任务转化为评估格式,形成了首个系统的中文医学场景基准。

4.1.14 金融领域

金融评估数据集与前几节提到的法律和医学评估数据集类似,专注于金融领域的相关知识,评估大语言模型在处理金融文本和执行金融任务方面的表现。

BF-CFLEB包含六个用于金融任务的子数据集,从多个角度有策略地评估金融模型的语言理解和语言生成能力。Finance1Q55 和FinEval都强调金融场景中的知识和推理能力,通过纳入关于不同金融主题的选择题来评估大语言模型的金融知识。前面提到的数据集主要针对中文环境,而金融语言理解基准是一个面向英语的测试基准,它整合了六个金融自然语言处理数据集,重点关注金融领域的自然语言理解。金融基准也是一个用于评估大语言模型在金融领域能力的英语基准数据集。它收集了 35 个现有的数据集,涵盖 23 项金融任务,并分为三个难度级别:基础任务、高级认知参与和一般智能。

4.1.15 社会规范

社会规范评估数据集从伦理、道德、偏见、有害性和安全性等维度对大语言模型进行评估。它主要探究这些模型生成的输出是否违反伦理和法律标准、是否表现出有偏见的歧视,或者在面对不安全指令时是否产生有害和有毒的内容。这类数据集在对大语言模型的安全性审查方面具有重要意义和社会价值。

CrowS-Pairs美国文化背景下评估大语言模型的偏见和歧视情况,涵盖了与偏见相关的九种刻板印象,包括种族、宗教、年龄等方面。TRUSTGPT从有害性、偏见和价值一致性这三个关键领域对大语言模型进行评估。与之前的主流安全基准相比,SuperCLUE-Safety56 通过纳入对抗性技术和多轮交互引入了更高的挑战,从而在各种不利输入情况下,能更好地识别大语言模型的安全防护能力。

4.1.16 事实性

大语言模型生成的输出可能会偏离指定的输入标准、先前的上下文信息,或者既定的事实和知识,这种现象通常被称为大语言模型的 “幻觉”。要解决这个问题,就需要使用专门为事实性评估设计的数据集来衡量大语言模型产生幻觉的程度。评估大语言模型事实准确性的方法有三种不同形式。

第一种方法是给出各种选项,促使大语言模型在不同选项中辨别出符合事实的正确选择,或者评估所提供内容的事实一致性。在 FACTOR 数据集中,每个实例都由一个前缀和四个补全内容组成,其中只有一个补全内容在事实上是准确的。大语言模型需要根据给定的前缀和相关知识来识别出准确的选项。HaluEval为问答、对话和文本摘要等任务提供输入和输出,要求大语言模型识别出幻觉的存在。

第二种方法是评估大语言模型生成的开放式内容的事实准确性。FActScore利用人物传记中的信息创建了一个事实性评估数据集,采用了新颖的评估技术来评价大语言模型在生成大量内容时的事实精确性。FactualityPrompt同样评估大语言模型在开放式文本生成中的事实性方面,要求在真实和非真实的提示下生成准确的内容。

第三种方法是对大语言模型进行提问,以评估幻觉现象的普遍程度。TruthfulQA精心设计了一些英语问题,这些问题由于可能存在的误解,容易导致生成错误答案,以此来评估大语言模型回答的真实性。受此启发,幻觉问答集设计了一些旨在误导中文大语言模型的中文问题,用于评估中文大语言模型产生幻觉的倾向。FreshQA是一个用于事实性问答的动态基准,不仅要求掌握快速变化的世界知识,还需要具备反驳错误事实前提的能力。

4.1.17 评估

评估类别的数据集是专门为探究大语言模型作为评估者的潜力和能力而设计的。

FairEval批判性地审视了模型评估范式,以探究大语言模型作为评估者的可信度。它使用Vicuna评估数据集 中的指令,让不同的模型生成回复,随后让 ChatGPT、GPT-4 等模型对各种回复进行评估。PandaLM testset添加了丰富的人工标注,用于验证经过训练的熊猫语言模型在评估其他大语言模型时的评估能力。LLMEval2是目前规模最大、最为多样化的用于评估大语言模型的英语基准,涵盖 15 项任务和 8 种能力,采用创新方法来衡量大语言模型评估回复的质量。

4.1.18 多任务

多任务评估数据集对大语言模型的综合能力进行全面考查,其特点是任务数量多、规模大、领域广泛且任务类型多样。

BIG-Bench包含了 95 种任务类型,共计 204 项任务,涵盖了诸如语言学、常识推理、社会偏见、软件开发等广泛的主题。BBH从 BIG-Bench 中精心挑选了 23 项具有挑战性的任务,在这些任务上,之前的语言模型尚未超越人类的平均表现,这构成了相当大的挑战。HELM考虑了对模型的整体评估,为大语言模型建立了一个全面的评估系统,包含 73 种评估场景和 65 种评估指标,确保进行全面且严格的评估。

在中文领域,CLEVA是一个综合性的中文评估基准,具有 11 项应用评估任务和 20 项能力评估任务,规模达到 37 万个样本。CLiB是大语言模型的中文能力测试列表,涵盖了 GPT-4、文心一言、通义千问等大语言模型,并支持分类和信息提取等多维度能力评估。LLMEVAL-1由 17 个任务类别、5 个评分项目以及多种评估方法组成,对大语言模型进行系统评估。

4.1.19 多语言

多语言评估数据集使用包含多种语言的数据来评估大语言模型在跨语言任务中的表现,有助于探究大语言模型应对各种语言挑战的能力。XNLI专门用于评估低资源语言迁移和跨语言句子分类能力,纳入了 15 种语言,包括英语、法语、西班牙语、中文和德语。相反,跨语言极端多语言评估基准(XTREME)通过将四项自然语言处理(NLP)任务的内容翻译成 40 种语言,涵盖 12 个语系,扩大了语言覆盖范围。从本质上讲,多语言评估数据集通常以传统的自然语言处理任务为基础,扩展了语言的多样性,保持了适度的任务难度,并且需要丰富的语言知识。

4.1.20 其他

还有一些专门针对不同领域的数据集,它们弥补了评估领域的不足。接下来的部分将概述七个子领域中的关键数据集,

电子商务领域。EcomGPT eval dataset旨在评估大语言模型在电子商务领域任务中的有效性。它由 6000 个实例组成,从为电子商务评估量身定制的 12 个预留数据集中各抽取 500 个实例。

少样本学习领域。FewCLUE dataset的创建特别侧重于评估中文的少样本学习。其目的是利用预训练模型的泛化能力,并探究少样本学习模型应用于中文的实用性。

地球科学领域。GeoBench dataset是一种评估语言模型处理与地球科学相关问题的熟练程度的工具,用于考查它们在该领域理解和应用知识的能力。

信息技术领域。Owl-Bench dataset是专为信息技术运维场景量身定制的双语评估基准。它除了包含 1000 道选择题外,还有 317 组问答。这些任务涉及众多现实世界的工业场景,涵盖九个不同的子领域:信息安全、应用程序、系统架构、软件架构、中间件、网络、操作系统、基础设施和数据库。

多轮交互领域。大语言模型经常与用户进行多轮交互,但评估通常集中在单轮交互上,忽略了它们的交互能力。MINT dataset旨在评估大语言模型在涉及多轮交互、使用工具或利用自然语言反馈的任务中的表现。在这个评估框架中,被测试的模型可以通过执行 Python 代码来使用工具,并接收由 GPT-4 模拟的反馈,以促进多轮交互评估。

鲁棒性领域。PromptBench dataset广泛探究了大语言模型在面对七种不同类型的对抗性提示时的鲁棒性。同时,它还对各种模型生成的对抗性提示的可转移性进行了分析。对鲁棒性的考查涵盖了 13 个开源数据集中的 8 种不同的自然语言处理任务,涉及情感分析、多任务知识、阅读理解、数学等领域。

情感领域。EmotionBench dataset是评估大语言模型共情能力的开创性基准,用于考查大语言模型如何针对特定情况产生情感变化。该数据集包含 400 多个场景,生成了八种不同的情感类别:愤怒、焦虑、抑郁、沮丧、嫉妒、内疚、恐惧和尴尬。

4.2 评估方法

评估方法分为三类:代码评估、人工评估和模型评估

代码评估的方法包括从大语言模型中提取回复,参考真实的注释,并使用代码对预先定义的评估指标进行统计计算。主要通过准确率、F1 分数、BLEU、ROUGE、Exact Match 、Pearson correlation coefficien等来衡量的。

人工评估方法通常是由众包人员、经过培训的志愿者、相关专业的学生或专家小组对大语言模型的输出进行评估。评估方法包括质量评分、质量比较评估等。

模型评估方法代表了一种新的范式,在这种范式中,问题、参考答案、评估标准以及被测试模型的回答都被整合到一个最优prompt中。这种评估方法强调选择当前性能较高的大语言模型,并提供合适的评估指令。其优势在于能够替代大量的人工工作,从而实现更快的评估。然而,其局限性在于依赖大语言模型的性能,并且可能并不总是与人类的价值观和判断一致。

越来越常见的做法是采用多种评估方法相结合的方式,利用每种方法的优势并弥补其不足。这种方式旨在实现全面、严格且标准化的评估。

4.3 评估数据集的分布统计

(1) 评估数据集呈明显的上升趋势。与大语言模型相关的技术不断成熟,推动了用于大语言模型评估的数据集的扩展。特别是在 2023 年,评估数据集的数量大幅增加,这反映出随着大语言模型的快速迭代,需要多样化的数据集来跟上其发展步伐,并提升模型性能。

(2) 评估数据集许可证的分布显示,人们更倾向于使用诸如 Apache-2.0 和 MIT 等被广泛认可的许可证。这些协议的总体分布模式凸显了在大语言模型数据评估领域中寻求的一种微妙平衡,即兼顾知识共享和知识产权保护。Apache-2.0 和 MIT 等开放许可证所提供的灵活性,有助于评估数据集的广泛使用和共享,这对于推进相关研究至关重要。

(3) 大多数评估数据集的规模在 0 - 100K 范围内,样本数量少于 10K 的数据集占总数的 56.4%。这表明许多任务可以用相对较小的数据集进行有效评估,这可能也与数据集构建和评估过程中的成本考虑有关。尽管如此,仍有一些数据集的规模超过 1M,这些数据集主要来源于网络抓取或开源数据集的整合。

(4) 手动构建和整合开源数据集是创建评估数据集的主要方法。手动构建通常因其精确性和与特定领域的相关性而受到青睐,而整合开源数据集则创建了通用的评估基准。由于对问题真实性和答案准确性的担忧,使用模型生成的数据进行评估的情况较少见,一般仅作为补充方法。

(5) 英语数据集最为普遍,中文数据集也占有重要地位,这反映了对评估大语言模型在这两种语言任务中性能的关注。尽管也有一些数据集涵盖其他语言的评估,但针对低资源少数民族语言的评估资源明显有限。

(6) 包含多个学科和任务类型的评估数据集很常见,这凸显了人们越来越关注评估大语言模型的整体能力。研究界尤其关注模型的通用性和广泛的知识储备。各种评估数据集涵盖了常规指令、知识领域、社会规范以及几个常见的垂直领域。然而,评估数据集中的领域分布仍然呈现长尾模式,像电子商务和地球科学等小众领域的评估资源有限。值得注意的是,目前古代文本和文化等领域缺乏评估基准。

(7) 主观题,尤其是与自然语言理解(NLU)相关的主观题,在评估数据集中占主导地位。少数数据集包含客观题,如选择题和填空题。在评估方法方面,基于代码的评估被广泛使用,这归因于其适用于客观题和简单主观任务,在效率和一致性方面具有优势。相反,由于成本考虑,人工评估不适合大规模任务和客观题,因此使用频率较低。需要强调的是,模型评估在一定程度上融合了基于代码评估和人工评估的优点,有可能在未来成为主要的评估方法。当然,评估方法的策略性组合应考虑实际因素,包括问题的规模和多样性。

5 传统NLP数据集

文章将在大语言模型(LLMs)被广泛应用之前用于自然语言任务的文本数据集归类为传统自然语言处理(NLP)数据集。这些数据集没有指令格式,是专门为训练、优化和测试传统自然语言处理模型而设计的。由此产生的自然语言处理模型可应用于多种文本处理任务,包括文本分类、信息提取、文本摘要等。

在当代大语言模型项目中,大量传统自然语言处理数据集得到了应用。这些数据集发挥着双重作用:第一,它们的格式和内容在大语言模型的指令引导微调阶段转变为指令格式,增强了模型遵循指令并在这些任务中表现出色的能力;第二,它们充当大语言模型的评估数据集,便于在自然语言任务中对不同的大语言模型进行比较。

传统自然语言处理数据集根据不同任务被系统地分为 15 个不同类别。上图直观展示了这些类别,包括问答、文本蕴含识别、数学、共指消解、情感分析、语义匹配、文本生成、文本翻译、文本摘要、文本分类、文本质量评估、文本转代码、命名实体识别、关系提取和多任务。

5.1 QA 问答对

问答任务要求模型利用自身的知识和推理能力,依据提供的文本(文本可能是可选的)和问题来回答查询。该任务通常包含阅读理解知识问答推理问答等子类别。

5.1.1 阅读理解

阅读理解任务是指给模型提供一段指定的文本段落以及相关问题,促使模型理解文本来回答问题。根据任务的答题方式,它大致可分为四类:选择判断、完形填空、答案提取和开放式问答。

选择判断任务有两种模式。模式一要求模型从多个答案选项中选出最合适的一个。RACE、DREAM是专门从人类专家设计的英语考试中挑选出来的,要求模型回答关于给定英语文章内容的多项选择题。PubMedQA专注于生物医学领域,对专业知识的要求较高,需要根据医学文章的摘要来判断问题的正确性。

完形填空任务要求模型选择一个单词或句子来填充文本中缺失的部分,使文本连贯且符合逻辑。这类任务通常在单词和句子两个层面设置。LAMBADA和 CLOTH是英语单词层面的完形填空数据集。模型通过感知上下文来预测句子中缺失单词的位置。

答案提取任务要求模型在文本中找出一段连续的内容作为给定问题的答案。从根本上讲,这些问题的答案可以直接从文本内容中提取或组合而成,无需生成额外的开放式内容。SQuAD从维基百科文章中提取文本段落和问题答案,用于答案提取任务。SQuAD 2.0通过添加无法回答的问题扩展了 SQuAD 数据集,以测试模型判断模糊问题的能力。

无限制问答需要模型借助文本内容和所提问题生成合适的回答。答案并非直接从文本中提取,而是由模型自由生成。目前,这类任务是评估大语言模型的主要关注点。DROP和 QASPER评估模型生成开放式答案的推理能力。答案无法直接从文本中提取,需要模型从多个来源搜索线索,然后进行特定的运算。CoQA衡量模型回答相关问题的能力,其答案为自由形式的文本。

5.1.2 知识问答

在知识问答任务中,模型借助世界知识、常识、科学见解、特定领域信息等来回答问题。与阅读理解任务不同,该任务的每个实例都没有参考文本。此任务旨在评估模型的知识深度以及理解问题的能力。

ARC、CommonsenseQA和OpenBookQA基于科学事实和人类常识来评估模型的知识掌握程度和理解能力。这些数据集侧重于大众所熟知的常识性知识。

5.1.3 推理问答

推理问答任务的重点在于要求模型在回答问题时运用逻辑推理、多步推理和因果推理等能力。这类问题通常需要模型把握文本中的逻辑联系,推断出隐含信息,并得出合理结论。

  HellaSwag、Social IQa、ROPES和 WIQA都基于上下文推理,旨在让模型根据给定的上下文进行推断。

5.2 文本蕴含识别

文本蕴含识别(RTE)相关任务的主要目标是评估一个文本片段中的信息能否从另一个文本片段中逻辑推导出来。其形式上由一个被表示为 P 的 “前提” 和一个被表示为 H 的 “假设 ” 构成,目的是确定 P 和 H 之间的关系。如果 P 在逻辑上蕴含 H,则被归类为 “蕴含”;如果 P 和 H 在逻辑上相互矛盾,则被归类为 “矛盾”;如果 P 和 H 之间没有明显的逻辑联系或矛盾,则被归类为 “中立”。在某些情况下,后两种情况会被合并为 “非蕴含”。

RTE整合了部分文本蕴含识别挑战数据集,包含两种关系类型:“蕴含” 和 “非蕴含”。 CommitmentBan、OCNLI以及 CINLID64 将关系判断扩展为三种类型。

5.3 数学

数学任务通常包括标准的数学计算、定理验证以及数学推理任务等等。这些任务旨在探究模型在数学领域的潜在能力。

GSM8K、ASDiv、Math23K以及 Ape210K只包含小学数学计算内容,对于人类来说相对简单。MATH则针对数学竞赛题,这类题目更具挑战性,同时也考查模型在解题时遵循思维链条的能力。NaturalProofs涉及数学命题证明、公理推理等方面。

5.4 共指消解

共指消解相关任务的核心目标是识别文本内的指代关系。在文本段落中,有时会使用代词、名词短语或其他表达方式来指代先前提到的实体。这项任务需要识别文本中不同部分所指代的实体,是自然语言处理领域的一个基础研究方向。

WiC和 CLUEWSC2020分别是英语和汉语领域的共指消解数据集,用于判断不同句子中的词语是否具有相同的指代意义。WSC不要求进行比较,而是要求确定词语所指代的具体内容。WinoGrande通过将任务重新设计为填空格式来调整 WSC 数据集。WinoWhy通过引入解释指代关系这一新任务来扩展 WSC 数据集。

5.5 情感分析

情感分析任务,通常也被称为情绪分类任务,旨在分析并推断所提供文本的情感倾向,这些情感倾向通常被划分为积极、消极或中性情感。这项任务在多个不同的领域中都具有实际应用价值,包括社交媒体监测、产品评论分析和市场调研等在内的多个领域。

经典的情感分析数据集包括 IMDB、Sentiment140、SST-2以及 EPRSTMT。这些数据集的文本内容源自现实生活场景,如电影影评、产品评论和推文内容等,因此具有多样性和真实性。根据文本中传达的情感,每个样本都被人工标注为表达积极情感或消极情感。

5.6 语义匹配

语义匹配任务需要评估两段文本序列之间的语义相似度或对应程度。模型必须理解文本中的语义信息,才能执行诸如评估文本相似度、匹配句子以及确定语义关系等任务。这项任务广泛应用于信息检索和对话系统等领域。

MRPC、QQP以及 PAWS是常用的英语语义匹配数据集,用于在句子层面确定语义相似度。AFQMC和 LCQMC是常用的大规模汉语数据集。

5.7 文本生成

文本生成任务的范围很广泛,涵盖了内容摘要或对话的生成。狭义上的文本生成任务受到所提供内容和特定要求的限制。它需要利用诸如描述性词语和三元组等基准数据,来生成相应的文本描述。

第一种形式是使用特定的词语以口语化的方式生成句子。CommonGen和 E2E要求模型生成与给定词汇相关的连贯句子。第二种形式是将结构化数据映射为文本。DART和 WebNLG将结构化数据以三元组的形式输入到模型中,以获取相关的描述性句子。

5.8 文本翻译

文本翻译涉及将文本从一种语言转换为另一种语言。模型必须熟练掌握源语言文本的含义,并生成符合目标语言语法和语境的对等文本。

WMT65 是最常用的文本翻译数据集之一。它汇集了来自统计机器翻译研讨会竞赛的数据,拥有一个大规模的数据集,涵盖了广泛的语言种类。NLLB提供了对三个文本翻译评估基准的开放访问权限,能提供 200 多种语言的高质量翻译,其中包括许多低资源语言。

5.9 文本摘要

文本摘要任务指的是从一篇较长的文本中提取或生成简短的摘要或标题,以概括其主要内容。摘要应保留原文中的关键信息,有效地传达其基本思想,而标题则要求简洁且涵盖要点。

新闻是文本摘要数据集最常见的来源。CNN-DM利用大量新闻文章创建了数以万计的文章 - 摘要对。与 CNN-DM 数据集相比,XSum的文本内容更短,词汇更丰富。

5.10 文本分类

文本分类任务旨在将各种文本实例归入预定义的类别中,文本数据和类别标签是其关键组成部分。前面提到的情感分析和语义匹配都包含在文本分类的范畴内。由于这些任务的独特性,且研究人员常常将它们作为独立的子任务进行探讨,因此本文分别对情感分析、语义匹配和文本分类进行了总结。

CSLDCP要求模型对中国文学学科进行分类,将类别数量扩展到了 67 个。IFLYTEK根据应用程序的功能对描述性文本进行分类,以用于模型分类,其类别数量惊人地达到了 119 个。

5.11 文本质量评估

文本质量评估任务,也被称为文本纠错,涉及识别和纠正文本中存在的语法、拼写或语言使用方面的错误。这项任务就如同老师批改学生写作中出现的错误一样。

CoLA用于评估模型判断英语句子语法正确性的能力,这可以被视为一个二分类任务。相比之下,国际中文语言处理大赛(SIGHAN)以及中文语言纠错挑战赛(YACLC)要求模型校对和纠正中文的拼写和语法错误,难度更大。与这两个数据集不同,中文拼音输入法错误拼写纠正数据集(CSCD-IME)是首个由拼音输入法错误导致的中文拼写纠错数据集,其错误来源和分布情况各不相同。

5.12 文本转代码

文本转代码任务要求模型将用户提供的自然语言描述转换为计算机可执行的代码,从而实现所需的功能或操作。常见的子任务包括生成 SQL 查询语句以及为不同编程语言生成代码。

MBPP是一个包含 Python 编程问题的基准测试集,用于评估模型在 Python 编程方面的熟练程度。另一方面,DuSQL、CSpider和 Spider则应用于文本转 SQL 任务。

5.13 命名实体识别

命名实体识别(NER)任务旨在识别并分类给定文本中的命名实体。模型的任务是确定实体的位置,将它们归入预定义的类别,并指出它们各自的位置。这些实体可能包括人名、组织机构名、地理位置、日期以及其他类别。

CoNLL2003是命名实体识别领域的一个经典基准数据集。它将实体类型分为 4 类。OntoNotes 5.0在该语料库的基础上扩展成了一个命名实体识别任务数据集,并提供了 18 种实体类型。淘宝命名实体识别数据集(Taobao NER)和微博命名实体识别数据集(Weibo NER)分别是为娱乐、电子商务和社交媒体领域构建的,提供了相应的文本 - 实体对。

5.14 关系抽取

关系抽取(RE)的任务是识别文本内容中实体之间的联系。这个过程通常包括识别和标记相关的实体,然后确定这些实体之间存在的具体关系类型。例如,紫禁城(地理位置)位于(关系类型)北京(地理位置)。

Dialogue R是第一个完全由人工标注的用于对话关系抽取的数据集,其中包含在真实对话中发现的 36 种关系类型。与句子层面的数据集不同,DocRED是为文档层面的关系抽取任务构建的。它要求模型聚合文档信息来推断实体之间的关系。FewRel是首个将小样本学习与关系抽取相结合的数据集,并且在其 2.0 版本中,还额外评估了模型对分布外(OOD)数据的处理能力。

5.15 多任务

多任务数据集具有重要意义,因为它们可以同时用于不同类别的自然语言处理(NLP)任务。创建者通常会通过各种设置、转换和标注方式来处理同一批文本数据,从而为各种自然语言处理任务生成训练或评估数据,这体现了 “一个数据集,多种应用” 的理念。

例如,CSL包含大量信息,如论文标题、摘要、关键词等,这些信息可同时应用于多种自然语言处理任务,如标题预测、关键词生成、论文分类等等。QED通过添加解释性注释对自然问题数据集进行了扩展,并延伸至句子选择、等价性识别等不同任务。METS-CoV收集了与新冠疫情相关的社交媒体文本,这些文本由创建者进行了标注,并用于命名实体识别和情感分析任务。

6 挑战与未来发展方向

6.1 预训练语料库

简要探讨当前预训练语料库中存在的挑战,并讨论未来的发展方向

数据选择

数据的多样性至关重要,数据涵盖的领域越丰富越好。目前,大多数预训练语料库由网络抓取的数据组成,数据类型并不完全全面。存在过度关注热门内容的风险,从而导致类别失衡。这可能会导致某些领域的知识严重匮乏,进而需要后续收集数据来进行增量预训练。

此外,英语数据的规模远大于其他语言的数据规模,这可能会导致对其他语言的知识掌握不足,以及模型在跨语言任务中的表现不佳。

首先,未来的趋势将是构建规模更大、更加多样化、来源更广泛的预训练语料库,这些语料库要涵盖多种语言和领域,并且各部分比例的呈现更加合理。

其次,数据将被细分为更精细的类别,以便更好地衡量语料库的广度,从而有助于改进数据选择。

第三,将会逐步探索添加合成数据对于模型的预训练是否有效。

第四,许多垂直领域缺乏开源的相关数据,比如在古代文本或民族文化等领域。

时效性

目前,大多数预训练语料库的覆盖时间相对陈旧,缺乏最新的知识,并且难以实现定期更新。这会导致生成的内容不准确或信息过时,无法处理近期的内容。Common Crawl会持续抓取最新的网页数据,但其中大部分是英语数据。当需要更新时,其他类型的数据则需要重新获取和预处理。未来,预训练语料库的动态自动更新,以及大语言模型对新知识的自我学习能力,将成为关键的研究方向。

质量评估

目前尚未建立起一套系统的质量评估方法。大多数研究仅评估了语料库的特定方面。关于什么样的预训练语料库质量更高、应该如何比较预训练语料库的质量,以及更全面的质量评估应包含哪些内容等问题,在很大程度上仍未得到解决。

数据预处理

每个预训练语料库都有其独特的预处理流程和方法,其中一些具体细节尚未公开。

这引发了两个问题。首先,数据预处理缺乏统一的框架和标准化的流程。现有方法的有效性有时难以评估。其次,朗普雷等人通过实验表明,从预训练数据中过滤掉的有害内容越多,模型生成的有害信息就越少,但它的判别能力也会随之减弱。过度过滤低质量数据会降低数据的多样性。在增强判别能力的同时,可能会导致模型生成更多的有害信息。更纯净的语料库是否就一定更好,以及少量的有害信息和低质量数据是否能带来益处,这些都是未来需要探索的问题。确定数据清理的最佳程度也是未来的研究课题之一。

构建预训练语料库生态系统

由于大语言模型的快速发展,目前业界尚未建立起一个完善的预训练语料库生态系统。数据预处理缺乏标准,没有系统的数据评估方案,相关数据的发布也没有既定标准,并且目前还不存在对数据的统一管理和维护。

6.2 指令微调数据集

在指令微调阶段,创建高质量的数据集对于提升模型性能和拓展应用领域至关重要。

指令类别细分

在大多数指令微调数据集中,各类指令混合在一起,没有为每条指令指定相应的任务类型和相关领域。例如,在经典的 Alpaca 数据集中,每条指令由 “指令”“输入” 和 “输出” 部分组成,但没有类别注释。这使得调整指令微调数据集中的类别分布以提升特定任务的性能,或添加和简化指令变得具有挑战性。以 “代码” 类别为例,指令可以进一步细分为更具体的类别,如 “代码纠错”“代码生成” 和 “代码改进”。因此,未来数据集中更精细的类别细分应成为标准,以便用户更好地理解整体构成,并便于进行数据集优化。当然,这可能会带来一些挑战,如类别细分的标准化难度大,以及注释成本和时间增加等问题。

领域稀缺性

大多数数据集集中在通用领域,垂直领域的数据集大多集中在医疗、金融和法律等常见领域。这导致低资源和小众领域的指令数据集稀缺,可能限制了模型在某些专业领域的性能提升。例如,在中国传统经典、古董领域,或古生物学、殡葬学和少数民族语言等小众领域。为这些领域构建相应的数据集,不仅能系统地整合知识,还能使经过训练的大语言模型应用于特定领域,作为具有社会意义和价值的辅助工具。

质量评估

指令微调数据集的质量评估是一个复杂且主观的问题,目前尚无明确、通用的标准或方法。在实践中,质量评估可能涉及多个方面,包括但不限于:(1)模型性能评估。在评估数据集上评估微调模型的性能。所选的评估数据集应具有多样性和合理性,以避免评估偏差。(2)注释一致性和合理性。评估不同注释者对指令的一致性,以及指令输入和答案输出的合理性和正确性。(3)偏差分析。评估数据集中的偏差和有害内容,以确保模型不受负面影响。(4)时效性检测。定期检查数据集中指令的内容是否过时或不准确。(5)主观评估。进行人工主观评分和检查。

法律和伦理风险

Longpre 等对指令微调数据集的研究表明,越来越多的数据集被当作一个整体对待,而不是一系列来源,在没有充分标注数据源和版权信息的情况下进行多次重新打包和重新授权。这导致了数据泄露和偏差行为等问题,带来了法律和伦理风险。

因此,目前需要提高数据集的透明度,提升质量并确保符合伦理规范,减少潜在问题。Longpre 等提供了一个数据集审计和数据来源探索工具来解决这一问题。未来,建立数据集使用标准是关注的重点。

6.3 偏好数据集

偏好数据集的重要性在于为模型的输出决策提供关键的训练数据

资源可用性有限

强化学习从人类反馈(RLHF)已被 OpenAI、Anthropic、谷歌等行业领先公司广泛研究和应用。然而,由于缺乏高质量的公开可用偏好数据集,开源社区在 RLHF 的研究和实践方面仍较为滞后。目前,开源的偏好数据集数量不多,且大多数是英文的。非英文和特定领域的偏好数据集极为稀缺。资源稀缺的一个原因是注释过程相对繁琐,成本高昂。因此,可以尝试探索弱监督学习方法,使用用户点击、支持数量等简单标签代替人工注释,或者利用像 GPT-4 这样的高质量模型辅助投票和评分。另一方面,其他语言和垂直领域的偏好数据集受到的关注较少,相关工作也较少。

偏好评估方法设置

最常用的偏好评估方法仍然是投票法,但许多偏好数据集缺乏严格统一的评估标准,仅从单一维度提供反馈信息。现实世界中人类的偏好是多样的,为了更全面、高质量地反映这些偏好,需要建立相应的标准以减少主观差异,并从多个维度进行细粒度评估。建议采用多种评估方法进行综合评估。定义这些标准是一个复杂的问题。此外,偏好数据集通常不会明确给出某些答案更受人类青睐的原因,这给模型学习过程带来了不确定性。因此,在偏好评估中最好包含文本解释,说明评估的原因并为改进回复提供建议。UltraFeedback的构建相对更科学规范,对未来的发展起到了积极的推动作用。

6.4 评估数据集

评估数据集在确保大语言模型(LLMs)的可靠性、实用性和安全性方面发挥着至关重要的作用。

评估数据集的构建

数据来源

大语言模型在预训练或提示微调过程中会无意中从评估数据中学习,导致评估分数虚高,泛化能力下降。为了缓解这一问题,数据集提供者应披露训练数据的组成,并提供有关数据来源的详细信息,以防止污染。因此,除了公开披露训练数据的组成以避免不恰当选择评估数据集外,评估数据集的提供者还必须提供详细的数据源信息,并评估数据污染的风险。只要有可能,数据源应包含人工生成的数据或非公开数据,以确保评估的公正性。如何将数据污染或泄露降至最低仍是一个有待解决的问题。

问题设计

在开发评估数据集时,应考虑多种因素,包括规模、问题类型和主题分布。要实现整体提升,需要进行大量的研究和实际应用。首先,应根据具体的评估内容确定评估数据集的规模,注重高质量的问题、多样化的问题类型和均衡的主题分布,然后逐步扩展并定期更新评估数据集。这种方法类似于中国的高考,通过精心设计的问题来评估对综合知识的掌握程度。此外,设置合理的难度水平也至关重要。评估任务应在很大程度上超越大语言模型目前的能力,设定适当的上限和下限。如果评估基准设计不当,许多得分超过 95% 的模型对推动大语言模型的发展相对无益。

解决评估差距

评估领域中存在的持续差距需要研究人员加以关注,以完善评估框架。

  1. 低资源领域的评估:某些领域的评估数据集仍处于发展初期,如电子商务领域和地球科学领域;而某些领域暂时缺乏相关的评估基准,包括古代文学、文物、茶文化等领域。

  2. 其他语言的评估:除了占主导地位的英文和中文数据集外,其他语言的评估资源有限。

  3. 多轮评估:目前对单轮评估的关注忽略了大语言模型在多轮交互和上下文理解方面的能力。

  4. 动态评估:许多评估数据集采用静态评估方法,这存在两个缺点。一方面,评估数据被用于训练,以提高在排行榜上的排名;另一方面,最初的评估内容可能逐渐无法满足大语言模型的能力,被评估的知识可能会过时或出现错误。

选择和改进评估方法

代码评估存在局限性,尤其是在处理开放式问题时,这一问题需要解决。人工评估虽然深入,但成本高昂且容易受到人为偏见的影响。因此,基于模型的评分正成为一种有前途的替代方法,它追求科学可靠性,并致力于实现完全自动化的评估过程。

综合评估框架

从众多数据集中进行选择的复杂性、缺乏标准化的数据格式以及评估方法的多样性都带来了重大挑战。一个综合评估框架可以通过提供一个中央存储库和一个高效、标准化的模型调用 API 来简化流程。这个框架应满足三个标准:简单性、集中化和高效性。首先,评估步骤应简单明了,只需要提供模型调用的 API 即可。其次,应该有一个统一的存储库,用于选择涵盖不同领域和任务的数据集。最后,评估过程应高效,涵盖广泛的维度,以便快速得出结果。实现这一目标面临着各种挑战,像 HELM 评估框架和 OpenCompass 评估平台等常见框架正朝着这个方向发展。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐