DROP：挑战机器离散推理能力的阅读 comprehension 基准

DROP（Discrete Reasoning Over the content of Paragraphs）是一个由艾伦人工智能研究所（Allen Institute for AI）等机构推出的机器阅读理解基准数据集，专门设计用于评估模型在离散推理方面的能力。该数据集包含约96,000个众包问题，基于一系列维基百科文章构建，要求模型不仅能理解文本内容，还要能执行数学运算、排序、计数等离散操作。?

daqianai

826人浏览 · 2025-09-18 19:31:01

daqianai · 2025-09-18 19:31:01 发布

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

1 什么是DROP？

DROP（Discrete Reasoning Over the content of Paragraphs）是一个由艾伦人工智能研究所（Allen Institute for AI） 等机构推出的机器阅读理解基准数据集，专门设计用于评估模型在离散推理方面的能力。该数据集包含约96,000个众包问题，基于一系列维基百科文章构建，要求模型不仅能理解文本内容，还要能执行数学运算、排序、计数等离散操作。

🤖 离散推理（Discrete Reasoning）是机器阅读理解下的一个重要任务，目的是考察机器是否能够根据文本中的一处或多处信息，结合问题处理这些信息，通过数字运算、比较排序、计数等方式，准确回答给定的问题。与传统的抽取式问答不同，DROP要求模型进行真正的推理而不仅仅是文本匹配。

DROP的创建解决了自然语言处理领域的一个关键需求：让机器不仅理解文本表面含义，还能进行深层次的数学和逻辑推理。传统的阅读理解数据集如SQuAD主要考察模型的信息抽取能力，而DROP则进一步要求模型进行数值计算和符号推理，这更接近人类真正的阅读理解过程。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

往期文章推荐:

2 为什么需要DROP？

尽管预训练语言模型（如BERT等）在传统阅读理解任务上已经达到甚至超越人类表现，但在需要数值计算和逻辑推理的问题上仍然表现不佳。例如，当文本中出现几组数字，向机器提出问题，如"排名第二大的值是多少？"，模型可能无法很好地回答。

DROP的创建者发现，即使最先进的预训练语言模型也无法有效处理以下情况：

数值运算：对文本中的数字进行加减乘除
比较排序：对提到的数字或实体进行大小比较和排序
计数操作：统计文本中特定实体的出现次数
多步推理：需要多个推理步骤才能得到答案的复杂问题

DROP通过众包方式构建了大规模的问题-答案对，特别设计了需要离散推理的问题，为评估和提升模型的推理能力提供了丰富的资源。

3 DROP的数据集结构与特点

3.1 数据组织与结构

DROP数据集的组织结构遵循以下层次：

文章（Passages）：来自维基百科的文本段落
问题（Questions）：每个段落对应多个众包产生的问题
答案（Answers）：每个问题的答案可能需要从文本中提取、计算或推理得到

数据集中的每个样本包含三个主要字段：

passage：上下文文本（字符串）
question：问题（字符串）
answers：答案信息（字典，包含答案类型和具体内容）

3.2 问题类型与示例

DROP数据集包含了多种需要离散推理的问题类型，以下是几个典型示例：

数值运算：

文本：“约翰有5个苹果，玛丽有3个苹果”
问题：“他们总共有多少个苹果？”
答案：8

比较排序：

文本：“球队A得分25，球队B得分30，球队C得分20”
问题：“哪支球队得分最高？”
答案：球队B

计数操作：

文本：“红色汽车、蓝色汽车、红色卡车、绿色汽车”
问题：“有多少辆红色车辆？”
答案：2

多步推理：

文本：“小明2010年出生，今年是2023年”
问题：“小明今年多少岁？”
答案：13

3.3 数据统计与分割

DROP数据集的具体统计信息如下：

数据分割	问题数量	占比
训练集	77,409	89.0%
验证集	9,536	11.0%
测试集	9,536	11.0%
总计	96,481	100%

注：测试集不公开，只能通过官方评估服务器获取结果

4 DROP的评估方法与指标

4.1 评估指标

DROP使用两个主要指标评估模型性能：

精确匹配（Exact Match, EM）：预测答案与任何标准答案完全匹配的比例。EM评分严格，即使微小差异（如标点符号或冠词）也会导致得分为0。
F1分数（F1 Score）：将预测答案和标准答案视为词袋（bag of words），计算词级别的F1分数，然后取所有标准答案中的最大值，最后在所有问题上平均。