本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

1 什么是DROP?

DROP(Discrete Reasoning Over the content of Paragraphs)是一个由艾伦人工智能研究所(Allen Institute for AI) 等机构推出的机器阅读理解基准数据集,专门设计用于评估模型在离散推理方面的能力。该数据集包含约96,000个众包问题,基于一系列维基百科文章构建,要求模型不仅能理解文本内容,还要能执行数学运算、排序、计数等离散操作。

🤖 离散推理(Discrete Reasoning)是机器阅读理解下的一个重要任务,目的是考察机器是否能够根据文本中的一处或多处信息,结合问题处理这些信息,通过数字运算比较排序计数等方式,准确回答给定的问题。与传统的抽取式问答不同,DROP要求模型进行真正的推理而不仅仅是文本匹配。

DROP的创建解决了自然语言处理领域的一个关键需求:让机器不仅理解文本表面含义,还能进行深层次的数学和逻辑推理。传统的阅读理解数据集如SQuAD主要考察模型的信息抽取能力,而DROP则进一步要求模型进行数值计算和符号推理,这更接近人类真正的阅读理解过程。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

往期文章推荐:

2 为什么需要DROP?

尽管预训练语言模型(如BERT等)在传统阅读理解任务上已经达到甚至超越人类表现,但在需要数值计算逻辑推理的问题上仍然表现不佳。例如,当文本中出现几组数字,向机器提出问题,如"排名第二大的值是多少?",模型可能无法很好地回答。

DROP的创建者发现,即使最先进的预训练语言模型也无法有效处理以下情况:

  • 数值运算:对文本中的数字进行加减乘除
  • 比较排序:对提到的数字或实体进行大小比较和排序
  • 计数操作:统计文本中特定实体的出现次数
  • 多步推理:需要多个推理步骤才能得到答案的复杂问题

DROP通过众包方式构建了大规模的问题-答案对,特别设计了需要离散推理的问题,为评估和提升模型的推理能力提供了丰富的资源。

3 DROP的数据集结构与特点

3.1 数据组织与结构

DROP数据集的组织结构遵循以下层次:

  • 文章(Passages):来自维基百科的文本段落
  • 问题(Questions):每个段落对应多个众包产生的问题
  • 答案(Answers):每个问题的答案可能需要从文本中提取、计算或推理得到

数据集中的每个样本包含三个主要字段:

  • passage:上下文文本(字符串)
  • question:问题(字符串)
  • answers:答案信息(字典,包含答案类型和具体内容)

3.2 问题类型与示例

DROP数据集包含了多种需要离散推理的问题类型,以下是几个典型示例:

  1. 数值运算
  • 文本:“约翰有5个苹果,玛丽有3个苹果”
  • 问题:“他们总共有多少个苹果?”
  • 答案:8
  1. 比较排序
  • 文本:“球队A得分25,球队B得分30,球队C得分20”
  • 问题:“哪支球队得分最高?”
  • 答案:球队B
  1. 计数操作
  • 文本:“红色汽车、蓝色汽车、红色卡车、绿色汽车”
  • 问题:“有多少辆红色车辆?”
  • 答案:2
  1. 多步推理
  • 文本:“小明2010年出生,今年是2023年”
  • 问题:“小明今年多少岁?”
  • 答案:13

3.3 数据统计与分割

DROP数据集的具体统计信息如下:

数据分割 问题数量 占比
训练集 77,409 89.0%
验证集 9,536 11.0%
测试集 9,536 11.0%
总计 96,481 100%

注:测试集不公开,只能通过官方评估服务器获取结果

4 DROP的评估方法与指标

4.1 评估指标

DROP使用两个主要指标评估模型性能:

  1. 精确匹配(Exact Match, EM):预测答案与任何标准答案完全匹配的比例。EM评分严格,即使微小差异(如标点符号或冠词)也会导致得分为0。

  2. F1分数(F1 Score):将预测答案和标准答案视为词袋(bag of words),计算词级别的F1分数,然后取所有标准答案中的最大值,最后在所有问题上平均。

4.2 人类表现与基线模型

在DROP数据集上,人类表现约为96%的F1分数,而最初的基线模型只有32%的F1分数,显示出巨大的差距。这表明DROP确实对机器的推理能力提出了严峻挑战。

截至2019年10月,最佳模型在DROP上的表现如下:

  • NumNet+模型:79.36% EM / 82.99% F1
  • BERT-Calculator:78.22% EM / 81.77% F1
  • 人类表现:约96% F1

4.3 评估挑战与问题

近期研究发现,DROP的评估过程存在一些技术和方法上的挑战

  1. 文本规范化问题:数字后面跟着非标准空格字符时,规范化操作可能导致正确答案无法匹配。
  2. 停止词问题:使用".“作为停止词可能导致浮点数答案被截断(如"12.25"变成"12”)。
  3. 评估成本高:完整评估所有模型需要大量计算资源(约8个GPU年)。

这些问题导致Hugging Face暂时将DROP从开放LLM排行榜中移除,直到开发出改进的评估版本。

5 基于DROP的技术创新与模型演进

5.1 NumNet与NumNet+模型

NumNet+模型是由腾讯微信团队提出的专门针对DROP任务的模型,基于NumNet架构进行了改进。该模型采用编码层+推理层+预测层的架构:

  1. 编码层:使用RoBERTa预训练模型编码输入的文本和问题,学习文本中的语义、语法等先验信息。
  2. 推理层:使用图神经网络处理编码好的文本和问题信息,建立数字之间的大小关系。
  3. 预测层:将问题分为四种类型,并计算潜在答案的概率。

NumNet+的创新之处在于使用图神经网络处理数字信息:

  • 将文本中的每个数字作为图上的一个节点
  • 对于任意两个数字,根据它们的大小关系添加有向边
  • 通过图的拓扑结构将数字相对大小知识注入模型
  • 结合文本信息,使模型能够进行复杂的数学推理

5.2 神经模块网络(NMNs)方法

神经模块网络(Neural Module Networks, NMNs)是另一种解决DROP挑战的方法。这种方法:

  • 将复杂问题解析为可执行程序,由可学习模块组成
  • 引入专门模块来推理文本段落,以概率和可微分方式对数字和日期执行符号推理(如算术、排序、计数)
  • 提出无监督辅助损失来帮助提取与文本中事件相关的参数

这种方法在DROP数据集的子集上显著优于当时的最先进模型。

5.3 通用架构与技术演进

大多数成功的DROP模型都遵循类似的通用架构,包含四个主要组件:

  1. 嵌入层(Embedding Layer):将文本中的词映射为向量表示
  2. 编码层(Encode Layer):使用RNN或Transformer编码文本和问题
  3. 交互层(Interaction Layer):捕捉文本和问题之间的交互关系
  4. 答案层(Answer Layer):基于推理结果预测最终答案

DROP推动了多项技术的发展:

  • 符号推理与神经网络的结合:将离散符号操作与连续神经网络表示相结合
  • 多步推理机制:设计支持多步推理的模型架构
  • 预训练语言模型适配:调整预训练语言模型以适应数值推理任务

6 DROP的影响与挑战

6.1 对NLP领域的影响

DROP对自然语言处理领域产生了重要影响

  1. 研究推动:激发了大量机器推理研究,推动了模型创新和技术进步
  2. 技术进展:促进了符号推理与神经网络结合的方法发展
  3. 评估基准:成为衡量NLP模型推理能力的重要基准
  4. 工业应用:推动了智能客服、金融分析等需要数值推理的实际应用

6.2 面临的挑战与局限性

尽管DROP取得了巨大成功,但也存在一些局限性

  1. 领域限制:基于维基百科,可能不代表其他领域的文本
  2. 评估问题:评估过程存在技术问题,影响结果的准确性
  3. 多样性不足:虽然包含多种推理类型,但可能无法覆盖所有推理形式
  4. 计算资源要求:最佳模型需要大量计算资源,限制了广泛应用

6.3 相关数据集发展

为解决DROP的局限性,研究人员开发了更多数据集:

  • MATH:包含更复杂的数学问题
  • FinQA:专注于金融领域的数值推理
  • TAT-QA:结合表格和文本的问答数据集
  • ConvFinQA:对话式金融问答数据集

这些数据集与DROP共同构成了评估NLP模型推理能力的综合工具集。

7 DROP的实际应用

DROP不仅是一个研究工具,还在实际应用中发挥着重要作用:

  1. 智能问答系统:应用于客服、咨询等场景,提供准确答案提取和数值计算
  2. 教育技术:辅助学习系统,帮助学生理解数学问题和文本推理
  3. 金融分析:分析财务报表等涉及数字的文本内容,进行信息抽取和挖掘
  4. 搜索引擎:增强搜索引擎的理解能力,提供更精准的数值结果

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐