DROP:挑战机器离散推理能力的阅读 comprehension 基准
DROP(Discrete Reasoning Over the content of Paragraphs)是一个由艾伦人工智能研究所(Allen Institute for AI)等机构推出的机器阅读理解基准数据集,专门设计用于评估模型在离散推理方面的能力。该数据集包含约96,000个众包问题,基于一系列维基百科文章构建,要求模型不仅能理解文本内容,还要能执行数学运算、排序、计数等离散操作。?
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
1 什么是DROP?
DROP(Discrete Reasoning Over the content of Paragraphs)是一个由艾伦人工智能研究所(Allen Institute for AI) 等机构推出的机器阅读理解基准数据集,专门设计用于评估模型在离散推理方面的能力。该数据集包含约96,000个众包问题,基于一系列维基百科文章构建,要求模型不仅能理解文本内容,还要能执行数学运算、排序、计数等离散操作。
🤖 离散推理(Discrete Reasoning)是机器阅读理解下的一个重要任务,目的是考察机器是否能够根据文本中的一处或多处信息,结合问题处理这些信息,通过数字运算、比较排序、计数等方式,准确回答给定的问题。与传统的抽取式问答不同,DROP要求模型进行真正的推理而不仅仅是文本匹配。
DROP的创建解决了自然语言处理领域的一个关键需求:让机器不仅理解文本表面含义,还能进行深层次的数学和逻辑推理。传统的阅读理解数据集如SQuAD主要考察模型的信息抽取能力,而DROP则进一步要求模型进行数值计算和符号推理,这更接近人类真正的阅读理解过程。
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
往期文章推荐:
- 20.Frank-Wolfe算法:深入解析与前沿应用
- 19.SQuAD:机器阅读理解领域的里程碑数据集
- 18.图灵完备性:计算理论的基石与无限可能
- 17.CrowS-Pairs:衡量掩码语言模型中社会偏见的挑战数据集
- 16.Pairwise排序损失:让机器学会排序的艺术
- 15.Winogender:衡量NLP模型性别偏见的基准数据集
- 14.Dropout:深度学习中的随机丢弃正则化技术
- 13.TruthfulQA:衡量语言模型真实性的基准
- 12.残差:从统计学到深度学习的核心概念
- 11.集值优化问题:理论、应用与前沿进展
- 10.大语言模型强化学习中的熵崩溃现象:机制、影响与解决方案
- 9.线性预热机制(Linear Warmup):深度学习训练稳定性的关键策略
- 8.蚁群算法详解:从蚂蚁觅食到优化利器
- 7.粒子群优化(PSO)算法详解:从鸟群行为到强大优化工具
- 6.NSGA-II多目标优化算法:原理、应用与实现
- 5.SPEA2多目标进化算法:理论与应用全解析
- 4.NSGA系列多目标优化算法:从理论到实践
- 3.Adam优化算法:深度学习的自适应动量估计方法
- 2.VeRL:强化学习与大模型训练的高效融合框架
- 1.BBEH:大模型高阶推理能力的“超难”试金石
2 为什么需要DROP?
尽管预训练语言模型(如BERT等)在传统阅读理解任务上已经达到甚至超越人类表现,但在需要数值计算和逻辑推理的问题上仍然表现不佳。例如,当文本中出现几组数字,向机器提出问题,如"排名第二大的值是多少?",模型可能无法很好地回答。
DROP的创建者发现,即使最先进的预训练语言模型也无法有效处理以下情况:
- 数值运算:对文本中的数字进行加减乘除
- 比较排序:对提到的数字或实体进行大小比较和排序
- 计数操作:统计文本中特定实体的出现次数
- 多步推理:需要多个推理步骤才能得到答案的复杂问题
DROP通过众包方式构建了大规模的问题-答案对,特别设计了需要离散推理的问题,为评估和提升模型的推理能力提供了丰富的资源。
3 DROP的数据集结构与特点
3.1 数据组织与结构
DROP数据集的组织结构遵循以下层次:
- 文章(Passages):来自维基百科的文本段落
- 问题(Questions):每个段落对应多个众包产生的问题
- 答案(Answers):每个问题的答案可能需要从文本中提取、计算或推理得到
数据集中的每个样本包含三个主要字段:
- passage:上下文文本(字符串)
- question:问题(字符串)
- answers:答案信息(字典,包含答案类型和具体内容)
3.2 问题类型与示例
DROP数据集包含了多种需要离散推理的问题类型,以下是几个典型示例:
- 数值运算:
- 文本:“约翰有5个苹果,玛丽有3个苹果”
- 问题:“他们总共有多少个苹果?”
- 答案:8
- 比较排序:
- 文本:“球队A得分25,球队B得分30,球队C得分20”
- 问题:“哪支球队得分最高?”
- 答案:球队B
- 计数操作:
- 文本:“红色汽车、蓝色汽车、红色卡车、绿色汽车”
- 问题:“有多少辆红色车辆?”
- 答案:2
- 多步推理:
- 文本:“小明2010年出生,今年是2023年”
- 问题:“小明今年多少岁?”
- 答案:13
3.3 数据统计与分割
DROP数据集的具体统计信息如下:
数据分割 | 问题数量 | 占比 |
---|---|---|
训练集 | 77,409 | 89.0% |
验证集 | 9,536 | 11.0% |
测试集 | 9,536 | 11.0% |
总计 | 96,481 | 100% |
注:测试集不公开,只能通过官方评估服务器获取结果
4 DROP的评估方法与指标
4.1 评估指标
DROP使用两个主要指标评估模型性能:
-
精确匹配(Exact Match, EM):预测答案与任何标准答案完全匹配的比例。EM评分严格,即使微小差异(如标点符号或冠词)也会导致得分为0。
-
F1分数(F1 Score):将预测答案和标准答案视为词袋(bag of words),计算词级别的F1分数,然后取所有标准答案中的最大值,最后在所有问题上平均。
4.2 人类表现与基线模型
在DROP数据集上,人类表现约为96%的F1分数,而最初的基线模型只有32%的F1分数,显示出巨大的差距。这表明DROP确实对机器的推理能力提出了严峻挑战。
截至2019年10月,最佳模型在DROP上的表现如下:
- NumNet+模型:79.36% EM / 82.99% F1
- BERT-Calculator:78.22% EM / 81.77% F1
- 人类表现:约96% F1
4.3 评估挑战与问题
近期研究发现,DROP的评估过程存在一些技术和方法上的挑战:
- 文本规范化问题:数字后面跟着非标准空格字符时,规范化操作可能导致正确答案无法匹配。
- 停止词问题:使用".“作为停止词可能导致浮点数答案被截断(如"12.25"变成"12”)。
- 评估成本高:完整评估所有模型需要大量计算资源(约8个GPU年)。
这些问题导致Hugging Face暂时将DROP从开放LLM排行榜中移除,直到开发出改进的评估版本。
5 基于DROP的技术创新与模型演进
5.1 NumNet与NumNet+模型
NumNet+模型是由腾讯微信团队提出的专门针对DROP任务的模型,基于NumNet架构进行了改进。该模型采用编码层+推理层+预测层的架构:
- 编码层:使用RoBERTa预训练模型编码输入的文本和问题,学习文本中的语义、语法等先验信息。
- 推理层:使用图神经网络处理编码好的文本和问题信息,建立数字之间的大小关系。
- 预测层:将问题分为四种类型,并计算潜在答案的概率。
NumNet+的创新之处在于使用图神经网络处理数字信息:
- 将文本中的每个数字作为图上的一个节点
- 对于任意两个数字,根据它们的大小关系添加有向边
- 通过图的拓扑结构将数字相对大小知识注入模型
- 结合文本信息,使模型能够进行复杂的数学推理
5.2 神经模块网络(NMNs)方法
神经模块网络(Neural Module Networks, NMNs)是另一种解决DROP挑战的方法。这种方法:
- 将复杂问题解析为可执行程序,由可学习模块组成
- 引入专门模块来推理文本段落,以概率和可微分方式对数字和日期执行符号推理(如算术、排序、计数)
- 提出无监督辅助损失来帮助提取与文本中事件相关的参数
这种方法在DROP数据集的子集上显著优于当时的最先进模型。
5.3 通用架构与技术演进
大多数成功的DROP模型都遵循类似的通用架构,包含四个主要组件:
- 嵌入层(Embedding Layer):将文本中的词映射为向量表示
- 编码层(Encode Layer):使用RNN或Transformer编码文本和问题
- 交互层(Interaction Layer):捕捉文本和问题之间的交互关系
- 答案层(Answer Layer):基于推理结果预测最终答案
DROP推动了多项技术的发展:
- 符号推理与神经网络的结合:将离散符号操作与连续神经网络表示相结合
- 多步推理机制:设计支持多步推理的模型架构
- 预训练语言模型适配:调整预训练语言模型以适应数值推理任务
6 DROP的影响与挑战
6.1 对NLP领域的影响
DROP对自然语言处理领域产生了重要影响:
- 研究推动:激发了大量机器推理研究,推动了模型创新和技术进步
- 技术进展:促进了符号推理与神经网络结合的方法发展
- 评估基准:成为衡量NLP模型推理能力的重要基准
- 工业应用:推动了智能客服、金融分析等需要数值推理的实际应用
6.2 面临的挑战与局限性
尽管DROP取得了巨大成功,但也存在一些局限性:
- 领域限制:基于维基百科,可能不代表其他领域的文本
- 评估问题:评估过程存在技术问题,影响结果的准确性
- 多样性不足:虽然包含多种推理类型,但可能无法覆盖所有推理形式
- 计算资源要求:最佳模型需要大量计算资源,限制了广泛应用
6.3 相关数据集发展
为解决DROP的局限性,研究人员开发了更多数据集:
- MATH:包含更复杂的数学问题
- FinQA:专注于金融领域的数值推理
- TAT-QA:结合表格和文本的问答数据集
- ConvFinQA:对话式金融问答数据集
这些数据集与DROP共同构成了评估NLP模型推理能力的综合工具集。
7 DROP的实际应用
DROP不仅是一个研究工具,还在实际应用中发挥着重要作用:
- 智能问答系统:应用于客服、咨询等场景,提供准确答案提取和数值计算
- 教育技术:辅助学习系统,帮助学生理解数学问题和文本推理
- 金融分析:分析财务报表等涉及数字的文本内容,进行信息抽取和挖掘
- 搜索引擎:增强搜索引擎的理解能力,提供更精准的数值结果
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
更多推荐
所有评论(0)