NAACL 2025(NLP 四大会议之一:ACL / EMNLP / COLING / NAACL)
📅 Call for Papers:预计 10 月左右

Abstract

将大语言模型(Large Language Models, LLMs)与外部工具相结合,为复杂任务提供了一种极具潜力的解决范式。然而,在某些特定下游任务中,仅依赖工具调用仍难以应对真实世界的复杂性。

本文聚焦于医疗计算这一典型下游任务——医疗计算器(medical calculators),该任务通常通过标准化测试对患者健康风险进行量化评估。我们提出 MeNTi,一种面向医疗计算场景的智能体框架,通过引入:

元工具机制(Meta-Tool)

嵌套调用机制(Nested Calling Mechanism)

系统性增强 LLM 对复杂医疗工具的理解与使用能力。

具体而言,MeNTi 能够实现 复杂工具选择、参数槽位填充以及内嵌工具调用,有效应对计算器选择、单位换算和多字段输入等真实临床挑战。

为系统评估 LLM 在该类任务中的能力,我们构建了 CalcQA 基准数据集。该数据集由专业医生设计,包含 100 个病例–计算器配对,并配套 281 个医疗计算器工具。实验结果表明,MeNTi 在多个指标上显著提升了模型性能,为 LLM 在高要求医疗场景中的落地应用提供了新方向。

1. 方法动机与关键机制

1.1 Meta-Tool 机制:解决“工具数量爆炸”问题

近期研究表明,将 LLM 与大规模工具集相结合,能够显著提升推理与求解能力。同时,针对具体场景设计专用工具 已成为提升模型性能的重要路径。

然而,在真实医疗实践中,医疗计算器仍面临以下挑战:

数量庞大:目前临床中已有超过 700 种 医疗计算器,工具选择成本极高

专业性强:每个计算器均针对特定疾病或临床情境,涉及复杂医学知识与内嵌规则

持续更新:新计算器不断发布,带来持续的工具维护与学习成本

为此,我们引入 Meta-Tool 机制,其目标是在庞大的工具库中实现 标准化、可扩展且可解释的工具选择流程。该机制明确了医疗计算器场景中工具调用的触发条件,并显著优化了工具筛选与决策过程。

示例说明:

患者:确诊冠心病

任务:评估其发生心肌梗死的风险

计算器选择:硬性冠心病 Framingham 风险评分

结果:10 年内心肌梗死或死亡风险为 83.6%

该结果表明患者心血管风险极高,可为后续治疗方案提供量化依据。

1.2 Nested Calling 机制:让工具“会调用工具”

即使正确选择了计算器,其在实际应用中仍面临诸多挑战,主要包括:

从冗长病历中定位关键字段

多参数槽位的准确填充

医疗单位之间的自动换算

例如,LLM 可能会混淆 风湿性心脏病 与 充血性心力衰竭,或需要将 8.3 mmol/L 的总胆固醇转换为 320.92 mg/dL。

为此,我们引入 嵌套调用机制(Nested Calling Mechanism),允许模型在执行某一计算器时,动态调用其他辅助工具(如单位换算器、信息抽取工具等),从而完成复杂的链式推理与执行。

1.3 CalcQA 基准数据集

我们构建了 CalcQA,以系统评估 LLM 在医疗计算器场景中的能力:

覆盖 44 种 临床常用医疗计算器

系统整理 237 种 常见医疗单位的换算规则

基于真实临床场景设计,强调端到端执行能力

1.4 主要贡献总结

本文的主要贡献如下:

提出 CalcQA 基准测试:
一个用于评估 LLM 在医疗计算器场景中能力的新基准,包含 100 个真实病例–计算器配对 与 281 个医疗计算器工具。

提出 MeNTi 智能体框架:
通过 Meta-Tool + Nested Calling 机制,显著扩展了 LLM 在真实医疗计算任务中的能力。

首次实现端到端医疗计算流程:
MeNTi 是首个在真实医疗场景中实现 计算器选择 → 参数填充 → 单位换算 → 计算执行 全流程的 LLM 框架,并取得了显著性能提升。

2. 相关工作

2.1 医疗领域 LLM 应用

近期研究主要集中于利用真实或合成医疗数据提升 LLM 在医疗场景中的表现,例如:

PMC-LLaMA(Wu et al., 2024):基于 490 万篇医学文献进行预训练

ChatDoctor(Yunxiang et al., 2023):融合真实医患对话数据

LMAMT(Wang et al., 2023):结合 RAG 架构与权威医学教材

Self-BioRAG(Jeong et al., 2024):引入领域检索器与指令集

2.2 智能体与工具使用

LATM(Cai et al., 2023):通过代码生成方式构建工具

CRAFT(Yuan et al., 2023):从数据中学习工具创建策略

AnyTool(Du et al., 2024):引入自我反思机制指导工具使用流程

3. 方法概述

图 2:MeNTi 的整体工作流程

(a) 医生提出量化分析需求

(b) Meta-Tool 从工具库中筛选合适计算器

© 检测到单位不匹配,触发嵌套调用

(d) 调用辅助工具完成中间处理

(e) 汇总工具输出并填充参数

(f) 生成最终计算结果

4. 实验设置

我们从以下四个维度评估模型性能:

计算器选择准确率(CSA):衡量模型是否正确选择计算器

槽位填充准确率(SFA):衡量参数填充的准确性

单位转换准确率(UCA):衡量模型处理单位换算的能力

计算器计算准确率(CCA):衡量端到端执行的正确性

### 5. 局限性

尽管 MeNTi 在医疗计算器场景中取得了显著性能提升,仍存在以下局限:

冗长医疗文本对轻量级骨干模型仍具有挑战

CalcQA 当前仅包含 100 个实例,规模仍有待扩展

工具构建成本较高,限制了跨任务泛化能力的系统评估

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐