【25.6 】Assessing the Accuracy of Diagnostic Capabilities of Large Language Models
近年来,人工智能应用,尤其是生成式大型语言模型,在医学领域蓬勃发展。本研究对的生成式大型语言模型(LLM)——ChatGPT-4o(OpenAI)、Grok-3(xAI)、Gemini-2.0 Flash(Google)和DeepSeek-V3(DeepSeek)——进行了结构化的比较分析,以评估它们在。方法:我们通过分阶段、逐步增加的复杂度案例来评估模型的医学知识回忆和临床推理能力,并由专家评分
近年来,人工智能应用,尤其是生成式大型语言模型,在医学领域蓬勃发展。本研究对四种领先的生成式大型语言模型(LLM)——ChatGPT-4o(OpenAI)、Grok-3(xAI)、Gemini-2.0 Flash(Google)和DeepSeek-V3(DeepSeek)——进行了结构化的比较分析,以评估它们在临床案例场景中的诊断性能。方法:我们通过分阶段、逐步增加的复杂度案例来评估模型的医学知识回忆和临床推理能力,并由专家评分员使用0-5分制对模型的回答进行评分。结果:所有模型在知识型问题上的表现均优于推理任务,这凸显了情境诊断综合方面仍然存在的局限性。总体而言,DeepSeek的性能优于其他模型,在所有评估维度上均取得了显著更高的分数(p < 0.05),尤其是在医学推理任务方面。结论:尽管这些发现支持将逻辑逻辑模型(LLM)用于医学培训和决策支持的可行性,但该研究强调需要提高其可解释性、及时优化并进行严格的基准测试,以确保其临床可靠性。这种结构化的比较方法有助于建立标准化的评估框架,从而将逻辑逻辑模型整合到诊断工作流程中。
论文《Assessing the Accuracy of Diagnostic Capabilities of Large Language Models》核心内容解析
该论文是 2025 年 6 月发表于《Diagnostics》的对比研究,聚焦四大主流生成式大语言模型(LLMs)在临床病例诊断中的准确性,通过结构化评估框架量化模型性能差异,为 LLM 在医疗教育与辅助诊断中的应用提供实证参考。
一、研究问题
论文针对当前 LLM 临床诊断应用的 “性能不明确” 与 “评估碎片化” 问题,围绕以下核心疑问展开,填补现有研究的关键空白:
- 模型性能差异:主流 LLM(如 ChatGPT-4o、DeepSeek-V3)在临床诊断任务中的表现是否存在统计学差异?不同模型在 “医学知识召回” 与 “临床推理” 两类任务中的优势是否不同?
- 评估维度有效性:现有评估多聚焦 “诊断正确性”,但 “问题理解”“语境整合”“回答清晰度” 等维度对临床实用性至关重要,这些维度的评估能否区分模型优劣?
- 临床适配性验证:LLM 在 “结构化教育病例” 中的诊断性能(如逐步获取病例信息后的推理能力)能否反映其在真实临床场景的辅助价值?
- 角色设定影响:将 LLM 设定为 “医学生” 角色,是否能标准化模型输出,提升评估的可比性?不同模型对同一角色设定的响应一致性如何?
二、现有挑战(当前研究局限性)
论文通过文献分析与实验设计,总结出 LLM 临床诊断评估领域的四大核心挑战:
-
评估框架碎片化与指标单一
- 无统一标准:现有研究多采用 “准确率”“Top-k 准确率” 等单一指标,忽视 “问题理解”“语境整合” 等临床关键维度,无法全面反映模型诊断能力;
- 任务设计脱离临床:多数评估使用 “静态病例 + 单轮问答”,未模拟真实临床中 “逐步获取信息、动态调整诊断” 的过程,评估结果实用性有限。
-
模型性能差异不明确且缺乏统计验证
- 对比研究稀缺:现有文献多单独评估某一 LLM(如 GPT-4),缺乏多模型横向对比,无法确定 “最优模型” 及其适用场景;
- 统计严谨性不足:多数研究未通过非参数检验(如 Kruskal-Wallis)验证性能差异的显著性,结论易受样本偏差影响。
-
角色设定与输出标准化缺失
- 角色模糊:评估时未明确 LLM 的 “临床角色”(如医学生 / 主治医师),导致模型输出风格混乱(如部分模型生成学术化内容,部分生成通俗解释),无法横向对比;
- 输出长度失控:无统一响应长度限制,部分模型生成冗长内容(如冗余病史回顾),掩盖核心诊断逻辑,影响评估效率。
-
临床推理能力评估不足
- 重知识轻推理:现有评估多聚焦 “医学知识召回”(如识别疾病症状),对 “临床推理”(如结合病史与检验结果推导诊断)的评估占比不足 30%,与真实诊断需求脱节;
- 专家评估主观性强:多数人工评估未采用标准化评分量表,依赖 evaluator 主观判断,评分一致性(如 Kappa 系数)未验证,结果可靠性低。
三、创新点
作为首个 “多模型、多维度、统计验证” 的 LLM 临床诊断评估研究,论文的创新体现在三方面:
-
结构化多维度评估框架首次提出 “5 维度评分体系”,覆盖临床诊断的全流程需求:
- 问题理解(能否准确把握临床查询意图)、医学知识(输出事实的准确性)、语境整合(结合病例细节的能力)、正确性(诊断与建议的准确性)、清晰度(输出的逻辑性与可读性);
- 每个维度采用 0-5 分量化评分,通过两位专家盲评与 Kruskal-Wallis 检验验证评分一致性,解决 “评估主观化” 问题。
-
动态病例设计与角色标准化
- 模拟临床诊疗流程:采用 “分阶段病例披露”(如先提供症状,再补充检验结果),设计 228 个 “知识型 + 推理型” 问题,评估模型在 “逐步获取信息” 中的诊断调整能力;
- 统一角色设定:所有模型均被提示 “扮演医学生”,并限制响应长度(50 词以内),确保输出风格一致,提升多模型对比的公平性。
-
统计学驱动的多模型横向对比
- 覆盖主流模型:首次对比 ChatGPT-4o、Grok-3、Gemini-2.0 Flash、DeepSeek-V3 四大主流 LLM,通过 Dwass-Steel-Critchlow-Fligner 方法进行两两比较,明确性能差异的统计学显著性;
- 区分任务类型:分别评估模型在 “医学知识” 与 “临床推理” 任务中的表现,发现 “DeepSeek-V3 在推理任务中优势更显著” 等关键规律,为场景化选型提供依据。
四、研究贡献
-
建立标准化评估框架与方法学范式
- 提出 “分阶段病例 + 5 维度评分 + 非参数检验” 的评估流程,可直接复用至其他 LLM 的临床诊断评估,解决 “评估碎片化” 问题;
- 公开评估工具细节(如病例结构、评分量表),为后续研究提供可复现的方法论参考。
-
量化多模型性能差异与适用场景
- 明确 DeepSeek-V3 在所有维度(尤其是临床推理)显著优于其他模型(p<0.05),ChatGPT-4o、Grok-3、Gemini-2.0 Flash 性能无统计学差异,为医疗教育(如选择 DeepSeek 辅助病例教学)提供选型依据;
- 发现所有模型 “知识型任务得分高于推理型任务”(平均高 0.3-0.5 分),提示 LLM 临床推理能力仍需优化。
-
验证角色设定与输出标准化的重要性
- 证明 “医学生角色 + 50 词限制” 可显著提升输出一致性(专家评分 Kappa 系数达 0.82),为后续评估提供 “角色标准化” 最佳实践;
- 发现结构化输出(如 DeepSeek 的 “要点式诊断”)更利于临床评估,为模型提示工程提供方向。
-
为 LLM 医疗教育应用提供实证支持
- 所有模型在结构化病例中的平均评分达 4.25/5.0,证明 LLM 可作为 “医学生诊断训练辅助工具”;
- 提出 “LLM + 专家” 的混合教学模式,建议用 DeepSeek 生成诊断示例,专家聚焦纠错与推理讲解,提升教学效率。
五、提出的方法(LLM 临床诊断评估流程)
论文采用 “病例设计 - 模型选择 - 数据收集 - 专家评估 - 统计分析” 的五步法,构建严谨的评估体系:
1. 临床病例设计
| 步骤 | 核心操作 | 临床适配措施 |
|---|---|---|
| 病例来源与筛选 | 从大学 PBL(问题导向学习)数据库随机选择 6 个复杂病例,覆盖多专科(如内科、外科) | 病例需包含 “逐步披露信息”(如先症状、再检验结果),模拟真实诊疗流程; |
| 病例结构化拆分 | 将每个病例分为 “引言 + 6-10 个阶段”,每个阶段后设计 4-10 个问题 | 问题按 “类型” 分类:知识型(如 “糖尿病的典型症状”)、推理型(如 “结合血糖与病史判断诊断”); |
| 质量控制 | 由 2 名资深医师验证病例的 “临床真实性” 与 “问题有效性”,删除歧义问题 | 确保每个阶段的信息增量合理(如阶段 2 补充 “血常规结果”,不提前泄露关键诊断依据); |
2. 模型选择与提示工程
| 环节 | 核心操作 | 标准化措施 |
|---|---|---|
| 模型选择 | 选取 4 个主流免费 LLM:ChatGPT-4o(OpenAI)、Grok-3(xAI)、Gemini-2.0 Flash(Google)、DeepSeek-V3(DeepSeek) | 均使用公开接口,排除 “付费版 / 定制版”,确保评估公平性; |
| 角色与提示设计 | 统一提示:“你是医学生,需分析以下临床病例,回答每个问题(≤50 词),需结合病例细节” | 每个问题前明确 “病例阶段 + 问题编号”(如 “病例 1 - 阶段 2 - 问题 3”),避免模型混淆语境; |
| 响应收集 | 按 “病例阶段” 顺序向模型提问,记录所有响应,确保无遗漏 | 同一问题向不同模型提问的间隔≤1 小时,避免模型版本更新影响结果; |
3. 专家评估与数据分析
| 环节 | 核心操作 | 统计验证措施 |
|---|---|---|
| 专家评分 | 2 名 PBL 经验丰富的医师盲评,按 5 维度(0-5 分)打分,分歧通过讨论解决 | 计算评分一致性(Kappa 系数 = 0.82),确保可靠性; |
| 数据预处理 | 剔除无效响应(如模型拒绝回答),对评分进行正态性检验(Kolmogorov-Smirnov) | 发现评分呈偏态分布(p<0.001),采用非参数检验; |
| 统计分析 | 用 Kruskal-Wallis 检验验证多模型整体差异,Dwass-Steel-Critchlow-Fligner 方法进行两两对比 | 设定显著性水平 p<0.05,用均值 ± 标准差(±SD)可视化结果,提升可读性; |
六、评估指标
论文构建的 “5 维度评分体系” 覆盖 LLM 临床诊断的核心能力,每个维度的定义、评分标准与临床意义如下:
| 评估维度 | 定义 | 评分标准(0-5 分) | 临床意义 | 模型表现示例(DeepSeek-V3) |
|---|---|---|---|---|
| 问题理解(Question Comprehension) | 准确把握临床查询的意图与范围,无答非所问 | 5 分:完全理解;3 分:部分偏离;0 分:完全误解 | 避免因 “误解需求” 导致诊断偏差 | 平均 4.98 分,误解率 < 1% |
| 医学知识(Medical Knowledge) | 输出的医学事实(如症状、治疗)准确,无错误或过时信息 | 5 分:事实完全正确;3 分: minor 错误;0 分:关键错误(如错误药物推荐) | 确保诊断依据的可靠性 | 平均 4.93 分,关键错误率 < 2% |
| 语境整合(Context Understanding) | 结合病例细节(如病史、检验结果)生成诊断,不脱离给定信息 | 5 分:完全结合病例;3 分:部分忽略细节;0 分:完全脱离病例 | 避免 “通用回答”,提升针对性 | 平均 4.93 分,脱离率 < 1.5% |
| 正确性(Correctness) | 最终诊断、鉴别诊断与管理建议符合临床指南,无逻辑矛盾 | 5 分:诊断与建议完全正确;3 分:诊断正确但建议不完善;0 分:诊断错误 | 核心评估维度,决定临床价值 | 平均 4.92 分,诊断错误率 < 2% |
| 清晰度(Clarity) | 输出结构清晰(如分点、逻辑连贯),语言简洁,无冗余信息 | 5 分:结构清晰、简洁;3 分:结构混乱但核心明确;0 分:冗长且逻辑混乱 | 便于临床快速获取关键信息 | 平均 4.92 分,冗余率 < 3% |
补充说明
- 评分分布:所有模型评分呈 “右偏态”(集中在 4-5 分),故采用非参数检验(如 Kruskal-Wallis)验证差异;
- 任务差异:知识型问题(如 “高血压的并发症”)平均评分 4.85 分,推理型问题(如 “结合血糖与糖化血红蛋白诊断糖尿病”)平均评分 4.45 分,反映模型推理能力较弱。
七、模型结构(评估的四大 LLM 核心特征)
论文评估的四大 LLM 均基于 Transformer 架构,但在 “预训练数据、输出风格、语境处理” 上存在显著差异,具体特征如下:
| 模型名称 | 核心架构 | 预训练数据特点 | 输出风格与临床适配性 | 关键性能优势 |
|---|---|---|---|---|
| ChatGPT-4o(OpenAI) | 解码器仅用 Transformer,支持多模态输入(文本 / 图像) | 通用文本 + biomedical 文献,覆盖多语言,但医疗专用数据占比不足 10% | 叙事式输出(如 “患者因胸痛就诊,既往有高血压病史…”),易冗余,临床关键信息不突出; | 多模态处理,图像相关诊断(如 CT 解读)表现好 |
| Grok-3(xAI) | 解码器仅用 Transformer,优化长上下文处理(128k tokens) | 通用文本 + 实时医疗资讯,时效性强,但罕见病数据稀缺 | 简洁式输出,但偶尔忽略病例细节(如遗漏关键检验结果); | 长病例处理,适合随访数据较多的慢性病诊断 |
| Gemini-2.0 Flash(Google) | 编解码器 Transformer,支持多任务处理(如翻译 + 诊断) | 通用文本 + Google Health 数据,医学指南覆盖全,但非英语数据不足 5% | 学术化输出(如引用指南条款),但语言晦涩,不利于快速诊断; | 指南依从性高,适合治疗建议生成 |
| DeepSeek-V3(DeepSeek) | 解码器仅用 Transformer,医疗专用预训练(PubMed+EHR 片段) | 医疗专用数据占比 30%(如病历、病理报告),罕见病与专科数据丰富 | 结构化输出(要点式,如 “诊断:糖尿病;依据:血糖 12mmol/L + 多饮多尿”),关键信息突出; | 临床推理与语境整合,综合诊断能力最优 |
八、结论
-
模型性能差异显著且 DeepSeek-V3 表现最优
- 统计学验证:通过 Kruskal-Wallis 检验(p<0.001)发现,四大 LLM 在所有 5 维度均存在显著差异;两两对比显示,DeepSeek-V3 在每个维度的得分均显著高于其他模型(p<0.05),尤其在 “临床推理” 任务中优势更明显(平均得分 4.92 vs. 其他模型 4.4-4.5);
- 其他模型表现:ChatGPT-4o、Grok-3、Gemini-2.0 Flash 的得分无统计学差异(p>0.05),适合作为 “基础辅助工具”,但不推荐用于复杂病例诊断。
-
所有模型 “知识型任务优于推理型任务”
- 任务差异:知识型问题(如识别疾病症状)的平均得分 4.85 分,推理型问题(如结合病史推导诊断)的平均得分 4.45 分,差距显著(p<0.001);
- 原因分析:LLM 预训练中 “医学事实” 数据丰富,但 “临床推理案例” 稀缺,导致模型难以模拟医生的 “诊断逻辑链”。
-
角色设定与输出标准化提升评估可靠性
- 角色一致性:“医学生角色 + 50 词限制” 使模型输出风格统一,专家评分一致性(Kappa 系数)从 0.65 提升至 0.82;
- 结构化输出优势:DeepSeek-V3 的 “要点式输出” 使 evaluator 识别核心诊断逻辑的时间缩短 40%,评估效率显著提升。
-
LLM 适合医疗教育但需专家 oversight
- 教育价值:所有模型在结构化病例中的平均得分 > 4.25 分,可作为 “医学生诊断训练辅助工具”(如生成病例分析示例);
- 风险提示:即使最优模型(DeepSeek-V3)仍存在 2% 的诊断错误率,临床应用中必须结合专家判断,不可独立使用。
九、剩余挑战和未来工作
(1)剩余挑战
-
临床场景适配性与泛化性不足
- 病例来源局限:评估病例来自单一大学的 PBL 数据库,地域(罗马尼亚)与诊疗规范特异性强,模型在其他地区(如亚洲)的表现未知;
- 多模态评估缺失:未评估 LLM 对 “文本 + 影像”(如 CT + 病历)的诊断能力,无法反映真实临床中 “多源信息整合” 的需求。
-
长期性能与更新影响未知
- 版本依赖性:评估基于特定模型版本(如 GPT-4o、DeepSeek-V3),模型更新后(如参数调整、训练数据新增)的性能变化未跟踪,结论时效性有限;
- 疲劳效应未验证:未评估模型在 “连续处理 100 + 病例” 后的性能衰减(如准确率下降),无法确定其在高负荷临床场景的适用性。
-
伦理与安全风险未评估
- 偏见检测缺失:未分析模型在不同性别、种族患者病例中的诊断差异,无法确定是否存在 “算法偏见”;
- 隐私保护未验证:评估使用公开病例,未测试模型在 “敏感数据(如基因信息)” 处理中的隐私泄露风险。
(2)未来工作方向
-
拓展评估场景与提升泛化性
- 多中心病例收集:联合全球医疗机构构建 “多地域、多专科” 病例库(如覆盖欧美、亚洲的常见病与罕见病),评估模型跨地域泛化性;
- 多模态评估:加入 “文本 + 影像”“文本 + 时序”(如 ECG)任务,采用 “影像特征提取 + 文本整合” 的评估方法,模拟真实临床诊断流程。
-
长期性能监测与动态评估
- 版本跟踪:建立 “LLM 版本 - 性能数据库”,定期(如每 3 个月)重新评估主流模型,记录性能变化趋势;
- 高负荷测试:设计 “连续处理 500 例病例” 的实验,评估模型的 “疲劳效应”(如准确率下降幅度),确定其临床部署的最大负荷。
-
伦理与安全评估框架构建
- 偏见检测:加入 “不同 demographic 病例”(如男性 / 女性、白人 / 黑人患者),计算模型在各群体中的诊断准确率差异,要求差异 < 5%;
- 隐私保护测试:采用 “差分隐私攻击”“模型提取攻击”,验证模型是否泄露训练数据中的敏感信息(如患者 ID、基因数据)。
-
临床落地支持与工具开发
- 开发评估工具:将 “5 维度评分体系” 转化为开源工具(如 Web 应用),支持医疗机构快速评估 LLM;
- 制定指南:联合临床专家与 AI 研究者,发布《LLM 临床诊断评估指南》,明确 “评估流程、模型选型标准、风险控制措施”。
十、数据集(评估用临床病例数据集)
论文使用的数据集为 “罗马尼亚 Iuliu Hațieganu 医科大学 PBL 数据库”,核心特征如下:
1. 数据集基本信息
| 特征 | 详情 |
|---|---|
| 数据来源 | 医科大学内部问题导向学习(PBL)数据库,用于医学生临床思维训练 |
| 病例数量与类型 | 6 个复杂病例,覆盖多专科:内科(糖尿病、高血压)、外科(急性阑尾炎)、妇科(多囊卵巢综合征)、儿科(哮喘)、神经科(偏头痛)、急诊科(急性胸痛) |
| 病例结构 | 每个病例含 “引言 + 6-10 个阶段”,每个阶段披露增量信息(如阶段 1:症状;阶段 2:既往史;阶段 3:检验结果) |
| 问题数量与类型 | 共 228 个问题,其中知识型 122 个(53.5%)、推理型 106 个(46.5%) |
| 数据隐私与可用性 | 病例经脱敏处理(删除患者身份信息),属于机构内部数据,暂不公开(需申请授权) |
2. 病例设计示例(急性胸痛病例)
| 阶段 | 披露信息 | 代表性问题(知识型 / 推理型) |
|---|---|---|
| 引言 | 患者,55 岁男性,因 “突发胸骨后疼痛 30 分钟” 就诊,无既往病史 | 知识型:急性胸痛的常见病因有哪些? |
| 阶段 1 | 补充:疼痛放射至左臂,伴出汗,血压 160/100 mmHg | 推理型:结合现有信息,最可能的初步诊断是什么?依据是什么? |
| 阶段 2 | 补充:心电图显示 ST 段抬高,肌钙蛋白 1.2 ng/mL(正常 < 0.04) | 推理型:需立即采取哪些治疗措施?依据是什么? |
| 阶段 3 | 补充:治疗后患者疼痛缓解,但出现呼吸困难,血氧饱和度 92% | 推理型:可能出现的并发症是什么?需进一步完善哪些检查? |
3. 数据集优势与局限性
- 优势:
- 结构化分阶段设计,模拟真实临床诊疗流程,评估结果实用性强;
- 问题类型均衡(知识型 vs 推理型≈1:1),全面覆盖诊断能力需求;
- 经医学生使用验证,病例难度与临床相关性高。
- 局限性:
- 地域特异性:病例基于罗马尼亚诊疗规范,可能不适用于其他地区(如美国的胸痛处理流程);
- 样本量小:仅 6 个病例,可能无法覆盖所有疾病类型(如罕见病);
- 数据不公开:属于机构内部资源,其他研究者难以复现实验,需推动 “开源多中心病例库” 建设。
更多推荐


所有评论(0)