【25.6 】Assessing the Accuracy of Diagnostic Capabilities of Large Language Models

近年来，人工智能应用，尤其是生成式大型语言模型，在医学领域蓬勃发展。本研究对的生成式大型语言模型（LLM）——ChatGPT-4o（OpenAI）、Grok-3（xAI）、Gemini-2.0 Flash（Google）和DeepSeek-V3（DeepSeek）——进行了结构化的比较分析，以评估它们在。方法：我们通过分阶段、逐步增加的复杂度案例来评估模型的医学知识回忆和临床推理能力，并由专家评分

Kakaxiii

630人浏览 · 2025-12-31 15:56:21

Kakaxiii · 2025-12-31 15:56:21 发布

近年来，人工智能应用，尤其是生成式大型语言模型，在医学领域蓬勃发展。本研究对四种领先的生成式大型语言模型（LLM）——ChatGPT-4o（OpenAI）、Grok-3（xAI）、Gemini-2.0 Flash（Google）和DeepSeek-V3（DeepSeek）——进行了结构化的比较分析，以评估它们在临床案例场景中的诊断性能。方法：我们通过分阶段、逐步增加的复杂度案例来评估模型的医学知识回忆和临床推理能力，并由专家评分员使用0-5分制对模型的回答进行评分。结果：所有模型在知识型问题上的表现均优于推理任务，这凸显了情境诊断综合方面仍然存在的局限性。总体而言，DeepSeek的性能优于其他模型，在所有评估维度上均取得了显著更高的分数（p < 0.05），尤其是在医学推理任务方面。结论：尽管这些发现支持将逻辑逻辑模型（LLM）用于医学培训和决策支持的可行性，但该研究强调需要提高其可解释性、及时优化并进行严格的基准测试，以确保其临床可靠性。这种结构化的比较方法有助于建立标准化的评估框架，从而将逻辑逻辑模型整合到诊断工作流程中。

关键词：诊断准确性；大型语言模式；人工智能；医学教育

论文《Assessing the Accuracy of Diagnostic Capabilities of Large Language Models》核心内容解析

该论文是 2025 年 6 月发表于《Diagnostics》的对比研究，聚焦四大主流生成式大语言模型（LLMs）在临床病例诊断中的准确性，通过结构化评估框架量化模型性能差异，为 LLM 在医疗教育与辅助诊断中的应用提供实证参考。

一、研究问题

论文针对当前 LLM 临床诊断应用的 “性能不明确” 与 “评估碎片化” 问题，围绕以下核心疑问展开，填补现有研究的关键空白：

模型性能差异：主流 LLM（如 ChatGPT-4o、DeepSeek-V3）在临床诊断任务中的表现是否存在统计学差异？不同模型在 “医学知识召回” 与 “临床推理” 两类任务中的优势是否不同？
评估维度有效性：现有评估多聚焦 “诊断正确性”，但 “问题理解”“语境整合”“回答清晰度” 等维度对临床实用性至关重要，这些维度的评估能否区分模型优劣？
临床适配性验证：LLM 在 “结构化教育病例” 中的诊断性能（如逐步获取病例信息后的推理能力）能否反映其在真实临床场景的辅助价值？
角色设定影响：将 LLM 设定为 “医学生” 角色，是否能标准化模型输出，提升评估的可比性？不同模型对同一角色设定的响应一致性如何？

二、现有挑战（当前研究局限性）

论文通过文献分析与实验设计，总结出 LLM 临床诊断评估领域的四大核心挑战：

评估框架碎片化与指标单一
- 无统一标准：现有研究多采用 “准确率”“Top-k 准确率” 等单一指标，忽视 “问题理解”“语境整合” 等临床关键维度，无法全面反映模型诊断能力；
- 任务设计脱离临床：多数评估使用 “静态病例 + 单轮问答”，未模拟真实临床中 “逐步获取信息、动态调整诊断” 的过程，评估结果实用性有限。
模型性能差异不明确且缺乏统计验证
- 对比研究稀缺：现有文献多单独评估某一 LLM（如 GPT-4），缺乏多模型横向对比，无法确定 “最优模型” 及其适用场景；
- 统计严谨性不足：多数研究未通过非参数检验（如 Kruskal-Wallis）验证性能差异的显著性，结论易受样本偏差影响。
角色设定与输出标准化缺失
- 角色模糊：评估时未明确 LLM 的 “临床角色”（如医学生 / 主治医师），导致模型输出风格混乱（如部分模型生成学术化内容，部分生成通俗解释），无法横向对比；
- 输出长度失控：无统一响应长度限制，部分模型生成冗长内容（如冗余病史回顾），掩盖核心诊断逻辑，影响评估效率。
临床推理能力评估不足
- 重知识轻推理：现有评估多聚焦 “医学知识召回”（如识别疾病症状），对 “临床推理”（如结合病史与检验结果推导诊断）的评估占比不足 30%，与真实诊断需求脱节；
- 专家评估主观性强：多数人工评估未采用标准化评分量表，依赖 evaluator 主观判断，评分一致性（如 Kappa 系数）未验证，结果可靠性低。

三、创新点

作为首个 “多模型、多维度、统计验证” 的 LLM 临床诊断评估研究，论文的创新体现在三方面：

结构化多维度评估框架首次提出 “5 维度评分体系”，覆盖临床诊断的全流程需求：
- 问题理解（能否准确把握临床查询意图）、医学知识（输出事实的准确性）、语境整合（结合病例细节的能力）、正确性（诊断与建议的准确性）、清晰度（输出的逻辑性与可读性）；
- 每个维度采用 0-5 分量化评分，通过两位专家盲评与 Kruskal-Wallis 检验验证评分一致性，解决 “评估主观化” 问题。
动态病例设计与角色标准化
- 模拟临床诊疗流程：采用 “分阶段病例披露”（如先提供症状，再补充检验结果），设计 228 个 “知识型 + 推理型” 问题，评估模型在 “逐步获取信息” 中的诊断调整能力；
- 统一角色设定：所有模型均被提示 “扮演医学生”，并限制响应长度（50 词以内），确保输出风格一致，提升多模型对比的公平性。
统计学驱动的多模型横向对比
- 覆盖主流模型：首次对比 ChatGPT-4o、Grok-3、Gemini-2.0 Flash、DeepSeek-V3 四大主流 LLM，通过 Dwass-Steel-Critchlow-Fligner 方法进行两两比较，明确性能差异的统计学显著性；
- 区分任务类型：分别评估模型在 “医学知识” 与 “临床推理” 任务中的表现，发现 “DeepSeek-V3 在推理任务中优势更显著” 等关键规律，为场景化选型提供依据。

四、研究贡献

建立标准化评估框架与方法学范式
- 提出 “分阶段病例 + 5 维度评分 + 非参数检验” 的评估流程，可直接复用至其他 LLM 的临床诊断评估，解决 “评估碎片化” 问题；
- 公开评估工具细节（如病例结构、评分量表），为后续研究提供可复现的方法论参考。
量化多模型性能差异与适用场景
- 明确 DeepSeek-V3 在所有维度（尤其是临床推理）显著优于其他模型（p<0.05），ChatGPT-4o、Grok-3、Gemini-2.0 Flash 性能无统计学差异，为医疗教育（如选择 DeepSeek 辅助病例教学）提供选型依据；
- 发现所有模型 “知识型任务得分高于推理型任务”（平均高 0.3-0.5 分），提示 LLM 临床推理能力仍需优化。
验证角色设定与输出标准化的重要性
- 证明 “医学生角色 + 50 词限制” 可显著提升输出一致性（专家评分 Kappa 系数达 0.82），为后续评估提供 “角色标准化” 最佳实践；
- 发现结构化输出（如 DeepSeek 的 “要点式诊断”）更利于临床评估，为模型提示工程提供方向。
为 LLM 医疗教育应用提供实证支持
- 所有模型在结构化病例中的平均评分达 4.25/5.0，证明 LLM 可作为 “医学生诊断训练辅助工具”；
- 提出 “LLM + 专家” 的混合教学模式，建议用 DeepSeek 生成诊断示例，专家聚焦纠错与推理讲解，提升教学效率。

五、提出的方法（LLM 临床诊断评估流程）

论文采用 “病例设计 - 模型选择 - 数据收集 - 专家评估 - 统计分析” 的五步法，构建严谨的评估体系：

1. 临床病例设计

步骤	核心操作	临床适配措施
病例来源与筛选	从大学 PBL（问题导向学习）数据库随机选择 6 个复杂病例，覆盖多专科（如内科、外科）	病例需包含 “逐步披露信息”（如先症状、再检验结果），模拟真实诊疗流程；
病例结构化拆分	将每个病例分为 “引言 + 6-10 个阶段”，每个阶段后设计 4-10 个问题	问题按 “类型” 分类：知识型（如 “糖尿病的典型症状”）、推理型（如 “结合血糖与病史判断诊断”）；
质量控制	由 2 名资深医师验证病例的 “临床真实性” 与 “问题有效性”，删除歧义问题	确保每个阶段的信息增量合理（如阶段 2 补充 “血常规结果”，不提前泄露关键诊断依据）；

2. 模型选择与提示工程

环节	核心操作	标准化措施
模型选择	选取 4 个主流免费 LLM：ChatGPT-4o（OpenAI）、Grok-3（xAI）、Gemini-2.0 Flash（Google）、DeepSeek-V3（DeepSeek）	均使用公开接口，排除 “付费版 / 定制版”，确保评估公平性；
角色与提示设计	统一提示：“你是医学生，需分析以下临床病例，回答每个问题（≤50 词），需结合病例细节”	每个问题前明确 “病例阶段 + 问题编号”（如 “病例 1 - 阶段 2 - 问题 3”），避免模型混淆语境；
响应收集	按 “病例阶段” 顺序向模型提问，记录所有响应，确保无遗漏	同一问题向不同模型提问的间隔≤1 小时，避免模型版本更新影响结果；

3. 专家评估与数据分析

环节	核心操作	统计验证措施
专家评分	2 名 PBL 经验丰富的医师盲评，按 5 维度（0-5 分）打分，分歧通过讨论解决	计算评分一致性（Kappa 系数 = 0.82），确保可靠性；
数据预处理	剔除无效响应（如模型拒绝回答），对评分进行正态性检验（Kolmogorov-Smirnov）	发现评分呈偏态分布（p<0.001），采用非参数检验；
统计分析	用 Kruskal-Wallis 检验验证多模型整体差异，Dwass-Steel-Critchlow-Fligner 方法进行两两对比	设定显著性水平 p<0.05，用均值 ± 标准差（±SD）可视化结果，提升可读性；

六、评估指标

论文构建的 “5 维度评分体系” 覆盖 LLM 临床诊断的核心能力，每个维度的定义、评分标准与临床意义如下：

评估维度	定义	评分标准（0-5 分）	临床意义	模型表现示例（DeepSeek-V3）
问题理解（Question Comprehension）	准确把握临床查询的意图与范围，无答非所问	5 分：完全理解；3 分：部分偏离；0 分：完全误解	避免因 “误解需求” 导致诊断偏差	平均 4.98 分，误解率 < 1%
医学知识（Medical Knowledge）	输出的医学事实（如症状、治疗）准确，无错误或过时信息	5 分：事实完全正确；3 分： minor 错误；0 分：关键错误（如错误药物推荐）	确保诊断依据的可靠性	平均 4.93 分，关键错误率 < 2%
语境整合（Context Understanding）	结合病例细节（如病史、检验结果）生成诊断，不脱离给定信息	5 分：完全结合病例；3 分：部分忽略细节；0 分：完全脱离病例	避免 “通用回答”，提升针对性	平均 4.93 分，脱离率 < 1.5%
正确性（Correctness）	最终诊断、鉴别诊断与管理建议符合临床指南，无逻辑矛盾	5 分：诊断与建议完全正确；3 分：诊断正确但建议不完善；0 分：诊断错误	核心评估维度，决定临床价值	平均 4.92 分，诊断错误率 < 2%
清晰度（Clarity）	输出结构清晰（如分点、逻辑连贯），语言简洁，无冗余信息	5 分：结构清晰、简洁；3 分：结构混乱但核心明确；0 分：冗长且逻辑混乱	便于临床快速获取关键信息	平均 4.92 分，冗余率 < 3%

补充说明

评分分布：所有模型评分呈 “右偏态”（集中在 4-5 分），故采用非参数检验（如 Kruskal-Wallis）验证差异；
任务差异：知识型问题（如 “高血压的并发症”）平均评分 4.85 分，推理型问题（如 “结合血糖与糖化血红蛋白诊断糖尿病”）平均评分 4.45 分，反映模型推理能力较弱。

七、模型结构（评估的四大 LLM 核心特征）

论文评估的四大 LLM 均基于 Transformer 架构，但在 “预训练数据、输出风格、语境处理” 上存在显著差异，具体特征如下：

模型名称	核心架构	预训练数据特点	输出风格与临床适配性	关键性能优势
ChatGPT-4o（OpenAI）	解码器仅用 Transformer，支持多模态输入（文本 / 图像）	通用文本 + biomedical 文献，覆盖多语言，但医疗专用数据占比不足 10%	叙事式输出（如 “患者因胸痛就诊，既往有高血压病史…”），易冗余，临床关键信息不突出；	多模态处理，图像相关诊断（如 CT 解读）表现好
Grok-3（xAI）	解码器仅用 Transformer，优化长上下文处理（128k tokens）	通用文本 + 实时医疗资讯，时效性强，但罕见病数据稀缺	简洁式输出，但偶尔忽略病例细节（如遗漏关键检验结果）；	长病例处理，适合随访数据较多的慢性病诊断
Gemini-2.0 Flash（Google）	编解码器 Transformer，支持多任务处理（如翻译 + 诊断）	通用文本 + Google Health 数据，医学指南覆盖全，但非英语数据不足 5%	学术化输出（如引用指南条款），但语言晦涩，不利于快速诊断；	指南依从性高，适合治疗建议生成
DeepSeek-V3（DeepSeek）	解码器仅用 Transformer，医疗专用预训练（PubMed+EHR 片段）	医疗专用数据占比 30%（如病历、病理报告），罕见病与专科数据丰富	结构化输出（要点式，如 “诊断：糖尿病；依据：血糖 12mmol/L + 多饮多尿”），关键信息突出；	临床推理与语境整合，综合诊断能力最优

八、结论

模型性能差异显著且 DeepSeek-V3 表现最优
- 统计学验证：通过 Kruskal-Wallis 检验（p<0.001）发现，四大 LLM 在所有 5 维度均存在显著差异；两两对比显示，DeepSeek-V3 在每个维度的得分均显著高于其他模型（p<0.05），尤其在 “临床推理” 任务中优势更明显（平均得分 4.92 vs. 其他模型 4.4-4.5）；
- 其他模型表现：ChatGPT-4o、Grok-3、Gemini-2.0 Flash 的得分无统计学差异（p>0.05），适合作为 “基础辅助工具”，但不推荐用于复杂病例诊断。
所有模型 “知识型任务优于推理型任务”
- 任务差异：知识型问题（如识别疾病症状）的平均得分 4.85 分，推理型问题（如结合病史推导诊断）的平均得分 4.45 分，差距显著（p<0.001）；
- 原因分析：LLM 预训练中 “医学事实” 数据丰富，但 “临床推理案例” 稀缺，导致模型难以模拟医生的 “诊断逻辑链”。
角色设定与输出标准化提升评估可靠性
- 角色一致性：“医学生角色 + 50 词限制” 使模型输出风格统一，专家评分一致性（Kappa 系数）从 0.65 提升至 0.82；
- 结构化输出优势：DeepSeek-V3 的 “要点式输出” 使 evaluator 识别核心诊断逻辑的时间缩短 40%，评估效率显著提升。
LLM 适合医疗教育但需专家 oversight
- 教育价值：所有模型在结构化病例中的平均得分 > 4.25 分，可作为 “医学生诊断训练辅助工具”（如生成病例分析示例）；
- 风险提示：即使最优模型（DeepSeek-V3）仍存在 2% 的诊断错误率，临床应用中必须结合专家判断，不可独立使用。

九、剩余挑战和未来工作

（1）剩余挑战

临床场景适配性与泛化性不足
- 病例来源局限：评估病例来自单一大学的 PBL 数据库，地域（罗马尼亚）与诊疗规范特异性强，模型在其他地区（如亚洲）的表现未知；
- 多模态评估缺失：未评估 LLM 对 “文本 + 影像”（如 CT + 病历）的诊断能力，无法反映真实临床中 “多源信息整合” 的需求。
长期性能与更新影响未知
- 版本依赖性：评估基于特定模型版本（如 GPT-4o、DeepSeek-V3），模型更新后（如参数调整、训练数据新增）的性能变化未跟踪，结论时效性有限；
- 疲劳效应未验证：未评估模型在 “连续处理 100 + 病例” 后的性能衰减（如准确率下降），无法确定其在高负荷临床场景的适用性。
伦理与安全风险未评估
- 偏见检测缺失：未分析模型在不同性别、种族患者病例中的诊断差异，无法确定是否存在 “算法偏见”；
- 隐私保护未验证：评估使用公开病例，未测试模型在 “敏感数据（如基因信息）” 处理中的隐私泄露风险。

（2）未来工作方向

拓展评估场景与提升泛化性
- 多中心病例收集：联合全球医疗机构构建 “多地域、多专科” 病例库（如覆盖欧美、亚洲的常见病与罕见病），评估模型跨地域泛化性；
- 多模态评估：加入 “文本 + 影像”“文本 + 时序”（如 ECG）任务，采用 “影像特征提取 + 文本整合” 的评估方法，模拟真实临床诊断流程。
长期性能监测与动态评估
- 版本跟踪：建立 “LLM 版本 - 性能数据库”，定期（如每 3 个月）重新评估主流模型，记录性能变化趋势；
- 高负荷测试：设计 “连续处理 500 例病例” 的实验，评估模型的 “疲劳效应”（如准确率下降幅度），确定其临床部署的最大负荷。
伦理与安全评估框架构建
- 偏见检测：加入 “不同 demographic 病例”（如男性 / 女性、白人 / 黑人患者），计算模型在各群体中的诊断准确率差异，要求差异 < 5%；
- 隐私保护测试：采用 “差分隐私攻击”“模型提取攻击”，验证模型是否泄露训练数据中的敏感信息（如患者 ID、基因数据）。
临床落地支持与工具开发
- 开发评估工具：将 “5 维度评分体系” 转化为开源工具（如 Web 应用），支持医疗机构快速评估 LLM；
- 制定指南：联合临床专家与 AI 研究者，发布《LLM 临床诊断评估指南》，明确 “评估流程、模型选型标准、风险控制措施”。

十、数据集（评估用临床病例数据集）

论文使用的数据集为 “罗马尼亚 Iuliu Hațieganu 医科大学 PBL 数据库”，核心特征如下：

1. 数据集基本信息

特征	详情
数据来源	医科大学内部问题导向学习（PBL）数据库，用于医学生临床思维训练
病例数量与类型	6 个复杂病例，覆盖多专科：内科（糖尿病、高血压）、外科（急性阑尾炎）、妇科（多囊卵巢综合征）、儿科（哮喘）、神经科（偏头痛）、急诊科（急性胸痛）
病例结构	每个病例含 “引言 + 6-10 个阶段”，每个阶段披露增量信息（如阶段 1：症状；阶段 2：既往史；阶段 3：检验结果）
问题数量与类型	共 228 个问题，其中知识型 122 个（53.5%）、推理型 106 个（46.5%）
数据隐私与可用性	病例经脱敏处理（删除患者身份信息），属于机构内部数据，暂不公开（需申请授权）

2. 病例设计示例（急性胸痛病例）

阶段	披露信息	代表性问题（知识型 / 推理型）
引言	患者，55 岁男性，因 “突发胸骨后疼痛 30 分钟” 就诊，无既往病史	知识型：急性胸痛的常见病因有哪些？
阶段 1	补充：疼痛放射至左臂，伴出汗，血压 160/100 mmHg	推理型：结合现有信息，最可能的初步诊断是什么？依据是什么？
阶段 2	补充：心电图显示 ST 段抬高，肌钙蛋白 1.2 ng/mL（正常 < 0.04）	推理型：需立即采取哪些治疗措施？依据是什么？
阶段 3	补充：治疗后患者疼痛缓解，但出现呼吸困难，血氧饱和度 92%	推理型：可能出现的并发症是什么？需进一步完善哪些检查？

3. 数据集优势与局限性

优势：
1. 结构化分阶段设计，模拟真实临床诊疗流程，评估结果实用性强；
2. 问题类型均衡（知识型 vs 推理型≈1:1），全面覆盖诊断能力需求；
3. 经医学生使用验证，病例难度与临床相关性高。
局限性：
1. 地域特异性：病例基于罗马尼亚诊疗规范，可能不适用于其他地区（如美国的胸痛处理流程）；
2. 样本量小：仅 6 个病例，可能无法覆盖所有疾病类型（如罕见病）；
3. 数据不公开：属于机构内部资源，其他研究者难以复现实验，需推动 “开源多中心病例库” 建设。