文章来源:https://arxiv.org/abs/2506.20430

一段话总结

本文提出首个基于大语言模型(LLM)的罕见病诊断智能系统DeepRare,该系统可处理自由文本临床描述、结构化HPO术语、VCF格式基因检测结果三类异质输入,通过“中央主机+专业代理服务器+多源外部数据”的三层架构,生成带可追溯推理链的疾病诊断排名;在涵盖8个数据集、2919种疾病、6401个病例(含亚洲、北美、欧洲多中心数据)上评估,对1013种疾病实现100%诊断准确率,HPO单模态任务Recall@1达57.18%(超次优方法23.79个百分点),HPO+基因多模态任务Recall@1达70.60%(超Exomiser的53.20%),且临床专家对其推理链的验证一致性达95.40%,目前已部署为网页应用(http://raredx.cn/doctor),为罕见病临床诊断提供可解释、高可信的AI辅助工具。

思维导图

详细总结

研究背景与挑战

罕见病虽单病种发病率低(<1/2000人),但全球累计影响超3亿人,已发现超7000种病种,其中80%为遗传性疾病。当前诊断面临四大核心挑战:

  • 临床复杂性:症状异质性强,常涉及多系统病变,需跨学科知识整合;
  • 数据稀缺性:单病种样本量少,模型易过拟合,难以覆盖罕见亚型;
  • 知识动态性:国际罕见病研究联盟(IRDiRC)数据显示,每年新增260-280种罕见遗传病,传统模型难以及时更新;
  • 推理透明度:临床诊断需可追溯的证据链,但现有工具多仅输出疾病列表,缺乏中间推理过程,医生难以信任。

核心贡献一:DeepRare系统架构设计

DeepRare采用三层模块化架构,实现“数据输入-分析推理-结果输出”的全流程自动化,具体组件如下表:

架构层级 核心组件 功能描述 关键技术 / 工具
中央主机 LLM 驱动的协调单元 + 长时记忆模块 1. 调度代理服务器执行任务
2. 存储中间结果与证据
3. 执行自反思诊断循环
基础模型:DeepSeek-V3/GPT-4o 等
记忆更新:增量式证据存储
代理服务器 6 类专业代理(共集成 40 + 工具) - 表型提取器:文本→标准化 HPO 术语
- 疾病标准化器:映射至 Orphanet/OMIM
- 知识检索器:实时获取文献 / 指南
- 病例检索器:匹配相似临床案例
- 表型分析器:调用专业诊断工具
- 基因型分析器:VCF 注释与变异排序
BioLORD(HPO 映射)、Exomiser(VCF 分析)、PubMedRetriever(文献检索)
外部数据源 医学文献 / 知识库 / 病例库 / 基因数据库 提供可验证的诊断证据,确保推理追溯性 文献:PubMed/Google Scholar
知识库:Orphanet/OMIM/HPO
病例库:MIMIC-IV-Rare/Xinhua Hosp
基因库:gnomAD/ClinVar

关键创新:自反思诊断循环

系统通过 “信息收集→初步诊断→证据验证→循环优化” 四步流程,减少 LLM 幻觉与误诊风险:

  1. 信息收集:代理服务器获取表型 / 基因型相关证据(如 HPO 匹配文献、VCF 变异注释);
  2. 初步诊断:中央主机基于证据生成候选疾病列表;
  3. 证据验证:知识检索器针对候选疾病补充最新文献,验证诊断合理性;
  4. 循环优化:若候选疾病均不满足证据要求,增大检索深度(N+ΔN),重新收集信息,直至生成有效诊断。

核心贡献二:多源数据集构建

研究整合 8 个数据集(7 个公开 + 1 个自研),覆盖全球多中心病例,具体信息如下表:

数据集名称 病例数 疾病数 输入类型 来源地区 公开性 核心特点
RareBench-MME 40 17 HPO 文献 文献提取,病例典型性高
RareBench-HMS 88 39 HPO 德国( Hannover Medical School) 临床中心数据,症状复杂度高
RareBench-LIRICAL 370 252 HPO 文献 含详细表型 - 基因关联
RareBench-RAMEDIS 624 74 HPO 科学家上传 罕见代谢病专项
MyGene2 146 58 HPO + 基因 患者上传 含候选致病基因信息
DDD 2283 2150 HPO 文献 最大公开罕见病数据集
MIMIC-IV-Rare 1875 355 HPO 美国(Beth Israel Deaconess Medical Center) 住院病历提取,含随访信息
Xinhua Hosp(自研) 975 314 HPO+VCF(109 例) 中国(上海新华医院) 含全外显子测序数据,唯一带 VCF 的测试集

核心贡献三:全面评估体系与实验结果

评估基准与指标

  • 对比方法:15 种主流方法,分为四类:
    1. 传统工具:PhenoBrain(HPO 分析)、PubCaseFinder(病例匹配);
    2. 通用 LLM:GPT-4o、DeepSeek-V3、Gemini-2.0-flash;
    3. 推理 LLM:Claude-3.7-Sonnet-thinking、DeepSeek-R1;
    4. 代理系统:MDAgents(多学科协作)、DeepSeek-V3-Search(带搜索功能)。
  • 核心指标
    • 诊断准确率:Recall@1(Top-1 命中)、Recall@3、Recall@5;
    • 推理可信度:临床专家对推理链的验证一致性(10 位副主任医师,5 年以上经验)。

关键实验结果

  1. HPO 单模态诊断(无基因数据)

    • 平均性能:Recall@1 57.18%、Recall@3 65.25%,超次优方法(Claude-3.7-Sonnet-thinking)23.79、18.65 个百分点;
    • 数据集表现:在 RareBench-MME(40 例)中 Recall@1 达 70.0%,在 Xinhua Hosp(975 例)中达 58.0%,泛化性显著;
    • 疾病覆盖:对 2919 种疾病中的1013 种实现 100% 诊断准确率,主要为症状典型的单基因病(如维生素 B12 反应性甲基丙二酸血症)。
  2. HPO+VCF 多模态诊断(109 例全外显子测序病例)

    方法 Recall@1 Recall@3 Recall@5
    DeepRare 70.60% 81.70% 88.10%
    Exomiser(传统工具) 53.20% 67.90% 75.20%
    GPT-4o(通用 LLM) 42.20% 58.70% 65.10%
    结果显示:DeepRare 多模态性能显著优于传统工具与通用 LLM,因整合了基因变异的致病性分析(如 ACMG 分级)与表型关联证据。
  3. 专家验证结果

    • 推理链一致性:180 个随机病例中,专家与 DeepRare 的证据引用一致性达95.40%
    • 错误分析:仅 4.6% 不一致源于两类问题 ——①系统生成不存在的文献 URL(幻觉);②诊断结论错误导致引用无关文献。

临床应用:网页应用部署

为降低临床使用门槛,DeepRare 已部署为用户友好的网页应用(http://raredx.cn/doctor),流程分为五步:

  1. 临床数据录入:输入患者年龄、性别、家族史、症状描述,支持上传病例报告、影像、VCF 文件;
  2. 系统症状问询:AI 引导补充器官受累范围、症状进展时间等细节,缩小诊断范围;
  3. HPO 术语映射:自动将文本症状转为标准化 HPO 术语,支持医生手动调整;
  4. 诊断分析输出:生成带证据链的 Top-5 疾病排名,每条诊断含 3-4 条参考文献(如 Orphanet 条目、PubMed 文献);
  5. 报告下载:导出 PDF/Word 格式诊断报告,可直接整合入电子病历系统。

局限性与未来方向

现存局限

  1. 数据层面:3D 影像(如 CT/MRI)未集成,且部分超罕见病(发病率 < 1/10 万)样本仍不足;
  2. 功能层面:仅支持诊断,未涵盖治疗方案推荐、预后预测等临床全流程需求;
  3. 生成层面:长文本(如完整诊断报告)生成质量待提升,部分输出缺乏病变位置等细节(如 “左侧肺部结节” vs “肺部结节”)。

未来计划

  1. 数据扩展:通过 GAN / 扩散模型合成超罕见病数据,补充 3D 影像与多组学(转录组、代谢组)数据;
  2. 功能升级:扩展治疗推荐模块,整合 ClinicalTrials.gov 的罕见病试验信息;
  3. 模型优化:增大 LLM 参数规模(如从 14B 升级至 70B),优化自反思循环的证据筛选逻辑。

 

 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐