AI+Medicine文章分享：DeepRare：罕见病诊断智能系统

本文提出首个基于大语言模型的罕见病诊断系统DeepRare，采用三层架构整合临床描述、HPO术语和基因检测等多源数据，通过自反思诊断循环生成可追溯的疾病诊断排名。在涵盖2919种疾病的6401个病例测试中，对1013种疾病实现100%诊断准确率，HPO单模态任务Recall@1达57.18%，多模态任务达70.60%，显著优于现有方法。临床专家验证其推理链一致性达95.40%，系统已部署为网页应用

sjksndnfkwks

1669人浏览 · 2025-09-15 17:15:22

sjksndnfkwks · 2025-09-15 17:15:22 发布

文章来源：https://arxiv.org/abs/2506.20430

一段话总结

本文提出首个基于大语言模型（LLM）的罕见病诊断智能系统DeepRare，该系统可处理自由文本临床描述、结构化HPO术语、VCF格式基因检测结果三类异质输入，通过“中央主机+专业代理服务器+多源外部数据”的三层架构，生成带可追溯推理链的疾病诊断排名；在涵盖8个数据集、2919种疾病、6401个病例（含亚洲、北美、欧洲多中心数据）上评估，对1013种疾病实现100%诊断准确率，HPO单模态任务Recall@1达57.18%（超次优方法23.79个百分点），HPO+基因多模态任务Recall@1达70.60%（超Exomiser的53.20%），且临床专家对其推理链的验证一致性达95.40%，目前已部署为网页应用（http://raredx.cn/doctor），为罕见病临床诊断提供可解释、高可信的AI辅助工具。

思维导图

详细总结

研究背景与挑战

罕见病虽单病种发病率低（<1/2000人），但全球累计影响超3亿人，已发现超7000种病种，其中80%为遗传性疾病。当前诊断面临四大核心挑战：

临床复杂性：症状异质性强，常涉及多系统病变，需跨学科知识整合；
数据稀缺性：单病种样本量少，模型易过拟合，难以覆盖罕见亚型；
知识动态性：国际罕见病研究联盟（IRDiRC）数据显示，每年新增260-280种罕见遗传病，传统模型难以及时更新；
推理透明度：临床诊断需可追溯的证据链，但现有工具多仅输出疾病列表，缺乏中间推理过程，医生难以信任。

核心贡献一：DeepRare系统架构设计

DeepRare采用三层模块化架构，实现“数据输入-分析推理-结果输出”的全流程自动化，具体组件如下表：

架构层级	核心组件	功能描述	关键技术 / 工具
中央主机	LLM 驱动的协调单元 + 长时记忆模块	1. 调度代理服务器执行任务 2. 存储中间结果与证据 3. 执行自反思诊断循环	基础模型：DeepSeek-V3/GPT-4o 等记忆更新：增量式证据存储
代理服务器	6 类专业代理（共集成 40 + 工具）	- 表型提取器：文本→标准化 HPO 术语 - 疾病标准化器：映射至 Orphanet/OMIM - 知识检索器：实时获取文献 / 指南 - 病例检索器：匹配相似临床案例 - 表型分析器：调用专业诊断工具 - 基因型分析器：VCF 注释与变异排序	BioLORD（HPO 映射）、Exomiser（VCF 分析）、PubMedRetriever（文献检索）
外部数据源	医学文献 / 知识库 / 病例库 / 基因数据库	提供可验证的诊断证据，确保推理追溯性	文献：PubMed/Google Scholar 知识库：Orphanet/OMIM/HPO 病例库：MIMIC-IV-Rare/Xinhua Hosp 基因库：gnomAD/ClinVar

关键创新：自反思诊断循环

系统通过 “信息收集→初步诊断→证据验证→循环优化” 四步流程，减少 LLM 幻觉与误诊风险：

信息收集：代理服务器获取表型 / 基因型相关证据（如 HPO 匹配文献、VCF 变异注释）；
初步诊断：中央主机基于证据生成候选疾病列表；
证据验证：知识检索器针对候选疾病补充最新文献，验证诊断合理性；
循环优化：若候选疾病均不满足证据要求，增大检索深度（N+ΔN），重新收集信息，直至生成有效诊断。

核心贡献二：多源数据集构建

研究整合 8 个数据集（7 个公开 + 1 个自研），覆盖全球多中心病例，具体信息如下表：

数据集名称	病例数	疾病数	输入类型	来源地区	公开性	核心特点
RareBench-MME	40	17	HPO	文献	是	文献提取，病例典型性高
RareBench-HMS	88	39	HPO	德国（ Hannover Medical School）	是	临床中心数据，症状复杂度高
RareBench-LIRICAL	370	252	HPO	文献	是	含详细表型 - 基因关联
RareBench-RAMEDIS	624	74	HPO	科学家上传	是	罕见代谢病专项
MyGene2	146	58	HPO + 基因	患者上传	是	含候选致病基因信息
DDD	2283	2150	HPO	文献	是	最大公开罕见病数据集
MIMIC-IV-Rare	1875	355	HPO	美国（Beth Israel Deaconess Medical Center）	是	住院病历提取，含随访信息
Xinhua Hosp（自研）	975	314	HPO+VCF（109 例）	中国（上海新华医院）	否	含全外显子测序数据，唯一带 VCF 的测试集

核心贡献三：全面评估体系与实验结果

评估基准与指标

对比方法：15 种主流方法，分为四类：
1. 传统工具：PhenoBrain（HPO 分析）、PubCaseFinder（病例匹配）；
2. 通用 LLM：GPT-4o、DeepSeek-V3、Gemini-2.0-flash；
3. 推理 LLM：Claude-3.7-Sonnet-thinking、DeepSeek-R1；
4. 代理系统：MDAgents（多学科协作）、DeepSeek-V3-Search（带搜索功能）。
核心指标：
- 诊断准确率：Recall@1（Top-1 命中）、Recall@3、Recall@5；
- 推理可信度：临床专家对推理链的验证一致性（10 位副主任医师，5 年以上经验）。

关键实验结果

HPO 单模态诊断（无基因数据）
- 平均性能：Recall@1 57.18%、Recall@3 65.25%，超次优方法（Claude-3.7-Sonnet-thinking）23.79、18.65 个百分点；
- 数据集表现：在 RareBench-MME（40 例）中 Recall@1 达 70.0%，在 Xinhua Hosp（975 例）中达 58.0%，泛化性显著；
- 疾病覆盖：对 2919 种疾病中的1013 种实现 100% 诊断准确率，主要为症状典型的单基因病（如维生素 B12 反应性甲基丙二酸血症）。

HPO+VCF 多模态诊断（109 例全外显子测序病例）