[Nat Med 2024]Deep learning-aided decision support for diagnosis of skin disease across skin tones
AI辅助诊断对皮肤病医生和全科医生诊断的帮助效果统计分析

目录
2.3.2. Physician characteristics
2.3.4. Overall diagnostic accuracy
2.3.5. Diagnostic accuracy and clinical decision-making across light and dark skin
2.3.7. User interaction design
2.5.3. Clinical image curation
2.5.8. Annotating participants’ differential diagnoses
2.5.10. Standards for Reporting Diagnostic Accuracy Studies
1. 心得
(1)太实际了,我还以为是深度学习为主的,误闯天家
2. 论文逐段精读
2.1. Abstract
①大规模AI辅助诊断调研:来自 39 个国家的董事会认证皮肤科医生 (n = 389) 和初级保健医生 (n = 459)一同参与评估
②对于46 种皮肤病的 364 张图像评估任务:
| 诊断 | 专科医生正确率 | 通才医生正确率 |
| 浅色皮肤 | 38% | 19% |
| 深色皮肤 | 34% | 15% |
| AI辅助 | 71+% | 42+% |
但AI加剧了通才医生对不同肤色下皮肤病的诊断正确性差距(?这个是啥)
teledermatology n. 远程皮肤病学;远隔皮肤科诊断 exacerbate vt. 加剧;使恶化;使加重
2.2. Main
①诊断现存问题:专家难以知道什么时候服从自己什么时候服从AI,不过AI可以很好地提高通才的准确度
②AI现存问题:对不同肤色的诊断准确率差异大
nominal adj. 名义上的;名词的;象征性的;名词性的;有名无实的;很小的 n. 名词性词
2.3. Results
2.3.1. Study design
①实验流程:

②诊断界面:

③控制临床决策支持界面和治疗界面可选按钮:“使用 [疾病] 更新我的最高预测”(修改)、“更新我的差异以包括 [疾病]”(纳入新的)和“保持我的差异”(不修改)
inflammatory adj. 煽动性的;炎性的;发炎的;使人发怒的
curate n. (某教区的)助理牧师 vt. 当(博物馆;美术馆;图书馆)馆长
atopic adj. 特应性的,异位的(指过敏部位并非直接接触过敏原)
dermatitis n. 皮炎
cutaneous adj. 皮肤(上)的
lymphoma n. 淋巴瘤
dermatomyositis n. 皮肌炎
lichen planus n. 扁平苔藓;口腔扁平苔藓;扁平苔癣
2.3.2. Physician characteristics
①样本数:1,118张图片, 14,261 个鉴别诊断
②鉴别:来自委员会认证皮肤科医生 (BCD)、皮肤科住院医师、初级保健医生
2.3.3. Image quality
①遵循三个BCD的五步质量控制流程,进行事后质量审查,评估图像源的准确率
2.3.4. Overall diagnostic accuracy
①不同医生的诊断准确率:

②BCD(board-certified dermatologists)和PCP(primary-care physicians)对八种主要皮肤病和辅助 38 种疾病的前 3 名诊断准确性:

2.3.5. Diagnostic accuracy and clinical decision-making across light and dark skin
①医生对浅色皮肤的诊断准确率高于深色皮肤
②不同医生对于不同FST(菲茨帕特里克皮肤类型)的诊断正确率:

其中FST是如同(网图):

③(a)跨皮肤病和色调的 BCD 活检转诊率,(b)跨皮肤病和色调的 PCP 活检转诊率,(c)跨皮肤病和色调的 PCP 转诊给皮肤科医生的比率:

biopsy n.活组织检查(从身体取下细胞或组织进行检验)
2.3.6. DLS assistance
①BCDs和PCPs对主要8种疾病的前1准确率分别从27%提高到36%(P < 0.001,t检验)和13%提高到22%(P < 0.001,t检验)
②(a)有深度学习辅助的前1准确率和(b)前3和4准确率:

③AI的错误决策对医生影响很小
④跨 FST 有和没有 DLS 协助的医生的诊断准确性:

2.3.7. User interaction design
①按钮顺序也会影响决策
2.4. Discussion
~
2.5. Methods
2.5.1. Ethics approval
①写出知情同意书
2.5.2. Experimental interface
①故意不披露模型的准确性,从而减少用户对模型的依赖性偏差
2.5.3. Clinical image curation
①八种包含的疾病:包含 46 种不同皮肤病的 364 张图像,特应性皮炎图像有 31 张,CTCL 图像有 48 张,皮肌炎图像有 34 张,游走性红斑(莱姆病)图像有 30 张,扁平苔藓有 32 张,玫瑰糠疹有 33 张,毛发红糠疹有 47 张,二期梅毒有 29 张
2.5.4. Skin tone annotations
①让crowdworks对每张图像提供估计的FST,然后让BCD去适当更新
②FST 1-4 表示为“白色”,FST 5 和 6 表示为“黑色”和“棕色”
2.5.5. DLS development
①神经网络:在 ImageNet 上预训练的 VGG-16,根据皮肤颜色微调结果
②训练任务:九分类,包含八种皮肤病和一种其他
③微调:使用来自 Fitzpatrick 17k 数据集的 31,219 张不同的临床皮肤病学图像,将图像大小随机调整为 256 × 256 像素,随机旋转图像 0–15°,随机改变每个图像的亮度、对比度、饱和度和色调,随机水平翻转或不翻转图像,将图像居中裁剪为 224 × 224 像素,以及通过 ImageNet 手段和标准差归一化图像阵列。
④模型准确率:在364张未见测试图片上为47%
2.5.6. Randomization protocol
①分配规则:随机分配了除第一张图像之外的所有图像向参与者显示图像的顺序。所有参与者都会看到相同的第一张图像,所有后续图像都是从其余图像中随机抽取的。
2.5.7. Participants
①统计参与者信息
2.5.8. Annotating participants’ differential diagnoses
①匹配口语化表达与专业名词
2.5.9. Gamification designs
①参与者每完成十次诊断,都能看到自己和别人的正确率
2.5.10. Standards for Reporting Diagnostic Accuracy Studies
①应用Standards for Reporting Diagnostic Accuracy Studies (STARD) 2015 guidelines
2.5.11. Software and code
①软件和代码:https://diagnosing -diagnosis.media.mit.edu
2.6. Data availability
①实验数据:https://researchbox.org/1802
②实验图像:https://doi.org/10.5281/zenodo.10070478
2.7. Code availability
更多推荐

所有评论(0)