论文145：MRI signatures of brain age and disease over the lifespan (Brain, 2020)

利用全球14,468例结构MRI构建一个仅需最小预处理即可稳健估计脑龄的深度网络DeepBrainNet，验证其在跨中心、跨扫描仪条件下的泛化能力，并挑战拟合越紧越好的传统观念。系统比较松/中/紧三种拟合度下脑龄差对多种脑疾病的区分力。进一步，将DeepBrainNet作为迁移学习的基座网络，构建疾病特异性分类器。

因吉

94人浏览 · 2026-05-11 15:44:33

因吉 · 2026-05-11 15:44:33 发布

文章目录

1 要点
2 引言
3 方法
4 实验结果

1 要点

标题：MRI signatures of brain age and disease over the lifespan based on a deep brain network and 14 468 individuals worldwide
中文： 基于深度脑网络的脑龄与疾病MRI特征
作者： Vishnu M. Bashyam, Guray Erus, Jimit Doshi, …, Christos Davatzikos (UPenn CBICA)
机构： University of Pennsylvania等
期刊： Brain, 2020, Vol. 143, pp. 2312–2324
代码：https://github.com/vishnubashyam/DeepBrainNet

研究背景：
基于MRI（Magnetic Resonance Imaging，磁共振成像）的脑龄已成为评估个体脑健康的综合生物标志物。偏离典型脑衰老轨迹的正/负脑龄差可识别加速或韧性衰老。然而，此前脑龄模型面临三大瓶颈：

依赖复杂且不易复现的预处理流程（偏置校正、分割、变形配准、多中心协调等）
训练样本规模和多样性不足
跨人群和跨扫描仪的可复现性有限

此外，传统观念追求拟合越紧越好的脑龄模型，但紧密拟合模型可能刻意回避病理相关特征以维持低误差，反而削弱了脑龄差的临床区分能力。

研究目标：利用全球14,468例结构MRI构建一个仅需最小预处理即可稳健估计脑龄的深度网络DeepBrainNet，验证其在跨中心、跨扫描仪条件下的泛化能力，并挑战拟合越紧越好的传统观念。系统比较松/中/紧三种拟合度下脑龄差对多种脑疾病的区分力。进一步，将DeepBrainNet作为迁移学习的基座网络，构建疾病特异性分类器。

关键技术：

DeepBrainNet 架构：输入80层轴位切片，并利用ImageNet预训练权重初始化。后接全局最大池化、FC(1024)、80% Dropout、ReLU，最后单节点线性输出年龄，并采用中位预测（80 层各自预测取中位数）
最小预处理：仅颅骨剥离与仿射配准到公共模板空间，无需偏置校正、分割、变形配准或扫描仪协调。
三种拟合度对比：在训练过程中按epoch数选择松（MAE≈7.65）、中（MAE≈5.92）、紧（MAE≈3.70）三个模型，比较其脑龄差对疾病的区分力。
迁移学习：用DeepBrainNet卷积层权重初始化疾病分类器，对比ImageNet初始化和随机初始化，在递减样本量下测试鲁棒性。

数据集：

LifespanCN训练集11,729 例（来自12个国际队列，年龄 3–95 岁，含儿科+成人）
SHIP外部验证2,739例
疾病测试集：
- ADNI（CN 513 + MCI 833 + AD 353）
- 精神分裂症835例（CN 448 + SCZ 387）
- UK Biobank抑郁症 408 例（CN 204 + MD 204）

核心结果：DeepBrainNet在LifespanCN上MAE=3.70年，SHIP外部验证MAE=4.12。中度拟合模型（MAE≈5.92）的脑龄差对AD和MCI的区分力显著优于紧模型。迁移学习分类器全面优于ImageNet初始化，在小样本条件下优势尤为突出。

2 引言

2.1 脑龄作为脑健康标志物

正常脑发育和衰老伴随可被机器学习捕获的神经解剖变化模式。MRI衍生脑龄已广泛被神经科学界采纳为个体水平的脑健康生物标志物。个体若偏离典型脑发育/衰老轨迹，可通过正或负的脑龄差被识别。精神分裂症、MCI（Mild Cognitive Impairment，轻度认知障碍）、AD（Alzheimer’s Disease，阿尔茨海默病）、2 型糖尿病乃至死亡风险，均与加速脑衰老（正脑龄差）相关。然而，此前脑龄研究在实验室中成功，却在临床落地中受阻。传统的机器学习方法需要复杂且不易复现的预处理步骤：偏置校正、组织分割、变形配准、跨扫描仪协调等，这些步骤需要专业知识、人力和时间，无法被临床医生便捷使用。

2.2 深度学习的机遇与挑战

深度学习不再需要手工特征工程，可建模复杂非线性关系。但深度网络的一个关键瓶颈是：需要大规模、多样化的训练样本。疾病特异性数据集的样本量仍然相对较小，难以直接训练深度网络。此外，传统做法是将ImageNet预训练权重迁移到医学影像任务，但自然图像与脑MRI的高层抽象完全不同，这种通用到特定迁移未必最优。

2.3 两个核心假设

本文提出两个挑战传统观念的核心假设：

第一：当前领域普遍追求拟合越紧越好的脑龄模型（即最小化MAE），但紧密拟合的模型可能刻意学习不受病理影响的脑特征以维持低误差，由此产生的脑龄差反而对疾病不敏感。本文推测，中度拟合的模型可能提供最具临床区分力的脑龄差
第二：用大规模脑MRI训练的域特定网络（而非 ImageNet）作为迁移学习的基座，应能构建更优的疾病分类器，尤其是对小样本疾病。

3 方法

3.1 数据集

LifespanCN 训练集：来自12个国际队列，共11,729例认知正常者，年龄3–95岁。来源包括UK Biobank（4,402）、SHIP（2,739）、PNC（1,396）、BLSA 3T（952）、CARDIA（719）、AIBL（446）、PING（398）等，跨越不同扫描仪、采集协议和地理位置。SHIP作为独立外部验证集（训练时排除）。

疾病数据集：

ADNI 1+2（n=1,699）：CN 513 + MCI 833 + AD 353，年龄 55–95 岁
精神分裂症多中心联盟（PHENOM，n=835）：CN 448 + SCZ（Schizophrenia，精神分裂症）387，年龄 16–84 岁
UK Biobank 抑郁症（n=408）：CN 204 + MD（Major Depression，重度抑郁）204，经倾向评分匹配

3.2 预处理：极简设计

两步全自动操作：

(1) 多图谱标签融合颅骨剥离
(2) 仿射配准到公共模板空间（FLIRT）
不进行偏置校正、组织分割、变形配准或扫描仪协调。质量检查采用自动异常检测+人工复核。额外实验证实，加偏置校正和直方图均衡化后性能无显著改善，验证了极简预处理的可行性。

3.3 DeepBrainNet架构

骨干网络：Inception-ResNet-v2（2D），ImageNet权重初始化
输入：每个MRI取80层轴位切片，每层视为独立样本（总训练集≈93.8万张图像）
输出：单节点线性激活，回归CA
层结构：Inception-ResNet 卷积层 → 全局最大池化 → FC(1024) + 80% Dropout + ReLU（Rectified Linear Unit，修正线性单元）→ 输出层。使用大 Dropout（80%）以防止 FC 层 1,024 节点的过拟合。图1是架构示意。

数据增强：在线随机垂直/水平翻转 + 强度/对比度随机缩放（95%–105%）。

预测方式：测试时将 80 层切片分别预测，取中位数作为最终脑龄——减少单层异常预测的影响。

训练配置：Adam优化器，MSE损失，初始学习率1×10⁻⁴（训练损失5epoch不变则衰减10倍）。训练至训练损失10epoch 不变或验证损失连续5epoch上升。5折交叉验证。硬件：NVIDIA P6000（24 GB VRAM），每折约10小时。实现：TensorFlow + Keras。

架构选择：Inception-ResNet-v2在验证集上准确率最高（vs DenseNet169/VGG16/ResNet50），但差异不统计显著。

3.4 三种拟合度模型

在训练过程中按epoch数保存三个模型：松拟合（MAE≈7.65，早期）、中拟合（MAE≈5.92，中期）、紧拟合（MAE≈3.70，最终）。三个模型使用相同的年龄偏差校正（线性模型，Le et al. 2018）。脑龄差 = 校正后脑龄 − CA。比较三者在4种疾病组上的区分力（患者 vs CN的脑龄差差异，独立样本t检验 + Cohen’s d + 混合效应模型似然比检验。

3.5 迁移学习疾病分类

用与脑龄预测相同的Inception-ResNet-v2架构，但输出改为二分类（sigmoid）。初始化比较三种方案：

(1) DeepBrainNet最佳折卷积层权重
(2) ImageNet预训练权重
(3) 随机初始化。仅保留卷积层权重，最后的FC层重新初始化（FC(1024) + 85% Dropout + ReLU → 单节点 sigmoid）
训练策略：先冻结卷积层训练FC层1epoch，再解冻全网络训练至收敛。Adam，学习率5×10⁻⁵，二元交叉熵损失。5 折交叉验证。

递减样本量实验：对每个疾病数据集做分层子采样（保留CN/疾病比），生成逐级递减的样本量子集（如n=全部→200→100→50），对每种子集重复两次不同采样（报告平均），测试DeepBrainNet vs ImageNet在不同样本量下的鲁棒性差异。

4 实验结果

4.1 脑龄预测精度

在LifespanCN上做5折交叉验证，每折训练80%/测试20%，用MAE和Pearson r评估。然后做留一中心外部验证，即训练时排除SHIP队列。

LifespanCN 交叉验证：MAE=3.70 年，r=0.978。预测年龄 vs CA 散点图中，点紧密沿对角线分布，各年龄段的MAE一致（Supplementary S.3）。Fig.2A展示所有5折测试集汇总的散点图。

SHIP 外部验证：训练时完全未见过的独立中心数据，MAE=4.12 年。与 LifespanCN 内同龄被试的折内预测精度可比，跨中心泛化成立。

4.2 拟合度对脑龄差疾病区分力的影响

一实验是本文最核心的方法论贡献。在LifespanCN训练过程中按epoch数选择松（MAE 7.65）、中（MAE 5.92）、紧（MAE 3.70）三个模型。对每个模型，分别在AD、MCI、精神分裂症（SCZ）、抑郁症（MD）4个疾病组上计算脑龄差（Age-Corrected Delta = 校正后脑龄 − CA），比较各组患者 vs CN的脑龄差差异：独立样本t检验（Fig.3右列p值）+ Cohen’s d 效应量（含 95% CI）。

3.3 迁移学习疾病分类

用DeepBrainNet的卷积层权重初始化4个独立的二分类器（AD vs CN、MCI vs CN、SCZ vs CN、MD vs CN），与ImageNet初始化和随机初始化做5折交叉验证对比。对前三组，进一步做递减样本量实验，测试两种初始化在小样本条件下的鲁棒性。

DeepBrainNet在所有三项任务上均优于ImageNet，且收敛速度更快（平均epoch 数更低）。随机初始化在全部任务中均无法收敛，凸显了预训练权重对医学影像小样本任务的必要性。