爆款预定：NeurIPS 2025 顶会爆款！吴恩达团队 DeepCluster++ 框架，让 CRC 病理 AI 泛化性碾压现有方案！

CV实验室

992人浏览 · 2025-12-01 16:36:42

CV实验室 · 2025-12-01 16:36:42 发布

今天给大家分享一下吴恩达团队NeurIPS 2025新作：STARC-9。随着数字病理普及，深度学习驱动的多类别组织分类成为核心基础任务，可支撑多种下游应用并减轻医生负担。但现有公开 CRC 数据集存在形态多样性不足、类别不平衡、含错标或低质量切片等痛点，且传统人工标注数据集耗时主观，缺乏标准化构建框架，严重阻碍鲁棒 AI 模型开发。为此，吴恩达团队推出大规模高质量数据集 STARC-9 与 DeepCluster++ 框架，旨在破解上述困境，为 CRC 病理 AI 研究提供可靠数据支撑。
吴恩达老师
本篇论文代码以及【CV 热门 80+ 】计算机视觉热门方向论文合集已经整理好，感兴趣的自取希望能帮到你！

原文资料这里！

1. 【导读】

在这里插入图片描述

论文标题：STARC-9: A Large-scale Dataset for Multi-Class Tissue Classification for CRC Histopathology

作者：Barathi Subramanian*, Rathinaraja Jeyaraj*, Mitchell Nevin Peterson, Terry Guo, Nigam Shah, Curtis Langlotz, Andrew Y. Ng, Jeanne Shen

作者机构：Stanford University, USA；DeepLearning.AI, USA

论文来源：NeurIPS 2025

论文链接：https://openreview.net/forum?id=rGWjTlK6Ev

代码数据链接：https://huggingface.co/datasets/Path2AI/STARC-9/tree/main；https://github.com/Path2AI/STARC-9/

2. 【论文速读】

结直肠癌（CRC）病理图像多类别组织分类需优质数据集，而现有公开数据集存在形态多样性不足等问题。为此，吴恩达团队推出STARC-9数据集（63万张切片，覆盖9类临床相关组织），通过DeepCluster++ 框架构建：经自编码器提特征、聚类+等频分箱采样后，由病理学家验证确保质量。基准测试显示，基于该数据集训练的模型在下游任务中展现更优泛化性，且框架可灵活复用于各类WSI数据集构建。

3.【破解CRC病理AI困境：为何需要STARC-9与新框架？】

3.1 研究背景

CRC临床重要性：结直肠癌（CRC）是全球第三大常见癌症、第二大癌症相关死亡原因，病理组织评估对诊断、预后判断及治疗决策至关重要。
AI技术需求：数字病理普及下，深度学习驱动的多类别组织分类是核心基础任务，可支撑组织分割、生物标志物预测等下游应用，还能减轻病理医生诊断负担。
现有数据集瓶颈：公开CRC数据集存在三大问题——①形态多样性不足，无法覆盖组织各类外观；②类别不平衡，优势组织（如肿瘤上皮）样本远超关键小众组织（如黏液、坏死）；③含错标/低质量切片，影响模型可解释性与性能。
构建流程痛点：传统数据集依赖人工标注，耗时且主观，难保证组织形态全覆盖；无标准化框架，进一步阻碍鲁棒模型开发。

3.2 相关工作

3.2.1 现有CRC公开数据集

NCT-CRC-HE-100K：早期重要贡献，含10万张224×224像素切片（9类组织），但存在JPEG压缩伪影。
HMU-GC-HE-30K：胃癌相关数据集（3万张切片），部分组织类别与CRC重叠，但含错标切片，易让模型学习虚假特征。
TCGA-COAD/READ：仅提供未标注全切片图像（WSI），需手动提取切片才能用于机器学习，实用性受限。
其他数据集：多存在访问受限、标注不完整等问题，难以支撑高质量模型训练。

3.2.2 现有数据集构建方法

手动标注：依赖QuPath等工具，耗时主观，易偏向“易标注区域”，漏检罕见形态且难平衡类别。
随机采样：易出现采样误差，错过临床关键罕见形态，导致组织异质性表征失衡。
深度聚类：虽能自动分组切片，但偏向聚类中心采样，低估类内变异，不利于模型鲁棒性。
主动学习：需预标注种子数据且迭代标注，流程复杂，不适用于大规模数据集构建。

4.【三步解锁CRC病理数据集新范式：DeepCluster++的硬核操作指南】

4.1 阶段1：自编码器训练（AE_CRC）—— 提取领域特异性特征

为捕捉CRC病理切片的精细形态特征，先训练专属自编码器（AE_CRC），核心步骤如下：

训练数据准备：从10个独立于STARC-9的代表性WSI（5个肿瘤、5个正常组织）中，采样10万张256×256像素切片，覆盖全部9类组织；通过直方图阈值法（32倍下采样、25%组织占比阈值）提取切片，同时去除伪影和空白切片。
数据增强与模型结构：采用随机旋转、翻转、仿射变换、颜色抖动、高斯模糊等增强手段；编码器含6个卷积层（带批量归一化和Leaky ReLU激活），输出32768维 latent 向量；解码器结构对称，以反卷积层构建，最终层用sigmoid激活实现切片重建。
损失函数选择：使用结构相似性指数（SSIM）损失函数，优先捕捉病理切片的结构、纹理等关键特征，而非仅优化像素级误差；对比MSE损失，AE_CRC重建质量更优（验证集平均SSIM 0.9262 vs 0.8863）。
核心优势：相比通用病理基础模型，AE_CRC计算成本更低，且能生成更贴合CRC组织形态的特征嵌入，为后续聚类提供可靠基础。

4.2 阶段2：聚类与切片采样—— 保障组织形态多样性

基于AE_CRC的冻结编码器生成特征，通过聚类+分箱采样实现“无偏覆盖”，步骤如下：

特征降维与聚类：
- 设某WSI的切片集为 $T=\{s_{1}, s_{2}, ..., s_{|T|}\}$ ，每个切片 $s_i$ 经编码器生成32768维向量 $v_i$ ；
- 用全局平均池化（GAP）将 $v_i$ 压缩至512维，再通过主成分分析（PCA）降至256维，降低计算复杂度；
- 采用K-means算法聚类，设聚类数量 $m = 400$ （经实验验证： $m < 400$ 会减少形态变异， $m > 400$ 易混入多类组织），确保同类切片形态相似且不同聚类覆盖多样模式。
等频分箱与采样：
- 对每个聚类，计算中心 $c$ 与切片的欧氏距离 $d_{i}=\left\|v_{i}-c\right\|$ ，并归一化至[0,1]；
- 按距离排序后进行等频分箱（设箱数 $g = 5$ ， $g < 5$ 易导致样本重叠， $g > 5$ 易碎片化），每个箱含等量切片；
- 从每个箱采样20%切片，确保同时覆盖“聚类中心（典型形态）”和“聚类边缘（罕见形态）”，避免采样偏差。
聚类标签关联：手动标注1个“种子聚类”（如标注为“肿瘤（TUM）”），利用嵌入空间邻近性，将语义标签推广至邻近聚类（如聚类48的邻近聚类2、97等也标注为TUM），大幅减少手动标注量。

4.3 阶段3：病理学家验证与数据集组装—— 确保临床准确性

通过专家审核把关，形成最终高质量数据集，关键步骤：

切片定位与审核：用QuPath软件将采样切片映射回原WSI，方便病理学家结合组织空间位置验证类别；参与审核的3名胃肠（GI）病理学家均为-board认证，分别拥有13年、41年、15年经验，其中2人审核子集，1人全面复核63万张切片。
数据集规模固定：为保证类别平衡，每类组织最终保留7万张切片，9类共63万张，构成STARC-9数据集；该数量可根据下游任务需求调整（如小样本任务可减少单类切片数）。
质量控制结果：经审核后，切片类别准确率显著提升，排除错标、低质量样本，为后续模型训练提供可靠“金标准”数据。

5.【STARC-9实战成绩单：模型性能与泛化性双丰收】

原文资料这里！

5.1 核心结果1：多类别组织分类性能碾压

STARC-9训练模型优势显著：
- 基线模型：EfficientNet-B7在STARC-9上达98.80%准确率，比NCT（82.47%）高14.7%、HMU（84.45%）高8.6%；
- 病理基础模型：CTransPath（87M参数）达99%准确率，远超NCT上的UNI（80.43%）、HMU上的HiPT（91.99%）；
- 自定义模型：从头训练的CNN也达97.81%准确率，证明数据质量比预训练更关键。
泛化性突出：在TCGA-CRC验证集上，STARC-9训练模型准确率98.85%，远超NCT（72.42%）、HMU（90.9%）。

5.2 核心结果2：肿瘤分割任务表现优异

IoU评分：混合组织样本中，STARC-9模型IoU 92.91%（NCT 73.39%、HMU 71.6%）；纯肿瘤样本IoU 99.48%（NCT 84.17%、HMU 92.17%）。
Dice评分：斯坦福验证集达90.47%（NCT高14%、HMU高17%），TCGA集达89.38%（NCT高35%、HMU高23%）；且标准差更小，分割更稳定。

5.3 可视化佐证：模型聚焦诊断关键区域

特征图：STARC-9训练模型能精准聚焦肿瘤、正常黏膜等诊断区域，而NCT/HMU模型常激活无关区域（如混合组织切片中，仅STARC-9模型正确识别肿瘤）。
组织图：STARC-9模型对坏死（NCS）分类准确率比HMU高45%、NCT高90%；混合切片分类准确率85%，远超HMU（55%）、NCT（42%）。

6.【STARC-9的现在与未来：CRC病理AI的新起点与待解方向】

本研究提出针对CRC病理的大规模高质量数据集STARC-9（含63万张切片、覆盖9类临床相关组织），并通过DeepCluster++框架（自编码器提特征+聚类分箱采样+病理学家验证）解决现有数据集形态多样性不足、类别不平衡等痛点；实验证实，基于STARC-9训练的模型在多类别组织分类（准确率超98%）与肿瘤分割任务中，泛化性显著优于基于NCT、HMU等公开数据集训练的模型。但STARC-9仍存局限：未穷尽CRC resection中所有组织类型、仅覆盖CRC（对其他癌症适用性待验证）、样本源自单机构且少数族裔代表性不足；未来可拓展细分类别、增加多模态数据（如图像-文本对）、将框架应用于其他癌症，并整合多中心数据以提升模型公平性与泛化性。