引言

结直肠癌手术的术后不良结局(如并发症、死亡)是导致患者生存率下降、肿瘤预后变差及医疗成本飙升的关键因素。尽管外科技术和围术期护理不断进步,但如何精准识别高风险患者、匹配个性化干预方案,仍是临床一大难题——传统风险评估工具单一,且资源限制导致干预难以精准落地。

本文解读的最新研究《Clinical implementation of an AI-based prediction model for decision support for patients undergoing colorectal cancer surgery》,正是为解决这一痛点而来。丹麦研究团队基于1.8万例全国登记数据开发并验证了AI风险预测模型,通过“风险分层-个性化干预”的路径,在临床落地后显著降低了术后并发症发生率,同时经短期卫生经济学分析证实更具成本效益。这一研究不仅填补了AI模型从“实验室”到“临床”的落地 gap,更为结直肠癌手术的精准医疗提供了可复制的技术框架。

基本信息

在这里插入图片描述

  • 文章题目:《Clinical implementation of an AI-based prediction model for decision support for patients undergoing colorectal cancer surgery》

  • 来源期刊:Nature Medicine

  • 影响因子:IF=58.7

  • 发表时间:2025年9月18日

  • 研究单位:丹麦西兰大学医院(主导)、哥本哈根大学、南丹麦大学等

  • GitHub地址:https://github.com/CenterForSurgicalScienceDenmark/aidSurg/

  • 数据集:三类核心队列,总样本量超2万例

    1. 国家登记队列(NRC):18,403例,2014.1-2019.4丹麦全国结直肠癌手术患者,用于模型开发与内部验证;
    2. 回顾性临床队列(RCC):806例,2020.1-2023.1单中心(西兰大学医院)手术患者,用于模型外部验证及临床结局对照;
    3. 前瞻性临床队列(PCC):194例,2023.2-2023.12单中心手术患者,接受AI指导的个性化围术期治疗,为干预组。

研究背景与意义

结直肠癌是全球高发恶性肿瘤, elective(非紧急)手术是其根治性治疗的核心手段,但术后不良结局仍是临床“老大难”:

  • 临床负担重:术后并发症(如感染、出血、肠瘘)发生率高达30%-40%,不仅导致1年死亡率升高,还会恶化肿瘤长期预后(如增加复发风险);
  • 医疗成本高:术后并发症相关的额外治疗、延长住院、再入院等,每年消耗大量医疗资源。据估算,仅术后严重并发症就会使单患者医疗成本增加30%以上;
  • 干预精准度低:现有围术期干预多依赖医生主观判断,缺乏可靠的风险评估工具区分“高风险需强化干预”与“低风险常规护理”患者,导致资源浪费或干预不足。

近年来,AI预测模型在医疗领域快速发展,但其在外科围术期的应用存在明显瓶颈:

  1. 数据碎片化:多数模型依赖单中心小样本数据,缺乏全国性登记数据的广度与真实性;
  2. 临床整合难:模型输出与电子健康记录(EHR)脱节,无法嵌入术前规划 workflow;
  3. 效益未验证:仅关注模型性能(如AUROC),未评估临床落地后的实际效果(如并发症是否降低)及成本效益。

本研究正是针对这些痛点,通过“全国登记数据建模型、单中心验证落地、临床结局+成本双评估”的路径,为AI在外科精准医疗的落地提供了“可复制、可推广”的范式。

研究内容与方法

本研究采用“四步走”策略:问题梳理→模型开发→临床落地→效果评估,核心围绕“AI预测模型+个性化治疗路径”的构建与验证,具体方法如下:

数据集构建:从全国登记到单中心临床

研究团队整合了“宏观全国数据”与“微观单中心数据”,确保模型的泛化性与临床贴合度,详细信息如下表:

队列类型 样本量 时间范围 数据来源 核心用途 排除标准(关键)
国家登记队列(NRC) 18,403例 2014.1-2019.4 丹麦结直肠癌组(DCCG)+ 国家患者登记库(DNPR)+ 处方登记库(DPR)+ 实验室结果库(RLRR) 模型开发(75%,13,803例)、内部验证(25%,4,600例) 紧急手术、无根治性手术指征(如cM1转移)、术前需其他肿瘤治疗、良性疾病、拒绝手术
回顾性临床队列(RCC) 806例 2020.1-2023.1 西兰大学医院EHR(电子病历) 模型外部验证、与PCC的临床结局对照(标准护理组) 同NRC,额外排除数据不完整病例(如缺失关键实验室指标)
前瞻性临床队列(PCC) 194例 2023.2-2023.12 西兰大学医院EHR+REDCap数据库(前瞻性记录) 接受AI指导的个性化围术期治疗(干预组),评估临床效果与成本效益 紧急手术、术前需额外评估/治疗、不符合根治性手术指征

研究流程图

数据标准化处理

  • 所有登记数据统一转换为OMOP通用数据模型(CDM),确保不同来源数据的一致性;
  • 缺失值处理:BMI、烟酒史等分类变量用“缺失”标签标注;诊断/药物/手术等变量“无记录即视为无”;连续变量(如血红蛋白、肌酐)用登记数据的中位数填充;
  • 质量控制:由临床医生与数据科学家共同审核数据映射,每10例随机抽查1例确保准确性。

AI预测模型开发:聚焦1年死亡风险,用LASSO回归平衡性能与可解释性

研究团队选择“术后1年全因死亡”作为预测结局,因其数据通过丹麦民事登记系统易于获取且可靠,通过以下步骤构建模型:

1. 结局与协变量定义
  • 预测结局:术后1年全因死亡(从手术日起至术后365天,由丹麦民事登记系统确认);
  • 协变量筛选
    1. 初始候选变量:8,694个(涵盖人口学、合并症、肿瘤特征、实验室指标、手术方式等);
    2. 筛选策略:“数据驱动+临床监督”结合——先通过标准化均值差排序,再由结直肠外科医生、麻醉医生、流行病学家组成团队,剔除无临床意义或冗余变量;
    3. 最终变量:58个(如年龄、Charlson合并症指数、WHO体力状态、UICC肿瘤分期、ASA分级、术前血红蛋白、手术路径(腹腔镜/开腹)等)。
2. 模型训练与验证
  • 模型选择:采用LASSO逻辑回归(最小绝对收缩与选择算子),原因是:① 可自动收缩冗余变量系数至0,避免过拟合;② 输出系数可解释,便于临床医生理解风险贡献因素;
  • 训练流程
    1. 数据拆分:NRC按7:3比例分为开发集(13,803例)与内部验证集(4,600例),拆分时按结局(1年死亡)分层,确保两组结局分布一致;
    2. 交叉验证:开发集内采用5折交叉验证,优化LASSO的正则化参数(λ);
    3. 外部验证:用RCC(806例)评估模型在“非开发数据+单中心临床场景”的性能;
  • 性能评估指标
    • 区分度:ROC曲线下面积(AUROC);
    • 校准度:观察事件率与预测事件率的比值(O/E)、Brier评分(越接近0越好,衡量预测误差);
    • 临床实用性:阳性预测值(PPV)、阴性预测值(NPV)、灵敏度、特异度(以预测风险15%为阈值)。

模型性能指标表

3. 风险分组定义(为个性化治疗铺路)

根据模型预测的1年死亡风险,将患者分为4组,用于指导干预强度:

  • A组:≤1%(低风险);
  • B组:>1%且≤5%(中低风险);
  • C组:>5%且≤15%(中高风险);
  • D组:>15%(高风险)。

个性化围术期治疗路径:干预强度随风险递增

研究团队为4个风险组设计了“标准化干预包”,核心原则是“风险越高,干预越密集”,且所有干预均基于现有临床证据(如ERAS指南、术前康复研究),具体如下:

风险组 核心干预措施(术前+术中+术后)
A组(低风险) 常规ERAS护理:术前饮食指导、术后早期活动;术中标准补液;术后无额外监测。
B组(中低风险) 在A组基础上增加:术前营养筛查(若白蛋白<35g/L则补充蛋白粉)、术后每日物理治疗。
C组(中高风险) 在B组基础上增加:术前3周监督式运动训练(如高强度间歇训练)、术前纠正贫血(静脉补铁)、术中目标导向液体治疗(基于心输出量监测)、术后48小时内delirium(谵妄)筛查。
D组(高风险) 在C组基础上增加:术前老年综合评估(若有认知障碍则提前干预)、术后24小时转入术后监护单元(POCU)、每2小时外科医生/麻醉医生联合评估、术后72小时内持续目标导向治疗。

临床实施流程

  1. 术前评估:患者转诊至多学科团队(MDT)前,由主治医生通过EHR提取数据,输入AI工具计算风险组;
  2. 干预匹配:MDT根据AI推荐的风险组,匹配对应的干预包(医生可根据临床判断微调,如A组患者合并糖尿病可升级为B组干预);
  3. 术后随访:所有患者术后90天内记录并发症、再入院情况,1年随访死亡率。

统计与成本效益分析方法

1. 临床结局分析
  • 主要结局:术后90天内综合并发症指数(CCI)>20(CCI评分越高,并发症越严重,>20代表严重并发症);
  • 次要结局:术后90天内任何医疗并发症(如感染、心血管事件)、术后并发症总数、术后90天内再入院次数;
  • 统计模型
    • 二元结局(如CCI>20、医疗并发症):采用logistic回归,计算比值比(OR)及95%置信区间(CI);
    • 计数结局(如并发症数、再入院数):采用负二项回归(因数据存在过离散),计算发生率比(IRR);
    • 调整变量:所有模型均调整风险组分布,排除“风险组差异导致结局变化”的干扰。
2. 成本效益分析
  • 模型类型:采用“混合决策树-马尔可夫模型”,时间 horizon 为术后1年;
  • 成本计算
    • 成本范围:涵盖住院费(按丹麦DRG tariff计算)、门诊费、全科医生诊疗费、处方药费、干预相关费用(如物理治疗、静脉补铁);
    • 数据来源:NRC的医疗消耗数据+PCC的实际干预成本,按2023年美元汇率换算;
  • 健康效益:采用质量调整生命年(QALYs),基于EQ-5D-5L问卷(139例PCC患者填写)计算;
  • 敏感性分析:通过10,000次蒙特卡洛模拟,评估参数不确定性对结果的影响。

实验结果分析

研究从“模型性能”“临床结局改善”“成本效益”三个维度验证了AI指导的个性化治疗价值,核心结果如下:

AI模型性能可靠:区分度与校准度均达标

模型在开发集、内部验证集、外部验证集的关键性能指标如下:

性能指标 开发集(n=13,803) 内部验证集(n=4,600) 外部验证集(n=806)
AUROC(区分度) 0.82(95%CI:0.81-0.84) 0.77(95%CI:0.74-0.80) 0.79(95%CI:0.71-0.87)
Brier评分(误差) 0.043(0.040-0.046) 0.046(0.041-0.051) 0.044(0.034-0.056)
O/E(校准度) 1.00(0.93-1.07) 1.02(0.90-1.15) 0.80(0.58-1.03)
PPV(阈值15%) 0.27(0.24-0.30) 0.22(0.18-0.27) 0.22(0.14-0.32)
NPV(阈值15%) 0.97(0.96-0.97) 0.96(0.96-0.97) 0.97(0.96-0.98)
  • 关键结论
    1. 区分度良好:外部验证集AUROC=0.79,高于多数结直肠癌手术风险预测模型(通常AUROC<0.75);
    2. 校准度可接受:开发集与内部验证集O/E接近1(理想值),仅外部验证集略低(0.80),但95%CI包含1,无显著偏差;
    3. 临床实用:NPV高达97%,意味着模型预测“低风险”的患者,实际1年死亡风险确实低,可安全采用常规护理。

图b:模型ROC曲线,含三个数据集的ROC曲线及95%CI   图c:模型校准曲线,含开发集与内部验证集的观察率vs预测率

个性化治疗显著降低术后不良结局

对比RCC(标准护理组)与PCC(AI指导个性化治疗组)的结局,核心结果如下:

1. 主要结局:CCI>20(严重并发症)显著减少
  • 个性化治疗组(PCC):19.1%(37/194);
  • 标准护理组(RCC):28.0%(226/806);
  • 调整风险组后OR=0.63(95%CI:0.42-0.92,P=0.02)——意味着个性化治疗可使严重并发症风险降低37%。
2. 次要结局:医疗并发症与再入院率双降
  • 任何医疗并发症
    • PCC:23.7%(46/194);
    • RCC:37.3%(299/806);
    • 调整后OR=0.53(95%CI:0.36-0.76,P<0.001)——风险降低47%;
  • 术后并发症总数
    • PCC发生率:0.48次/90天;
    • RCC发生率:0.76次/90天;
    • 调整后IRR=0.66(95%CI:0.50-0.87,P=0.003)——并发症数量减少34%;
  • 术后再入院次数
    • PCC:0.2次/90天;
    • RCC:0.31次/90天;
    • 调整后IRR=0.66(95%CI:0.44-0.98,P=0.041)——再入院风险降低34%。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
临床结局对比图:a.CCI>20对比;b.医疗并发症对比;c.并发症数对比;d.再入院数对比

成本效益显著:人均年节省2847美元,还能提升健康效益

  • 成本对比
    • 标准护理组:人均1年医疗成本28,006.94美元;
    • 个性化治疗组:人均1年医疗成本25,159.36美元;
    • 人均年节省:2,847.59美元(95%CI:2,810.32-2,884.00);
  • 健康效益
    • 个性化治疗组人均QALYs增益:0.020(95%CI:0.020-0.020)——相当于每年多获得7.3天的“高质量生命”;
  • 敏感性分析
    • 96.56%的模拟场景中,个性化治疗“成本更低+健康效益更高”(即“占优”标准护理),证实结果稳健。

论文的优势与局限

主要优势

  1. 临床落地性强:模型基于EHR可获取的数据构建,部署时通过安全云平台接入医院系统,医生操作流程简单(输入数据→获取风险组→匹配干预),且干预包基于现有临床证据,易推广;
  2. 结局与效益双验证:不仅证明模型性能好,更关键是临床落地后“并发症实实在在降低”,且成本效益显著,解决了AI模型“只好看不实用”的痛点;
  3. 可扩展性高:基于标准化OMOP数据模型开发,若其他国家/地区有类似登记数据,可快速适配;且预测框架可迁移至胃癌、肝癌等其他外科手术;
  4. 多学科协作保障:全程由外科医生、麻醉医生、数据科学家、流行病学家、卫生经济学家参与,确保模型“从临床中来,到临床中去”。

仍需关注的局限

  1. 非随机对照设计:采用“前后对照”(RCC为前,PCC为后),无法完全排除“时间推移导致的混杂因素”(如术后护理流程改进),虽调整了风险组,但仍不能确定个性化治疗与结局改善的因果关系;
  2. 单中心前瞻性队列样本量小:PCC仅194例,可能导致某些亚组(如D组仅10例)的结局分析说服力不足,需多中心大样本验证;
  3. 模型高风险组过预测:在预测风险>10%的患者中,模型预测的死亡风险略高于实际观察值(如内部验证集风险>10%时,预测率比观察率高10%-15%),虽临床可接受(过度干预比干预不足更安全),但仍需优化;
  4. 数据代表性局限:NRC基于丹麦人群,种族、医疗体系与其他国家(如中国)差异较大,直接推广需本土化验证。

参考文献

  1. 《Global burden of postoperative death》(Nepogodiev D et al., Lancet 2019)该研究首次量化全球术后死亡负担,指出术后死亡是全球第三大死因,其中结直肠癌等腹部手术的术后死亡率尤其需关注;为本研究“结直肠癌手术术后不良结局是重要临床问题”提供了全球视角的证据支撑,明确研究的必要性。

  2. 《Effect of multimodal prehabilitation on reducing postoperative complications and enhancing functional capacity following colorectal cancer surgery: the PREHAB randomized clinical trial》(Molenaar CJL et al., JAMA Surg 2023)这是一项随机对照试验,证实“多模态术前康复”(如运动、营养支持)可降低结直肠癌手术术后并发症发生率;本研究的个性化干预包(如C组、D组的术前运动训练、营养补充)正是基于该研究的证据设计,确保干预措施的有效性。

  3. 《Validation of the Danish Colorectal Cancer Group (DCCG.dk) database》(Klein MF et al., Colorectal Dis 2020)该研究验证了丹麦结直肠癌组(DCCG)数据库的数据真实性,指出其覆盖丹麦99%的结直肠癌手术患者,诊断、手术、结局数据的准确性>90%;为本研究NRC队列(核心数据来源)的可靠性提供了关键支撑,确保模型开发的数据源质量。

  4. 《Artificial intelligence and surgical decisionmaking》(Loftus TJ et al., JAMA Surg 2020)该综述总结了AI在外科决策中的应用现状与挑战,指出“AI模型缺乏临床整合与效益验证”是主要瓶颈;本研究正是针对该综述提出的挑战,通过“临床落地+结局+成本验证”,填补了AI在外科围术期决策中的应用 gap。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐