Nature Medicine IF=58.7 | AI预测模型落地结直肠癌手术:个性化围手术期治疗降低32%并发症,还能省2800美元/患者
预测结局:术后1年全因死亡(从手术日起至术后365天,由丹麦民事登记系统确认);协变量筛选初始候选变量:8,694个(涵盖人口学、合并症、肿瘤特征、实验室指标、手术方式等);筛选策略:“数据驱动+临床监督”结合——先通过标准化均值差排序,再由结直肠外科医生、麻醉医生、流行病学家组成团队,剔除无临床意义或冗余变量;最终变量:58个(如年龄、Charlson合并症指数、WHO体力状态、UICC肿瘤分期
引言
结直肠癌手术的术后不良结局(如并发症、死亡)是导致患者生存率下降、肿瘤预后变差及医疗成本飙升的关键因素。尽管外科技术和围术期护理不断进步,但如何精准识别高风险患者、匹配个性化干预方案,仍是临床一大难题——传统风险评估工具单一,且资源限制导致干预难以精准落地。
本文解读的最新研究《Clinical implementation of an AI-based prediction model for decision support for patients undergoing colorectal cancer surgery》,正是为解决这一痛点而来。丹麦研究团队基于1.8万例全国登记数据开发并验证了AI风险预测模型,通过“风险分层-个性化干预”的路径,在临床落地后显著降低了术后并发症发生率,同时经短期卫生经济学分析证实更具成本效益。这一研究不仅填补了AI模型从“实验室”到“临床”的落地 gap,更为结直肠癌手术的精准医疗提供了可复制的技术框架。
基本信息

-
文章题目:《Clinical implementation of an AI-based prediction model for decision support for patients undergoing colorectal cancer surgery》
-
来源期刊:Nature Medicine
-
影响因子:IF=58.7
-
发表时间:2025年9月18日
-
研究单位:丹麦西兰大学医院(主导)、哥本哈根大学、南丹麦大学等
-
GitHub地址:https://github.com/CenterForSurgicalScienceDenmark/aidSurg/
-
数据集:三类核心队列,总样本量超2万例
- 国家登记队列(NRC):18,403例,2014.1-2019.4丹麦全国结直肠癌手术患者,用于模型开发与内部验证;
- 回顾性临床队列(RCC):806例,2020.1-2023.1单中心(西兰大学医院)手术患者,用于模型外部验证及临床结局对照;
- 前瞻性临床队列(PCC):194例,2023.2-2023.12单中心手术患者,接受AI指导的个性化围术期治疗,为干预组。
研究背景与意义
结直肠癌是全球高发恶性肿瘤, elective(非紧急)手术是其根治性治疗的核心手段,但术后不良结局仍是临床“老大难”:
- 临床负担重:术后并发症(如感染、出血、肠瘘)发生率高达30%-40%,不仅导致1年死亡率升高,还会恶化肿瘤长期预后(如增加复发风险);
- 医疗成本高:术后并发症相关的额外治疗、延长住院、再入院等,每年消耗大量医疗资源。据估算,仅术后严重并发症就会使单患者医疗成本增加30%以上;
- 干预精准度低:现有围术期干预多依赖医生主观判断,缺乏可靠的风险评估工具区分“高风险需强化干预”与“低风险常规护理”患者,导致资源浪费或干预不足。
近年来,AI预测模型在医疗领域快速发展,但其在外科围术期的应用存在明显瓶颈:
- 数据碎片化:多数模型依赖单中心小样本数据,缺乏全国性登记数据的广度与真实性;
- 临床整合难:模型输出与电子健康记录(EHR)脱节,无法嵌入术前规划 workflow;
- 效益未验证:仅关注模型性能(如AUROC),未评估临床落地后的实际效果(如并发症是否降低)及成本效益。
本研究正是针对这些痛点,通过“全国登记数据建模型、单中心验证落地、临床结局+成本双评估”的路径,为AI在外科精准医疗的落地提供了“可复制、可推广”的范式。
研究内容与方法
本研究采用“四步走”策略:问题梳理→模型开发→临床落地→效果评估,核心围绕“AI预测模型+个性化治疗路径”的构建与验证,具体方法如下:
数据集构建:从全国登记到单中心临床
研究团队整合了“宏观全国数据”与“微观单中心数据”,确保模型的泛化性与临床贴合度,详细信息如下表:
| 队列类型 | 样本量 | 时间范围 | 数据来源 | 核心用途 | 排除标准(关键) |
|---|---|---|---|---|---|
| 国家登记队列(NRC) | 18,403例 | 2014.1-2019.4 | 丹麦结直肠癌组(DCCG)+ 国家患者登记库(DNPR)+ 处方登记库(DPR)+ 实验室结果库(RLRR) | 模型开发(75%,13,803例)、内部验证(25%,4,600例) | 紧急手术、无根治性手术指征(如cM1转移)、术前需其他肿瘤治疗、良性疾病、拒绝手术 |
| 回顾性临床队列(RCC) | 806例 | 2020.1-2023.1 | 西兰大学医院EHR(电子病历) | 模型外部验证、与PCC的临床结局对照(标准护理组) | 同NRC,额外排除数据不完整病例(如缺失关键实验室指标) |
| 前瞻性临床队列(PCC) | 194例 | 2023.2-2023.12 | 西兰大学医院EHR+REDCap数据库(前瞻性记录) | 接受AI指导的个性化围术期治疗(干预组),评估临床效果与成本效益 | 紧急手术、术前需额外评估/治疗、不符合根治性手术指征 |

数据标准化处理:
- 所有登记数据统一转换为OMOP通用数据模型(CDM),确保不同来源数据的一致性;
- 缺失值处理:BMI、烟酒史等分类变量用“缺失”标签标注;诊断/药物/手术等变量“无记录即视为无”;连续变量(如血红蛋白、肌酐)用登记数据的中位数填充;
- 质量控制:由临床医生与数据科学家共同审核数据映射,每10例随机抽查1例确保准确性。
AI预测模型开发:聚焦1年死亡风险,用LASSO回归平衡性能与可解释性
研究团队选择“术后1年全因死亡”作为预测结局,因其数据通过丹麦民事登记系统易于获取且可靠,通过以下步骤构建模型:
1. 结局与协变量定义
- 预测结局:术后1年全因死亡(从手术日起至术后365天,由丹麦民事登记系统确认);
- 协变量筛选:
- 初始候选变量:8,694个(涵盖人口学、合并症、肿瘤特征、实验室指标、手术方式等);
- 筛选策略:“数据驱动+临床监督”结合——先通过标准化均值差排序,再由结直肠外科医生、麻醉医生、流行病学家组成团队,剔除无临床意义或冗余变量;
- 最终变量:58个(如年龄、Charlson合并症指数、WHO体力状态、UICC肿瘤分期、ASA分级、术前血红蛋白、手术路径(腹腔镜/开腹)等)。
2. 模型训练与验证
- 模型选择:采用LASSO逻辑回归(最小绝对收缩与选择算子),原因是:① 可自动收缩冗余变量系数至0,避免过拟合;② 输出系数可解释,便于临床医生理解风险贡献因素;
- 训练流程:
- 数据拆分:NRC按7:3比例分为开发集(13,803例)与内部验证集(4,600例),拆分时按结局(1年死亡)分层,确保两组结局分布一致;
- 交叉验证:开发集内采用5折交叉验证,优化LASSO的正则化参数(λ);
- 外部验证:用RCC(806例)评估模型在“非开发数据+单中心临床场景”的性能;
- 性能评估指标:
- 区分度:ROC曲线下面积(AUROC);
- 校准度:观察事件率与预测事件率的比值(O/E)、Brier评分(越接近0越好,衡量预测误差);
- 临床实用性:阳性预测值(PPV)、阴性预测值(NPV)、灵敏度、特异度(以预测风险15%为阈值)。

3. 风险分组定义(为个性化治疗铺路)
根据模型预测的1年死亡风险,将患者分为4组,用于指导干预强度:
- A组:≤1%(低风险);
- B组:>1%且≤5%(中低风险);
- C组:>5%且≤15%(中高风险);
- D组:>15%(高风险)。
个性化围术期治疗路径:干预强度随风险递增
研究团队为4个风险组设计了“标准化干预包”,核心原则是“风险越高,干预越密集”,且所有干预均基于现有临床证据(如ERAS指南、术前康复研究),具体如下:
| 风险组 | 核心干预措施(术前+术中+术后) |
|---|---|
| A组(低风险) | 常规ERAS护理:术前饮食指导、术后早期活动;术中标准补液;术后无额外监测。 |
| B组(中低风险) | 在A组基础上增加:术前营养筛查(若白蛋白<35g/L则补充蛋白粉)、术后每日物理治疗。 |
| C组(中高风险) | 在B组基础上增加:术前3周监督式运动训练(如高强度间歇训练)、术前纠正贫血(静脉补铁)、术中目标导向液体治疗(基于心输出量监测)、术后48小时内delirium(谵妄)筛查。 |
| D组(高风险) | 在C组基础上增加:术前老年综合评估(若有认知障碍则提前干预)、术后24小时转入术后监护单元(POCU)、每2小时外科医生/麻醉医生联合评估、术后72小时内持续目标导向治疗。 |
临床实施流程:
- 术前评估:患者转诊至多学科团队(MDT)前,由主治医生通过EHR提取数据,输入AI工具计算风险组;
- 干预匹配:MDT根据AI推荐的风险组,匹配对应的干预包(医生可根据临床判断微调,如A组患者合并糖尿病可升级为B组干预);
- 术后随访:所有患者术后90天内记录并发症、再入院情况,1年随访死亡率。
统计与成本效益分析方法
1. 临床结局分析
- 主要结局:术后90天内综合并发症指数(CCI)>20(CCI评分越高,并发症越严重,>20代表严重并发症);
- 次要结局:术后90天内任何医疗并发症(如感染、心血管事件)、术后并发症总数、术后90天内再入院次数;
- 统计模型:
- 二元结局(如CCI>20、医疗并发症):采用logistic回归,计算比值比(OR)及95%置信区间(CI);
- 计数结局(如并发症数、再入院数):采用负二项回归(因数据存在过离散),计算发生率比(IRR);
- 调整变量:所有模型均调整风险组分布,排除“风险组差异导致结局变化”的干扰。
2. 成本效益分析
- 模型类型:采用“混合决策树-马尔可夫模型”,时间 horizon 为术后1年;
- 成本计算:
- 成本范围:涵盖住院费(按丹麦DRG tariff计算)、门诊费、全科医生诊疗费、处方药费、干预相关费用(如物理治疗、静脉补铁);
- 数据来源:NRC的医疗消耗数据+PCC的实际干预成本,按2023年美元汇率换算;
- 健康效益:采用质量调整生命年(QALYs),基于EQ-5D-5L问卷(139例PCC患者填写)计算;
- 敏感性分析:通过10,000次蒙特卡洛模拟,评估参数不确定性对结果的影响。
实验结果分析
研究从“模型性能”“临床结局改善”“成本效益”三个维度验证了AI指导的个性化治疗价值,核心结果如下:
AI模型性能可靠:区分度与校准度均达标
模型在开发集、内部验证集、外部验证集的关键性能指标如下:
| 性能指标 | 开发集(n=13,803) | 内部验证集(n=4,600) | 外部验证集(n=806) |
|---|---|---|---|
| AUROC(区分度) | 0.82(95%CI:0.81-0.84) | 0.77(95%CI:0.74-0.80) | 0.79(95%CI:0.71-0.87) |
| Brier评分(误差) | 0.043(0.040-0.046) | 0.046(0.041-0.051) | 0.044(0.034-0.056) |
| O/E(校准度) | 1.00(0.93-1.07) | 1.02(0.90-1.15) | 0.80(0.58-1.03) |
| PPV(阈值15%) | 0.27(0.24-0.30) | 0.22(0.18-0.27) | 0.22(0.14-0.32) |
| NPV(阈值15%) | 0.97(0.96-0.97) | 0.96(0.96-0.97) | 0.97(0.96-0.98) |
- 关键结论:
- 区分度良好:外部验证集AUROC=0.79,高于多数结直肠癌手术风险预测模型(通常AUROC<0.75);
- 校准度可接受:开发集与内部验证集O/E接近1(理想值),仅外部验证集略低(0.80),但95%CI包含1,无显著偏差;
- 临床实用:NPV高达97%,意味着模型预测“低风险”的患者,实际1年死亡风险确实低,可安全采用常规护理。

个性化治疗显著降低术后不良结局
对比RCC(标准护理组)与PCC(AI指导个性化治疗组)的结局,核心结果如下:
1. 主要结局:CCI>20(严重并发症)显著减少
- 个性化治疗组(PCC):19.1%(37/194);
- 标准护理组(RCC):28.0%(226/806);
- 调整风险组后OR=0.63(95%CI:0.42-0.92,P=0.02)——意味着个性化治疗可使严重并发症风险降低37%。
2. 次要结局:医疗并发症与再入院率双降
- 任何医疗并发症:
- PCC:23.7%(46/194);
- RCC:37.3%(299/806);
- 调整后OR=0.53(95%CI:0.36-0.76,P<0.001)——风险降低47%;
- 术后并发症总数:
- PCC发生率:0.48次/90天;
- RCC发生率:0.76次/90天;
- 调整后IRR=0.66(95%CI:0.50-0.87,P=0.003)——并发症数量减少34%;
- 术后再入院次数:
- PCC:0.2次/90天;
- RCC:0.31次/90天;
- 调整后IRR=0.66(95%CI:0.44-0.98,P=0.041)——再入院风险降低34%。




临床结局对比图:a.CCI>20对比;b.医疗并发症对比;c.并发症数对比;d.再入院数对比
成本效益显著:人均年节省2847美元,还能提升健康效益
- 成本对比:
- 标准护理组:人均1年医疗成本28,006.94美元;
- 个性化治疗组:人均1年医疗成本25,159.36美元;
- 人均年节省:2,847.59美元(95%CI:2,810.32-2,884.00);
- 健康效益:
- 个性化治疗组人均QALYs增益:0.020(95%CI:0.020-0.020)——相当于每年多获得7.3天的“高质量生命”;
- 敏感性分析:
- 96.56%的模拟场景中,个性化治疗“成本更低+健康效益更高”(即“占优”标准护理),证实结果稳健。
论文的优势与局限
主要优势
- 临床落地性强:模型基于EHR可获取的数据构建,部署时通过安全云平台接入医院系统,医生操作流程简单(输入数据→获取风险组→匹配干预),且干预包基于现有临床证据,易推广;
- 结局与效益双验证:不仅证明模型性能好,更关键是临床落地后“并发症实实在在降低”,且成本效益显著,解决了AI模型“只好看不实用”的痛点;
- 可扩展性高:基于标准化OMOP数据模型开发,若其他国家/地区有类似登记数据,可快速适配;且预测框架可迁移至胃癌、肝癌等其他外科手术;
- 多学科协作保障:全程由外科医生、麻醉医生、数据科学家、流行病学家、卫生经济学家参与,确保模型“从临床中来,到临床中去”。
仍需关注的局限
- 非随机对照设计:采用“前后对照”(RCC为前,PCC为后),无法完全排除“时间推移导致的混杂因素”(如术后护理流程改进),虽调整了风险组,但仍不能确定个性化治疗与结局改善的因果关系;
- 单中心前瞻性队列样本量小:PCC仅194例,可能导致某些亚组(如D组仅10例)的结局分析说服力不足,需多中心大样本验证;
- 模型高风险组过预测:在预测风险>10%的患者中,模型预测的死亡风险略高于实际观察值(如内部验证集风险>10%时,预测率比观察率高10%-15%),虽临床可接受(过度干预比干预不足更安全),但仍需优化;
- 数据代表性局限:NRC基于丹麦人群,种族、医疗体系与其他国家(如中国)差异较大,直接推广需本土化验证。
参考文献
-
《Global burden of postoperative death》(Nepogodiev D et al., Lancet 2019)该研究首次量化全球术后死亡负担,指出术后死亡是全球第三大死因,其中结直肠癌等腹部手术的术后死亡率尤其需关注;为本研究“结直肠癌手术术后不良结局是重要临床问题”提供了全球视角的证据支撑,明确研究的必要性。
-
《Effect of multimodal prehabilitation on reducing postoperative complications and enhancing functional capacity following colorectal cancer surgery: the PREHAB randomized clinical trial》(Molenaar CJL et al., JAMA Surg 2023)这是一项随机对照试验,证实“多模态术前康复”(如运动、营养支持)可降低结直肠癌手术术后并发症发生率;本研究的个性化干预包(如C组、D组的术前运动训练、营养补充)正是基于该研究的证据设计,确保干预措施的有效性。
-
《Validation of the Danish Colorectal Cancer Group (DCCG.dk) database》(Klein MF et al., Colorectal Dis 2020)该研究验证了丹麦结直肠癌组(DCCG)数据库的数据真实性,指出其覆盖丹麦99%的结直肠癌手术患者,诊断、手术、结局数据的准确性>90%;为本研究NRC队列(核心数据来源)的可靠性提供了关键支撑,确保模型开发的数据源质量。
-
《Artificial intelligence and surgical decisionmaking》(Loftus TJ et al., JAMA Surg 2020)该综述总结了AI在外科决策中的应用现状与挑战,指出“AI模型缺乏临床整合与效益验证”是主要瓶颈;本研究正是针对该综述提出的挑战,通过“临床落地+结局+成本验证”,填补了AI在外科围术期决策中的应用 gap。
更多推荐



所有评论(0)