Nature Medicine IF=58.7 | AI预测模型落地结直肠癌手术：个性化围手术期治疗降低32%并发症，还能省2800美元/患者

预测结局：术后1年全因死亡（从手术日起至术后365天，由丹麦民事登记系统确认）；协变量筛选初始候选变量：8,694个（涵盖人口学、合并症、肿瘤特征、实验室指标、手术方式等）；筛选策略：“数据驱动+临床监督”结合——先通过标准化均值差排序，再由结直肠外科医生、麻醉医生、流行病学家组成团队，剔除无临床意义或冗余变量；最终变量：58个（如年龄、Charlson合并症指数、WHO体力状态、UICC肿瘤分期

柳叶方舟

1061人浏览 · 2026-02-25 12:35:21

柳叶方舟 · 2026-02-25 12:35:21 发布

引言

结直肠癌手术的术后不良结局（如并发症、死亡）是导致患者生存率下降、肿瘤预后变差及医疗成本飙升的关键因素。尽管外科技术和围术期护理不断进步，但如何精准识别高风险患者、匹配个性化干预方案，仍是临床一大难题——传统风险评估工具单一，且资源限制导致干预难以精准落地。

本文解读的最新研究《Clinical implementation of an AI-based prediction model for decision support for patients undergoing colorectal cancer surgery》，正是为解决这一痛点而来。丹麦研究团队基于1.8万例全国登记数据开发并验证了AI风险预测模型，通过“风险分层-个性化干预”的路径，在临床落地后显著降低了术后并发症发生率，同时经短期卫生经济学分析证实更具成本效益。这一研究不仅填补了AI模型从“实验室”到“临床”的落地 gap，更为结直肠癌手术的精准医疗提供了可复制的技术框架。

基本信息

在这里插入图片描述

文章题目：《Clinical implementation of an AI-based prediction model for decision support for patients undergoing colorectal cancer surgery》
来源期刊：Nature Medicine
影响因子：IF=58.7
发表时间：2025年9月18日
研究单位：丹麦西兰大学医院（主导）、哥本哈根大学、南丹麦大学等
GitHub地址：https://github.com/CenterForSurgicalScienceDenmark/aidSurg/
数据集：三类核心队列，总样本量超2万例
1. 国家登记队列（NRC）：18,403例，2014.1-2019.4丹麦全国结直肠癌手术患者，用于模型开发与内部验证；
2. 回顾性临床队列（RCC）：806例，2020.1-2023.1单中心（西兰大学医院）手术患者，用于模型外部验证及临床结局对照；
3. 前瞻性临床队列（PCC）：194例，2023.2-2023.12单中心手术患者，接受AI指导的个性化围术期治疗，为干预组。

研究背景与意义

结直肠癌是全球高发恶性肿瘤， elective（非紧急）手术是其根治性治疗的核心手段，但术后不良结局仍是临床“老大难”：

临床负担重：术后并发症（如感染、出血、肠瘘）发生率高达30%-40%，不仅导致1年死亡率升高，还会恶化肿瘤长期预后（如增加复发风险）；
医疗成本高：术后并发症相关的额外治疗、延长住院、再入院等，每年消耗大量医疗资源。据估算，仅术后严重并发症就会使单患者医疗成本增加30%以上；
干预精准度低：现有围术期干预多依赖医生主观判断，缺乏可靠的风险评估工具区分“高风险需强化干预”与“低风险常规护理”患者，导致资源浪费或干预不足。

近年来，AI预测模型在医疗领域快速发展，但其在外科围术期的应用存在明显瓶颈：

数据碎片化：多数模型依赖单中心小样本数据，缺乏全国性登记数据的广度与真实性；
临床整合难：模型输出与电子健康记录（EHR）脱节，无法嵌入术前规划 workflow；
效益未验证：仅关注模型性能（如AUROC），未评估临床落地后的实际效果（如并发症是否降低）及成本效益。

本研究正是针对这些痛点，通过“全国登记数据建模型、单中心验证落地、临床结局+成本双评估”的路径，为AI在外科精准医疗的落地提供了“可复制、可推广”的范式。

研究内容与方法

本研究采用“四步走”策略：问题梳理→模型开发→临床落地→效果评估，核心围绕“AI预测模型+个性化治疗路径”的构建与验证，具体方法如下：

数据集构建：从全国登记到单中心临床

研究团队整合了“宏观全国数据”与“微观单中心数据”，确保模型的泛化性与临床贴合度，详细信息如下表：

队列类型	样本量	时间范围	数据来源	核心用途	排除标准（关键）
国家登记队列（NRC）	18,403例	2014.1-2019.4	丹麦结直肠癌组（DCCG）+ 国家患者登记库（DNPR）+ 处方登记库（DPR）+ 实验室结果库（RLRR）	模型开发（75%，13,803例）、内部验证（25%，4,600例）	紧急手术、无根治性手术指征（如cM1转移）、术前需其他肿瘤治疗、良性疾病、拒绝手术
回顾性临床队列（RCC）	806例	2020.1-2023.1	西兰大学医院EHR（电子病历）	模型外部验证、与PCC的临床结局对照（标准护理组）	同NRC，额外排除数据不完整病例（如缺失关键实验室指标）
前瞻性临床队列（PCC）	194例	2023.2-2023.12	西兰大学医院EHR+REDCap数据库（前瞻性记录）	接受AI指导的个性化围术期治疗（干预组），评估临床效果与成本效益	紧急手术、术前需额外评估/治疗、不符合根治性手术指征

研究流程图

数据标准化处理：

所有登记数据统一转换为OMOP通用数据模型（CDM），确保不同来源数据的一致性；
缺失值处理：BMI、烟酒史等分类变量用“缺失”标签标注；诊断/药物/手术等变量“无记录即视为无”；连续变量（如血红蛋白、肌酐）用登记数据的中位数填充；
质量控制：由临床医生与数据科学家共同审核数据映射，每10例随机抽查1例确保准确性。

AI预测模型开发：聚焦1年死亡风险，用LASSO回归平衡性能与可解释性

研究团队选择“术后1年全因死亡”作为预测结局，因其数据通过丹麦民事登记系统易于获取且可靠，通过以下步骤构建模型：

1. 结局与协变量定义

预测结局：术后1年全因死亡（从手术日起至术后365天，由丹麦民事登记系统确认）；
协变量筛选：
1. 初始候选变量：8,694个（涵盖人口学、合并症、肿瘤特征、实验室指标、手术方式等）；
2. 筛选策略：“数据驱动+临床监督”结合——先通过标准化均值差排序，再由结直肠外科医生、麻醉医生、流行病学家组成团队，剔除无临床意义或冗余变量；
3. 最终变量：58个（如年龄、Charlson合并症指数、WHO体力状态、UICC肿瘤分期、ASA分级、术前血红蛋白、手术路径（腹腔镜/开腹）等）。

2. 模型训练与验证

模型选择：采用LASSO逻辑回归（最小绝对收缩与选择算子），原因是：① 可自动收缩冗余变量系数至0，避免过拟合；② 输出系数可解释，便于临床医生理解风险贡献因素；
训练流程：
1. 数据拆分：NRC按7:3比例分为开发集（13,803例）与内部验证集（4,600例），拆分时按结局（1年死亡）分层，确保两组结局分布一致；
2. 交叉验证：开发集内采用5折交叉验证，优化LASSO的正则化参数（λ）；
3. 外部验证：用RCC（806例）评估模型在“非开发数据+单中心临床场景”的性能；
性能评估指标：
- 区分度：ROC曲线下面积（AUROC）；
- 校准度：观察事件率与预测事件率的比值（O/E）、Brier评分（越接近0越好，衡量预测误差）；
- 临床实用性：阳性预测值（PPV）、阴性预测值（NPV）、灵敏度、特异度（以预测风险15%为阈值）。

模型性能指标表

3. 风险分组定义（为个性化治疗铺路）

根据模型预测的1年死亡风险，将患者分为4组，用于指导干预强度：

A组：≤1%（低风险）；
B组：>1%且≤5%（中低风险）；
C组：>5%且≤15%（中高风险）；
D组：>15%（高风险）。

个性化围术期治疗路径：干预强度随风险递增

研究团队为4个风险组设计了“标准化干预包”，核心原则是“风险越高，干预越密集”，且所有干预均基于现有临床证据（如ERAS指南、术前康复研究），具体如下：

风险组	核心干预措施（术前+术中+术后）
A组（低风险）	常规ERAS护理：术前饮食指导、术后早期活动；术中标准补液；术后无额外监测。
B组（中低风险）	在A组基础上增加：术前营养筛查（若白蛋白<35g/L则补充蛋白粉）、术后每日物理治疗。
C组（中高风险）	在B组基础上增加：术前3周监督式运动训练（如高强度间歇训练）、术前纠正贫血（静脉补铁）、术中目标导向液体治疗（基于心输出量监测）、术后48小时内delirium（谵妄）筛查。
D组（高风险）	在C组基础上增加：术前老年综合评估（若有认知障碍则提前干预）、术后24小时转入术后监护单元（POCU）、每2小时外科医生/麻醉医生联合评估、术后72小时内持续目标导向治疗。

临床实施流程：

术前评估：患者转诊至多学科团队（MDT）前，由主治医生通过EHR提取数据，输入AI工具计算风险组；
干预匹配：MDT根据AI推荐的风险组，匹配对应的干预包（医生可根据临床判断微调，如A组患者合并糖尿病可升级为B组干预）；
术后随访：所有患者术后90天内记录并发症、再入院情况，1年随访死亡率。

统计与成本效益分析方法

1. 临床结局分析

主要结局：术后90天内综合并发症指数（CCI）>20（CCI评分越高，并发症越严重，>20代表严重并发症）；
次要结局：术后90天内任何医疗并发症（如感染、心血管事件）、术后并发症总数、术后90天内再入院次数；
统计模型：
- 二元结局（如CCI>20、医疗并发症）：采用logistic回归，计算比值比（OR）及95%置信区间（CI）；
- 计数结局（如并发症数、再入院数）：采用负二项回归（因数据存在过离散），计算发生率比（IRR）；
- 调整变量：所有模型均调整风险组分布，排除“风险组差异导致结局变化”的干扰。

2. 成本效益分析

模型类型：采用“混合决策树-马尔可夫模型”，时间 horizon 为术后1年；
成本计算：
- 成本范围：涵盖住院费（按丹麦DRG tariff计算）、门诊费、全科医生诊疗费、处方药费、干预相关费用（如物理治疗、静脉补铁）；
- 数据来源：NRC的医疗消耗数据+PCC的实际干预成本，按2023年美元汇率换算；
健康效益：采用质量调整生命年（QALYs），基于EQ-5D-5L问卷（139例PCC患者填写）计算；
敏感性分析：通过10,000次蒙特卡洛模拟，评估参数不确定性对结果的影响。

实验结果分析

研究从“模型性能”“临床结局改善”“成本效益”三个维度验证了AI指导的个性化治疗价值，核心结果如下：

AI模型性能可靠：区分度与校准度均达标

模型在开发集、内部验证集、外部验证集的关键性能指标如下：

性能指标	开发集（n=13,803）	内部验证集（n=4,600）	外部验证集（n=806）
AUROC（区分度）	0.82（95%CI：0.81-0.84）	0.77（95%CI：0.74-0.80）	0.79（95%CI：0.71-0.87）
Brier评分（误差）	0.043（0.040-0.046）	0.046（0.041-0.051）	0.044（0.034-0.056）
O/E（校准度）	1.00（0.93-1.07）	1.02（0.90-1.15）	0.80（0.58-1.03）
PPV（阈值15%）	0.27（0.24-0.30）	0.22（0.18-0.27）	0.22（0.14-0.32）
NPV（阈值15%）	0.97（0.96-0.97）	0.96（0.96-0.97）	0.97（0.96-0.98）

关键结论：
1. 区分度良好：外部验证集AUROC=0.79，高于多数结直肠癌手术风险预测模型（通常AUROC<0.75）；
2. 校准度可接受：开发集与内部验证集O/E接近1（理想值），仅外部验证集略低（0.80），但95%CI包含1，无显著偏差；
3. 临床实用：NPV高达97%，意味着模型预测“低风险”的患者，实际1年死亡风险确实低，可安全采用常规护理。

图b：模型ROC曲线，含三个数据集的ROC曲线及95%CI 图c：模型校准曲线，含开发集与内部验证集的观察率vs预测率

个性化治疗显著降低术后不良结局

对比RCC（标准护理组）与PCC（AI指导个性化治疗组）的结局，核心结果如下：

1. 主要结局：CCI>20（严重并发症）显著减少

个性化治疗组（PCC）：19.1%（37/194）；
标准护理组（RCC）：28.0%（226/806）；
调整风险组后OR=0.63（95%CI：0.42-0.92，P=0.02）——意味着个性化治疗可使严重并发症风险降低37%。

2. 次要结局：医疗并发症与再入院率双降

任何医疗并发症：
- PCC：23.7%（46/194）；
- RCC：37.3%（299/806）；
- 调整后OR=0.53（95%CI：0.36-0.76，P<0.001）——风险降低47%；
术后并发症总数：
- PCC发生率：0.48次/90天；
- RCC发生率：0.76次/90天；
- 调整后IRR=0.66（95%CI：0.50-0.87，P=0.003）——并发症数量减少34%；
术后再入院次数：
- PCC：0.2次/90天；
- RCC：0.31次/90天；
- 调整后IRR=0.66（95%CI：0.44-0.98，P=0.041）——再入院风险降低34%。

在这里插入图片描述

临床结局对比图：a.CCI>20对比；b.医疗并发症对比；c.并发症数对比；d.再入院数对比

成本效益显著：人均年节省2847美元，还能提升健康效益

成本对比：
- 标准护理组：人均1年医疗成本28,006.94美元；
- 个性化治疗组：人均1年医疗成本25,159.36美元；
- 人均年节省：2,847.59美元（95%CI：2,810.32-2,884.00）；
健康效益：
- 个性化治疗组人均QALYs增益：0.020（95%CI：0.020-0.020）——相当于每年多获得7.3天的“高质量生命”；
敏感性分析：
- 96.56%的模拟场景中，个性化治疗“成本更低+健康效益更高”（即“占优”标准护理），证实结果稳健。

论文的优势与局限

主要优势

临床落地性强：模型基于EHR可获取的数据构建，部署时通过安全云平台接入医院系统，医生操作流程简单（输入数据→获取风险组→匹配干预），且干预包基于现有临床证据，易推广；
结局与效益双验证：不仅证明模型性能好，更关键是临床落地后“并发症实实在在降低”，且成本效益显著，解决了AI模型“只好看不实用”的痛点；
可扩展性高：基于标准化OMOP数据模型开发，若其他国家/地区有类似登记数据，可快速适配；且预测框架可迁移至胃癌、肝癌等其他外科手术；
多学科协作保障：全程由外科医生、麻醉医生、数据科学家、流行病学家、卫生经济学家参与，确保模型“从临床中来，到临床中去”。

仍需关注的局限

非随机对照设计：采用“前后对照”（RCC为前，PCC为后），无法完全排除“时间推移导致的混杂因素”（如术后护理流程改进），虽调整了风险组，但仍不能确定个性化治疗与结局改善的因果关系；
单中心前瞻性队列样本量小：PCC仅194例，可能导致某些亚组（如D组仅10例）的结局分析说服力不足，需多中心大样本验证；
模型高风险组过预测：在预测风险>10%的患者中，模型预测的死亡风险略高于实际观察值（如内部验证集风险>10%时，预测率比观察率高10%-15%），虽临床可接受（过度干预比干预不足更安全），但仍需优化；
数据代表性局限：NRC基于丹麦人群，种族、医疗体系与其他国家（如中国）差异较大，直接推广需本土化验证。

参考文献

《Global burden of postoperative death》（Nepogodiev D et al., Lancet 2019）该研究首次量化全球术后死亡负担，指出术后死亡是全球第三大死因，其中结直肠癌等腹部手术的术后死亡率尤其需关注；为本研究“结直肠癌手术术后不良结局是重要临床问题”提供了全球视角的证据支撑，明确研究的必要性。
《Effect of multimodal prehabilitation on reducing postoperative complications and enhancing functional capacity following colorectal cancer surgery: the PREHAB randomized clinical trial》（Molenaar CJL et al., JAMA Surg 2023）这是一项随机对照试验，证实“多模态术前康复”（如运动、营养支持）可降低结直肠癌手术术后并发症发生率；本研究的个性化干预包（如C组、D组的术前运动训练、营养补充）正是基于该研究的证据设计，确保干预措施的有效性。
《Validation of the Danish Colorectal Cancer Group (DCCG.dk) database》（Klein MF et al., Colorectal Dis 2020）该研究验证了丹麦结直肠癌组（DCCG）数据库的数据真实性，指出其覆盖丹麦99%的结直肠癌手术患者，诊断、手术、结局数据的准确性>90%；为本研究NRC队列（核心数据来源）的可靠性提供了关键支撑，确保模型开发的数据源质量。
《Artificial intelligence and surgical decisionmaking》（Loftus TJ et al., JAMA Surg 2020）该综述总结了AI在外科决策中的应用现状与挑战，指出“AI模型缺乏临床整合与效益验证”是主要瓶颈；本研究正是针对该综述提出的挑战，通过“临床落地+结局+成本验证”，填补了AI在外科围术期决策中的应用 gap。