在互联网产品中,“更多使用→更多数据→更好产品→更多使用”的数据飞轮常被视为增长的通用范式。但将这套逻辑直接套用到医疗 AI 往往失灵:即便系统被更广泛地部署,数据也未必以可训练、可迁移、可证明有效的形式回流;即便模型在统计指标上提升,也未必能转化为真实世界中的安全改进与可持续采用。医疗领域并非缺乏数据或缺乏需求,而是存在一组长期稳定的结构性约束,使得“飞轮”更慢、更受控,且更容易停摆。临床试验证据要求确实重要,但它更像高风险医疗应用的显性门槛;更根本的限制通常来自数据可得性与可用性、准入与更新机制、支付激励结构、责任风险分配,以及临床工作流与组织治理的共同作用。

一、使用量并不自动转化为可用数据:医疗数据的“产出机制”与互联网不同

数据飞轮成立的前提,是“使用”能稳定产生可用于改进产品的高质量训练信号。医疗场景对此前提并不友好。首先,医疗中的“真值标签”昂贵且滞后。许多任务的金标准来自专家判读、病理结果、随访结局或多学科共识,获取周期以周、月甚至年计,且成本显著。使用量上升带来的往往是更多过程数据,而非更多可验证的结果数据;缺乏可对齐的标签,模型难以获得有效的学习增量。

其次,医疗数据强混杂、反事实缺失。模型建议是否被采纳、医生如何调整方案、患者依从性与合并症差异,都使得“更多使用”产生的数据包含大量选择偏差与不可观测因素。即使模型在真实世界中被频繁调用,回流数据也不一定能回答“模型是否带来了改善”这一因果问题,反而可能固化既有实践偏差。

再次,站点差异与分布漂移显著。不同医院的设备参数、编码习惯、流程路径、患者结构差异很大,导致跨机构数据的异质性远高于多数消费互联网场景。规模扩大确实会带来数据增量,但也会带来更强的分布复杂度;没有相应的数据治理与分层建模能力,数据量增加并不保证性能单调提升,甚至可能带来不可预测的退化。

更关键的是,医疗中的错误成本高。互联网产品可以通过快速迭代和大规模在线试验来“以错换快”,医疗场景则很难容忍这种学习方式。一旦模型偏差在规模化中被放大,可能触发更严格的审查、更保守的部署策略和更强的人工复核要求,从而直接降低使用频次与反馈质量,形成“反向飞轮”。

二、临床试验证据:重要的门槛,但更多决定速度而非决定能否起步

医疗 AI 的证据要求之所以突出,是因为许多系统并非“信息展示工具”,而是可能改变分诊、用药、手术、监测干预等关键决策的高风险干预。对于这类系统,仅凭回顾性准确率或内部验证不足以支撑安全性与有效性主张。前瞻性研究,甚至随机对照试验,在不少情况下是合理且必要的,因为它们更接近回答“是否改善结局、是否引入新的风险”这一临床与监管关切。

但把临床试验视为医疗 AI 飞轮的“唯一刹车”容易过度简化。首先,证据并不总等同于 RCT。低风险、工作流导向、对诊疗决策影响有限的系统,常通过前瞻性验证、真实世界证据与持续监测建立可信度。其次,即便接受试验与验证的必要性,也应看到它更像“迭代节奏的约束”:它决定模型更新需要多严密的变更控制、如何发布新版本、能否持续学习,而不一定是“是否能形成数据回流”的第一性问题。换言之,证据门槛更多决定飞轮能转多快、转得多受控,而不是解释为什么许多项目连初始规模化都难以实现。

三、更深层的限制在“机制”而非“方法”:数据、准入、支付、责任共同决定飞轮能否闭环

要让数据飞轮闭环,必须同时满足四个条件:数据能获取、产品能进入、使用有激励、风险可承受。在医疗中,这四项常常同时成为瓶颈。

数据可得性与可用性通常是起点约束。医疗数据高度碎片化,分散在 EMR、PACS、LIS、随访系统与第三方平台之间,标准不一、接口复杂。即使名义上“有数据”,也可能缺少一致的定义、关键字段缺失、时间戳不可追溯、结局无法闭环,导致训练价值大幅下降。更现实的问题是跨机构汇聚数据的合规、合同与治理成本高,审批周期长,直接拖慢数据积累速度。没有稳定、可追溯、可链接结局的数据供应链,“更多使用”很难转化为“更多可学习的数据”。

准入与更新机制决定迭代方式。医疗 AI 尤其是高风险系统,通常需要严格的质量体系、版本锁定、变更控制与再验证流程。许多机构对“模型悄然变化”高度敏感,倾向于要求固定版本与明确的上线范围。这使得互联网式的在线学习与快速发布难以实施,飞轮被迫转化为“离线训练—受控发布—再评估”的周期性机制。即便数据回流存在,模型更新也常受限于合规与组织治理节奏。

支付与激励结构决定是否会出现持续扩张的“更多使用”。医疗采购与临床收益往往不在同一账本上:采购成本可能由医院信息部门承担,而收益体现在医保支出、患者结局或医生时间节省上。若缺乏明确的报销路径、计费代码或价值分配机制,产品即使有效也难以被大规模、持续地使用。没有可持续的支付闭环,数据飞轮的“使用”环节就无法自然增长。

责任与风险分配决定组织是否敢把系统推到临床核心。AI 参与诊疗决策时,误诊、漏诊、延误治疗等责任如何在医生、医院、厂商与部署方之间划分,实践中常不清晰。为降低法律与声誉风险,机构往往引入更强的人工复核、限定场景、降低系统在决策链中的权重。这些措施在安全上合理,却会削弱系统对结局的影响、降低使用频次与可量化收益,进而削弱飞轮动力。

四、医疗 AI 的“飞轮”并非不存在,而是更慢、更分化:两类路径的现实差异

基于上述约束,医疗 AI 更可能形成两种不同的“慢飞轮”。第一类是工作流与运营导向的飞轮:系统介入低风险流程,标签相对明确、反馈更及时,例如文书与编码质控、流程分诊、资源调度、影像工作列表优化等。这类产品更容易实现“效率提升→渗透提升→流程数据增多”的闭环,证据门槛相对可控,更新也更接近传统软件节奏。

第二类是诊疗核心导向的飞轮:系统影响临床决策或治疗路径,必须建立更强的有效性与安全性证据,依赖结局闭环与前瞻性验证,并受严格变更控制约束。这类飞轮并非不可能,但更像“受控部署→积累真实世界证据与站点适配数据→版本升级→扩大适应证与站点”的年度节奏,而不是互联网意义上的高频自我强化循环。

这一区分意味着,讨论“医疗是否难以形成数据飞轮”必须具体到场景。把所有医疗 AI 视为同一类产品会误判:真正困难的通常不是“是否有数据”,而是能否在合规、支付与责任的框架内,把数据变成可信证据、把证据变成规模化使用,再把规模化使用变成可学习的高质量回流。

五、结论:临床证据像刹车系统,决定安全边界;更根本的是发动机与传动系统能否成立

医疗 AI 的数据飞轮之所以难以呈现互联网式的高速自增强,原因不在单一要素,而在结构性组合约束。临床试验证据要求确实会显著降低迭代频率,尤其在高风险应用中不可回避;但它更多规定“如何安全地更新与扩展”,并不充分解释“为什么许多系统难以规模化、难以形成可用数据回流”。更根本的决定因素往往是:高质量数据的供给与治理成本、准入与模型更新的制度安排、支付与激励是否对齐、责任与风险是否可承受,以及工作流集成与组织信任能否建立。

因此,对医疗 AI 的更现实判断是:数据飞轮可以存在,但通常更慢、更受控、更依赖制度与经济机制的配套,而非仅靠技术性能或使用规模自发形成。把飞轮当作必然结果,会低估医疗体系的治理逻辑与风险约束;把飞轮当作不可能,也会忽视在低风险流程与受控临床场景中逐步建立证据与闭环的现实路径。客观地看,医疗 AI 的核心挑战往往是系统工程与机制设计,而不是单点算法能力。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐