论文网址:MedOS: AI-XR-Cobot World Model for Clinical Perception and Action | medRxiv

项目地址:MedOS: AI-XR-Cobot World Model

目录

1. 心得

2. 论文逐段精读

2.1. Abstract

2.2. Introduction

2.3. Results

2.3.1. MedOS: An Agentic World Model across Digital and Physical Scales

2.3.2. MedOS Reasons Across Diverse Tasks and Democratizes Clinical Expertise

2.3.3. Training MedOS To See and Reason with Spatial Intelligence

2.3.4. MedOS Unlocks Spatial Intelligence for Physics-Aware Surgical Reasoning

2.3.5. Autonomous Robotic Control and XR-Enabled Human Collaboration

2.4. Discussion

1. 心得

(1)那个项目网站我就算科学上网了也点不了代码,申请了好像没有回复,求问哪里能拿到代码和数据集?只看文章有点偏向结果汇报了,感觉什么都看不出来学习不了TUT

2. 论文逐段精读

2.1. Abstract

        ①作者设计出世界模型/具身智能MedOS来预测物理世界手术未来中可能存在的潜在风险

        ②基准使用:MedSuperVision

2.2. Introduction

        ①医学尚未在动态场景中实现实时感知

        ②MedOS使用系统1处理快速风险决策,使用系统2去处理慢速宏观的人口统计和围术期决策

dexterity  n.灵巧;灵活;(思维)敏捷;(手)熟练    mimicry  n.模仿;模仿的技巧

toggle  n.切换键;(大衣或袋子等上木质或塑料的)栓扣钉,棒形纽扣,套索扣;转换键  v.(两种状态之间)切换,转换

instantiation  n.实例化

2.3. Results

2.3.1. MedOS: An Agentic World Model across Digital and Physical Scales

        ①MedOS构建一个统一医疗系统的多智能体协同世界模型:

其中A是MedOS分别在数字领域和现实领域的工作流程,B是MedQA上的测试,C是GPQA上的测试效果,D展示了推理时间和得分的关系

2.3.2. MedOS Reasons Across Diverse Tasks and Democratizes Clinical Expertise

        ①A展现了作者纳入的参与团队背景,B展示了在AI辅助下每个团队的诊断能力增强,C测试了MedOS自主研究临床问题的结果,D测试了MedOS对基因突变预测的情况,E展示了MedOS探究耐药性机制的有效性

2.3.3. Training MedOS To See and Reason with Spatial Intelligence

        ①构建一个MedSuperVision(MSV)数据集,由专家标注手术视频,视频来源于开放获取的教育资源。A可以看出,先汇总视频和视频叙述以及评论,再分帧和隐私处理,再双系统训练世界模型(基于Qwen3-VL-8B-Instruct,有监督微调SFT和组相对策略优化GRPO);B是手术视频类型和时长组成;C和D是MedOS和Gemini 3 pro在基准任务上的比较;E是模型在未见过数据集上的比较;F是专家对模型的打分比较

        ②视频总共由85398分钟,多个学科(主要肝胆和胃肠手术,也有泌尿、血管和胸外科),短片段(小于十分钟)和长片段(大于120分钟)(不过大多手术都在60~120分钟内)组成,一共有1882名临床专家解说了这些视频

2.3.4. MedOS Unlocks Spatial Intelligence for Physics-Aware Surgical Reasoning

        ①此图展示了MedOS的空间智能。A的QA看出模型可以探测出位置,B反应模型会力学原理,C中显示MedOS可以预测当前轨迹潜在风险(这个就给三张图太少了,得看点视频吧),D显示MedOS在空间关系推理等的召回率,E展示由1103名患者的3D世界重建(有什么额外的视频吗感觉这个只是重建,不是那种可以随意生成的世界模型)

2.3.5. Autonomous Robotic Control and XR-Enabled Human Collaboration

        ①得看上图。上图的F展示机器操作比人工操作更稳定,G是构建XR对手术的指导,可以对医生带来显著的帮助

2.4. Discussion

        。。。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐