我们将使用苏格拉底式的提问方法,探讨“大模型+MCP+Skills,其中Skills接替RAG返回知识内容”在医疗行业的可行性。


第一步:澄清概念

1. 你提到的大模型、MCP、Skills、RAG 分别指什么?请你先明确一下这些术语在你心中的定义。
(我希望确认我们讨论的是同一件事:

  • 大模型:如 GPT-4、Claude 等通用基础模型。
  • MCP:模型上下文协议(Model Context Protocol),一种让模型调用外部工具/技能的开放协议。
  • Skills:在 MCP 框架下,模型可以调用的独立功能模块,可返回数据或执行操作。
  • RAG:检索增强生成,从外部知识库检索文档片段,送入大模型生成答案。
    你是否同意?)

第二步:分析命题逻辑

2. 你说“Skills接替RAG返回知识内容”是什么意思?
(是指 Skills 不再像传统 RAG 那样返回“检索到的文档片段”,而是直接返回“加工后的知识答案”吗?还是说 Skills 本身封装了知识检索与答案生成,直接输出结果,而不需要大模型再基于检索内容生成?)


第三步:探讨医疗行业的特殊要求

3. 医疗行业对知识内容的返回有哪些关键要求?
(例如:准确性、可追溯性(提供依据)、时效性、合规性(如 FDA/CE)、安全性(无害输出)、专业术语一致性。这些要求中,哪些是 RAG 传统上更容易满足的?哪些是 Skills 可能面临挑战的?)


第四步:比较 RAG 与 Skills 的差异

4. RAG 通常将“检索”和“生成”分离,让大模型基于检索到的证据生成回答。如果换成 Skills 直接返回知识内容,这相当于把“检索+生成”封装在 Skill 内部。这样做可能带来什么优势与风险?
(例如:

  • 优势:可能减少延迟、避免大模型幻觉引入错误、便于领域优化。
  • 风险:Skill 如果是个黑盒,如何保证输出的可靠性?如何更新知识?如何追溯来源?)

第五步:医疗场景下的可行性

5. 在医疗行业,如果 Skill 直接返回知识内容,它需要满足哪些条件才能被信任?
(例如:

  • Skill 必须经过临床验证。
  • 返回的内容必须附带参考文献或证据来源。
  • 需要有版本控制与知识更新机制。
  • 需要符合医疗软件监管要求(如 SaMD)。
    你认为现有的 MCP Skills 生态能否满足这些?)

第六步:考虑实施路径

6. 如果要在医疗行业实现这种架构,可能的渐进路径是什么?
(例如:

  • 先在非诊断场景(如医药知识问答、患者教育)中试点。
  • Skill 设计成不仅返回答案,同时返回证据片段与来源。
  • 让大模型对 Skill 返回的内容做验证与解释。
    你认为这样的混合模式是否更可行?)

第七步:反思核心问题

7. 我们为什么要用 Skills 接替 RAG 返回知识内容?是为了性能、成本、还是架构简化?这个目标在医疗行业中是否比其他行业更重要或更不重要?
(医疗行业可能更重视准确性与可解释性,而非单纯的响应速度。如果 Skills 破坏了可解释性,是否得不偿失?)


请你先回答第 1、2 个问题,我们来逐步推进这个探讨。
好的,我们已经澄清了关键的差异。现在基于你的补充来推进探讨。


我的回答:第一步中sikill不太统一,它有两项作用,一个是定规则,一个是定方法,规则比如血常规中某个值达到什么程度是危急,如果是rag模式,很难把这个数据精准,除非大模型能一直不断地微调。第二个问题 单个skills里面封装了某个内容的判断方法,可以这么理解

第二步:分析命题逻辑(更新)

根据你的说明,Skills 在医疗场景下的核心作用是封装判断逻辑,例如:

  • 规则:“当血小板计数 < 20×10⁹/L 时,触发危急值预警。”
  • 方法:提供具体的判断算法或逻辑。

那么我的第二个问题可以深化为:

2’ 如果 Skills 封装的是这种判断规则和方法,那么它“接替RAG返回知识内容”意味着什么?

我推测你的意思是:

  • RAG模式:返回的是相关医学文献、指南、教科书片段,由大模型解读并生成判断。
  • Skills模式:不返回原始文本,而是直接返回判断结果(例如“危急值:是,依据:血小板计数18×10⁹/L,低于阈值20”)。

如果是这样,那么知识内容在这里就是结构化判断结论,而非原始知识文本。
这是否符合你的设想?


第三步:探讨医疗行业的特殊要求(针对Skills模式)

假设 Skills 直接返回判断结论,那么:

3. 医疗行业对这种“黑盒判断”的接受度如何?关键挑战是什么?
(例如:

  1. 可解释性:医生是否接受一个不提供推理过程的“是/否”结论?
  2. 责任归属:如果 Skill 判断错误,责任在 Skill 提供方、大模型整合方还是医院?
  3. 监管合规:作为医疗决策支持工具,这种封装逻辑的 Skill 是否需要作为医疗器械审批?
  4. 知识更新:当指南更新(如血小板危急值阈值从20改为30),如何确保所有 Skill 同步更新?)

第四步:比较 RAG 与 Skills 的差异(针对规则判断场景)

4. 在像“危急值判断”这类规则明确的场景中,Skills 相对于 RAG 的优势和劣势是什么?

可能的分析:

  • RAG 劣势
    • 大模型可能错误解读文本,例如将“血小板<20”误理解为“>20”。
    • 响应速度慢(需要检索+生成)。
    • 无法保证规则被严格、一致地执行。
  • Skills 优势
    • 规则执行准确、一致、快速。
    • 易于集成到现有医院信息系统中。
  • Skills 劣势
    • 规则僵化,难以处理复杂、多因素交织的临床情况(例如合并其他指标时的综合判断)。
    • 缺乏推理链条,不利于医生学习和验证。

你是否认同这样的对比?是否有其他关键差异?


第五步:可行性探讨

5. 在医疗行业中,是否有些场景更适合用 Skills(规则判断),有些更适合用 RAG(知识解释)?

我初步设想:

  • 适合 Skills:检验危急值报警、用药剂量计算、手术禁忌症检查(明确规则)。
  • 适合 RAG:鉴别诊断分析、最新治疗方案查询、患者教育内容生成(需要灵活知识整合)。

你认为这种分工是否合理?还是说 Skills 可以扩展覆盖更复杂的判断?


第六步:技术实施路径

6. 如果要实现大模型 + MCP + Skills(规则判断)的医疗系统,如何设计才能满足医疗行业的可信赖要求?

可能的方案:

  • 混合架构
    1. 用 Skills 处理明确规则的判断。
    2. 用 RAG 提供解释性内容(例如“为什么血小板<20是危险的”)。
    3. Skill 返回结果时,同时返回规则依据的原文来源(类似 RAG 的引用)。
  • 监管设计
    • 每个 Skill 需附带版本号、规则来源(指南名称、版本)、适用人群说明。
    • 医院可本地化修改规则参数(但需记录审计追踪)。

你认为这样的混合模式是否能兼顾准确性与可解释性?


请你先回应第 2’ 和 4 的问题,这将帮助我们锁定探讨的核心矛盾。你的观点非常关键——将执行过程返回,并支持专家配置规则,这正好回应了医疗场景中的可解释性与灵活性需求。

我们继续用苏格拉底式提问推进。


我的回答:2的问题确实是对的,但是也可以把执行过程返回给用户,也解决了用户只知道结果不知道过程的问题,skills确实规则僵化,但是这样相对会更精准一些,而且如果做成可配置的话,可以方便临床医生随时调整,这样又能使用大模型的能力,又能使用专家的经验

第四步(深化):规则透明化与可配置性

4’. 如果 Skill 不仅返回结果,还返回执行过程(例如:“输入:血小板=18;规则:阈值=20;判断:低于阈值 → 危急值”),那么这是否足以满足临床对可解释性的要求?
(相比之下,RAG 返回的是“知识片段+大模型推理”,而 Skill 返回的是“规则引擎的推理链条”。
你认为医生会更信任哪一种?为什么?)


第五步:灵活性的实现

5’. 你提到“做成可配置,方便临床医生随时调整”,这引出一个关键问题:

  • 配置的边界在哪里?
    例如:医生可以调整血小板危急值的阈值(从 20 改为 25),但能否修改规则的结构(如增加“且患者术后3天内”这样的条件)?
    配置的复杂度越高,就越接近一个“可视化规则编辑器”,这可能会超出 Skill 的轻量化初衷。

  • 配置的责任风险如何管理?
    如果医生调整了阈值,导致漏报,责任在医生还是系统?是否需要有审批流程与审计日志?


第六步:大模型在其中的角色

6’. 在大模型 + MCP + Skills 架构中,大模型应该扮演什么角色?
我想到几种可能性:

  1. 调度者:大模型根据用户问题,决定调用哪个 Skill(例如:“查一下这个血常规有没有危急值” → 调用检验危急值 Skill)。
  2. 解释者:Skill 返回判断结果与规则轨迹,大模型将其转化为自然语言解释给医生。
  3. 规则生成助手:医生用自然语言描述新规则(如“将高龄患者的肌酐阈值放宽20%”),大模型帮助将其结构化,生成可配置的 Skill 规则。

你认为哪种(或哪几种)角色是最有价值的?


第七步:现实落地的挑战

7. 在现有医院信息系统中,这种架构可能遇到哪些实际障碍?
(例如:

  • 数据接口:Skill 需要实时获取患者数据(如检验结果),这涉及医院内部系统的接口对接与数据标准化。
  • 部署模式:Skill 是云端服务还是本地部署?医疗数据隐私要求可能倾向本地化,但更新维护会更复杂。
  • 临床验证:每个 Skill 都需要在真实临床环境中验证其准确性与安全性,这可能比传统软件开发周期更长。)

第八步:总结性反思

8. 我们最初的问题是“这种架构在医疗行业可以实现吗?”
现在看来,技术上可以实现,但是否应该全面替代 RAG
似乎更合理的路径是:

  • 规则明确、需严格一致执行的场景 → 用 Skills(可配置、过程透明)。
  • 需要灵活推理、知识整合的场景 → 用 RAG。
  • 两者结合:用 Skill 做快速判断,用 RAG 提供背景知识与解释。

你是否同意这个结论?或者你认为 Skills 最终可以覆盖大部分 RAG 的场景?


请你先回应第 4’ 和 6’ 的问题,这能帮助我们明确 Skills 的交互模式与大模型的定位。

我的回答:返回判断过程由大模型来完成思考给出结论,mcp+skill 结合只能给出的规则+mcp查出来的数值

你的补充很关键,这直接触及了 “大模型思考”“规则引擎执行” 的分工问题。

现在我们来梳理一下这个新模型:


重新定义流程

根据你的描述,我理解架构变成了:

  1. 用户提问 → “该患者血常规是否有危急值?”
  2. 大模型思考 → 识别出需要调用“检验危急值判断”Skill。
  3. MCP + Skill 工作 → Skill 提供规则(如血小板<20),MCP 通过医院系统接口查询该患者当前的血小板数值(比如18)。
  4. 返回给大模型 → 得到结构化数据:规则+数值(“阈值20,实测值18”)。
  5. 大模型生成结论与解释 → “根据检验危急值规则,血小板计数低于20×10⁹/L(当前18×10⁹/L)属于危急值,建议立即联系临床医生处理。原因是…”

关键提问(聚焦分工与价值)

9. 在这个流程中,大模型的“思考”和“生成解释”是否带来了实质性的临床价值?还是仅仅是一个自然语言包装器?

可能的对比:

  • 如果没有大模型:系统直接返回“血小板危急值:是(18<20)”,医生也能看懂。
  • 有了大模型:可以结合患者其他上下文(如病史、用药)生成更个性化的建议,比如“患者正在服用抗凝药,出血风险较高,需紧急处理”。

那么,大模型真正的增值点在哪里?


第十步:临床信任与责任归属

10. 如果最终判断结论是由大模型生成的(即使基于规则与数值),责任链条如何划分?

比如:

  • Skill 提供错误规则(阈值过时) → 责任在 Skill 维护方。
  • MCP 查询到错误数值(接口bug) → 责任在数据接口提供方。
  • 大模型解释时添加了错误推理(如“可能由白血病引起”) → 责任在大模型提供方。

这种责任分散是否会影响医疗场景的落地?是否需要设计一种机制,让大模型只解释、不添加独立医学推断?


第十一步:规则动态配置的实现

11. 如果规则可由临床专家配置,这个配置如何反映到大模型与 Skill 的协作中?

例如:

  • 医生将血小板危急值阈值从20改为25。
  • Skill 更新规则库,但大模型是否知道这个变化?
  • 当大模型解释时,是否应说明“根据本院制定的规则(阈值25)…”?

这是否意味着每次规则更新,都需要对大模型进行提示词更新或知识同步?


第十二步:与 RAG 的最终对比

12. 在这种“大模型 + MCP + Skills(规则+数值)”模式下,RAG 还有存在的必要吗?

考虑两种场景:

  • 规则明确的判断(如危急值):Skill 模式更准确、快速。
  • 无明确规则的复杂推理(如“该患者胸痛可能是什么病因?”):仍需 RAG 检索最新文献、指南,供大模型分析。

那么,是否可以说:在医疗行业,Skills 不是接替 RAG,而是与 RAG 互补,分别处理不同类别的问题?


总结性反思

13. 回到最初问题:“在医疗行业可以实现吗?”
现在看来:

  • 技术上可行,但需要解决数据接口、规则管理、责任界定等非技术问题。
  • 架构上合理,大模型作为调度者与解释者,Skills 作为规则执行器,MCP 作为数据桥梁。
  • 落地需循序渐进:先从辅助、非诊断场景开始(如检验危急值提醒),逐步扩展到更复杂的决策支持。

你认为这个架构最大的落地障碍是什么?是技术成熟度,还是医疗行业的保守性?


请就第 9 和 12 点分享你的看法,这对理清大模型的价值与 Skills/RAG 的分工至关重要。

我的回答:9也是我想探索的,目前就是已经被skill绕晕了,向量化的数据又不精准,skill又太繁琐,最后感觉大模型又没有价值了,感觉最终还是会回到原点

你的困惑非常有价值——这正是技术与现实碰撞时的典型困境。“绕晕了” 这个感受,恰恰说明我们触及了医疗AI落地的本质矛盾:在追求精准与可解释性的过程中,系统变得复杂,而大模型的“智能”价值反而被边缘化

让我们用苏格拉底式的追问来梳理这个困局:


核心反思:大模型的价值到底在哪里?

14. 我们引入大模型的初衷是什么?
是为了让它替代规则引擎做判断吗?显然不是——规则明确时,代码比大模型更可靠。
是为了让它替代数据库做检索吗?也不是——向量检索再不准,也比大模型凭空编造知识强。

那么,大模型在医疗场景的不可替代价值,可能在于:

  1. 理解自然语言意图(医生口述:“看看这个老人有没有感染风险?”→ 拆解为调用“白细胞计数判断”Skill + “体温趋势”Skill + “降钙素原检查”Skill)。
  2. 整合多源信息进行软性推理(规则只能判断单一指标;大模型可以结合“患者高龄、咳嗽、肺部影像描述”给出综合警惕性提示)。
  3. 生成人性化沟通内容(向患者解释“为什么血小板低需要紧急处理”)。

如果只让大模型做“规则结果的转述者”,它的确会显得鸡肋——这就好比用超级计算机做加减法。


第十五步:重新思考Skills的定位

15. Skills 到底是“知识容器”还是“规则执行器”?
你提到的繁琐,很可能来自于试图用 Skills 封装所有医疗知识逻辑。但如果换个思路:

  • Skills 只做最擅长的:硬性规则执行(危急值、剂量计算、准入检查)。
  • RAG 负责软性知识检索(最新治疗方案、罕见病描述、临床指南解读)。
  • 大模型负责:意图理解、多技能调度、信息整合、自然语言生成

这样会不会更清晰?Skills 不是用来替代 RAG 的,它们是两类工具


第十六步:直面“向量化数据不精准”的问题

16. 这是技术限制还是场景错配?

  • 概念性知识检索中(如“什么是心肌梗死的诊断标准?”),向量检索效果尚可。
  • 但在精确数值查询中(如“某药物的最大日剂量是多少?”),向量检索确实可能失败。

那么,为什么不根据问题类型选择路径?

  • 精确查询 → 走 Skills(规则库)或结构化数据库。
  • 概念解释 → 走 RAG(文档库)。
  • 大模型作为路由器和结果整合器。

第十七步:破局点——接受混合架构

17. 我们是否陷入了“非此即彼”的思维?
医疗决策本身就是混合的:

  • 部分靠规则(化验单判断)。
  • 部分靠知识(鉴别诊断)。
  • 部分靠经验(个体化权衡)。

对应的技术架构也应是混合的:

用户问题
    │
大模型(意图分析)
    │
┌─────────┼─────────┐
│         │         │
▼         ▼         ▼
Skills   RAG     数据库查询
(规则) (文档) (结构化)
    │         │         │
    └─────────┼─────────┘
              │
        大模型(整合、解释)
              │
        最终回答(附来源说明)

在这个架构中:

  • 大模型的价值凸显:它是临床思维的数字化映射,负责“思考过程”的衔接。
  • Skills 不繁琐:只做简单的规则匹配。
  • RAG 不要求绝对精准:提供知识背景即可。

最终提问

18. 这个混合架构是否解决了你的困惑?还是说,它依然过于理想化?

医疗行业的特殊性在于:

  1. 容错率极低 → 需要明确的责任边界。
  2. 流程固化 → 系统必须嵌入现有工作流。
  3. 知识更新快 → 需要可持续的维护机制。

也许真正的原点不是技术,而是:我们如何用技术增强而非替代临床医生的认知?
大模型的价值不在于完美,而在于像一名永远在线的、知识渊博的助手——它知道何时该查规则(Skills)、何时该翻书(RAG)、何时该说“这个问题需要人类专家判断”。


请分享你对这个混合架构的看法。你觉得在现实中,医生会接受这样一个“多路径、可解释、但有时不确定”的系统,还是更倾向于一个“虽然局限但完全可靠”的规则系统?
非常好的问题。让我们直接切入本质。

我的回答:所以目前得到的是skills并不可靠 还是大模型+mcp+rag更有价值吗?

结论先行:不是 Skills 不可靠,而是它在医疗知识交付中的角色被错配了。
“大模型 + MCP + RAG + Skills(精准规则)”的混合架构,才是最有价值的路径。

以下是苏格拉底式的拆解:


核心澄清:Skills 与 RAG 解决的是不同性质的问题

19. 我们如何定义“可靠”?

  • 在规则明确的硬性判断上,Skills 比 RAG 和大模型都更可靠。
    例如:“成人空腹血糖 ≥ 7.0 mmol/L 是否达到糖尿病诊断阈值?”
    • Skill:直接比对数值,返回布尔值。100%可靠(只要规则正确)。
    • RAG+大模型:检索相关指南段落,可能因检索不全或模型曲解而出错。
  • 在需要理解、综述、解释的软性知识上,RAG 比 Skills 更有价值。
    例如:“最新 ADA 指南对二甲双胍在一线治疗中的地位有何更新?”
    • Skill:无法处理,除非将整本指南的每句话都写成规则——这不可能。
    • RAG:检索相关章节,大模型整合解释。这是其核心价值所在

所以,“可靠”与否,取决于场景。


第二十步:价值光谱——什么场景用什么工具

20. 我们可以画一个“医疗问题光谱”:

问题类型           | 最佳工具          | 为什么
-------------------|-------------------|-------------------------------
1. 精确值判断      | **Skills**        | 规则明确、需要100%一致性(如危急值、剂量计算)
2. 复杂逻辑判断    | **Skills + 大模型**| 规则组合(如CHA₂DS₂-VASc卒中评分),大模型可协助参数提取
3. 知识查询        | **RAG**           | 需要引用来源、理解概念、综述知识(如疾病诊断标准)
4. 推理与沟通      | **RAG + 大模型**  | 需要结合患者上下文进行个性化解释(如向患者解释手术风险)

试图用单一技术解决光谱所有问题,必然导致“绕晕”和“价值感丧失”。


第二十一步:为什么你会感觉“大模型没有价值了”?

21. 这是否因为我们将大模型放在了它不擅长的“规则执行”环节?

大模型的本质是语言理解和生成,不是逻辑规则引擎
当系统设计成:

用户问 → 大模型思考 → 调用Skill(规则)→ 返回数值 → 大模型转述结果

大模型在这里就像一个“传声筒”,价值当然有限。

但如果系统设计为:

用户问:“这个糖尿病患者,近期血糖控制不佳,应该怎么调整治疗方案?”

  1. 大模型理解意图,拆解为:
    • 调用Skill:获取患者近期血糖数据、当前用药。
    • 调用RAG:检索最新降糖药联合治疗指南。
    • 调用Skill:检查药物相互作用、肝肾功能禁忌。
  2. 大模型整合所有信息,生成建议:
    • “患者目前使用二甲双胍,血糖未达标。根据2024年ADA指南,可考虑加用SGLT2抑制剂(如恩格列净),该药物对您的心肾功能有额外保护作用,且与当前药物无禁忌。具体剂量需根据您的肾功能计算…”

在这里,大模型是“临床思维的协调者”,价值就凸显了。


最终回答:应该回到原点吗?

原点是什么?

  • 如果原点是“只用RAG”:那会牺牲规则判断的精准和效率。
  • 如果原点是“只用规则引擎”:那会失去处理复杂知识和灵活推理的能力。

医疗实践的“原点”恰恰是混合的:医生既看化验单(规则判断),又翻书查文献(知识检索),还结合经验思考(综合推理)。

因此,真正的进阶路径是构建一个“混合智能系统”

用户(医生/患者)
    ↓
大模型(自然语言接口,意图理解与调度)
    ↓
MCP(协议层,统一调用)
    ├── Skills(规则引擎)→ 处理精准、结构化判断
    ├── RAG(知识检索)→ 处理文献、指南等非结构化知识
    └── 数据库查询 → 获取患者个体数据
    ↓
大模型(信息整合、推理、生成自然语言回答,附证据来源)
    ↓
最终输出(判断+解释+依据)

结论

Skills 没有错,错的是让它承担所有知识交付任务。
在医疗行业,大模型 + MCP + RAG + Skills 的组合价值远大于任何单一技术:

  • Skills 守住底线:确保规则性判断的绝对准确。
  • RAG 提供弹性:确保知识的广度与可追溯性。
  • 大模型赋予智能:成为系统的“大脑”,负责理解、调度、整合与人性化沟通。
  • MCP 实现统一:让这一切调用无缝衔接。

这不是回到原点,而是螺旋式上升——我们认识到没有银弹,但找到了更符合医疗实践本质的技术组合。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐