记一次医疗领域Skills苏格拉底AI探索的过程

本文探讨了在医疗行业采用"大模型+MCP+Skills"架构替代传统RAG模式的可行性。通过苏格拉底式提问分析，指出Skills在封装医疗规则判断（如检验危急值预警）方面具有执行准确、响应快速的优势，但需解决可解释性、责任归属等关键问题。研究建议采用混合架构：Skills处理明确规则判断并返回执行过程，RAG提供知识解释，大模型担任调度者和解释者角色。该方案需满足临床验证、规则

mofijeck

801人浏览 · 2026-01-07 14:49:33

mofijeck · 2026-01-07 14:49:33 发布

我们将使用苏格拉底式的提问方法，探讨“大模型+MCP+Skills，其中Skills接替RAG返回知识内容”在医疗行业的可行性。

第一步：澄清概念

1. 你提到的大模型、MCP、Skills、RAG 分别指什么？请你先明确一下这些术语在你心中的定义。
（我希望确认我们讨论的是同一件事：

大模型：如 GPT-4、Claude 等通用基础模型。
MCP：模型上下文协议（Model Context Protocol），一种让模型调用外部工具/技能的开放协议。
Skills：在 MCP 框架下，模型可以调用的独立功能模块，可返回数据或执行操作。
RAG：检索增强生成，从外部知识库检索文档片段，送入大模型生成答案。
你是否同意？）

第二步：分析命题逻辑

2. 你说“Skills接替RAG返回知识内容”是什么意思？
（是指 Skills 不再像传统 RAG 那样返回“检索到的文档片段”，而是直接返回“加工后的知识答案”吗？还是说 Skills 本身封装了知识检索与答案生成，直接输出结果，而不需要大模型再基于检索内容生成？）

第三步：探讨医疗行业的特殊要求

3. 医疗行业对知识内容的返回有哪些关键要求？
（例如：准确性、可追溯性（提供依据）、时效性、合规性（如 FDA/CE）、安全性（无害输出）、专业术语一致性。这些要求中，哪些是 RAG 传统上更容易满足的？哪些是 Skills 可能面临挑战的？）

第四步：比较 RAG 与 Skills 的差异

4. RAG 通常将“检索”和“生成”分离，让大模型基于检索到的证据生成回答。如果换成 Skills 直接返回知识内容，这相当于把“检索+生成”封装在 Skill 内部。这样做可能带来什么优势与风险？
（例如：

优势：可能减少延迟、避免大模型幻觉引入错误、便于领域优化。
风险：Skill 如果是个黑盒，如何保证输出的可靠性？如何更新知识？如何追溯来源？）

第五步：医疗场景下的可行性

5. 在医疗行业，如果 Skill 直接返回知识内容，它需要满足哪些条件才能被信任？
（例如：

Skill 必须经过临床验证。
返回的内容必须附带参考文献或证据来源。
需要有版本控制与知识更新机制。
需要符合医疗软件监管要求（如 SaMD）。
你认为现有的 MCP Skills 生态能否满足这些？）

第六步：考虑实施路径

6. 如果要在医疗行业实现这种架构，可能的渐进路径是什么？
（例如：

先在非诊断场景（如医药知识问答、患者教育）中试点。
Skill 设计成不仅返回答案，同时返回证据片段与来源。
让大模型对 Skill 返回的内容做验证与解释。
你认为这样的混合模式是否更可行？）

第七步：反思核心问题

7. 我们为什么要用 Skills 接替 RAG 返回知识内容？是为了性能、成本、还是架构简化？这个目标在医疗行业中是否比其他行业更重要或更不重要？
（医疗行业可能更重视准确性与可解释性，而非单纯的响应速度。如果 Skills 破坏了可解释性，是否得不偿失？）

请你先回答第 1、2 个问题，我们来逐步推进这个探讨。
好的，我们已经澄清了关键的差异。现在基于你的补充来推进探讨。

我的回答：第一步中sikill不太统一，它有两项作用，一个是定规则，一个是定方法，规则比如血常规中某个值达到什么程度是危急，如果是rag模式，很难把这个数据精准，除非大模型能一直不断地微调。第二个问题单个skills里面封装了某个内容的判断方法，可以这么理解

第二步：分析命题逻辑（更新）

根据你的说明，Skills 在医疗场景下的核心作用是封装判断逻辑，例如：

规则：“当血小板计数 < 20×10⁹/L 时，触发危急值预警。”
方法：提供具体的判断算法或逻辑。

那么我的第二个问题可以深化为：

2’ 如果 Skills 封装的是这种判断规则和方法，那么它“接替RAG返回知识内容”意味着什么？

我推测你的意思是：

RAG模式：返回的是相关医学文献、指南、教科书片段，由大模型解读并生成判断。
Skills模式：不返回原始文本，而是直接返回判断结果（例如“危急值：是，依据：血小板计数18×10⁹/L，低于阈值20”）。

如果是这样，那么知识内容在这里就是结构化判断结论，而非原始知识文本。
这是否符合你的设想？

第三步：探讨医疗行业的特殊要求（针对Skills模式）

假设 Skills 直接返回判断结论，那么：

3. 医疗行业对这种“黑盒判断”的接受度如何？关键挑战是什么？
（例如：

可解释性：医生是否接受一个不提供推理过程的“是/否”结论？
责任归属：如果 Skill 判断错误，责任在 Skill 提供方、大模型整合方还是医院？
监管合规：作为医疗决策支持工具，这种封装逻辑的 Skill 是否需要作为医疗器械审批？
知识更新：当指南更新（如血小板危急值阈值从20改为30），如何确保所有 Skill 同步更新？）

第四步：比较 RAG 与 Skills 的差异（针对规则判断场景）

4. 在像“危急值判断”这类规则明确的场景中，Skills 相对于 RAG 的优势和劣势是什么？

可能的分析：

RAG 劣势：
- 大模型可能错误解读文本，例如将“血小板<20”误理解为“>20”。
- 响应速度慢（需要检索+生成）。
- 无法保证规则被严格、一致地执行。
Skills 优势：
- 规则执行准确、一致、快速。
- 易于集成到现有医院信息系统中。
Skills 劣势：
- 规则僵化，难以处理复杂、多因素交织的临床情况（例如合并其他指标时的综合判断）。
- 缺乏推理链条，不利于医生学习和验证。

你是否认同这样的对比？是否有其他关键差异？

第五步：可行性探讨

5. 在医疗行业中，是否有些场景更适合用 Skills（规则判断），有些更适合用 RAG（知识解释）？

我初步设想：

适合 Skills：检验危急值报警、用药剂量计算、手术禁忌症检查（明确规则）。
适合 RAG：鉴别诊断分析、最新治疗方案查询、患者教育内容生成（需要灵活知识整合）。

你认为这种分工是否合理？还是说 Skills 可以扩展覆盖更复杂的判断？

第六步：技术实施路径

6. 如果要实现大模型 + MCP + Skills（规则判断）的医疗系统，如何设计才能满足医疗行业的可信赖要求？

可能的方案：

混合架构：
1. 用 Skills 处理明确规则的判断。
2. 用 RAG 提供解释性内容（例如“为什么血小板<20是危险的”）。
3. Skill 返回结果时，同时返回规则依据的原文来源（类似 RAG 的引用）。
监管设计：
- 每个 Skill 需附带版本号、规则来源（指南名称、版本）、适用人群说明。
- 医院可本地化修改规则参数（但需记录审计追踪）。

你认为这样的混合模式是否能兼顾准确性与可解释性？

请你先回应第 2’ 和 4 的问题，这将帮助我们锁定探讨的核心矛盾。你的观点非常关键——将执行过程返回，并支持专家配置规则，这正好回应了医疗场景中的可解释性与灵活性需求。

我们继续用苏格拉底式提问推进。

我的回答：2的问题确实是对的，但是也可以把执行过程返回给用户，也解决了用户只知道结果不知道过程的问题，skills确实规则僵化，但是这样相对会更精准一些，而且如果做成可配置的话，可以方便临床医生随时调整，这样又能使用大模型的能力，又能使用专家的经验

第四步（深化）：规则透明化与可配置性

4’. 如果 Skill 不仅返回结果，还返回执行过程（例如：“输入：血小板=18；规则：阈值=20；判断：低于阈值 → 危急值”），那么这是否足以满足临床对可解释性的要求？
（相比之下，RAG 返回的是“知识片段+大模型推理”，而 Skill 返回的是“规则引擎的推理链条”。
你认为医生会更信任哪一种？为什么？）

第五步：灵活性的实现

5’. 你提到“做成可配置，方便临床医生随时调整”，这引出一个关键问题：

配置的边界在哪里？
例如：医生可以调整血小板危急值的阈值（从 20 改为 25），但能否修改规则的结构（如增加“且患者术后3天内”这样的条件）？
配置的复杂度越高，就越接近一个“可视化规则编辑器”，这可能会超出 Skill 的轻量化初衷。
配置的责任风险如何管理？
如果医生调整了阈值，导致漏报，责任在医生还是系统？是否需要有审批流程与审计日志？

第六步：大模型在其中的角色

6’. 在大模型 + MCP + Skills 架构中，大模型应该扮演什么角色？
我想到几种可能性：

调度者：大模型根据用户问题，决定调用哪个 Skill（例如：“查一下这个血常规有没有危急值” → 调用检验危急值 Skill）。
解释者：Skill 返回判断结果与规则轨迹，大模型将其转化为自然语言解释给医生。
规则生成助手：医生用自然语言描述新规则（如“将高龄患者的肌酐阈值放宽20%”），大模型帮助将其结构化，生成可配置的 Skill 规则。

你认为哪种（或哪几种）角色是最有价值的？

第七步：现实落地的挑战

7. 在现有医院信息系统中，这种架构可能遇到哪些实际障碍？
（例如：

数据接口：Skill 需要实时获取患者数据（如检验结果），这涉及医院内部系统的接口对接与数据标准化。
部署模式：Skill 是云端服务还是本地部署？医疗数据隐私要求可能倾向本地化，但更新维护会更复杂。
临床验证：每个 Skill 都需要在真实临床环境中验证其准确性与安全性，这可能比传统软件开发周期更长。）

第八步：总结性反思

8. 我们最初的问题是“这种架构在医疗行业可以实现吗？”
现在看来，技术上可以实现，但是否应该全面替代 RAG？
似乎更合理的路径是：

规则明确、需严格一致执行的场景 → 用 Skills（可配置、过程透明）。
需要灵活推理、知识整合的场景 → 用 RAG。
两者结合：用 Skill 做快速判断，用 RAG 提供背景知识与解释。

你是否同意这个结论？或者你认为 Skills 最终可以覆盖大部分 RAG 的场景？

请你先回应第 4’ 和 6’ 的问题，这能帮助我们明确 Skills 的交互模式与大模型的定位。

我的回答：返回判断过程由大模型来完成思考给出结论，mcp+skill 结合只能给出的规则+mcp查出来的数值

你的补充很关键，这直接触及了 “大模型思考” 与 “规则引擎执行” 的分工问题。

现在我们来梳理一下这个新模型：

重新定义流程

根据你的描述，我理解架构变成了：

用户提问 → “该患者血常规是否有危急值？”
大模型思考 → 识别出需要调用“检验危急值判断”Skill。
MCP + Skill 工作 → Skill 提供规则（如血小板<20），MCP 通过医院系统接口查询该患者当前的血小板数值（比如18）。
返回给大模型 → 得到结构化数据：规则+数值（“阈值20，实测值18”）。
大模型生成结论与解释 → “根据检验危急值规则，血小板计数低于20×10⁹/L（当前18×10⁹/L）属于危急值，建议立即联系临床医生处理。原因是…”

关键提问（聚焦分工与价值）

9. 在这个流程中，大模型的“思考”和“生成解释”是否带来了实质性的临床价值？还是仅仅是一个自然语言包装器？

可能的对比：

如果没有大模型：系统直接返回“血小板危急值：是（18<20）”，医生也能看懂。
有了大模型：可以结合患者其他上下文（如病史、用药）生成更个性化的建议，比如“患者正在服用抗凝药，出血风险较高，需紧急处理”。

那么，大模型真正的增值点在哪里？

第十步：临床信任与责任归属

10. 如果最终判断结论是由大模型生成的（即使基于规则与数值），责任链条如何划分？

比如：

Skill 提供错误规则（阈值过时） → 责任在 Skill 维护方。
MCP 查询到错误数值（接口bug） → 责任在数据接口提供方。
大模型解释时添加了错误推理（如“可能由白血病引起”） → 责任在大模型提供方。

这种责任分散是否会影响医疗场景的落地？是否需要设计一种机制，让大模型只解释、不添加独立医学推断？

第十一步：规则动态配置的实现

11. 如果规则可由临床专家配置，这个配置如何反映到大模型与 Skill 的协作中？

例如：

医生将血小板危急值阈值从20改为25。
Skill 更新规则库，但大模型是否知道这个变化？
当大模型解释时，是否应说明“根据本院制定的规则（阈值25）…”？

这是否意味着每次规则更新，都需要对大模型进行提示词更新或知识同步？

第十二步：与 RAG 的最终对比

12. 在这种“大模型 + MCP + Skills（规则+数值）”模式下，RAG 还有存在的必要吗？

考虑两种场景：

规则明确的判断（如危急值）：Skill 模式更准确、快速。
无明确规则的复杂推理（如“该患者胸痛可能是什么病因？”）：仍需 RAG 检索最新文献、指南，供大模型分析。

那么，是否可以说：在医疗行业，Skills 不是接替 RAG，而是与 RAG 互补，分别处理不同类别的问题？

总结性反思

13. 回到最初问题：“在医疗行业可以实现吗？”
现在看来：

技术上可行，但需要解决数据接口、规则管理、责任界定等非技术问题。
架构上合理，大模型作为调度者与解释者，Skills 作为规则执行器，MCP 作为数据桥梁。
落地需循序渐进：先从辅助、非诊断场景开始（如检验危急值提醒），逐步扩展到更复杂的决策支持。

你认为这个架构最大的落地障碍是什么？是技术成熟度，还是医疗行业的保守性？

请就第 9 和 12 点分享你的看法，这对理清大模型的价值与 Skills/RAG 的分工至关重要。

我的回答：9也是我想探索的，目前就是已经被skill绕晕了，向量化的数据又不精准，skill又太繁琐，最后感觉大模型又没有价值了，感觉最终还是会回到原点

你的困惑非常有价值——这正是技术与现实碰撞时的典型困境。“绕晕了” 这个感受，恰恰说明我们触及了医疗AI落地的本质矛盾：在追求精准与可解释性的过程中，系统变得复杂，而大模型的“智能”价值反而被边缘化。

让我们用苏格拉底式的追问来梳理这个困局：

核心反思：大模型的价值到底在哪里？

14. 我们引入大模型的初衷是什么？
是为了让它替代规则引擎做判断吗？显然不是——规则明确时，代码比大模型更可靠。
是为了让它替代数据库做检索吗？也不是——向量检索再不准，也比大模型凭空编造知识强。

那么，大模型在医疗场景的不可替代价值，可能在于：

理解自然语言意图（医生口述：“看看这个老人有没有感染风险？”→ 拆解为调用“白细胞计数判断”Skill + “体温趋势”Skill + “降钙素原检查”Skill）。
整合多源信息进行软性推理（规则只能判断单一指标；大模型可以结合“患者高龄、咳嗽、肺部影像描述”给出综合警惕性提示）。
生成人性化沟通内容（向患者解释“为什么血小板低需要紧急处理”）。

如果只让大模型做“规则结果的转述者”，它的确会显得鸡肋——这就好比用超级计算机做加减法。

第十五步：重新思考Skills的定位

15. Skills 到底是“知识容器”还是“规则执行器”？
你提到的繁琐，很可能来自于试图用 Skills 封装所有医疗知识逻辑。但如果换个思路：

Skills 只做最擅长的：硬性规则执行（危急值、剂量计算、准入检查）。
RAG 负责软性知识检索（最新治疗方案、罕见病描述、临床指南解读）。
大模型负责：意图理解、多技能调度、信息整合、自然语言生成。

这样会不会更清晰？Skills 不是用来替代 RAG 的，它们是两类工具。

第十六步：直面“向量化数据不精准”的问题

16. 这是技术限制还是场景错配？

在概念性知识检索中（如“什么是心肌梗死的诊断标准？”），向量检索效果尚可。
但在精确数值查询中（如“某药物的最大日剂量是多少？”），向量检索确实可能失败。

那么，为什么不根据问题类型选择路径？

精确查询 → 走 Skills（规则库）或结构化数据库。
概念解释 → 走 RAG（文档库）。
大模型作为路由器和结果整合器。

第十七步：破局点——接受混合架构

17. 我们是否陷入了“非此即彼”的思维？
医疗决策本身就是混合的：

部分靠规则（化验单判断）。
部分靠知识（鉴别诊断）。
部分靠经验（个体化权衡）。

对应的技术架构也应是混合的：

用户问题
    │
大模型（意图分析）
    │
┌─────────┼─────────┐
│         │         │
▼         ▼         ▼
Skills   RAG     数据库查询
（规则） （文档） （结构化）
    │         │         │
    └─────────┼─────────┘
              │
        大模型（整合、解释）
              │
        最终回答（附来源说明）

在这个架构中：

大模型的价值凸显：它是临床思维的数字化映射，负责“思考过程”的衔接。
Skills 不繁琐：只做简单的规则匹配。
RAG 不要求绝对精准：提供知识背景即可。

最终提问

18. 这个混合架构是否解决了你的困惑？还是说，它依然过于理想化？

医疗行业的特殊性在于：

容错率极低 → 需要明确的责任边界。
流程固化 → 系统必须嵌入现有工作流。
知识更新快 → 需要可持续的维护机制。

也许真正的原点不是技术，而是：我们如何用技术增强而非替代临床医生的认知？
大模型的价值不在于完美，而在于像一名永远在线的、知识渊博的助手——它知道何时该查规则（Skills）、何时该翻书（RAG）、何时该说“这个问题需要人类专家判断”。

请分享你对这个混合架构的看法。你觉得在现实中，医生会接受这样一个“多路径、可解释、但有时不确定”的系统，还是更倾向于一个“虽然局限但完全可靠”的规则系统？
非常好的问题。让我们直接切入本质。

我的回答：所以目前得到的是skills并不可靠还是大模型+mcp+rag更有价值吗？

结论先行：不是 Skills 不可靠，而是它在医疗知识交付中的角色被错配了。
“大模型 + MCP + RAG + Skills（精准规则）”的混合架构，才是最有价值的路径。

以下是苏格拉底式的拆解：

核心澄清：Skills 与 RAG 解决的是不同性质的问题

19. 我们如何定义“可靠”？

在规则明确的硬性判断上，Skills 比 RAG 和大模型都更可靠。
例如：“成人空腹血糖 ≥ 7.0 mmol/L 是否达到糖尿病诊断阈值？”
- Skill：直接比对数值，返回布尔值。100%可靠（只要规则正确）。
- RAG+大模型：检索相关指南段落，可能因检索不全或模型曲解而出错。
在需要理解、综述、解释的软性知识上，RAG 比 Skills 更有价值。
例如：“最新 ADA 指南对二甲双胍在一线治疗中的地位有何更新？”
- Skill：无法处理，除非将整本指南的每句话都写成规则——这不可能。
- RAG：检索相关章节，大模型整合解释。这是其核心价值所在。

所以，“可靠”与否，取决于场景。

第二十步：价值光谱——什么场景用什么工具

20. 我们可以画一个“医疗问题光谱”：

问题类型           | 最佳工具          | 为什么
-------------------|-------------------|-------------------------------
1. 精确值判断      | **Skills**        | 规则明确、需要100%一致性（如危急值、剂量计算）
2. 复杂逻辑判断    | **Skills + 大模型**| 规则组合（如CHA₂DS₂-VASc卒中评分），大模型可协助参数提取
3. 知识查询        | **RAG**           | 需要引用来源、理解概念、综述知识（如疾病诊断标准）
4. 推理与沟通      | **RAG + 大模型**  | 需要结合患者上下文进行个性化解释（如向患者解释手术风险）

试图用单一技术解决光谱所有问题，必然导致“绕晕”和“价值感丧失”。

第二十一步：为什么你会感觉“大模型没有价值了”？

21. 这是否因为我们将大模型放在了它不擅长的“规则执行”环节？

大模型的本质是语言理解和生成，不是逻辑规则引擎。
当系统设计成：

用户问 → 大模型思考 → 调用Skill（规则）→ 返回数值 → 大模型转述结果

大模型在这里就像一个“传声筒”，价值当然有限。

但如果系统设计为：

用户问：“这个糖尿病患者，近期血糖控制不佳，应该怎么调整治疗方案？”

大模型理解意图，拆解为：

调用Skill：获取患者近期血糖数据、当前用药。

调用RAG：检索最新降糖药联合治疗指南。

调用Skill：检查药物相互作用、肝肾功能禁忌。

大模型整合所有信息，生成建议：

“患者目前使用二甲双胍，血糖未达标。根据2024年ADA指南，可考虑加用SGLT2抑制剂（如恩格列净），该药物对您的心肾功能有额外保护作用，且与当前药物无禁忌。具体剂量需根据您的肾功能计算…”

在这里，大模型是“临床思维的协调者”，价值就凸显了。

最终回答：应该回到原点吗？

原点是什么？

如果原点是“只用RAG”：那会牺牲规则判断的精准和效率。
如果原点是“只用规则引擎”：那会失去处理复杂知识和灵活推理的能力。

医疗实践的“原点”恰恰是混合的：医生既看化验单（规则判断），又翻书查文献（知识检索），还结合经验思考（综合推理）。

因此，真正的进阶路径是构建一个“混合智能系统”：

用户（医生/患者）
    ↓
大模型（自然语言接口，意图理解与调度）
    ↓
MCP（协议层，统一调用）
    ├── Skills（规则引擎）→ 处理精准、结构化判断
    ├── RAG（知识检索）→ 处理文献、指南等非结构化知识
    └── 数据库查询 → 获取患者个体数据
    ↓
大模型（信息整合、推理、生成自然语言回答，附证据来源）
    ↓
最终输出（判断+解释+依据）

结论

Skills 没有错，错的是让它承担所有知识交付任务。
在医疗行业，大模型 + MCP + RAG + Skills 的组合价值远大于任何单一技术：

Skills 守住底线：确保规则性判断的绝对准确。
RAG 提供弹性：确保知识的广度与可追溯性。
大模型赋予智能：成为系统的“大脑”，负责理解、调度、整合与人性化沟通。
MCP 实现统一：让这一切调用无缝衔接。

这不是回到原点，而是螺旋式上升——我们认识到没有银弹，但找到了更符合医疗实践本质的技术组合。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Babel幽灵注释：删节点为何删不掉注释？

Babel中"幽灵注释"问题的核心原因是注释并非节点的属性，而是通过leadingComments/trailingComments关联的独立对象。当使用path.remove()删除节点时，注释对象及其位置信息仍保留在内存中，导致生成代码时注释被错误保留或漂移。解决方案包括：1)删除前手动清空注释引用；2)用空语句替换节点；3)清除位置元数据。理解Babel"宁留勿漏"的设计哲学，按照"清注释→

2048 AI社区

Flutter 框架跨平台鸿蒙开发 - 生活中的书法练习应用开发文档

2048 AI社区

Claude Code 使用技巧

Claude Code 使用摘要 Claude Code 提供三种交互模式（默认/自动接受/计划模式），支持多种快捷键和斜杠命令管理对话、记忆和任务。用户可通过CLI启动，使用!执行Shell命令，利用Skill复用常用指令，并通过Subagents处理独立任务。记忆系统分为项目级和用户级，支持图片输入和Hooks自动化。MCP协议可扩展外部工具集成，插件系统增强功能边界。

2048 AI社区

所有评论(0)

查看更多评论

mofijeck

@mofijeck

已为社区贡献2条内容