AI 中医
随着技术演进,若能将传统医学智慧与现代 AI 系统深度融合,我们就能在全球范围内实现“人人可及的中医”,迈向更加公平、包容的数字健康未来。这些模型均为通用大语言模型,未针对医学或中医场景进行专门训练,代表了当前国际与国内主流AI的“原始水平”对比。研究者:把海量古籍和病例喂给模型,训练“中医专精版”AI,未来可能诞生24小时在线的“AI针灸师”。中医辨证、取穴:Qwen、GPT、Doubao 已接
哈佛医学院孔健教授团队
于2025年7月21日
在NPJ Digit Med(IF=15.1)
发表一项中医学与AI的交叉研究
《Evaluating the role of large language models in traditional Chinese medicine diagnosis and treatment recommendations》
评估大语言模型在传统中医诊断与治疗建议中的作用
Image
原文链接:
https://www.nature.com/articles/s41746-025-01845-2#Sec11
引用格式:
Liu Y, Yuan Y, Yan K, Li Y, Sacca V, Hodges S, Cannistra M, Jeong P, Wu J, Kong J. Evaluating the role of large language models in traditional Chinese medicine diagnosis and treatment recommendations. NPJ Digit Med. 2025 Jul 21;8(1):466. doi: 10.1038/s41746-025-01845-2. PMID: 40691277; PMCID: PMC12279949.
AI中医诊断靠谱吗?
Image
数字医疗技术有望在缩小全球医疗差距方面发挥巨大作用。大语言模型(LLM)为提升文化特定型医疗——包括传统中医(TCM)——的可及性提供了新的契机。
2025年7月21日,来自哈佛医学院的孔健教授团队发布了一篇名为《评估大语言模型在传统中医诊断与治疗建议中的作用》的文章,评估现流行的七个语言大模型与针灸师在中医疾病诊断及治疗上的差异。
研究选取一例肌萎缩侧索硬化(ALS)作为“考试内容”,来看看研究的具体内容吧。
01
做了什么研究?
Image
研究团队把一份真实的肌萎缩侧索硬化(ALS)病历同时交给7个公开可用的大语言模型(LLM)和3位持证针灸师,让他们分别给出:
①西医诊断;②中医辨证;③取穴方案;④针刺手法;⑤中药处方
Image
随后请28位中医专家“盲审”打分(5分制),看看AI能否达到甚至超越人类医生的水平。
7个公开可用的大语言模型(LLM)包括:
GPT-4o(OpenAI)
Gemini 1.5 Flash(Google)
LLaMA 3.2(Meta)
Claude 3.5 Sonnet(Anthropic)
ERNIE 3.5(百度)
Qwen 2.5 Max(阿里巴巴)
Doubao 1.5 Pro(字节跳动)
这些模型均为通用大语言模型,未针对医学或中医场景进行专门训练,代表了当前国际与国内主流AI的“原始水平”对比。
02
具体怎么做的?
1️⃣ 选病例
来源:2006 年《中国针灸》杂志发表的 ALS(肌萎缩侧索硬化)真实医案。
向上滑动阅览
Image
文章索引:[1]裴磊.针刺风池治疗进行性延髓麻痹所致吞咽障碍1例[J].上海针灸杂志,2006,(07):36.DOI:10.13460/j.issn.1005-0957.2006.07.019.
入选理由:病程复杂但资料完整,既考西医判断,又考中医“辨证+选穴+开方”的综合能力。
2️⃣ 挑模型:不同 AI 的优势
向上滑动阅览
模型
公司
参数量级*
训练语料亮点
语言优势
GPT-4o
OpenAI
未公开,>1T?
多语种网页、书籍、学术论文
英语、逻辑推理
Gemini 1.5 Flash
未公开
含大量中文网页、专利、图书
中英双语
Claude 3.5 Sonnet
Anthropic
未公开
英语为主,含安全对齐数据
英语对话流畅
LLaMA 3.2
Meta
8B–70B
公开网络文本、代码、论文
英语开源社区友好
ERNIE 3.5
百度
260B
百度中文百科、新闻、医学百科
中文知识丰富
Qwen 2.5 Max
阿里巴巴
72B
中文网页、古籍、医学教材
中文古文、现代文
Doubao 1.5 Pro
字节跳动
未公开
抖音/头条海量中文内容
口语化中文
- 参数量级为公开或业内估算,实际未全部披露。
3️⃣ 出考题:3 个“标准化提示词
Prompt #1:翻译任务
“请将以下 ALS 病历翻译成英文,要求医学术语准确、语句通顺、上下文连贯,字数控制在 300 词以内。”
Prompt #2:诊断任务
“根据所给病史与检查结果,分别给出:
① 西医诊断(≤50 字)
② 中医辨证分型(≤50 字)”
Prompt #3:治疗方案任务
“请为患者设计一套针刺+中药综合治疗方案:
主穴与配穴各 3–5 个
每穴针刺角度、深度、手法
一个中药方剂、组成、剂量
全文 ≤150 字,条理清晰。”
所有 AI 与 3 位针灸师收到完全相同的指令。
4️⃣ 盲审:28 位专家如何评估?
向上滑动阅览
Image
评委画像:
地域:中国 18 人 / 美国 6 人 / 韩国 4 人
资历:平均临床 10+ 年,75% 博士,25% 教授/主任医师
语言环境:
问卷同时提供中文、英文、韩文三语版本,专家自选母语作答。
盲法流程:
所有回答去除署名、时间戳、格式标识,仅留编号。
随机打乱顺序,避免“AI 连续出现”或“医生连续出现”的偏见。
专家用 5 分量表逐项打分,系统实时校验空项与异常值。
质量控制:
每份问卷平均用时 18 分钟,系统记录答题时间、修改次数,剔除异常数据。
三人以上出现≥2 分差异时自动触发“复审”流程,确保一致性。
03
结果如何?
西医诊断:AI 普遍“及格线”以上,Gemini 最稳。
中医辨证、取穴:Qwen、GPT、Doubao 已接近医生,Gemini/Claude 明显掉队。
针刺手法与中药:三位针灸师分数均高于AI,AI 平均落后 0.5–1 分。
总结:AI 已经能把 ALS 认出来、穴位选对,但针刺手法的运用与中药方剂的把握仍不如针灸师。
向上滑动阅览
统计提示:除 Claude vs 针灸师2(p=0.05)外,其余 AI 与医生之间无显著差异。
Image
图1:大语言模型(LLMs)与针灸医师在五个评估维度上的成绩分布
① 平均分(5 分制,±SD)
维度
最高分
最低分
与人类最接近的 AI
西医诊断
4.36±0.87(Gemini)
3.89±1.26(ERNIE)
全部 AI 与医生无统计学差异(p=0.953)
中医辨证
4.21±0.92(针灸师3)
3.21±1.42(Gemini)
Qwen 3.93±1.05 vs 医生 4.14~4.21(差距最小)
取穴方案
4.25±0.70(针灸师1)
3.04±1.07(Gemini)
Qwen 3.89±0.83、GPT 3.82±0.72 与医生无显著差异
针刺手法
4.04±0.79(针灸师1)
2.93±1.05(Claude)
GPT 3.71±0.81、Doubao 3.68±0.90 紧追医生
中药处方
4.07±1.02(针灸师2&3)
3.04±1.14(Claude)
Qwen 3.36±1.19 与医生差距仍最大
② 高分率(≥4 分,即“优秀”比例)
维度
医生区间
AI 区间
AI 冠军
西医诊断
78.6%–82.1%
67.9%–82.1%
Gemini 82.1%
中医辨证
78.6%–85.7%
42.9%–75.0%
Qwen 75.0%
取穴方案
53.6%–85.7%
32.1%–71.4%
GPT 71.4%
针刺手法
60.7%–78.6%
25.0%–67.9%
GPT 67.9%
中药处方
42.9%–75.0%
28.6%–42.9%
Qwen & Gemini 42.9%(并列 AI 第一,但仍低于医生)
③ 综合总分榜(5 维度相加,满分 25)
排名
来源
总分(Mean±SD)
1
针灸师2
20.18±4.23
2
针灸师1
19.96±2.94
3
针灸师3
19.89±3.24
4
Qwen
18.75±4.27
5
GPT
18.61±3.80
6
Doubao
18.04±3.94
7
ERNIE
17.18±4.97
8
LLaMA
17.11±4.76
9
Gemini
16.82±4.75
10
Claude
16.64±4.46
这些发现表明,通用大语言模型在支持像中医这样深度融合文化的医疗体系方面,已具备基础潜力。
经过针对性优化,AI有望成为可扩展、低成本的工具,用于扩大高质量、文化契合的中医服务,特别是在因语言、地理或基础设施限制而缺乏合格针灸师的地区。
04
普通人该怎么用?
出国/偏远地区:先用AI做初步辨证、选穴,再远程找中医师确认。
学生/规培医生:把AI当“老师”,快速自查辨证思路、取穴逻辑。
研究者:把海量古籍和病例喂给模型,训练“中医专精版”AI,未来可能诞生24小时在线的“AI针灸师”。
05
下一步怎么走?
仍待突破的难点:
四诊:脉象、舌象等难以文本化,模型缺乏实时交互。
数据缺口:缺少大规模、标准化的中医病例数据集。
评估体系:本次打分框架尚未外部验证,且仅用单病例,需多病例、多中心验证。
未来计划:
数据升级:将《黄帝内经》、名家医案、现代RCT等统统“喂”给模型。
多模态:让AI“看图说话”——结合舌象、脉象、步态视频。
真实临床验证:AI辅助医生诊疗,看患者满意度与疗效。
随着技术演进,若能将传统医学智慧与现代 AI 系统深度融合,我们就能在全球范围内实现“人人可及的中医”,迈向更加公平、包容的数字健康未来。
更多推荐




所有评论(0)