简介

ShizhenGPT是全球首个覆盖望闻问切全模态的中医大模型,基于超300GB多模态数据预训练,实现舌象、脉象等信号的智能感知与统一推理。该模型在中医资格考试中表现优异,超越多数同级模型,首次验证了中医脉象、嗅觉等传统诊断信号的科学性和可建模性,为中医AI发展带来突破性进展。
在这里插入图片描述

摘要:

ShizhenGPT是首个面向中医(TCM)的多模态大语言模型(Multimodal LLM),旨在解决中医领域高质量数据稀缺与诊断多模态性(望、闻、问、切)的挑战。该模型基于超过100GB文本和200GB多模态数据(包括图像、音频、生理信号)进行预训练与指令微调,在多项中医资格考试与视觉诊断任务中表现出色,甚至媲美参数量更大的专有模型。

研究背景:

  • 中医药的独特性:中医依赖“四诊合参”(望闻问切),高度多模态化,与仅支持文本的传统LLM存在明显差距。
  • 现有问题
  1. 中医专属数据规模小(大多数模型训练数据不足1GB文本);
  2. 缺乏多模态中医诊断数据集;
  3. 通用LLM虽强大,但对TCM知识掌握不足、缺乏诊断适配性。
  • 研究目标:构建一个中医专属多模态LLM,实现跨视觉、音频、脉象、嗅觉等信号的统一感知和推理,赋能临床实践和教育。

研究方法:

1. 模型结构

  • LLM主干:Qwen2.5(7B/32B)作为推理核心;
  • 视觉编码器:基于Qwen2.5-VL,支持高分辨率图像;
  • 信号编码器:基于Whisper-large-v3,适配音频、脉象、嗅觉等信号;非音频信号转化为波形并统一编码。

2. 数据构建

  • 文本:从3,256本中医书籍和网络资源中清洗出21.2GB高质量文本。
  • 图像-文本:从书籍和微信文章中提取并合成约180GB图像-文本对。
  • 音频-文本:合成58K条医患对话音频。
  • 生理信号:包括脉象、气味、心电图等,转换为波形输入。

3. 训练流程

  • 预训练(两阶段):

  • 阶段1:使用119亿文本token(6.3B中医语料+5.6B通用语料);

  • 阶段2:引入38亿多模态token,包括图像-文本、音频-文本对。

  • 指令微调:

  • 构建9类指令数据(包括望诊图像、脉象信号、嗅觉、音频等),统一多模态输入格式。

4. 基准测试

  • TCM考试套题(5套近年国考及研究生考试题);

  • 视觉诊断基准(7204题,涵盖舌诊、草药辨识等7个子任务);

  • 信号基准(咳嗽、脉象、心电图等任务);

  • 医生人工评测。

图2 ShizhenGPT概述: (a) 预训练过程,附ShizhenGPT-7B的损耗曲线; (b) 具有多模态指令调谐的后训练过程; © 模型架构; (d) 展示ShizhenGPT的能力。

表2 预训练数据集概述

表3 指令调优数据集概述

实验设计:

  • 模型版本:ShizhenGPT-7B、ShizhenGPT-32B;
  • 硬件环境:DGX节点×2,每节点8张A100显卡;
  • 对比模型
  • 通用LLM:LLaMA3.1、Qwen2.5、Deepseek、Doubao、GPT-4o;
  • 中医专属LLM:TCMChat、Zhongjing、Biancang等;
  • 多模态LLM:Gemini、HuatuoGPT-Vision、Qwen2.5-VL等;
  • 评测维度
  • 中医理论知识;视觉诊断任务;信号分类能力;医生人工偏好。
结果与分析
  1. 中医考试表现(表4)

ShizhenGPT-7B平均72.9分,<15B模型中第一;32B模型78.1分,超越70B+开源模型,接近671B DeepSeek-R1(84.0分)。→在大幅降低参数规模和推理成本的前提下,仍可接近顶级大模型性能。

表4 大语言模型最新中医考试成绩


  1. 视觉诊断能力(表5)

32B模型视觉诊断63.6分,7B模型60.1分,均超越Gemini-Pro、GPT-4o等商业模型。→领域专属多模态训练显著提升舌诊、中药识别等核心任务,小模型也具备高性能。

表5 TCM-Vision基准的结果,评估中医的视觉理解


  1. 信号模态感知(表7)

脉象怀孕检测准确率80.5%,心电心搏分类83.1%,显著高于随机基线。→首次在AI模型中验证中医脉象、嗅觉等传统诊断信号的科学性和可建模性

表7 在各种TCM信号模式上的性能。所有任务都是分类;随机基线表示随机预测精度


  1. 音频理解能力(表6)

7B模型在通用语音任务上与Qwen2-Audio持平,未因专属训练而降低通用能力。→模型在保持领域专精的同时兼具通用语音理解能力。

表6 一般言语任务的结果


  1. 人工评测(图3)

医生偏好评测中,32B模型表现优于Doubao-1.5-Pro、ChatGPT-4o,与DeepSeek-R1接近。→模型在临床场景下具备高可信度,且推理效率远高于超大闭源模型

图3 人工评估的结果。ShizhenGPT是指ShizhenGPT-32B。”赢/平/输”表示专家对模型反应的偏好比例


  1. 消融实验(表8)

去除中医预训练后,视觉和考试成绩下降5–9分。→验证了 大规模中医语料预训练对多模态能力提升的关键性

表7 ShizhenGPT预训练的消融研究结果。通过两个中医资格考试和两个中医特定的视觉基准来评估性能


  1. 案例分析(图4)

模型能结合舌像、脉象、呼吸声等多模态信息完成完整推理,给出安全建议。→具备真实临床辅助潜力,逻辑链透明,有助于医生信任和落地应用。

图4 ShizhenGPT-32B的案例回答

论文总结

优点

  1. 首个中医多模态LLM,覆盖望闻问切;
  2. 构建最大规模中医多模态数据集(>300GB);
  3. 开源模型、数据和基准套件,促进研究复现;
  4. 性能超越同级开源模型,超过现有类似规模的LLM;
  5. 在脉象、嗅觉等传统诊断信号分析上实现技术突破。

局限

  1. 数据主要集中中文场景,国际化适配不足;
  2. 对真实临床复杂场景的泛化能力仍需验证;
  3. 信号采集设备标准化和噪声处理有待优化;
  4. 模型参数规模仍小于部分超大闭源模型,在极复杂推理上略有差距。

未来方向

  1. 跨语言和多中心临床验证;

  2. 改进多模态对齐算法,增强鲁棒性;

  3. 引入强化学习与知识图谱优化推理链;
    局限*:

  4. 数据主要集中中文场景,国际化适配不足;

  5. 对真实临床复杂场景的泛化能力仍需验证;

  6. 信号采集设备标准化和噪声处理有待优化;

  7. 模型参数规模仍小于部分超大闭源模型,在极复杂推理上略有差距。

未来方向

  1. 跨语言和多中心临床验证;
  2. 改进多模态对齐算法,增强鲁棒性;
  3. 引入强化学习与知识图谱优化推理链;
  4. 扩展TCM教育和临床决策辅助应用。

AI大模型学习和面试资源

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐