简介

本研究评估了14个大型语言模型在心脏病学考试问题上的表现。结果显示,开放权重模型DeepSeek R1以86.7%的准确率超越所有专有模型和人类平均水平(78%)。RAG技术显著提升了所有模型的性能,特别是对较小模型的改进最为明显。研究表明,开源模型在心脏病学知识方面可与专有模型匹敌或超越,且具有透明度、可配置性和本地部署的优势,为临床应用提供了可行、低成本的替代方案。


摘要

目的:评估开放和专有的大型语言模型(LLM)的性能,包括有无检索增强生成(RAG),针对心脏病学委员会风格的问题进行测试,并将其与人类平均水平进行对比。

材料与方法:我们使用来自美国心脏病学会自我评估计划(ACCSAP)的449道多项选择题对14个大型语言模型(6个开放权重,8个专有)进行了测试。准确率以正确百分比来衡量。RAG 使用了包含123篇指南和教科书的知识库实现。

结果:开放权重模型DeepSeek R1的准确率最高,达到86.7%(95% 置信区间:83.7-89.9%),优于专有模型以及人类平均水平的78%。GPT 4o的准确率为80.8%(95% 置信区间:77.2-84.5%)和商用平台OpenEvidence(80.4%,95%置信区间:76.7-84.0%)表现出相似的性能。在模型家族内部观察到模型大小与性能呈正相关,但在不同家族之间,即使参数数量相似的模型之间仍存在显著变异。经过RAG处理后,所有模型都有所改进,像Mistral Large 2这样的开放权重模型(78.0%,95%置信区间:74.1-81.8)的表现与专有替代品如GPT 4o相当。

讨论:大型语言模型(LLMs)越来越多地被整合到临床工作流程中,但在心血管医学中的表现仍然评估不足。开放权重模型可以在心血管知识方面与专有系统匹敌或超越,特别是RAG对较小的模型特别有益。鉴于其透明度、可配置性以及本地部署的潜力,战略性地增强的开放权重模型代表了用于临床应用的可行、低成本替代方案。

结论:开放权重LLMs在心血管医学方面的能力与专有模型相当或超越,是否使用RAG取决于模型本身。

作者总结

在这项工作中,我们旨在了解当今的人工智能系统在心脏病学专家在资格考试中遇到的那种问题上表现如何。我们比较了多种大型语言模型,包括自由可用的“开放”模型和商业的“专有”模型,并且还测试了向这些模型提供受信任的心脏病学教科书和指南是否能提升它们的答案。我们发现,最好的开放模型实际上超越了所有我们测试的商业模型,甚至超过了实践心脏病医生的平均分数。当我们向模型提供医学参考资料时,几乎所有模型都有所改进,其中小型和较弱的模型提升最大。这表明,精心设计和支持可以让更小、更易获取的系统达到高水平的准确性。我们的结果表明,开放模型可以在本地使用,无需将敏感的患者信息发送到外部服务器,可能是商业产品的安全且经济高效的替代方案。这很重要,因为它可能使强大的AI工具在医院和诊所更广泛地可用,同时降低与隐私、透明度和成本相关的风险。

核心速览

研究背景

  1. 研究问题:这篇文章旨在评估开放和专有的大型语言模型(LLMs)在心脏病学委员会考试风格问题上的表现,并将其与人类平均水平进行比较。
  2. 研究难点:该问题的研究难点包括:不同模型在心脏病学知识方面的表现差异、模型大小与性能的关系、检索增强生成(RAG)技术对模型性能的影响。
  3. 相关工作:相关研究包括在大内科、眼科等其他医学领域的LLM表现评估,但在心脏病学领域的专门评估仍然缺乏。

研究方法

这篇论文提出了使用检索增强生成(RAG)技术来提高LLMs在心脏病学问题上的表现。具体来说,

  1. 模型选择:研究评估了14个LLMs,包括6个开放模型和8个专有模型。这些模型涵盖了广泛的参数规模。
  2. 数据集:使用了来自美国心脏病学会自我评估计划(ACCSAP)的449个多项选择题。所有包含临床图像的问题都被排除。
  3. RAG技术:RAG技术在响应生成过程中通过检索和整合外部提供的文档集中的相关内容来提高模型性能。使用了123篇文档,包括14本教科书和109份心脏病学指南和专家共识文件。
  4. 推理和超参数设置:所有模型的推理都通过SageMaker或Bedrock Amazon Web Services(AWS)进行。超参数设置为温度0,Top-P 0.9,最大输出令牌限制512。

实验设计

  1. 问题选择:由于美国内科医师协会(ABIM)没有公开可用的测试材料,研究使用了与ABIM心血管病认证考试的多项选择题类似的ACCSAP问题。
  2. 模型选择:评估了包括DeepSeek R1、GPT 4o、Claude 3.7 Sonnet等在内的14个LLMs。
  3. 推理和评估:每个问题的推理都通过特定的提示模板进行,模型输出的答案选择被用来计算每个模型的测试准确率。
  4. RAG过程:每个多项选择题都根据 orchestration prompt template重新表述,并使用amazon.titan-embed-text-v1嵌入模型转换为向量表示,然后与所有文档块进行比较,最终生成提交给模型的final prompt。

结果与分析

  1. 初步性能:DeepSeek R1以86.7%的准确率(95% CI: 83.7-89.9%)位居榜首,优于专有模型和人类平均准确率78%。GPT 4o和OpenEvidence的准确率分别为80.8%(95% CI: 77.2-84.5%)和80.4%(95% CI: 76.7-84.0%)。

  2. 模型家族内的相关性:在模型家族内,模型大小与性能呈正相关,但在不同家族之间,即使参数数量相似,性能也存在显著差异。

  3. RAG效果:所有模型在应用RAG后都有所改进。DeepSeek R1在RAG后的准确率为87.5%(95% CI: 84.5-90.6%),而Claude 3.7 Sonnet和Claude 3 Opus的相对性能改进最大,分别为12.2%和13.3%。

  4. 模型表现差异:Llama 3.18B在RAG后纠正了其偏向“A”回答的偏差,而其他模型如Cohere Command v14.7和Claude 3.5 Haiku也显示出显著的改进。

总体结论

这项研究表明,开放和专有的LLMs都可以在心脏病学委员会考试风格问题上实现高性能,其中开放模型DeepSeek R1的表现优于所有专有替代品,并在没有RAG的情况下超过了人类测试平均分。RAG技术显著提高了较小、表现较差的模型的性能,并在某些情况下纠正了系统性偏差。这些发现表明,较小的开放模型可以通过策略性的检索或微调来达到与高参数专有系统相当的准确性,同时避免了隐私风险和基础设施需求。

论文评价

优点与创新

  1. 全面的比较:论文系统地比较了14个大型语言模型(LLMs),涵盖了不同的模型大小和透明度(开放与专有),在449个心脏病学委员会考试风格的问题上进行了评估。
  2. 创新的检索增强生成(RAG)技术:研究了RAG技术在提高LLMs性能方面的影响,展示了所有模型在应用RAG后的改进。
  3. 开放模型的优越性:发现开放重量的模型如DeepSeek R1在某些情况下优于专有模型,甚至在不需要RAG的情况下超过了人类平均分数。
  4. 模型大小与性能的关系:观察到模型大小与性能之间的正相关关系,但同时也指出即使在相似参数数量的不同家族之间,性能也存在显著差异。
  5. 对临床应用的启示:研究表明,较小的开放模型可以通过策略性的增强(如检索或微调)达到与高参数专有系统相当的准确性,这为临床应用的低成本替代方案提供了希望。

不足与反思

  1. 无法直接测试ABIM问题:由于美国内科医学委员会(ABIM)没有公开可用的测试材料,研究使用了与美国内科医学认证考试(ABIM心血管病认证考试)的多项选择题类似的ACCSAP问题。
  2. 仅使用文本问题:排除了包含临床图像的问题,这可能反映了LLMs当前形式的局限性,并可能导致某些主题领域的过度代表。
  3. 缺乏人类表现的黄金标准:尽管ACCSAP提供了大约78%的平均正确率作为基准,但这个基准受到重复问题暴露和用户随时间表现变化等因素的显著影响。
  4. 未来的研究方向:需要定义模型大小(及其后续资源使用)与性能之间的最佳权衡,这可能因特定应用而异。

关键问题及回答

问题1:在研究中,哪些模型在心脏病学委员会考试风格问题上的表现最佳?

在研究中,表现最佳的模型是DeepSeek R1,其准确率为86.7%(95% CI: 83.7-89.9%)。其次是GPT 4o和OpenEvidence,准确率分别为80.8%(95% CI: 77.2-84.5%)和80.4%(95% CI: 76.7-84.0%)。此外,Mistral Large 2在应用检索增强生成(RAG)技术后的准确率为78.0%(95% CI: 74.1-81.8),表现也相当出色。

问题2:检索增强生成(RAG)技术对模型性能有何影响?

检索增强生成(RAG)技术对所有模型的性能都有显著提升。具体来说,DeepSeek R1在RAG后的准确率为87.5%(95% CI: 84.5-90.6%),而Claude 3.7 Sonnet和Claude 3 Opus的相对性能改进最大,分别为12.2%和13.3%。RAG技术不仅提高了模型的准确率,还在某些情况下纠正了模型的系统性偏差,例如Llama 3.18B在RAG后纠正了其偏向“A”回答的偏差。

问题3:开放和专有大型语言模型在心脏病学知识方面的表现有何差异?

开放模型DeepSeek R1的表现优于所有专有替代品,并在没有RAG的情况下超过了人类测试平均分(78%)。尽管在模型家族内,模型大小与性能呈正相关,但在不同家族之间,即使参数数量相似,性能也存在显著差异。开放模型如DeepSeek R1和Mistral Large 2在心脏病学知识方面的表现与专有模型如GPT 4o和OpenEvidence相当甚至更优。此外,开放模型由于其透明度和可定制性,可能在本地部署时更具优势。

AI大模型学习和面试资源

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐