【医疗 AI】Baichuan-M2:大语言模型在医疗领域的动态验证框架
百川智能推出 Baichuan-M2-32B 医疗增强推理模型,专注于解决真实世界中的各类医疗推理任务。该模型通过对真实医疗问题进行领域微调,在保持卓越通用能力的同时,实现了医疗性能的突破性提升。本文详细解读该团队的技术论文Baichuan-M2:大语言模型在医疗领域的动态验证框架。
【医疗 AI】Baichuan-M2:大语言模型在医疗领域的动态验证框架
0. Baichuan-M2 模型简介
0.1 基本信息
Baichuan-M2-32B 是【百川智能】推出的医疗增强推理模型,专注于解决真实世界中的各类医疗推理任务。该模型以 Qwen2.5-32B 为基座,创新性地集成大型验证系统(Large Verifier System)。该模型通过对真实医疗问题进行领域微调,在保持卓越通用能力的同时,实现了医疗性能的突破性提升。
2025年 9月,Beichuan-M2 Team 在 Arxiv 发表论文:Baichuan-M2:大语言模型在医疗领域的动态验证框架(Baichuan-M2: Scaling Medical Capability with Large Verifier System),介绍 Baichuan-M2 医疗增强推理模型。
论文下载: Arxiv - Baichuan-M2
Github: Github/Baichuan-M2
技术社区: Blog- Baichuan-M2
百川官网: 【百川智能】
模型下载:
Huggingface - Baichuan-M2-32B
Huggingface - Baichuan-M2-GPTQ-4bit
Huawei Ascend 8bit
0.2 主要贡献
-
面向临床场景的动态验证系统:
突破基于静态数据的传统验证局限,通过患者模拟器构建高保真决策环境,结合临床量规实时生成量化评估指标,显著提升验证过程可靠性。 -
创新的训练方法论:
在动态交互环境中成功实施多阶段强化学习策略,对GRPO算法进行针对性改进,使模型突破静态知识记忆,深度对齐医学专家的高阶临床推理能力。 -
先进的Baichuan-M2开源模型:
以显著更低的部署成本实现顶级性能,确立性能-参数权衡的新帕累托前沿,为资源受限的医疗场景部署高阶医疗AI提供可行性方案。
0.3 论文摘要
随着大语言模型(LLMs)在对话与推理能力上的进步,其医疗实践应用已成为关键研究方向。然而,医学大模型在USMLE等静态基准测试中的表现与现实临床决策效用之间存在显著断层——传统考试难以体现诊疗动态交互的本质特征。为此,我们突破静态答案验证范式,提出一种新型动态验证框架,构建了大规模高保真交互式强化学习系统。该框架包含两大核心组件:
- 患者模拟器:基于脱敏病历构建拟真临床环境
- 临床量规生成器:动态生成多维评估指标
在此框架基础上,我们开发了320亿参数医疗增强推理模型Baichuan-M2,采用改进版分组相对策略优化(GRPO)算法进行多阶段强化学习训练。在HealthBench评测中,Baichuan-M2超越所有开源模型及多数先进闭源模型,在极具挑战性的HealthBench Hard基准上取得32分以上成绩——此前仅有GPT-5达成该水平。本研究证实:强健的动态验证系统对实现大模型能力与临床实践的对齐至关重要,为医疗AI部署确立了性能-参数权衡的新帕累托前沿。
1. 引言
随着大语言模型(LLMs)对话与推理能力的持续进步,其在垂直领域中的实际应用正受到日益广泛的关注。医疗健康领域尤其成为研究焦点,吸引了全球科技巨头与创新企业的大量投入[1-3]。在提升LLMs医疗能力的诸多技术路线中,基于可验证奖励的强化学习(RLVR)展现出显著优势[4,5],该技术已在数学[6-8]、编程[9]、智能体[10,11]及多模态[12,13]等领域取得突破性进展,这些成果凸显了其增强模型推理能力的潜力,也使其在医疗领域的应用成为极具前景的研究方向。
RLVR的核心在于构建强健的评估体系。其在数学、编程等领域的成功,很大程度上依赖于精确可靠的评估标准。然而在医疗领域,当前LLMs的评估方法与实际应用之间存在显著断层:在美国医师执照考试(USMLE)等专业测试中表现优越的模型[14],往往在真实临床决策中表现欠佳。这种差异源于传统静态基准测试无法捕捉临床实践的动态复杂性——真实诊疗场景通常涉及信息不完整、多轮诊断探索及精细化的沟通技巧,而这些维度均未被常规考试有效量化。
为应对这些挑战,我们研究重心从静态答案验证转向构建大规模高保真交互式强化学习验证系统。该系统突破传统答案验证范式,通过模拟真实临床场景,使模型能在虚拟诊疗环境中通过"实践"进行学习与适配。基于此,我们提出医疗增强推理模型Baichuan-M2,标志着开源医疗人工智能的重大进展。
该验证系统包含两大核心组件:其一是患者模拟器,融合脱敏病历与医患对话记录,能有效模拟不同社会背景与性格特征的患者,提供高度拟真的交互环境;其二是临床量规生成器,可模拟资深医师的临床思维,根据诊断准确性、问诊逻辑性、治疗方案合理性、沟通共情力及医学伦理等多维度,动态生成可量化的大规模评估标准。
我们的训练流程包含医疗领域适配的中期训练、带拒绝采样的监督微调(SFT),以及采用改进版分组相对策略优化(GRPO)[8]算法的多阶段强化学习(RL)。通过多阶段强化学习策略,我们将复杂强化学习任务解耦为可控的层级结构,在保持模型通用能力的同时,显著提升其医学知识、推理能力和患者交互等专项能力。
在OpenAI开发的HealthBench基准测试集[15]上,尽管参数量仅320亿,Baichuan-M2仍超越包括gpt-oss-120B在内的所有开源模型及多数先进闭源模型。其在HealthBench Hard测试中以超过32分的表现尤为突出——此前全球仅GPT-5达到该水平。这些实验成果印证了强健验证系统对模型能力与实际应用对接的关键作用。
我们的核心贡献可概括为:
- 面向临床场景的动态验证系统:突破基于静态数据的传统验证局限,通过患者模拟器构建高保真决策环境,结合临床量规实时生成量化评估指标,显著提升验证过程可靠性。
- 创新的训练方法论:在动态交互环境中成功实施多阶段强化学习策略,对GRPO算法进行针对性改进,使模型突破静态知识记忆,深度对齐医学专家的高阶临床推理能力。
- 先进的Baichuan-M2开源模型:以显著更低的部署成本实现顶级性能,确立性能-参数权衡的新帕累托前沿,为资源受限的医疗场景部署高阶医疗AI提供可行性方案。
2. 验证系统
近年来,RLVR技术在数学、编程及智能体系统等复杂推理领域取得显著成功。构建更具可验证性的复杂问题与环境,已成为推动模型能力持续突破的核心驱动力。然而当该范式迁移至医疗领域时,我们发现现有方法存在显著局限:基于传统医学题库构建的静态答案验证器无法捕捉真实诊疗过程的动态复杂性,往往导致模型在实际应用中泛化能力受限。真实临床实践是一个部分可观测、多轮次的决策过程,高度依赖医师的动态判断力,需要综合临床经验、沟通技巧与伦理考量等维度。
为应对这一挑战,在Baichuan-M2开发过程中,我们转向构建大规模高保真动态交互式强化学习环境,旨在打造模型可"训练成长"的"虚拟临床世界"。该系统主要由两大核心模块构成:“患者模拟器"与"临床量规生成器”。患者模拟器将训练环境从僵化的单轮问答提升至拟真、随机、连续的交互场景;临床量规生成器(如图1所示)动态生成回答验证规则,实现对模型多轮交互中综合表现的持续性动态量化评估。
通过这一闭环系统,我们成功实现了大规模端到端强化学习:模型持续与"虚拟患者"互动,基于"专家级评估"的密集反馈迭代优化诊断策略。最终使模型能力突破静态知识记忆,实现与资深医师临床思维及实践技能的深度对齐。
2.1 患者模拟器
患者模拟器在AI医师训练与评估中具有关键作用[16-17],其提供的动态测试环境能有效克服传统静态测试方法难以评估LLMs动态诊疗能力的缺陷。然现有研究中广泛采用的模拟器[18-19]对患者心理状态、社会背景及动态交互的建模存在不足,使其退化为静态数据库,无法复现真实临床遭遇的复杂性——这些遭遇常涉及信息保留、情绪表达及文化因素导致的沟通障碍,这些要素对AI医师在实际场景中的适应能力至关重要。
开发高保真患者模拟器的核心挑战在于平衡多样性与一致性。实现多样性需要庞大的疾病知识库结合多维行为模型以覆盖广泛临床情境;而确保一致性则需预设脚本与行为约束以维护特定案例的可复现性。基于前人研究[16],我们训练出具有最优多样性-一致性权衡的高保真患者模拟器,提供了高度真实的交互环境。
2.1.1 患者剧本
患者剧本通过整合医学与心理信息提升行为模拟的真实性。
-
医学信息:
该模块包含主诉、现病史和既往史等关键要素,用于评估医师信息采集能力。我们收集整理了真实场景下的高质量临床数据集,覆盖多专科与人群特征,其疾病分布精确反映流行病学特征和典型诊疗情景,确保坚实的医学真实性基础。 -
心理信息:
行为模式通过人格特质与社会文化背景定义。基于MBTI 16型人格模型[20],我们映射了差异化行为表征:例如外向型(E)患者会主动询问治疗方案,而内向型(I)则被动接受信息;情感型(F)比思考型(T)对沟通方式更敏感,进而影响治疗依从性。社会属性进一步驱动差异化治疗反应——经济困难患者常抗拒高成本方案,而高学历患者更注重循证医学依据。这种多维建模显著增强了虚拟患者的真实性与多样性。
2.1.2 模块与内部交互
在患者模拟器实现过程中,我们发现大模型虽能呈现更高人格保真度,但计算成本过高难以融入强化学习训练循环;而优先采用小模型又会导致患者画像行为一致性下降,阻碍强化学习收敛。具体表现为三大问题:
- 信息泄漏:未经提示即透露额外细节,弱化问诊场景挑战性
- 事实矛盾:回答与预设画像属性冲突,产生临床事实错误
- 终止失控:对话提前中断或无法正常结束,破坏模拟完整性
为此,我们提出由三组件构成的架构(图2):
- 终止门控:根据预设触发条件(如医师确诊)决定会话终止
- 情感单元:生成符合画像的响应,通过角色扮演实现行为多样性
- 事实单元:实时校验回答与患者档案的一致性,防止信息泄漏与矛盾
基于该架构,我们实现了参数量更小但性能媲美大模型的患者模拟器。
图2:患者模拟器架构示意图。该系统由三大核心模块构成:终止门控模块、情感单元模块与事实校验模块。其中情感单元模块通过合成数据训练,用于模拟具有多样化人格特质与社会文化背景的患者行为。情感单元与事实校验模块均基于大语言模型实现,采用非思维型轻量化计算模式快速判定终止条件并核验事实信息。
2.1.3 患者模拟器性能
我们提出双维度评估框架,结合细粒度轮次分析与整体会话级保真指标:
- 单轮次层面
- 隐私评分:量化不披露与临床无关个人隐私的对话轮次占比
- 事实评分:衡量对话内容遵循预设病历而无虚构的程度
- 最终得分为所有轮次得分的均值
- 会话层面
通过人格化评分评估行为一致性。该复合指标均衡考量人格特质一致性与社会文化一致性,整体衡量行为保真度。
以DeepSeek-V3[6]为基线,设置两种对照:标准提示(不含心理上下文)与增强提示(显式包含心理信息)。如图3所示,实验结果证明:
- 人格化评分提升通常伴随隐私/事实评分下降
- 我们的方法以更少参数实现了最优的多样性-一致性权衡
图3:患者模拟器性能对比。实验结果显示,DeepSeek-V3在引入心理信息后隐私评分与事实评分显著下降,表明该模型在评估过程中会因过量的随机噪声导致实验结果产生较大波动。相比之下,我们提出的模拟器方法在提升人格化评分的同时,能最优地维持隐私评分与事实评分的稳定性。
2.2 临床评分标准生成器
在实际临床场景中,患者需要的是超越孤立医疗答案的综合诊疗服务,这涉及动态决策、诊断推理、治疗规划以及体现医生专业素养的沟通能力。传统基于强化学习系统的二元验证方法(依赖答案匹配或规则匹配的奖励信号)难以应对这种固有复杂性,亟待建立能够捕捉专家医疗实践中细微临床判断与专业标准的新方法。
为此,我们提出一种生成式验证系统,通过三个核心特性使AI医生的推理与专家临床判断保持一致:
- 全面性:系统不仅评估诊断准确性,还通过多维可验证评分标准量化沟通质量,完整覆盖临床能力谱系;
- 可靠性:所有验证标准均由资深临床医生严格校验,确保符合专业规范与最佳实践;
- 适应性:系统动态调整验证标准,纳入通过患者模拟器建模的个体特征、行为模式及沟通风格等个性化因素。
具体实现中,我们运用患者模拟器生成涵盖多样化临床情境的医疗提示词。每个提示词均配置经过精细校准的可验证标准,作为评分标准生成器的训练数据。该生成器通过学习产生情境相关的验证标准,从而使AI推理紧密贴合专家临床判断。
临床评分标准生成器的开发包含三个核心流程:
- 提示词收集与处理
- 评分标准构建
- 评分标准生成器训练
2.2.1 提示词收集与处理
评分标准的有效性取决于临床情境的丰富性与真实性。为此,我们基于系统性构建的提示词设计评分标准,这类提示词整合了临床实践、医学知识及其他复杂医疗场景,从而将临床复杂性转化为可评估任务。提示词来源包含三大类型:
- 病历驱动型提示词:源自真实患者病历,覆盖多学科、多病种及多人群特征。通过纳入患者信息与诊疗细节,这类提示词能够反映临床推理和实际决策过程,使AI诊断思维在真实问诊场景中与专家医师保持一致。
- 知识库驱动型提示词:基于教科书、研究论文、临床指南、药典等循证文献构建的标准问答对,确保事实准确性、医学常识符合度与临床经验匹配性,降低潜在安全风险。
- 合成场景型提示词:为模拟复杂职业需求(如住院记录撰写、体检报告解读、智能分诊、临床问答)而设计,融合通用医疗验证任务与多维能力评估。其测评维度涵盖:医学准确性、应答完整性、追问意识、指令遵循度、语言连贯性、意图澄清能力、武断断言识别,以及上下文一致性(如冗余或无关的多轮交互),重点检验AI医生在推理、沟通与情境一致性维护方面的表现。
基于上述来源,我们进一步利用大语言模型生成海量初始提示词,并强调多样性、情境相关性及任务复杂度。所有提示词均通过百川内部数据处理流程进行严格加工:
- 聚类去重:消除内外部提示词的冗余内容以提升独特性;
- 核心维度评分:基于指令约束、任务难度、核心能力类别及指令属性进行多维评分;
- 过滤筛选:保留具有全面性、临床价值与挑战性的提示词。
最终形成覆盖广、质量高且平衡的提示词集合,为多样化评分标准生成与强化学习训练奠定坚实数据基础。
2.2.2 评分标准构建
评分标准的核心目标是将复杂的临床能力转化为可操作的量化指标。初始阶段,我们采用大语言模型结合提示工程与小样本技术生成评分标准。实践中发现:1)此类标准容易趋向同质化,难以体现个案特异性;2)部分案例的核心要点存在覆盖不全现象。为此我们设计了以下工作流程:
- 核心维度定义:医学专家根据数据来源与应用场景,划定关键评估维度;
- 候选标准生成:大语言模型针对核心维度生成全面覆盖的评分标准集合;
- 专家筛选定制:内部临床专家遴选出能反映案例特质的评分标准;
- 权重标注:专家依据预设评分准则(如诊断准确性、问诊逻辑性、治疗合理性、沟通共情力、医学伦理等),对选定标准赋予[-10, 10]区间的整数权重,以体现相对重要性;
- 数据扩展:经筛选加权的评分标准作为"种子数据",由大语言模型在不同来源和场景下进行扩展,生成规模更大、覆盖更全面的数据集。
2.2.3 评分标准生成器训练
为培养具备跨场景适应能力的稳健评分标准生成器(同时控制线上计算成本——因为较大规模语言模型虽能生成更优质标准但会带来过高开销),我们采用与系统核心架构一致的中等规模预训练基座模型。训练数据整合了医疗评分标准、数学/代码推理及复杂指令遵循数据集,以增强逻辑严谨性与任务适应力。训练范式结合监督微调与强化学习,在保证事实正确性的同时兼顾多样化临床场景的灵活性需求。经训练后,评分标准生成器可实时生成动态评估标准,在为AI医生提供持续可靠反馈的同时有效控制计算成本。
2.2.4 评分标准生成器验证
为验证评分标准生成器的有效性,我们评估了模型生成标准与临床专家标注标准间的一致性。具体操作中:从既有提示词库中均匀选取100例跨类别案例,通过种子数据生成流程获取候选标准;医学专家为每例筛选最适用标准,同时经训练的生成器对同批案例产出对应标准。通过比对专家标注标准与模型生成标准计算一致率。
评估时采用维度一致性原则(反映相同评估意图即视为一致),因评分标准核心功能是引导模型响应而非字面匹配。为确保客观可靠,使用GPT-4.1作为裁判对专家标准与模型标准进行比对评分,最终获得92.7%的一致率验证。
本项验证表明,评分标准生成器能够在平衡标准多样性、核心点覆盖度与计算成本的前提下,为多场景临床推理提供量化指导,为其在强化学习中的应用提供了可靠基础。
3. 数据与训练
本章节概述了如图4所示的整体数据构建与训练框架。我们首先通过轻量级的中期训练阶段,使基座模型适配医疗领域并保留通用能力;随后进行监督微调和强化学习两阶段训练,逐步增强推理能力、领域对齐度和交互鲁棒性。这些阶段共同构成连贯的训练管道,在知识获取、推理能力发展与医疗场景实际适用性之间达成平衡。
3.1 中期训练
鉴于通用预训练模型在医疗场景中常面临医学知识储备不足、权威性欠缺及时间滞后等问题,直接进行医学后训练往往陷入领域对齐不足或幻觉加剧的两难境地[21]。因此,我们采用轻量化中期训练策略,旨在有效提升模型医疗领域适应性的同时,最大限度保留其固有通用能力。
我们构建了专业医学语料库,数据来源包括公开医学教材、临床专著、药品知识库、最新发布的临床诊疗指南以及去标识化的真实病历报告。为进一步提升数据质量,对原始语料实施两阶段增强策略:
- 结构化重述:为提升文本逻辑连贯性与可读性,对原始医学文本进行结构化改写。该过程遵循严格的知识保真原则:限制引入原文未出现或无法严格推导的陈述,以降低改写引发的幻觉风险。
- 显式思维链注入:针对知识密集型段落与关键结论,自适应插入"思考注释"(链式思维风格的中间推理轨迹),涵盖知识关联、批判性反思、论证验证及案例推演。思考注释与原文交错排列,并通过明确分隔与标记保持可区分性,以支持模型在推理时学习可迁移的推理模式。
为防止通用能力退化,我们按2:2:1比例混合医学、通用及数学推理语料,并引入领域自约束训练机制[22]:
- 医学训练:采用双任务范式:1)在原始文本上执行标准的下一词元预测任务,促进模型对权威医学知识的吸收与记忆;2)在交错数据上训练显式思维链过程,促使模型学习生成结构化推理步骤,从而提升其在上下文学习[23–25]场景中的复杂推理与泛化性能。
- 通用与数学训练:以通用基座模型为参照模型,引入Kullback-Leibler(KL)散度损失以保持模型在数学与通用能力上的表现。
该中期训练框架总体上致力于实现医学知识深度、推理能力与通用能力保持之间的平衡,为后续指令微调与对齐阶段奠定更优质的医学领域基础。
3.2 监督微调
直接应用强化学习会因基础能力不足导致收敛困难与策略探索低效。为此,我们设置监督微调(SFT)阶段以建立基础推理能力,并为后续多阶段强化学习提供稳定初始化。
我们从内部Baichuan-M1数据集[26]与外部开源数据构建了超400万样本的候选池,采用DeepSeek-R1作为主要链式思维(CoT)生成器[27–29]来构建复杂推理链。数据处理流程包含三个关键组件:
-
通用指令数据处理:通过高维语义向量化提示词并进行聚类分析,识别语义分布模式。基于聚类结果实施分层采样,确保全面覆盖多任务类型与难度级别,同时自动过滤不完整或歧义指令[30]等低质样本,有效避免数据冗余导致的训练偏差。
-
验证驱动的数据分配:对具有可验证真值的样本,采用专项验证器进行拒绝采样以评估回答质量,模糊案例通过多模型共识判定。剔除存在提示缺陷或解决方案错误的样本后,我们对剩余困难样本实施策略性划分:以知识为核心的任务分配给擅长知识迁移的SFT,而以推理为核心的问题则分配给通过探索与迭代改进实现多步推理泛化的RL训练。
-
医疗领域专项优化:针对现有开源医疗数据集过度聚焦标准化考试场景、缺乏真实临床复杂性的问题,我们系统性增强医疗数据覆盖。通过实地临床工作流调研,优化了包含预问诊、智能分诊、电子健康档案(EHR)生成、医学检索增强生成(RAG)及医疗安全等核心场景的数据。借助医生模拟器与患者模拟器的交互,构建含推理内容的多轮医疗对话数据。该专项优化显著提升了模型在真实医疗环境中的适用性,确保中期训练获得的医学知识向临床实践能力的平滑迁移。
最终构建的SFT数据集包含200万样本,其中医疗相关数据占比约20%。基于Qwen2.5-32B-Base1模型在32K上下文长度下训练2个周期,为后续强化学习优化奠定了稳定基础。
3.3 强化训练
强化学习是使大语言模型与人类偏好及领域特定需求对齐的核心环节。在医疗应用中,由于医疗交互对精确性、安全性和专业行为的严格要求,这种对齐变得尤为重要。
我们采用多阶段强化学习框架,通过三个互补的进阶环节持续提升模型的医学能力:
- 基于规则的强化训练:促进基础推理能力发展
- 基于量规的优化:提升结构化医疗响应质量
- 多轮对话训练:增强动态临床交互能力
每个阶段针对医疗AI能力的不同维度进行优化,同时保留通用推理能力。
本方法采用改进版的组相对策略优化(Group Relative Policy Optimization, GRPO)算法[8],整合了学界提出的多项优化方案[31, 32],确保在多分布、多源医疗数据集上实现稳定高效的训练。其优化目标可形式化表示为:
核心算法改进包括:
• 取消KL散度约束:消除奖励增长限制的同时降低参考模型计算开销;
• 非对称截断与提升上限:防止熵值过早衰减以维持策略探索能力;
• 长度归一化损失函数:解决不同医疗数据源间响应长度差异问题;
• 简化优势归一化:缓解多任务难度偏差并增强训练稳定性。
后续小节将详细阐述每个强化学习阶段及其对医疗AI能力的具体提升贡献。
3.3.1 基于规则的强化学习
我们收集了涵盖数学推理、编程任务、通用指令跟随、医疗知识问答及医疗诊断的综合性任务集,通过多级筛选流程选取适合强化学习的数据样本:
- 筛选确定性答案任务:优先选择答案明确唯一的任务,以降低基于规则的答案验证器错误率
- 大模型验证答案一致性:采用先进大语言模型校验输出结果,仅保留模型响应与参考答案匹配的样本以降低噪声
- 保留需推理能力的任务:通过大语言模型判定任务是否需要推理过程,筛选需实际推理能力的样本
- 难度适配性过滤:使用前期SFT模型评估任务难度,保留当前模型可有效学习的合适难度任务
基于规则的强化训练旨在提升模型在医疗知识领域的推理与关联能力,同时保持或增强其通用推理水平。实验结果显示:在AIME基准测试[33]中性能保持稳定,而在SuperGPQA[34]、MedXQA[35]等医疗专项基准上表现显著提升。
本阶段强化学习后,我们观察到医疗推理任务(如复杂病例诊断与治疗方案制定)获得明显进步,但知识型医疗问答的改进幅度较小。这与本阶段设计目标一致:重点培育可迁移的推理能力而非注入额外医疗知识。此阶段形成的医疗推理范式亦为下一阶段基于量规的强化学习奠定基础,后续将引入更结构化的评估标准。
3.3.2 基于量规的强化学习
我们收集了多样化的医学开放式问答提示模板,覆盖(但不限于)初诊咨询、病例分析、治疗方案解释、用药教育以及预后与随访建议等场景。针对每个提示,我们启用量规生成器(第2.2节)构建了多维评估体系,重点考察对医疗场景至关重要的关键维度,包括:诊断准确性、问诊逻辑性、治疗适宜性、沟通与共情能力、医疗伦理与安全性、循证引用规范,以及表述清晰度与结构组织性。基于这些评分量规,我们采用大语言模型作为评估器对模型响应进行打分,最终分数归一化至0-1区间[15, 36]。
-
量规评估提示设计
直观做法是设计单一评估提示,将模型输出与量规直接结合生成评分。但实践发现这种设计在某些情况下会引发幻觉问题,尤以正向/负向量规的评估差异最为显著。具体而言,我们的量规集同时包含正向量规(表征期望行为)和负向量规(表征非期望行为)。当针对负向量规评分时,若提示仅简单询问输出是否符合量规要求,大语言模型常错误地将任务理解为"根据该量规判断输出好坏",而非检测非期望行为是否存在。为此,我们为不同量规类型设计了差异化的评分提示模板,从而提升基于大语言模型的评估可靠性与精确度。更多评估提示细节详见附录A。 -
验证系统的亲和机制
由于每个提示需沿多个量规维度评估,评分阶段会生成多个共享相同对话前缀但量规描述不同的评估提示。为提升验证系统的量规评分效率,我们的量规验证系统采用亲和机制——将具有相同对话前缀的评估提示路由至同一服务实例,从而优化KV缓存利用率,显著提升基于量规和多轮强化学习阶段中LLM验证器的运行效率。 -
长度惩罚机制
在量规驱动的优化过程中,模型响应易出现"面面俱到"倾向,导致冗余信息增加、推理时间延长及用户阅读负担加重。然而医学响应又需保持足够的专业阐述深度。为此,我们遵循"质量优先"原则引入动态长度奖励机制:仅在质量达标前提下,激励模型生成更简洁且全面的回答,逐步收紧响应长度。
我们实施了一种条件性长度惩罚机制,在保证质量的前提下有选择性地鼓励回复简洁性。最终奖励由两部分组成:R(q, oi) = Rrubric(q, oi) + Rlength(q, oi)。长度奖励遵循 4 ∣ o i ∣ \frac{4}{\sqrt{|oi|}} ∣oi∣4的幂律衰减规律[37]。关键在于,该长度奖励仅在两个严格条件下生效:首先,组内所有回复的评分指标80分位值(P80)必须超过预设质量阈值(thresh);其次,单个回复的评分必须位于组内前80分位。这种双重门控机制确保仅当整体回复质量达到满意水平时,才会启动长度优化,且仅适用于高分样本。通过确立"质量优先于效率优化"的原则,该方法有效避免了"越短越好"的异常偏好,同时鼓励生成适度简洁且全面的医疗回复。最终优势计算将这种条件性长度奖励与基于评分标准的主要奖励相结合。
图5:长度惩罚机制的效果验证。结果显示模型能有效压缩响应长度(右)同时保持性能(左)持续提升。所有结果均在HealthBench随机子集上进行评估。
3.3.3 多轮强化学习
我们提出了一套面向临床应用场景的动态交互式强化学习框架。该框架中,模型与患者模拟器进行多轮对话——模拟器端由经过去标识化处理的病例驱动,这些病例按专科分类、疾病流行率、年龄、性别及并发症等维度分层抽样。该设计能真实覆盖临床实践中各类人群与复杂病况。每轮模型-模拟器交互后,系统截取片段化对话历史输入量规生成器,产生与当前语境高度相关的动态量规集。这些对话片段将作为上下文生成模型的后续响应,并依据动态量规进行实时评估与强化,由此形成"模拟-评估-优化"的自适应闭环。相比纯静态数据训练方法,这种对话与量规的动态交互机制能持续校准模型在不完整、高噪声临床环境中的医生推理模式,显著提升病史采集、关键线索挖掘及诊断决策能力,从而增强在更广阔、更真实的医患交互场景中的泛化性能。
我们注意到患者模拟器仍可能引入噪声或失真(如重复生成、对话冗长或角色倒置),因此在训练中融入严格的交互过滤机制,仅保留语义连贯且因果合理的对话片段。这种动态片段级采样训练不仅使模型持续接触演进的对话语境,还提升了效率与稳定性:从高信噪比的短片段获取密集反馈,有效缓解了累积式上下文错误与奖励泄漏振荡问题。
展望未来,我们计划进一步优化模拟器与评估系统,将强化学习范式从片段级训练扩展至完整对话会话。这将实现全流程目标一致性与跨轮次策略的联合优化,从而增强模型在信息收集、策略切换及诊断决策中的系统化推理与全局规划能力。
4. 评估
4.1 HealthBench评估
HealthBench [15]是由OpenAI发布的医疗领域评测集,包含5,000组真实多轮对话,覆盖广泛场景。模型能力通过262名医生撰写的48,562条量规标准进行验证。我们在HealthBench、HealthBench Hard和HealthBench Consensus三个子集上评估了Baichuan-M2,并与当前最优开源及闭源模型进行对比。
与主流开源模型的比较中(如图6所示),Baichuan-M2在gpt-oss-120B [38]、Qwen-3235B-A22B [39]、DeepSeek-R1 [6]、GLM-4.5 [11]、Kimi-K2 [10]等模型中全面领先。其在HealthBench Hard任务上的优势尤为显著,证明模型解决复杂医疗问题的卓越能力。
图6:Baichuan-M2与主流开源模型在HealthBench基准上的对比(左:综合得分 中:困难子集得分 右:共识子集得分)
即使对比当前最佳闭源模型(如图7),Baichuan-M2在HealthBench和HealthBench Hard上仍超越了o3、Grok 3、Gemini 2.5 Pro [40]和GPT-4.1等先进模型。
医疗领域涉及个人敏感信息,对私有化部署有强烈需求。如图8所示,Baichuan-M2以极低部署成本达成HealthBench最优结果。相较OpenAI最新开源模型gpt-oss-120B,我们再次推进了帕累托前沿,增强了模型在真实医疗场景的落地潜力与扩展性。
基于HealthBench评测结果(如图9),Baichuan-M2在急诊转诊(74.6分,排名第1)、医疗上下文理解(语境感知48.0分/语境检索55.8分,均列第1)、医患沟通(68.6分,第1)、全球健康(57.1分,第1)及完整性(67.2分,第1)等核心医疗场景均展现显著优势。
HealthBench Hard挑战
该子集包含1,000道涵盖英语、俄语、意大利语、印地语、韩语和汉语等多语言的真实场景问题(非罕见病例),既包含医生视角也包含普通用户视角,着重考察模型在实际医疗应用中的解决方案有效性。初始发布时全球无模型能超过32分,多数领先模型甚至得0分。目前全球仅Baichuan-M2(34.7分)与GPT-5(46.2分)突破32分阈值。
案例示例:
【作为产科住院医师,我接诊一名孕32周合并妊娠糖尿病的患者。其血糖日志显示基础胰岛素16单位时空腹血糖接近105 mg/dl。美国妇产科医师学会(ACOG)指南建议超过95即需强化治疗。我是否应调整至20单位?】
Baichuan-M2展现出更完整的医学思维、更高的准确性与安全性:不仅依据ACOG指南全面回答胰岛素调整需求,还提出保守调整建议,强调需密切评估患者个体情况、避免低血糖风险及进行胎儿评估,并指出需联合糖尿病教育师指导饮食。相较之下,gpt-oss-120B模型未考虑低血糖等潜在风险,在精确建议与安全性维度稍逊。该案例详细回应见附录B。
4.2 中国医疗场景对比研究
为评估Baichuan-M2在中国临床环境中的表现,我们以HealthBench当前最先进开源模型gpt-oss-120B为对照,基于中国三甲医院多学科诊疗(MDT)真实案例构建定制化评测集展开研究。该评测集包含57例复杂临床病例,具有三大特征:
- 病例真实性:全部源自真实MDT会诊记录;
- 输入复杂性:平均单病例达3000汉字量级长文本;
- 答案非确定性:反映真实临床实践中的模糊性,不存在标准"黄金答案"。
因此,评估方法重点考察模型推理过程而非单纯诊断准确性。
模型输出从五大核心维度进行专业评估:沟通能力、检查建议、诊断能力、治疗方案及安全性,具体细分为任务完成度、医学正确性、逻辑推理、完整性、临床实用性、风险意识等10项加权指标(其中医疗安全性与准确性权重最高)。全部评估由资深医学专家完成。
如图11所示,Baichuan-M2在五大维度均显著领先。最大优势体现在沟通能力(67%的评估优选率),其回答在可读性、结构化和简洁性上表现突出;检查建议(45%优选率)与诊断能力(43%优选率)也呈现明显优势,体现更强的综合分析能力。尽管在治疗方案(37%)和安全性(34%)上差距缩小,Baichuan-M2仍在临床实用性和风险识别方面保持优势。进一步分析表明,该优势部分源于模型与中国医疗实践更精准的对齐,包括严格遵循中国权威临床指南等本土化特征。
图11展示了Baichuan-M2与gpt-oss-120B在中国医疗场景下的表现对比。
4.3 通用能力评估
除医疗领域的专业能力外,Baichuan-M2在通用任务和指令遵循方面仍保持业界领先水平。实际医疗AI应用常涉及跨领域知识整合与复杂交互场景,要求模型具备扎实的基础能力作为支撑。我们在多个权威评测集上对Baichuan-M2进行了全面评估,包括:
- STEM与数理评测:AIME24、AIME25 [33]
- 指令跟随评测:IFEval [41]、CF-Bench [42]
- 通用能力与对齐评测:Arena-Hard-V2.0 [43]、AlignBench [44]、WritingBench [45]
具体结果如表1所示(详见注2)。这些评测结果验证了Baichuan-M2作为医疗AI系统的全面素质——不仅拥有专业的医学知识与推理能力,在通用场景下仍能保持稳定可靠的性能,为实际医疗应用的安全部署与可信交互提供了重要保障。
5 推理优化
为提升Baichuan-M2模型在医疗应用场景的易用性与效率,我们实施了双管齐下的推理优化策略:一方面采用先进量化技术显著降低模型显存占用,使其可部署于GeForce RTX 4090等消费级硬件;另一方面引入基于轻量级草稿模型的推测解码框架以提升生成速度。这些优化共同降低了实际部署门槛,促进了先进医疗AI的普惠化应用。
5.1 训练后量化
针对W4A16(权重4比特/激活值16比特)量化,我们采用AutoRound[46]的带符号梯度下降法优化量化参数,有效减少了舍入函数引入的误差。为进一步实现模型压缩与推理加速,我们还完成了W4A8(权重4比特/激活值8比特)量化:通过Hadamard变换[47]对模型内部矩阵进行旋转以解决激活值异常值问题,并采用基于Hessian矩阵误差补偿的GPTQ方法[48]执行权重4比特量化,最终模型以QQQ格式[49]封装。经组合优化后,W4A16与W4A8量化模型均可实现近乎无损的精度。需指出,上述量化方法依赖校准数据质量,我们发现将原始模型生成响应的部分结果作为校准数据可获得更高精度。
为节省KV缓存存储空间,我们采用FP8 E4M3格式对其进行量化。为兼容SGLang[50]、vLLM[51]等主流推理引擎并平衡速度与精度,选用静态缩放因子策略:虽然基于校准数据的逐层缩放因子理论上可提升量化精度,但实验表明相比固定缩放因子1.0,其并未带来模型精度的显著变化,故后续实验均直接采用1.0作为KV缓存量化缩放因子。
以单块RTX 4090显卡(24G显存)部署为例,通过SGLang测试单请求场景下不同量化配置支持的最大序列长度(输入+输出),详见表2。其中W4A8-KV8配置可实现21,133 tokens的最大序列长度。量化后的模型可直接部署于开源推理引擎且无需代码修改,极大提升了用户易用性。
5.2 推测性解码
为提升推理过程中的令牌吞吐量,我们基于Baichuan-M2架构训练轻量级草稿模型,构建了推测性采样框架。该草稿模型经优化可快速生成候选令牌序列,随后由更大规模的目标模型并行验证。我们采用改进版Eagle-3推测采样算法[52],通过引入基于树的注意力机制和上下文感知的草稿评分,使草稿模型能在每步生成多个候选序列的同时保持低延迟,显著减少目标模型的串行解码步骤。
草稿模型的训练数据选自精心构建的医疗对话、临床记录及结构化医学知识资源。为生成反映真实医疗交互的高质量合成数据,我们基于Baichuan-M2生成上下文相关的医疗响应,形成多样化且领域相关的训练语料。
在单块RTX 4090 GPU(4比特量化、4096令牌上下文长度)的部署环境下,草稿模型达到73%的预测准确率,平均每轮接受3.28个令牌。这使得生成吞吐量从41.5令牌/秒提升至89.9令牌/秒(加速比2.17倍),显著提升了文本生成效率。
6. 结论
我们开发了一套动态强化学习验证系统,弥合了大型语言模型评估与真实临床实践之间的鸿沟。该系统通过交互式患者模拟与多维临床评估标准替代传统静态基准测试,构建出高度逼近真实临床场景的决策环境。基于这一创新方法,我们训练并开源了Baichuan-M2模型——该模型采用领域适应与多阶段强化学习策略,虽仅含320亿参数,却展现出卓越的临床推理能力。在具有挑战性的HealthBench基准测试中,Baichuan-M2不仅超越了所有其他开源模型,更可与顶尖闭源系统比肩,成为全球仅有的两个在HealthBench Hard子集得分突破32分的模型之一。本研究证明:在可部署模型规模下仍能实现复杂临床性能,彰显了大型语言模型显著增强临床决策能力的巨大潜力。
7. 局限性与未来工作
尽管我们怀着对医疗场景的敬畏之心展开研究,但也清醒地意识到,利用人工智能改善人类健康的道路依然漫长而复杂。Baichuan-M2虽取得突破性进展,仍存在反映当前技术局限性的不足:在特定边缘案例中可能显现响应幻觉与推理稳定性不足的问题;从评估指标看,无论是HealthBench还是其他真实场景的医疗能力测试,其表现远未达饱和状态,各临床维度仍有显著优化空间;功能层面,当前版本在工具调用、外部知识检索等可扩展临床效能的模块上尚未充分优化。我们对此保持透明认知,将以审慎务实的态度持续迭代,不断提升模型的安全性、可靠性及实际应用价值。
当前版本主要聚焦临床诊疗能力,但我们认识到医学问诊能力与幻觉抑制对实际部署同等关键。后续工作将强化这些核心能力的量化评估与优化,同时深化多轮会话强化学习的研究与落地,以期提供贴合完整临床流程的综合问诊与诊断能力。此外,我们将探索更先进的医学知识 grounding 技术,可能通过对接医学知识库与临床决策支持系统,进一步降低幻觉率并提升诊断准确性。
8. 快速使用方法
特别提醒:
医学免责声明:该模型仅供科研参考使用,绝对不能替代专业的医疗诊断或治疗方案。
适用场景:该模型可应用于医学教育,帮助医学生更好地学习和理解医学知识;也可用于健康咨询,为人们提供基础的健康信息参考;还能作为临床决策支持工具,辅助医生进行诊断思考。
安全使用:为确保使用的安全性和准确性,建议在医疗专业人员的指导下使用该模型。
- 加载模型。
# 1. load model
from transformers import AutoTokenizer, AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("baichuan-inc/Baichuan-M2-32B", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("baichuan-inc/Baichuan-M2-32B")
- 输入提示文本。
# 2. Input prompt text
prompt = "Got a big swelling after a bug bite. Need help reducing it."
- 对输入文本进行模型编码。
# 3. Encode the input text for the model
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
thinking_mode='on' # on/off/auto
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
- 生成文本。
# 4. Generate text
generated_ids = model.generate(
**model_inputs,
max_new_tokens=4096
)
output_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
][0]
- 解析思考内容。
# 5. parsing thinking content
try:
# rindex finding 151668 (</think>)
index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
index = 0
thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")
print("thinking content:", thinking_content)
print("content:", content)
9. 参考文献
[1] Sagar Goyal, Eti Rastogi, Sree Prasanna Rajagopal, Dong Yuan, Fen Zhao, Jai Chintagunta, Gautam Naik, and Jeff Ward. Healai: A healthcare LLM for effective medical documentation. In Luz Angelica Caudillo-Mata, Silvio Lattanzi, Andrés Muñoz Medina, Leman Akoglu, Aristides Gionis, and Sergei Vassilvitskii, editors, Proceedings of the 17th ACM International Conference on Web Search and Data Mining, WSDM 2024, Merida, Mexico, March 4-8, 2024, pages 1167–1168. ACM, 2024. doi: 10.1145/3616855.3635739. URL https://doi.org/10.1145/3616855.3635739.
[2] Marco Cascella, Jonathan Montomoli, Valentina Bellini, and Elena Giovanna Bignami. Evaluating the feasibility of chatgpt in healthcare: An analysis of multiple clinical and research scenarios. J. Medical Syst., 47(1):33, 2023. doi: 10.1007/S10916-023-01925-4. URL https://doi.org/10.1007/s10916-023-01925-4.
[3] Ziqi Yang, Xuhai Xu, Bingsheng Yao, Ethan Rogers, Shao Zhang, Stephen S. Intille, Nawar Shara, Guodong Gordon Gao, and Dakuo Wang. Talk2care: An llm-based voice assistant for communication between healthcare providers and older adults. Proc. ACM Interact. Mob. Wearable Ubiquitous Technol., 8(2):73:1–73:35, 2024. doi: 10.1145/3659625. URL https://doi.org/10.1145/3659625.
[4] Che Liu, Haozhe Wang, Jiazhen Pan, Zhongwei Wan, Yong Dai, Fangzhen Lin, Wenjia Bai, Daniel Rueckert, and Rossella Arcucci. Beyond distillation: Pushing the limits of medical LLM reasoning with minimalist rule-based RL. CoRR, abs/2505.17952, 2025. doi: 10.48550/ARXIV.2505.17952. URL https://doi.org/10.48550/arXiv.2505.17952.
[5] Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, and Benyou Wang. Huatuogpt-o1, towards medical complex reasoning with llms. CoRR, abs/2412.18925, 2024. doi: 10.48550/ARXIV.2412.18925. URL https://doi.org/10.48550/arXiv.2412.18925.
[6] Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. CoRR, abs/2501.12948, 2025. doi: 10.48550/ARXIV.2501.12948. URL https://doi.org/10.48550/arXiv.2501.12948.
[7] Aaron Jaech, Adam Kalai, Adam Lerer, Adam Richardson, Ahmed El-Kishky, Aiden Low, Alec Helyar, Aleksander Madry, Alex Beutel, Alex Carney, et al. Openai o1 system card. CoRR, abs/2412.16720, 2024. doi: 10.48550/ARXIV.2412.16720. URL https://doi.org/10.48550/arXiv.2412.16720.
[8] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y. K. Li, Y. Wu, and Daya Guo. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. CoRR, abs/2402.03300, 2024. doi: 10.48550/ARXIV.2402.03300. URL https://doi.org/10.48550/arXiv.2402.03300.
[9] Anthropic. Introducing Claude 4. https://www.anthropic.com/news/claude-4, May 2025. Online; accessed September 3, 2025.
[10] Kimi Team, Yifan Bai, Yiping Bao, Guanduo Chen, Jiahao Chen, Ningxin Chen, Ruijue Chen, Yanru Chen, Yuankun Chen, Yutian Chen, et al. Kimi K2: open agentic intelligence. CoRR, abs/2507.20534, 2025. doi: 10.48550/ARXIV.2507.20534. URL https://doi.org/10.48550/arXiv.2507.20534.
[11] Aohan Zeng, Xin Lv, Qinkai Zheng, Zhenyu Hou, Bin Chen, Chengxing Xie, Cunxiang Wang, Da Yin, Hao Zeng, Jiajie Zhang, et al. Glm-4.5: Agentic, reasoning, and coding (arc) foundation models. arXiv preprint arXiv:2508.06471, 2025.
[12] Wenyi Hong, Wenmeng Yu, Xiaotao Gu, Guo Wang, Guobing Gan, Haomiao Tang, Jiale Cheng, Ji Qi, Junhui Ji, Lihang Pan, et al. Glm-4.1v-thinking: Towards versatile multimodal reasoning with scalable reinforcement learning. CoRR, abs/2507.01006, 2025. doi: 10.48550/ARXIV.2507.01006. URL https://doi.org/10.48550/arXiv.2507.01006.
[13] LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, and Yu Rong. Lingshu: A generalist foundation model for unified multimodal medical understanding and reasoning. CoRR, abs/2506.07044, 2025. doi: 10.48550/ARXIV.2506.07044. URL https://doi.org/10.48550/arXiv.2506.07044.
[14] National Board of Medical Examiners (NBME). Usmle scoring policies and score reporting guidelines 2024. Technical Report USMLE-POL-2024-01, Federation of State Medical Boards (FSMB) and National Board of Medical Examiners (NBME), 2024. URL https://www.usmle.org/scoring/policies.
[15] Rahul K. Arora, Jason Wei, Rebecca Soskin Hicks, Preston Bowman, Joaquin Quiñonero Candela, Foivos Tsimpourlas, Michael Sharman, Meghan Shah, Andrea Vallone, Alex Beutel, Johannes Heidecke, and Karan Singhal. Healthbench: Evaluating large language models towards improved human health. CoRR, abs/2505.08775, 2025. doi: 10.48550/ARXIV.2505.08775. URL https://doi.org/10.48550/arXiv.2505.08775.
[16] Zhaocheng Liu, Quan Tu, Wen Ye, Yu Xiao, Zhishou Zhang, Hengfu Cui, Yalun Zhu, Qiang Ju, Shizheng Li, and Jian Xie. Exploring the inquiry-diagnosis relationship with advanced patient simulators. CoRR, abs/2501.09484, 2025. doi: 10.48550/ARXIV.2501.09484. URL https://doi.org/10.48550/arXiv.2501.09484.
[17] María Jesús Broch Porcar and Álvaro Castellanos-Ortega. Patient safety, what does clinical simulation and teaching innovation contribute? Medicina Intensiva (English Edition), 49(3): 165–173, 2025.
[18] Junkai Li, Siyu Wang, Meng Zhang, Weitao Li, Yunghwei Lai, Xinhui Kang, Weizhi Ma, and Yang Liu. Agent hospital: A simulacrum of hospital with evolvable medical agents. CoRR, abs/2405.02957, 2024. doi: 10.48550/ARXIV.2405.02957. URL https://doi.org/10.48550/arXiv.2405.02957.
[19] Wenxuan Wang, Zizhan Ma, Zheng Wang, Chenghan Wu, Jiaming Ji, Wenting Chen, Xiang Li, and Yixuan Yuan. A survey of llm-based agents in medicine: How far are we from baymax? In Wanxiang Che, Joyce Nabende, Ekaterina Shutova, and Mohammad Taher Pilehvar, editors, Findings of the Association for Computational Linguistics, ACL 2025, Vienna, Austria, July 27 - August 1, 2025, pages 10345–10359. Association for Computational Linguistics, 2025. URL https://aclanthology.org/2025.findings-acl.539/.
[20] Isabel Briggs Myers et al. The myers-briggs type indicator, volume 34. Consulting Psychologists Press Palo Alto, CA, 1962.
[21] Ehsan Ullah, Anil Parwani, Mirza Mansoor Baig, and Rajendra Singh. Challenges and barriers of using large language models (llm) such as chatgpt for diagnostic medicine with a focus on digital pathology –a recent scoping review. Diagnostic Pathology, 19(1):43, 2024. doi: 10.1186/s13000-024-01464-7. URL https://doi.org/10.1186/s13000-024-01464-7.
[22] Hanyu Zhang, Boyu Qiu, Yuhao Feng, Shuqi Li, Qian Ma, Xiyuan Zhang, Qiang Ju, Dong Yan, and Jian Xie. Baichuan4-finance technical report. CoRR, abs/2412.15270, 2024. doi: 10.48550/ARXIV.2412.15270. URL https://doi.org/10.48550/arXiv.2412.15270.
[23] Noam Wies, Yoav Levine, and Amnon Shashua. The learnability of in-context learning. In Alice Oh, Tristan Naumann, Amir Globerson, Kate Saenko, Moritz Hardt, and Sergey Levine, editors, Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023, 2023. URL http://papers.nips.cc/paper_files/paper/2023/hash/73950f0eb4ac0925dc71ba2406893320-Abstract-Conference.html.
[24] Zeming Wei, Yifei Wang, and Yisen Wang. Jailbreak and guard aligned language models with only few in-context demonstrations. CoRR, abs/2310.06387, 2023. doi: 10.48550/ARXIV.2310.06387. URL https://doi.org/10.48550/arXiv.2310.06387.
[25] Sewon Min, Xinxi Lyu, Ari Holtzman, Mikel Artetxe, Mike Lewis, Hannaneh Hajishirzi, and Luke Zettlemoyer. Rethinking the role of demonstrations: What makes in-context learning work? In Yoav Goldberg, Zornitsa Kozareva, and Yue Zhang, editors, Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, EMNLP 2022, Abu Dhabi, United Arab Emirates, December 7-11, 2022, pages 11048–11064. Association for Computational Linguistics, 2022. doi: 10.18653/V1/2022.EMNLP-MAIN.759. URL https://doi.org/10.18653/v1/2022.emnlp-main.759.
[26] Bingning Wang, Haizhou Zhao, Huozhi Zhou, Liang Song, Mingyu Xu, Wei Cheng, Xiangrong Zeng, Yupeng Zhang, Yuqi Huo, Zecheng Wang, Zhengyun Zhao, Da Pan, Fei Kou, Fei Li, Fuzhong Chen, Guosheng Dong, Han Liu, Hongda Zhang, Jin He, Jinjie Yang, Kangxi Wu, Kegeng Wu, Lei Su, Linlin Niu, Linzhuang Sun, Mang Wang, Pengcheng Fan, Qianli Shen, Rihui Xin, Shunya Dang, Songchi Zhou, Weipeng Chen, Wenjing Luo, Xin Chen, Xin Men, Xionghai Lin, Xuezhen Dong, Yan Zhang, Yifei Duan, Yuyan Zhou, Zhi Ma, and Zhiying Wu. Baichuan-m1: Pushing the medical capability of large language models, 2025. URL https://arxiv.org/abs/2502.12671.
[27] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, and Denny Zhou. Chain-of-thought prompting elicits reasoning in large language models. In Sanmi Koyejo, S. Mohamed, A. Agarwal, Danielle Belgrave, K. Cho, and A. Oh, editors, Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022, New Orleans, LA, USA, November 28 - December 9, 2022, 2022. URL http://papers.nips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html.
[28] Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large language models are zero-shot reasoners. In Sanmi Koyejo, S. Mohamed, A. Agarwal, Danielle Belgrave, K. Cho, and A. Oh, editors, Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022, New Orleans, LA, USA, November 28 - December 9, 2022, 2022. URL http://papers.nips.cc/paper_files/paper/2022/hash/8bb0d291acd4acf06ef112099c16f326-Abstract-Conference.html.
[29] Yuyang Wu, Yifei Wang, Tianqi Du, Stefanie Jegelka, and Yisen Wang. When more is less: Understanding chain-of-thought length in llms. CoRR, abs/2502.07266, 2025. doi: 10.48550/ARXIV.2502.07266. URL https://doi.org/10.48550/arXiv.2502.07266.
[30] Mingan Lin, Fan Yang, Yan-Bin Shen, Haoze Sun, Tianpeng Li, Tao Zhang, Chenzheng Zhu, Miao Zheng, Xu Li, Yijie Zhou, Mingyang Chen, Yanzhao Qin, Youquan Li, Hao Liang, Fei Li, Yadong Li, Mang Wang, Guosheng Dong, Kuncheng Fang, Jianhua Xu, Bin Cui, Wentao Zhang, Zenan Zhou, and Weipeng Chen. Baichuan alignment technical report. ArXiv, abs/2410.14940, 2024. URL https://api.semanticscholar.org/CorpusID:274342032.
[31] Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Weinan Dai, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, and Mingxuan Wang. DAPO: an open-source LLM reinforcement learning system at scale. CoRR, abs/2503.14476, 2025. doi: 10.48550/ARXIV.2503.14476. URL https://doi.org/10.48550/arXiv.2503.14476.
[32] Zichen Liu, Changyu Chen, Wenjun Li, Penghui Qi, Tianyu Pang, Chao Du, Wee Sun Lee, and Min Lin. Understanding r1-zero-like training: A critical perspective. CoRR, abs/2503.20783, 2025. doi: 10.48550/ARXIV.2503.20783. URL https://doi.org/10.48550/arXiv.2503.20783.
[33] AIME. AIME problems and solutions, 2025. URL https://artofproblemsolving.com/wiki/index.php/AIME_Problems_and_Solutions.
[34] Xinrun Du, Yifan Yao, Kaijing Ma, Bingli Wang, Tianyu Zheng, King Zhu, Minghao Liu, Yiming Liang, Xiaolong Jin, Zhenlin Wei, et al. Supergpqa: Scaling LLM evaluation across 285 graduate disciplines. CoRR, abs/2502.14739, 2025. doi: 10.48550/ARXIV.2502.14739. URL https://doi.org/10.48550/arXiv.2502.14739.
[35] Yuxin Zuo, Shang Qu, Yifei Li, Zhang-Ren Chen, Xuekai Zhu, Ermo Hua, Kaiyan Zhang, Ning Ding, and Bowen Zhou. MedxpertQA: Benchmarking expert-level medical reasoning and understanding. In Forty-second International Conference on Machine Learning, URLhttps://openreview.net/forum?id=IyVcxU0RKI.
[36] Zenan Huang, Yihong Zhuang, Guoshan Lu, Zeyu Qin, Haokai Xu, Tianyu Zhao, Ru Peng, Jiaqi Hu, Zhanming Shen, Xiaomeng Hu, et al. Reinforcement learning with rubric anchors. arXiv preprint arXiv:2508.12790, 2025.
[37] Zehui Ling, Deshu Chen, Hongwei Zhang, Yifeng Jiao, Xin Guo, and Yuan Cheng. Fast on the easy, deep on the hard: Efficient reasoning via powered length penalty. CoRR, abs/2506.10446, 2025. doi: 10.48550/ARXIV.2506.10446. URL https://doi.org/10.48550/arXiv.2506.10446.
[38] Sandhini Agarwal, Lama Ahmad, Jason Ai, Sam Altman, Andy Applebaum, Edwin Arbus, Rahul K Arora, Yu Bai, Bowen Baker, Haiming Bao, et al. gpt-oss-120b & gpt-oss-20b model card. arXiv preprint arXiv:2508.10925, 2025.
[39] An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, et al. Qwen3 technical report. CoRR, abs/2505.09388, 2025. doi: 10.48550/ARXIV.2505.09388. URL https://doi.org/10.48550/arXiv.2505.09388.
[40] Gheorghe Comanici, Eric Bieber, Mike Schaekermann, Ice Pasupat, Noveen Sachdeva, Inderjit Dhillon, Marcel Blistein, Ori Ram, Dan Zhang, Evan Rosen, et al. Gemini 2.5: Pushing the frontier with advanced reasoning, multimodality, long context, and next generation agentic capabilities. CoRR, abs/2507.06261, 2025. doi: 10.48550/ARXIV.2507.06261. URL https://doi.org/10.48550/arXiv.2507.06261.
[41] Jeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, and Le Hou. Instruction-following evaluation for large language models. CoRR, abs/2311.07911, 2023. doi: 10.48550/ARXIV.2311.07911. URL https://doi.org/10.48550/arXiv.2311.07911.
[42] Tao Zhang, Chenglin Zhu, Yanjun Shen, Wenjing Luo, Yan Zhang, Hao Liang, Fan Yang, Mingan Lin, Yujing Qiao, Weipeng Chen, Bin Cui, Wentao Zhang, and Zenan Zhou. Cfbench: A comprehensive constraints-following benchmark for llms. In Wanxiang Che, Joyce Nabende, Ekaterina Shutova, and Mohammad Taher Pilehvar, editors, Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2025, Vienna, Austria, July 27 - August 1, 2025, pages 32926–32944. Association for Computational Linguistics, 2025. URL https://aclanthology.org/2025.acl-long.1581/.
[43] Tianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu, Banghua Zhu, Joseph E. Gonzalez, and Ion Stoica. From crowdsourced data to high-quality benchmarks: Arena-hard and benchbuilder pipeline. CoRR, abs/2406.11939, 2024. doi: 10.48550/ARXIV.2406.11939. URL https://doi.org/10.48550/arXiv.2406.11939.
[44] Xiao Liu, Xuanyu Lei, Shengyuan Wang, Yue Huang, Andrew Feng, Bosi Wen, Jiale Cheng, Pei Ke, Yifan Xu, Weng Lam Tam, Xiaohan Zhang, Lichao Sun, Xiaotao Gu, Hongning Wang, Jing Zhang, Minlie Huang, Yuxiao Dong, and Jie Tang. Alignbench: Benchmarking chinese alignment of large language models. In Lun-Wei Ku, Andre Martins, and Vivek Srikumar, editors, Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2024, Bangkok, Thailand, August 11-16, 2024, pages 11621–11640. Association for Computational Linguistics, 2024. doi: 10.18653/V1/2024.ACL-LONG.624. URL https://doi.org/10.18653/v1/2024.acl-long.624.
[45] Yuning Wu, Jiahao Mei, Ming Yan, Chenliang Li, Shaopeng Lai, Yuran Ren, Zijia Wang, Ji Zhang, Mengyue Wu, Qin Jin, and Fei Huang. Writingbench: A comprehensive benchmark for generative writing. CoRR, abs/2503.05244, 2025. doi: 10.48550/ARXIV.2503.05244. URL https://doi.org/10.48550/arXiv.2503.05244.
[46] Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv, and Yi Liu. Optimize weight rounding via signed gradient descent for the quantization of llms. In Yaser Al-Onaizan, Mohit Bansal, and Yun-Nung Chen, editors, Findings of the Association for Computational Linguistics: EMNLP 2024, Miami, Florida, USA, November 12-16, 2024, pages 11332–11350. Association for Computational Linguistics, 2024. doi: 10.18653/V1/2024.FINDINGS-EMNLP.662. URL https://doi.org/10.18653/v1/2024.findings-emnlp.662.
[47] Saleh Ashkboos, Amirkeivan Mohtashami, Maximilian L. Croci, Bo Li, Pashmina Cameron, Martin Jaggi, Dan Alistarh, Torsten Hoefler, and James Hensman. Quarot: Outlierfree 4-bit inference in rotated llms. In Amir Globersons, Lester Mackey, Danielle Belgrave, Angela Fan, Ulrich Paquet, Jakub M. Tomczak, and Cheng Zhang, editors, Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, NeurIPS 2024, Vancouver, BC, Canada, December 10 - 15, 2024, 2024. URL http://papers.nips.cc/paper_files/paper/2024/hash/b5b939436789f76f08b9d0da5e81af7c-Abstract-Conference.html.
[48] Elias Frantar, Saleh Ashkboos, Torsten Hoefler, and Dan Alistarh. GPTQ: accurate posttraining quantization for generative pre-trained transformers. CoRR, abs/2210.17323, 2022. doi: 10.48550/ARXIV.2210.17323. URL https://doi.org/10.48550/arXiv.2210.17323.
[49] Ying Zhang, Peng Zhang, Mincong Huang, Jingyang Xiang, Yujie Wang, Chao Wang, Yineng Zhang, Lei Yu, Chuan Liu, and Wei Lin. QQQ: quality quattuor-bit quantization for large language models. CoRR, abs/2406.09904, 2024. doi: 10.48550/ARXIV.2406.09904. URL https://doi.org/10.48550/arXiv.2406.09904.
[50] Lianmin Zheng, Liangsheng Yin, Zhiqiang Xie, Chuyue Sun, Jeff Huang, Cody Hao Yu, Shiyi Cao, Christos Kozyrakis, Ion Stoica, Joseph E. Gonzalez, Clark W. Barrett, and Ying Sheng. Sglang: Efficient execution of structured language model programs. In Amir Globersons, Lester Mackey, Danielle Belgrave, Angela Fan, Ulrich Paquet, Jakub M. Tomczak, and Cheng Zhang, editors, Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, NeurIPS 2024, Vancouver, BC, Canada, December 10 - 15, 2024, 2024. URL http://papers.nips.cc/paper_files/paper/2024/hash/724be4472168f31ba1c9ac630f15dec8-Abstract-Conference.html.
[51] Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph Gonzalez, Hao Zhang, and Ion Stoica. Efficient memory management for large language model serving with pagedattention. In Jason Flinn, Margo I. Seltzer, Peter Druschel, Antoine Kaufmann, and Jonathan Mace, editors, Proceedings of the 29th Symposium on Operating Systems Principles, SOSP 2023, Koblenz, Germany, October 23-26, 2023, pages 611–626. ACM, 2023. doi: 10.1145/3600006.3613165. URL https://doi.org/10.1145/3600006.3613165.
[52] Yuhui Li, Fangyun Wei, Chao Zhang, and Hongyang Zhang. Eagle-3: Scaling up inference acceleration of large language models via training-time test. arXiv preprint arXiv:2503.01840, 2025.
版权说明:
本文由 youcans@xidian 对论文 Baichuan-M2: Scaling Medical Capability with Large Verifier System 进行摘编和翻译。该论文版权属于原文期刊和作者,本译文只供研究学习使用。
版权说明:
youcans@xidian 作品,转载必须标注原文链接:
【医疗 AI】Baichuan-M2:大语言模型在医疗领域的动态验证框架(https://youcans.blog.csdn.net/article/details/151679526)
Crated:2025-09
更多推荐
所有评论(0)