五大场景深度解析：24个大模型评估基准与指标架构详解

本文系统梳理了医疗、金融、法律等五大领域24个代表性大模型评估基准。医疗场景重点关注问答准确性（MedMCQA等7个基准）；金融场景强调推理能力（FinanceBench等7个基准）；法律场景突出专业推理（LegalBench等3个基准）；多模态场景侧重跨模态理解；agentic场景评估决策与工具使用能力。通过分析各基准的评估任务设计（选择题、开放式问答等）和指标架构（准确率、人工评分等），为模型

我算是程序猿

538人浏览 · 2026-02-05 14:18:02

我算是程序猿 · 2026-02-05 14:18:02 发布

本文深度解析了医疗、金融、法律、多模态和agentic五大场景中24个代表性大模型评估基准，系统梳理了各场景下的评估任务和指标架构。医疗场景关注问答准确性，金融场景注重推理能力，法律场景强调专业推理，多模态场景聚焦跨模态理解，agentic场景评估决策与工具使用能力。这一全面评估体系为开发者选择和应用大模型提供了科学参考。

我们深度拆解了医疗、金融、法律、多模态、agentic等五大场景中24个具有代表性的benchmark，提取出了这五个场景中模型的评估任务和评估指标架构。

医疗问答场景中的评估任务和评估指标设计

用7个医疗相关的benchmark来研究在医疗问答场景里的评估任务和评估指标

MedMCQA(印度， 2022)

MedMCQA基准，这是一个大规模、多学科、多选题（MCQA）数据集，专门设计用于应对真实世界的医学入学考试问题的综合评测基准。

在MedMCQA这个benchmark里，评估任务为选择题任务，包含单选题和多选题，都是客观任务。评价指标是准确率。

MultiMedQA (Google， 2023)

MultiMedQA 基准，这是一个结合了六个现有开放问题回答数据集（涵盖专业医疗考试、研究和消费者查询）以及一个新数据集 HealthSearchQA（在线搜索的医疗问题）的综合评测基准。

在MultiMedQA这个benchmark里，评估任务为多选题任务和长篇回答任务，一个客观一个主观。选择题有参考答案，长篇回答问题无gold standard/Ground thruth，因此由人类人工打分。

对于客观多选题任务，评估指标是准确率。对于主观的长篇回答任务，评估指标为事实性，准确率，危害性，偏见，完整性，有用性

CMExam（清华，阿里等 2023）

CMExam是一个从中国国家医学执照考试（CNMLE）中收集的大型中文医学考试数据集，包含 60,000 多个多选题，用于标准化和客观评估大型语言模型（LLMs）在医学领域的表现。

CMExam的评估任务设计为答案预测任务（多选题）和答案解析任务（开放式推理），其中答案解析任务85.24%有参考解析（gold standard/Ground thruth**）**）

MedExQA（英国， 2024）

主要用于评估大语言模型（LLMs）在生成医疗解释方面的能力。它聚焦于医学解释生成质量而不仅仅是选择题的答题准确率.

在这个benchmark里，评估任务为多选题以及对正确选项的解释生成。选择题为客观题，解释生成也有gold standard/Ground thruth。

MedBench（复旦等， 2024）

MedBench是一个针对中国医学领域的大型基准，包含从真实医学考试和医疗报告中收集的 40,041 个问题，涵盖多种医学分支，旨在为医学大型语言模型（LLMs）提供统一的评估标准。

MedBench的评估任务设计为 医学多选题（MCQ）和真实临床病例问答。选择题为客观题，真实临床病例问答为主观题，有gold standard/Ground thruth

CliMedBench（腾讯等，2024）

CliMedBench是一个包含 33,735 个问题的综合性中文医学基准，涵盖 14 个专家指导的核心临床场景，从 7 个关键维度评估 LLMs 的医学能力，模拟真实医疗实践，测试模型在医学知识、推理能力和临床适用性方面的综合能力。

CliMedBench的评估任务为根据14个不同的临床场景设计了3种类型的任务，分别为多选临床问答任务，排序任务和开放式生成任务

MedAgentsBench（耶鲁，斯坦福等， 2025）

MEDAGENTSBENCH是一个专注于复杂医学问题（需多步临床推理、诊断制定和治疗规划）的基准，包含 862 道 HARD 子集问题，从七个医学数据集抽取，解决了现有基准的简单问题占比高、采样不一致和缺乏成本分析的局限。

MedAgentsBench的评估任务为多选题任务和问答任务（答案符合simpleQA规则，简短明确），主要的评价指标为Pass@1 准确率，其他的辅助指标为成本，推理时间等。

金融问答场景中的评估任务和评估指标设计

用7个金融相关的benchmark来研究在金融问答场景里的评估任务和评估指标

FinanceBench （Patronus AI公司，2023）

FinanceBench是首个专为开放式金融问答（Financial QA）而设计的评测基准。数据集包含 10 231 条“问题-答案-证据”三元组，覆盖 40 家美国上市公司、361 份公开财报（10-K、10-Q、8-K 及财报电话会纪要），问题贴近实际金融分析流程且设定为“最低可接受表现”门槛。其中用于评估的样本150个。

在FinanceBench这个benchmark里，评估任务为开放式问答，包括信息提取，逻辑推理，数值推理等维度；评估指标为Correct Answer（正确回答），Incorrect Answer（错误回答），Failure to Answer（拒绝回答），均为主观评价指标。

FinBen（FinAI研究团队、武汉大学等， 2024）（备注，选这个benchmark用来做数据集构造分析）

FinBen是首个全面的开源金融领域大型语言模型（LLMs）评估基准，包含 36 个数据集，覆盖 24 个金融任务，涉及七个关键维度：信息提取（IE）、文本分析（TA）、问答（QA）、文本生成（TG）、风险管理（RM）、预测（FO）和决策（DM）。FinBen 的创新包括更广泛的任务和数据集覆盖、首次评估股票交易、引入代理（Agent）和检索增强生成（RAG）评估策略，以及三个新的开源数据集（用于文本摘要、问答和股票交易）。

在FinBen这个benchmark里，评估维度先行，不同的评估维度里设计不同的评估任务。

SECQUE （Microsoft Industry AI，2025）

SECQUE是一个专门用于评估大语言模型（LLMs）在金融分析任务中实际能力的基准测试。该基准包含 565 个由金融专家编写的问题，通过真实财务报告（如 10-K 和 10-Q）构建上下文，强调长文本理解和复杂推理能力。

SECQUE的评估任务分为四类，模拟金融分析师的实际工作场景：风险问题（Risk Questions），比率问题（Ratio Questions），比较问题（Comparison Questions），分析师见解（Analyst Insights），另外，SECQUE还设计了对齐任务，用来评估模型打分和人类评分的一致性。

FinMTEB （香港科技大学 (HKUST)，2025）

FinMTEB是专为金融领域设计的嵌入模型评估基准，包含64个中英文金融领域数据集。这些数据集涉及金融新闻、年报、ESG报告、监管文件和财报电话会议记录等多种文本类型，旨在评估嵌入模型在金融领域的表现。

FinDABench （华东师范大学等，2025）

FinDABench 是首个专为评估大语言模型（LLMs）在金融数据分析能力方面设计的综合基准，包含6个子任务，覆盖三个维度：基础能力（Foundational Ability）、推理能力（Reasoning Ability）和技术能力（Technical Skill）。

TableBench（The Fin AI、武汉大学等，2025）

TableBench是一种全面且复杂的表格问答基准，包含886个样本，覆盖4大类（事实核查、数值推理、数据分析、可视化）和18个子类别，旨在评估大型语言模型（LLM）在处理现实世界表格数据时的推理能力。

法律问答场景中的评估体系的构建

用3个法律相关的benchmark来研究在法律问答场景里的评估任务和评估指标

LegalBench （Stanford University等，2023）

LegalBench 是一个由法律与计算机科学领域专家协作构建的法律推理评测基准，涉及 6 类法律推理类型（如 issue-spotting、rule-recall、rule-application 等），涵盖了 162 项子任务，展示了 LLM 在法律推理方面的性能异质性，不同模型和不同推理任务的表现差异显著。

LegalBench-RAG （Nicholas Pipitone等，2024）

LegalBench-RAG是首个专门为评估法律领域中检索增强生成（Retrieval-Augmented Generation, RAG）系统中检索步骤的基准数据集。LegalBench-RAG 旨在解决现有基准（如 LegalBench）无法评估 RAG 系统检索能力的不足，强调从法律文档中精准提取高度相关的短文本片段，而非返回整个文档或大段不精确的内容。

LexEval （清华大学，2024）

LexEval 是目前最大的中文法律基准数据集，LexEval 提出了一套面向 中文法律场景 的综合评测基准，按“法律认知能力六层级”——记忆、理解、逻辑推理、判别、生成、伦理——组织 23 个任务、14 150 道题。数据来自公开数据集、司法考试真题及 18 位法律专家新标注，统一格式后可零/少样本直接评估 LLM。

多模态场景中的评估任务和评估指标设计

用4个benchmark来研究大模型在多模态场景里的评估任务和评估指标

MMMU（俄亥俄州立大学等，2024）

MMMU，一个大规模多学科多模态理解与推理基准数据集，旨在评估多模态模型在大学水平专家任务中的表现。

MMDU （上海人工智能实验室，2024）

MMDU，一个多轮多图像对话理解基准数据集，旨在评估和提升大型视觉-语言模型（LVLMs）在复杂多模态对话场景中的能力。

MMT-Bench（上海人工智能实验室，2024，垂直行业大模型评估）

MMT-Bench 是第一个全面评估 LVLMs 在多任务 AGI 中的多模态理解能力的基准，涵盖广泛的任务类型和图像类型。

M³CoT（浙江大学计算机学院，2024）

M³CoT是一个新的基准，用于评估Vision Large Language Models（VLLMs）在多领域、多步骤、多模态Chain-of-Thought（CoT）推理中的表现。它解决了现有基准测试的局限性，如缺乏视觉推理和单步骤推理。

MME-Unify （中国科学院自动化研究所，2025）

MME-Unify (MME-U)是第一个用于评估统一多模态大语言模型 (U-MLLMs) 的基准测试，涵盖理解、生成和混合模态任务。

Agentic场景中的评估任务和评估指标设计

用3个benchmark来研究大模型在agentic场景里的评估任务和评估指标

AgentBench（清华大学，2023）

AgentBench 是一套包含 8 种不同交互环境（代码、游戏、网页）与 27 个主流 LLM（API 与开源）的综合评测基准，通过多轮、开放式生成任务来考察模型的推理能力、决策能力和指令****跟随能力。

AgentBench评估过程中没有用到React，Auto-Agent，Langchain等现成Agent框架，而是自定义了基于API&Docker Server–Client 的agent评估框架

GTA（上海交大，2024）

GTA (General Tool Agents) 基准测试，旨在解决现有大型语言模型 (LLM) 工具使用能力评估与真实世界场景之间存在的差距。

BrowseComp（OpenAI，2025）

BrowseComp是一个简单但具有挑战性的基准测试，用于评估AI代理的网络浏览能力。

将上面五种场景中的评估指标和评估任务做个总结，可得下面的架构图

最后

我在一线科技企业深耕十二载，见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200% ，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

在这里插入图片描述

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌，通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌，构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论，还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

在这里插入图片描述

如果说你是以下人群中的其中一类，都可以来智泊AI学习人工智能，找到高薪工作，一次小小的“投资”换来的是终身受益！

应届毕业生‌：无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌：非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈：传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

第3篇：Transformer诞生：注意力机制重构模型架构

本文深度解析Transformer架构如何成为大模型的核心基础。文章首先指出传统RNN/LSTM存在串行计算、长程依赖衰减等结构性缺陷。Transformer通过自注意力机制实现全局语义感知和并行计算，采用Encoder-Decoder架构兼顾理解与生成任务，完全并行化训练大幅提升效率。其独特优势包括强语义表示、极致并行效率、无规模天花板等，成为支撑千亿参数大模型的唯一可行架构。文章还指出Deco

2048 AI社区

写作小白救星 AI论文软件千笔·专业论文写作工具 VS 锐智 AI，MBA专属高效之选！

2048 AI社区

第4篇：自回归生成革命：GPT系列与大模型规模化之路

本文系统梳理了GPT系列模型的技术演进历程，从GPT-1的自回归预训练范式确立，到GPT-2展现规模效应，再到GPT-3实现千亿参数突破与涌现能力革命。重点分析了InstructGPT/ChatGPT通过RLHF实现价值对齐，以及GPT-4系列在多模态和推理能力的跃升。文章揭示了GPT成功背后的三大核心坚持：自回归生成、规模法则和通用基座路线，指出GPT不仅是一系列模型，更开创了从任务专用到通用智