【程序员必备】大模型评测太难？字节跳动大神教你“用Agent评Agent“，小白也能成为AI评测专家！

字节跳动数据平台大模型评测团队分享了数据应用Agent领域的评测技术创新与实践，提出三层评测框架（基础能力、组件、端到端效果），针对Text-to-SQL任务开发了基于语义等价的评测方法，创新性地采用"Agent评测Agent"技术，并通过评估平台支撑自动化评测流程，旨在解决大模型应用效果评估难题，提升AI开发效率与质量。

沈页

686人浏览 · 2025-12-14 10:45:00

沈页 · 2025-12-14 10:45:00 发布

在大模型技术飞速发展的当下，大数据领域的各类应用如雨后春笋般涌现，从数仓开发到 ChatBI 问数，再到深度分析 Agent，这些领域的大模型应用极大地提升了数据处理和分析的效率。但与此同时，如何科学、准确地评估这些应用的效果，成为了行业面临的重要难题。

InfoQ 荣幸邀请到了字节跳动 / 数据平台大模型评测技术负责人尹小明在 AICon 全球人工智能开发与应用大会·深圳站上分享了《评测也很酷——Agent 自动化评测技术创新与实践》。作为字节跳动数据平台的大模型效果评估团队，他们深耕数据应用 Agent 领域，构建了覆盖从数据开发到数据应用垂直领域 Agent 应用的评测技术体系，尤其在自动化评测算法、Agent 级评测框架等方面形成了可落地的技术方案。本次分享将聚焦这一领域的技术细节与实践经验。

12 月 19～20 日的 AICon 北京站将锚定行业前沿，聚焦大模型训练与推理、AI Agent、研发新范式与组织革新，邀您共同深入探讨：如何构建起可信赖、可规模化、可商业化的 Agentic 操作系统，让 AI 真正成为企业降本增效、突破增长天花板的核心引擎。

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。

为什么“评测也很酷”：

从用例到效果度量

先谈今天分享的主题——“评测也很酷”。在传统软件测试中，我们编写并执行用例，核对功能是否正常即可。而在大模型相关场景中，评测的复杂度和挑战明显更高。

挑战主要体现在两方面：一是如何更加贴切地评价我们所构建应用的实际效果；二是既有的传统技术是否可复用，若不足，我们应在何处开展探索与创新。那当我们谈“模型评测”时，究竟在说什么、常见的评测维度和指标有哪些？

首先是“效果”，也就是大家常说的好不好、准不准。这里有三个常见指标，首先是事实性，指模型在回答时是否遵从通识和常识，在给定上下文的情况下是否依据证据作答，是否存在“幻觉”；其次是有用性，回答是否对任务有帮助，不能只是讲了实话却对问题没有实质价值；最后是有害性，这是模型训练和评估都会关注的方向，比如是否触及政治敏感、是否引导不当行为等；

其次，是性能与推理性能。很多人都有这种体验：大模型输出 Token 很慢，我得等很久，眼看着一个字一个字往外蹦。这里通常涉及首个 Token 出现的时间，也就是首字符 / 首 Token 时延，以及完整推理过程中的生成速度等；同时还要看资源消耗，这些都应纳入评估口径；

第三是稳健性，或者说鲁棒性。重点在于能不能容错、持续稳定地输出，以及面对对抗或异常输入时的抗攻击能力。这些都直接关系到上线后的可用性与风险。

明确了该“看什么”，接下来就是“怎么评”。在实际工作中，当前的常见评测方法有以下几种：

首先人工评测。在大模型生成带有主观性的内容时，比如一次性生成几千张创意图片，哪个更好、哪个更差，通常要先请领域专家过一遍，并据此写出清晰的评价标准——我们认为什么是“好”，什么是“坏”；其次是自动化评测。

业界普遍的做法大致有几类：一类是客观题（单选或多选），便于直接做结果匹配；文本类会更难一些，常见思路是和标准答案做相似度比较，配合相应算法和指标，比如 BLEU、ROUGE 等；还有一类是基于排序的评估（rank），在 RLHF 里就很典型——不是给一个绝对分，而是让人对多个候选进行相对优劣比较，从而完成与人的偏好对齐。

此外，人机协同评测。很多场景里，纯自动化还达不到足够准确、足够让人放心的程度，于是通常采用机器先给出初步结论和建议，再由人工复核与定判。

不过，落地过程中依然会暴露出一些共性痛点。

一方面当下有很多评测 Benchmark，也有很多评测集。当评测结束之后，大家常有一个痛点：你说现在效果很好，可为什么线上客户老在吐槽，说“我的感觉没有你说的分数那么高”？这其实就是静态评测和线上实际效果脱节的问题。

另一方面：今天很多评测往往针对模型的单一能力，或者若干常见的通用能力。这就像高考考数学、语文、英语；但这些科考完，放到自己的业务里会发现，成绩好并不等于能力强。回到实际业务场景，我该怎么综合评估他的能力？

再者，即便有了一个评测集，业务在变，产品定义在变，线上用户的使用方式也在变。这个时候，评测就更难反映线上的真实情况。

以上是通用框架，落到数据应用 Agent，具体会碰到哪些垂直适配难点？

第一，领域特殊性。模型的代码生成能力很强，但在早期训练语料里，SQL 的占比非常低。所以你会发现：它写 Python 还不错，写 SQL 就明显吃力。另外，在数据领域，数据“正确性”极其关键。

找资料、写个想法，准不准影响也许不大；但一份数据分析报告，或者一个关键数值，最后要给到老板，如果这个数差之千里，后果就很严重了。

还有，从评测的维度来看，通用模型通常关注一些基础能力，比如数学。但一旦落到真正的 Agent 场景，情况就完全不同了。在数据（Data Agent）方向，像“深度研究”这样的产品形态，涉及的维度非常多。其包括数据源的差异、数据的异构性都很复杂。

因此，对应的评估维度也需要从单一能力，扩展到能够覆盖这些复杂因素。

第三，“效率”与“并发”非常关键，这里的并发指研发并发，同时尝试多种方案。这点尤其重要。为什么？因为在做模型时，我们至今并没有一套被验证为“最有效”的通用架构；模型本身也在不断迭代。

很难沿着一条技术路线一直走到底，所以必须做大量尝试；新模型出来，也要做新的探索。此时能否承载方案空间的复杂度，往往决定成败。因此，评测的效率就显得格外重要。一轮回归测试要做两周，和一天之内就能判断一个方案是好是坏，带来的研发周期差异可想而知。

三层评测框架

前面说的是数据领域里可能会遇到的问题。回到 Agent 这边，我们提出了一个“三层评测”的体系设计。在构建大模型的 Agent 应用时，通常会同时面对几层问题。

最下层是技术选型。市面上的模型很多，豆包、千问、文心、DeepSeek 等等。我的 Agent 关注哪些能力，哪些模型能达标、值得进入实验集？不能盲目把所有模型都往架构里堆，并发和成本都承受不住。先做一轮有依据的筛选，这一步非常关键；

中间层是研发迭代。确定了初步架构之后，需要持续优化，并能看清 Agent 的各个部分在哪里拖了后腿。大家熟悉的 Multi-Agent、ReAct、workflow 都会用到。做法上更像“单元测试”式的评测：把子模块拆开看，既看效果也看速度，把问题收敛到具体模块，迭代才高效；

最上层才是端到端的业务效果。最终要用一套覆盖完整链路的评测集与流程，加上相应的方法实践，来衡量这个 Agent 在真实任务中的表现到底如何。

围绕上述各层，我们开展了配套实践。

第一个层面是基础能力评测，对应我们前面说的技术选型阶段。做这件事的目的，是先设定一个“准入门槛”。以数据领域为例，我们会关注工具调用能力（Function Call、Tool using、MCP 等）、数值计算与表格理解、数据幻觉的控制、复杂指令遵循，以及编码与 Text-to-SQL。各个方向基本都有可参考的开源 Benchmark。

比如在 Function Call 方向，我们调研后会采用 ComplexFuncBench；在编码能力上，早期熟悉的 HumanEval 仍有参考价值，现在也会引入 SWE-Bench（评估代码 Agent 能力的 Benchmark）。这些评测会接入我们的平台，提供给数据平台的各个探索团队使用。

第二个层面是组件（或子 Agent）的评测，面向的是 Agent 的各个组成部分。可以把一个 Agent 的工作流程拆成几个阶段：先是召回，比如做 Schema Linking；然后是理解与规划；接着进入洞察、分析与执行；最后是结果总结，把结论写成报告。

我们要看的，是问题出在第几个阶段，以及每个阶段的实际表现如何。放到一个典型的 RAG 应用里，前序召回的上下文质量会直接决定后续表现：Schema 里有没有找到正确的字段、阈值和指标，都会影响后面 SQL 能不能写对。如果第一阶段就偏差很大，后面再怎么优化 Agent 也很难“拉回”。

第三个层面，是端到端效果评测。一方面，我们针对特定的业务场景构建相应的评测集；层级越往上，我们离业务越近，评测也就越贴近实际的业务场景和产品形态的定义。

我们相应地构建评测集和自动化评测方法；同时，在我们的评估平台上设有“数据与飞轮”模块对接业务，把线上的会话日志采集进来，用于 Case Study、回归评测集的沉淀，以及人工标注。

Data Agent 评测技术创新和实践

基于上述“三层评测”框架，下一步将聚焦 Data Agent 这一主题，结合两个具体案例展开说明。

其一为 Text-to-SQL 任务。无论是问答取数类 Agent，还是更综合的分析型 Data Agent，自然语言查询通常需要转化为实际的 SQL 查询；无论用户提出具体指标问题（如“昨天的 DAU 是多少”）还是总结性分析请求（如“请分析上一周的数据情况”），底层通常都会拆解为若干查询任务，核心评估点落在 SQL 查询的准确率与误差归因。

传统的 Text-to-SQL（或 NL-to-SQL）评测方法与数据集（如 Spider、WikiSQL、BIRD-SQL 等）为通用场景提供了基础衡量手段，但在面向大数据与真实业务约束的环境中，仍会遭遇诸多适配性与可扩展性问题。

传统评测方法往往只给出“对 / 错”的结论，这种二元判定无法体现能力优劣的细微差异。以一条 SQL 为例，若仅在某个条件上将“≥”写成“>”，其余部分完全正确，执行结果可能只相差极小，但在二元评分下仍被判为零分。

若此类情况高频出现，模型的实际可用性仍然较强——在数据开发场景中，只需改动个别细节即可投入使用——而传统方法无法反映这种“接近正确”的价值。

所谓“执行正确性”，是指对每个问题—答案对提供标准 SQL 与测试数据集，分别执行标准 SQL 与模型预测的 SQL，比较结果是否一致，以此判断对错。

然而实践表明，这一方法易产生误判。根源在于测试数据分布并不完备，可能存在“非等价 SQL 执行结果相同”的情况。例如，age > 34 与 age ≥ 34 在测试集中恰无 34 这一边界值时，二者输出一致，导致错误地判定为正确。

这里放一个稍微复杂点的例子：我们的 gold（ground truth） 标准答案其实是一条很简单的 SQL，问题是“文档中哪些 template_id 被使用过”。但模型在预测时，去和另一张 template 表做了 INNER JOIN，按 id 关联。

肉眼一看就知道两者不是一回事。按理说，放到设计更严谨的数据集上，应该能把差异测出来；可不幸的是，在 Spider 上两条 SQL 的执行结果一模一样，最终造成了误判。

还有一种做法是比较标准答案 SQL 与预测 SQL 的文本相似度。字面上可以直接比对一致性，并计算一个相似度分数，比如余弦相似度等。但这类方法很难准确反映语义 / 逻辑上的等价：哪怕只是表名或子查询的别名不同，也可能被判为不一致而误判。

第三个问题，如果要在大数据引擎（比如 ClickHouse）上构造一套可用于回归测试的数据集，成本非常高。这些都是传统 Text-to-SQL 评测在实际落地中的局限。

针对以上问题，我们做了一些改进，核心是提出一套基于语义等价的评测方法。所谓语义等价，是指两条 SQL 在逻辑含义上相同，那么它们在执行结果上就应当相同；只要判断这一点即可，并不一定需要真正去跑一次查询。

做法上，先把 SQL 当作代码处理，表示成抽象语法树（AST）。进一步，我们借助 Apache Calcite 做执行层的下推，把字面 SQL 转成执行层的语法表示，也就是 RelNode。到了这一层，很多写法上的不一致会被归一到相同的执行语义。

举两个直观的例子：某些情况下，用 JOIN 和用 IN 子查询是等价的；再比如连接两个表时，你可以用子查询，也可以用 WHERE 条件，最终下推到执行语法树上的执行过程是一样的。通过这样的语义下推和标准化，能抹平大量表面差异。

第二个方法，我们把节点之间的引用关系建立起来：参考答案是一张图，预测答案也是一张图，然后训练一个图匹配网络（Graph-Matching Network，GMN）来计算两条 SQL 在语法 / 表达上的相似度。基于语法树的匹配这一路，我们称为 RelPM（在执行层面的语法树上做 Partial Matching 的局部匹配）：用规则做局部比对并赋权，得到 0～1 的相似度分数，已经明显优于传统做法。

进一步，在 FuncEvalGMN 上，无论对比基于执行正确性的评测、基于文本 / 语义相似度的评测，还是一些基于 BERT 的预训练模型，我们的效果都有显著提升。在业务侧，这套方法也已经成为我们数据领域的核心算法之一。

以上 Text-to-SQL 更偏向“查询”类场景，不过 Data Agent 的产品形态在不断丰富。现在形成了一种新的产品形态——“深度研究”。用户只需提出一个简单的问题，或者把意图描述清楚，系统就会给出一套完整的分析流程，并且能够同时完成多种分析任务。

评测在这里会明显更难。它不再是简单的查数题，比 Text-to-SQL 难得多。我们要回答的不是“查得对不对”这么单一的问题，还要判断：这份报告是否对业务有用；生成时的推理思路是否合理；内容是否完整，是否覆盖了我要求它分析的那些角度；最后给出的建议是否有效。

用什么维度来衡量一份深度分析报告“好不好”，以及如何把这些维度做成可执行的自动化评测，都是实打实的挑战。

因此我们首先定义了一套评测体系。它是指用一套明确的标准来衡量好与坏。就像高考有一整套评价口径；公司招聘、晋升和绩效也都有相应的准则一样。针对“深度研究”这种产品形态，我们从几个角度来评：一是分析与洞察的深度与准确性；二是报告在展示上的可读性、易读性；三是执行过程的稳定性与成功率。围绕这些，我们设定了第一层与第二层的评估维度，并分别定义了关键指标，并在每项指标下设定可落地的评分点。

接下来谈自动化评估技术。这是业界相对前沿的话题，大家可能听过 “LLM as a Judge” 或 “LLM Judge”。我们最新的探索是 用 Agent 来评测 Agent。原因很简单：写一份数据分析报告，没办法把数据直接丢给大模型就指望一次性产出完整结果，中间需要大量 Agent 能力来完成过程性的工作，所以在评测侧同样要引入 Agent 技术。

从评测角度来讲。我们也不可能把一个结果直接交给 LLM 就让它打分完事，评测仍需要 Agent。这里大家可能会有个自然的疑问：Data Agent 做了那么多架构改进、用了那么多技术和技巧，甚至有那么多专家参与，它都可能算不对；为什么“评测的 Agent”能评得出来？

这是我们一开始必须回答的基础判断。我的判断基于几个前提：第一，挑错往往比做对容易；给出一套完全正确的方案很难，但指出其中的问题相对容易。第二，可以复盘过程：把 Data Agent 写报告的完整流程和数据计算链路逐步审阅，像批改应用题一样看每一步思路是否合理；如果每一步都是对的，结果大概率也是对的。第三，可以做定向优化：针对特定领域或特定评测集进行针对性调优，并结合 Agent 方法增强判断能力。基于这些，我们认为这条路线是有前景的。

在实现上，我们用到一些基本技术。其一是自我反思：模型先按评分标准完成一次打分，再进入反思环节，检查自己是否完整遵循了打分逻辑、是否有遗漏。其二是多 Agent 协作架构。

我们把评估对象（报告）、评估过程、问题及相关上下文作为整体输入，送入一个用于应用评估的系统（我们称为 Critic Agents）。该系统首先按我们的评分标准与细则完成初评分，然后交给 Reflect（自我反思）模块，复查本次打分是否存在遗漏或不当之处。

再举一个我们踩过的坑：写报告时很容易在单位转换上出错。原始计算得到的是一个数，写进报告却被表述成“XX 万”。这既是 Data Agent 的高发错误点，也是评估里容易被误判的点。

针对这类问题，我们会把相关环节交给 Reflect 的反思流程复查；同时引入多个 Agent，从不同角度、甚至基于不同的底层模型分别打分，最后由“裁判长”统一审阅整条打分链路及其与标准答案的对齐情况。

整体架构上，我们还会结合 ReAct，让评测侧“自己写代码”把关键数据复算一遍，核对计算是否正确。遇到特定场景（比如归因分析），要完成有效评估还需要专业的领域计算工具；这些工具同样交由评判方调用，才能对该类任务给出评价结果。

为说明方法有效性，以下给出两个真实案例。

这是第一个案例：我们用自动化评测在报告里定位到数据错误。上面的片段是一个典型的归因场景。机评发现，报告写到“德芙巧克力单笔销售额 1.5 万”等数字没有真实来源。回溯过程可以看到，右侧的 SQL 少写了一个 GROUP BY 商品名。

在这种写法下，只能查出一系列明细订单，不可能直接得到“德芙巧克力 1.5 万”这样的聚合结论。原始明细里虽然出现过“1.5 万”这个数，但无法据此推断它对应“德芙巧克力”。这一问题被机评准确抓出。

在人评场景中，读过类似报告的同学会有同感：像 OpenAI 的 Deep Research 那样的长报告，要把其中每个数字都核验一遍，几乎不现实；人评非常容易漏错。相比之下，机评在这类细粒度、很复杂的校验上更有优势。

第二个例子，我们评估的是“分析意图的完成度”。左边是题目：对 DAU 数据做分析；下面先定义分析对象，再给出一套完整的分析框架，也就是要从哪些角度展开。右边是自动化评测页面的截图。红框里可以看到：这个题目一共有 18 个分析意图，这份报告完成了 17 个，对应得分 0.94。系统还会标注哪一个意图没有完成，已完成的意图在报告中对应的是哪些章节。由此能直观看到机评在这个场景下的实际效果。

最后给一组离线实验数据：我们做了人评与机评的对比。机评在事实性错误上的召回率超过 88%，准确性达到 86%。意思是说，真实存在的错误里有 88% 以上能被正确发现；而被机评判为“错误”的项里，接近九成判断是对的。对日常评测，尤其是研发迭代，这样的能力基本够用。只要测试集覆盖充分，就能用来比较两个版本、两种架构的优劣。

当然也有目前覆盖不到的部分。比如易读性高度依赖人工判断：图表展示是否出现图例堆叠等问题，自动化暂时难以发现；再如报告是否“足够有深度、足够有丰富度”，这些判断偏主观，我们也尚未做自动化覆盖。

评估平台的工具与链路建设

开展评测不仅需要方法与算法，也需要完善的平台与工具支撑。我们在数据平台内部搭建了面向数据评估的统一平台，定位于为大模型应用的探索与优化提效。平台覆盖数据集管理与标注、自动化与人工评测、指标汇总与分析、结果归因与对比归因等完整流程，并提供相应的功能组件。

另外平台同时引入“数据飞轮”，将线上新增案例持续沉淀为评测集，确保评测随业务与使用方式演化而更新；在基础选型环节，提供 Benchmark 与榜单模块，便于业务侧进行判断与选择。

这里简单介绍一下几个特色功能。第一个“数据飞轮”前面已经提过。第二，我们还提供一系列常用评测算子，既有基于规则实现的，也有基于大模型实现的。

业务方可以自行调用，在“自定义策略”模块里按业务需要编排这些“原子算子”，实现自己的分析逻辑。针对这类场景，我们还设计了“评估工作流”模块。用过类似 langchain、Dify、Coze 这类平台的同学都会熟悉，用工作流可视化地搭建一个 agent；同样地，我们也支持把评估流程用工作流快速搭建起来，更高效地复用算子，而不是一律写代码。

这个模块的反馈很好，内部评测同学也在用它为业务搭建评测流程。举个很简单的用法：先对输入做基础处理与归一化，然后调用一个评估算法，或调用大模型，并写好自己的 prompt，即可把这条评估链路跑通。

未来展望

面向未来，自动化评测在数据领域可能的重点投入方向如下：

首先，评测的维度和体系需要进一步完善。现在对多模态能力的利用还不够，数据集也需要持续优化；流程要更规范，效率要更高。同时要解决线上与线下的一致性：如何让线下评估尽可能反映线上的真实能力，而不是做成“线上全量、全人工”的评估。

可以通过有效采样、时效性校验等手段，持续衡量线下评测数据集是否过时，让评测结果真正对应用户的实际体感。

其次，在应用改进方面，以前常讲 TDD（Test-Driven Development）。在大模型时代，我更主张“评估驱动开发”（EDD）。它需要把评估更好地分解到 Agent 架构的各个环节：细化到子模块的能力、推理的不同阶段，并把最终业务指标与过程性指标建立起更有效的关联。

模型训练层面，无论是精调（SFT）还是强化学习，归根到底都是与预期业务效果和人类判断对齐，这与评测天然相关。我们也在探索用自动化评测去反向驱动训练流程。

最后，是让自动化评估的结果更快、更高效地生成对应用改进的建议，切实服务迭代。这能直接帮助到研发与业务两端：作为用户方 / 业务方，可以更有效地判断一个 Agent 是否满足需求；作为开发者，也能在更高效的评测支持下，用更大的探索空间去尝试新技术方案，并把最终效果做上去。

活动推荐

AI 重塑组织的浪潮已至，Agentic 企业时代正式开启！当 AI 不再是单纯的辅助工具，而是深度融入业务核心、驱动组织形态与运作逻辑全面革新的核心力量。

把握行业变革关键节点，12 月 19 日 - 20 日，AICon 全球人工智能开发与应用大会（北京站）即将重磅启幕！本届大会精准锚定行业前沿，聚焦大模型训练与推理、AI Agent、研发新范式与组织革新，邀您共同深入探讨：如何构建起可信赖、可规模化、可商业化的 Agentic 操作系统，让 AI 真正成为企业降本增效、突破增长天花板的核心引擎。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述