没有对大语言模型（LLM）做基准测试，你可能在多花 5-10 倍的钱

《如何通过模型基准测试降低80%的AI API成本》摘要：本文分享了一个AI应用成本优化案例，通过搭建自定义基准测试系统，帮助创业者将LLM API月支出从1500美元降至300美元。文章详细介绍了五步测试法：收集真实用例、定义评分标准、构建数据集、多模型测试和LLM自动评分，强调公开基准无法替代针对具体任务的实测。通过帕累托前沿分析，作者展示了如何在质量、成本和延迟间取得平衡，并推荐了自动化测试

新加坡内哥谈技术

838人浏览 · 2026-01-21 21:08:10

新加坡内哥谈技术 · 2026-01-21 21:08:10 发布

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

上个月，我帮一个朋友把他的 LLM API 成本削减了 80%。

他是一个非技术出身的创业者，正在打造一个由 AI 驱动的业务。和大多数人一样，他选择了 GPT-5，因为它是默认选项：API 已经有了、基准测试数据不错、大家都在用——那还用考虑什么呢？

但随着使用量增长，他的账单也涨了。仅 API 调用费用就达到了 每月 1500 美元。

于是我们针对他的实际提示词（prompts）对 100 多个模型 进行了基准测试。很快我们发现，虽然 GPT-5 表现稳健，但几乎从不是最划算的选择——总能找到成本更低、质量相近的替代方案。找到合适的模型后，他节省了上千美元。以下是我们如何做到的。

问题：公开基准无法预测你自己的任务表现

选择 LLM 时，大多数人只是挑一个熟悉的服务商。比如我习惯用 Anthropic，根据任务选择 Opus、Sonnet 或 Haiku。稍微讲究点的，会查查各种排行榜：Artificial Analysis、LM Arena、GPQA Diamond、AIME、SWE Bench、MATH 500、Humanity’s Last Exam、ARC-AGI、MMLU……

但让我们面对现实：这些指标并不能预测模型在你具体任务上的表现。

一个在推理类 benchmark 中得分最高的模型，可能在损害费用估算上表现平平，或在多语言客服、网页数据提取等方面完全不行。

它们充其量只能作为“粗略参考”，而且完全没有考虑成本。

唯一真正知道性能的方法，就是在你自己的提示词上测试，同时考虑质量、成本和响应延迟。

自建基准测试

为了弄清楚这一点，我们自己搭建了基准系统。以下以一个客户支持场景为例：

步骤 1：收集真实示例

我们通过 WHAPI 提取了真实的客服对话：包含历史聊天记录、客户的最新消息，以及朋友实际回复的内容。他还提供了手动与自动生成的提示模板。基于此，我们选取了约 50 个聊天案例——既包括常见问题，也包含希望模型能正确应对的特殊情况。

步骤 2：定义预期输出

每个示例的“理想答案”就是朋友实际回复的内容。我们还定义了具体的评分标准，例如：

一个好的回答应告诉客户该产品售价为 5.99 美元，并立即提供下单选项；
或：一个好的回答应说明退货政策为 30 天，但客户已在两个月后才寄回货品。

这样模型评分时就能有依据。

步骤 3：构建基准数据集

至此，我们得到一个简单的数据集：输入提示（conversation + 指令） 与 期望输出（expected response）。
这个格式通用，适用于各种场景。如果某个模型表现很好，也可以用它的结果生成标准答案并微调。

步骤 4：在所有模型上运行

我们通过 OpenRouter 平台来运行这些模型，因为它提供统一 API，可以轻松切换模型：

from openai import OpenAI client = OpenAI( base_url="https://openrouter.ai/api/v1", api_key="<OPENROUTER_API_KEY>", ) completion = client.chat.completions.create( model="openai/gpt-5", # 或 "anthropic/claude-opus-4.5", "google/gemini-3-pro-preview" 等 messages=[{"role": "user", "content": "Hello!"}] )

这让我们能用相同代码测试 50+ 模型。运行结果输出为一个 dataframe，记录每个模型的输入、期望输出和实际输出。

显然，这样的数据量太大，不可能人工评分，于是我们又让 LLM 来当评委。