谷歌Gemma 4 MoE实测

在Gemma 4 31B Dense版本之后，我们继续对Gemma 4系列的另一款模型——gemma-4-26b-a4b-it进行了全面评测。在当前主流大模型竞争格局中，gemma-4-26b-a4b-it作为一款MoE开源模型，其核心竞争力不在于与大参数旗舰模型比拼准确率，而在于以极低的推理成本提供可用的智能水平。需要说明的是，本次评测侧重中文场景下的综合能力考察。*数据来源：非线智能ReLE评

easyllm

30人浏览 · 2026-04-08 14:41:20

easyllm · 2026-04-08 14:41:20 发布

在Gemma 4 31B Dense版本之后，我们继续对Gemma 4系列的另一款模型——gemma-4-26b-a4b-it进行了全面评测。这是一款采用混合专家架构（MoE）的模型，总参数量260亿，但每次推理仅激活38亿参数，在保持较高智能水平的同时大幅降低推理开销。官方将其定位为"专注低延迟"的版本，与31B Dense版本形成"质量优先 vs 速度优先"的互补矩阵。

需要说明的是，本次评测侧重中文场景下的综合能力考察。与31B版本类似，Gemma 4 26B MoE的核心优势——本地部署的极速推理、原生Agent工作流、跨模态处理以及140+语言支持。

gemma-4-26b-a4b-it版本表现：

测试题数：约1.5万
总分（准确率）：50.3%
平均耗时（每次调用）：47s
平均token（每次调用消耗的token）：799
平均花费（每千次调用的人民币花费）：1.7

1、新旧对决

对比上一代版本（gemma-3-27b-it），gemma-4-26b-a4b-it在所有评测维度上均实现了提升，数据如下：

*数据来源：非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

*输出价格单位：元/百万token

整体性能显著提升：新版本准确率从39.0%提升至50.3%，提升了11.3个百分点，排名从第146位升至第130位。
法律与行政公务领域提升最为突出：从39.7%提升至62.0%（+22.3%），与31B Dense版本的表现趋势一致，表明Gemma 4系列在法规理解方面的中文能力有了整体性的改善。
Agent与工具调用接近翻倍：从17.6%提升至33.3%（+15.7%），增幅在所有维度中排名第二。这与Gemma 4系列主打的原生Agent工作流定位高度吻合，MoE版本在该维度上甚至略高于31B Dense版本（33.3% vs 32.7%）。
推理与数学计算稳步提升：从43.4%提升至57.5%（+14.1%），逻辑推理能力有较为扎实的进步。
医疗与心理健康领域进步明显：从50.6%提升至62.1%（+11.5%），提升幅度较为可观。
金融领域同步提升：从56.4%提升至64.0%（+7.6%），保持了稳步改善。
教育领域有所改善：从29.6%提升至37.8%（+8.2%），虽然绝对值仍处于较低水平，但进步方向明确。
语言与指令遵从提升相对有限：从49.1%提升至52.1%（+3.0%），在所有维度中属于提升幅度最小的领域，中文复杂指令的精准理解仍是MoE版本需要优化的方向。
速度与成本优势：gemma-4-26b-a4b-it的平均耗时为47s，平均Token消耗为799，每千次调用花费仅1.7元。对比同系列的31B Dense版本（82s，687 token，1.4元），MoE版本在响应速度上快了约43%，但Token消耗略高（799 vs 687），实际花费略高（1.7元 vs 1.4元）。

2、横向对比

在当前主流大模型竞争格局中，gemma-4-26b-a4b-it作为一款MoE开源模型，其核心竞争力不在于与大参数旗舰模型比拼准确率，而在于以极低的推理成本提供可用的智能水平。我们从三个维度进行横向对比分析：

*数据来源：非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark

同成本档位对比

超低成本区间的速度标杆：gemma-4-26b-a4b-it每千次调用花费仅1.7元，与同系列的gemma-4-31b-it（52.5%，1.4元）同处最低成本区间。两者准确率差距为2.2个百分点（50.3% vs 52.5%），但MoE版本的响应速度更快（47s vs 82s），适合对延迟敏感的实时交互场景。
与gpt-oss-20b（54.1%，2.1元）相比，gemma-4-26b-a4b-it在准确率上存在3.8个百分点的差距，花费略低（1.7元 vs 2.1元）。考虑到Gemma 4 26B MoE每次仅激活38亿参数，其参数效率在同成本档位中具备一定竞争力。
与gpt-oss-120b（59.1%，2.9元）相比，准确率差距拉大至8.8个百分点，但花费仅为后者的约60%。对于优先考虑部署灵活性而非极限准确率的场景，MoE版本的低资源占用是其差异化优势。

新旧模型对比

代际进步明显：从gemma-3-27b-it的39.0%到gemma-4-26b-a4b-it的50.3%，11.3个百分点的提升印证了Gemma 4系列整体架构升级的有效性。
与31B Dense版本的互补关系：在Gemma 4家族内部，31B Dense（52.5%，82s，1.4元）与26B MoE（50.3%，47s，1.7元）形成了清晰的产品矩阵——前者适合对准确率要求更高的离线批处理场景，后者适合对响应速度敏感的在线交互场景。两者准确率差距仅2.2个百分点，但速度差异达43%。
在谷歌系模型的完整版图中，从闭源旗舰gemini-3.1-pro-preview（74.8%）到轻量API gemini-3-flash-preview（71.5%），再到开源本地部署的Gemma 4系列（50%至52%区间），形成了从云端到边缘的覆盖。

开源VS闭源对比

开源轻量模型的生态价值：gemma-4-26b-a4b-it的50.3%准确率在开源模型中排名靠后，与头部开源模型qwen3.5-plus（74.6%）、Qwen3.5-27B（72.4%）差距明显。但Gemma 4 26B MoE的核心价值在于其MoE架构带来的极低推理开销——仅激活38亿参数，意味着它可以在消费级GPU甚至移动设备上流畅运行。
与同为开源的Qwen3.5-27B（72.4%，25元）相比，gemma-4-26b-a4b-it的准确率差距达22.1个百分点，但花费仅为后者的约7%。两者面向的是完全不同的使用场景：Qwen3.5-27B追求的是开源阵营中的极限智能，Gemma 4 26B MoE追求的是边缘设备上的可用智能。

目前所有大模型评测文章在公众号：大模型评测及优化NoneLinear

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

HyperWorks用户仿真行为分析与许可证资源分点配置

2048 AI社区

SEONIB 常见问题与高级技巧：让 AI 写作更符合 Google 规则

2048 AI社区

Qt Event

事件循环（Event Loop）是 Qt 框架的核心机制，主要负责管理应用程序的事件分发、信号槽调用、定时器、网络通信等异步操作。在 Qt 应用程序中，Qt 的主事件循环由 QCoreApplication::exec() 或 QApplication::exec() 启动，一般位于 main() 函数的末尾。如果没有 app.exec()，程序会立即退出，UI 无法显示，信号槽也无法正常工作。对

2048 AI社区

所有评论(0)

查看更多评论

easyllm

@easyllm

已为社区贡献5条内容