谷歌发布 Gemini 3.1 Flash-Lite：首字提速 2.5 倍，算力成本再创新低

谷歌推出Gemini 3.1 Flash-Lite模型，主打速度与成本优势。该模型首字响应速度提升2.5倍，整体输出提速45%，定价为输入$0.25/百万Token、输出$1.50/百万Token，性价比显著。在多项基准测试中表现优异，甚至超越前代更大模型。支持可调节"思考等级"功能，适用于从简单任务到复杂推理的多种场景。目前已通过Google AI Studio和Vertex

人工智能研究所

50人浏览 · 2026-03-05 07:30:00

人工智能研究所 · 2026-03-05 07:30:00 发布

在大模型竞争白热化的当下，速度与成本依然是开发者最关心的两大维度。谷歌于本周正式推出 Gemini 3.1 Flash-Lite——Gemini 3 系列迄今最快、性价比最高的模型，并已在 Google AI Studio 和 Vertex AI 上向开发者开放预览访问。

速度：首字响应提速 2.5 倍

对于实时交互场景而言，Time to First Token（首字响应时间） 是衡量用户体验的核心指标。根据第三方权威基准测试平台 Artificial Analysis 的数据，Gemini 3.1 Flash-Lite 相比上一代 Gemini 2.5 Flash，首字响应速度提升了 2.5 倍，整体输出速度则提升了 45%。

这一跃升对高频交互场景意义重大——无论是客服对话、代码补全，还是内容审核流水线，更低的响应延迟直接决定了产品体验的上限。谷歌将这一特性定位为"为实时体验而生"，旨在满足开发者构建响应式应用的核心诉求。

成本：每百万 Token 仅需 $0.25

在定价层面，3.1 Flash-Lite 的竞争力同样突出：

计费维度	价格
输入 Token	$0.25 / 百万 Token
输出 Token	$1.50 / 百万 Token

这一定价在同类模型中处于极具竞争力的水平，与 GPT-5 mini、Claude 4.5 Haiku、Grok 4.1 Fast 等竞品相比，在谷歌官方对比图表中输出速度与价格两项均占据领先位置。对于需要大规模调用 API 的企业级用户而言，低廉的单价可以将总体拥有成本（TCO）压缩到过去的一个零头。

智能：性能不因轻量而妥协

"轻量快速"并不意味着能力打折。在多个权威评测基准上，Gemini 3.1 Flash-Lite 展现出超越预期的推理能力：

Arena.ai Leaderboard Elo 得分：1432
，在同级别模型中名列前茅
GPQA Diamond（研究生级科学推理）：86.9%
MMMU Pro（多模态理解）：76.8%

值得注意的是，这两项得分甚至超越了谷歌前一代规模更大的 Gemini 2.5 Flash，充分说明新一代架构在效率优化上的实质性突破——以更少的算力实现了更高的智能密度。

思考等级：开发者的灵活调度权

3.1 Flash-Lite 默认集成了可调节的"思考等级"（Thinking Levels）功能，在 AI Studio 和 Vertex AI 上均已开放。开发者可以根据任务复杂度，动态控制模型投入的推理深度：

低思考量
：适合高频、低复杂度任务，如翻译、内容分类、关键词提取，以最低延迟和成本完成；
高思考量
：适合需要多步骤推理的场景，如生成 UI 界面与仪表盘、创建业务模拟、执行复杂的多步骤 Agent 任务。

这种"按需思考"的设计哲学，让同一个模型既能胜任海量批处理工作，又能处理对推理深度有要求的复杂任务，极大拓宽了单一模型的适用边界。

典型应用场景

谷歌在官方博客中列举了多个生产级应用示例，展示了 3.1 Flash-Lite 的实际落地能力：

电商线框填充：瞬间为包含数百个 SKU 的电商页面线框自动填充分类商品数据，大幅压缩前端开发周期。

动态天气仪表盘：实时整合实况预报与历史数据，生成可交互的气象可视化仪表盘，无需专业数据工程师介入。

多步骤 SaaS Agent：构建能够跨工具、跨步骤完成复杂业务指令的自主 Agent，覆盖从数据查询到结果输出的完整链路。

图像批量分析与分类：快速处理海量图片内容，完成内容审核、标签打标等高吞吐任务。

早期用户反馈

已获得早期访问权限的企业包括 Latitude、Cartwheel 和 Whering。这些开发者普遍反馈，3.1 Flash-Lite 在处理复杂输入时表现出接近更大规模模型的精准度，同时在指令遵循和内容一致性方面表现稳定——而成本仅是同等能力大模型的一小部分。

如何上手

目前，Gemini 3.1 Flash-Lite 已通过以下两个渠道向开发者开放：

个人开发者
：通过 Google AI Studio 的 Gemini API 免费访问预览版；
企业用户
：通过 Vertex AI 获得生产级部署支持，享受 SLA 保障与企业安全策略。

Gemini 3.1 Flash-Lite 代表了谷歌在"高性价比智能"这一赛道上的最新答卷。首字响应 2.5 倍提速、整体吞吐提升 45%、每百万 Token 仅需 $0.25，叠加超越前代大模型的基准测试成绩与灵活的思考等级调节能力，使其成为当前市场中极具吸引力的轻量级选择。

对于正在寻找"高频调用 + 低运营成本 + 不妥协智能"三者兼顾方案的开发者和企业来说，Gemini 3.1 Flash-Lite 值得纳入技术选型的优先考量。

更多transformer，VIT，swin tranformer
参考头条号：人工智能研究所
v号：人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

高原少年的AI农业梦：99%准确率之后，才是创业真正的开始

2048 AI社区

【claude+weelinking中转服务】Anthropic重磅升级skill-creator：告别“草台班子“时代

2048 AI社区

一文带大家理解各种AI大模型收费指标tokens到底是什么东东

2048 AI社区

所有评论(0)

查看更多评论

人工智能研究所

@weixin_44782294

已为社区贡献56条内容