大模型榜单周报（2026/02/15）

摘要：本周AI大模型领域迎来多项重要更新。ChatGPT启动广告测试，谷歌升级Gemini3推出"推理模式"，字节发布新一代视频模型Seedance2.0。DeepSeek将上下文窗口提升至1M tokens，智谱开源GLM-5模型。OpenRouter榜单显示Kimi K2.5使用量翻倍跃居第一，Moonshot超越OpenAI成为第三大厂商。Anthropic表现强劲，Cl

2501_94644293

1086人浏览 · 2026-02-16 10:14:31

2501_94644293 · 2026-02-16 10:14:31 发布

1. 本周概览

本周大模型行业迎来多项重要发布与升级。ChatGPT启动广告测试，谷歌宣布对Gemini3 Deep Think进行重大升级，推出专门针对科学、研究与工程场景的"推理模式"。千问团队推进Qwen3.5系列模型发布，字节正式发布新一代视频创作模型Seedance2.0。DeepSeek上线新模型，上下文窗口提升至1M tokens，智谱上线并开源GLM-5，MiniMax上线最新旗舰模型M2.5。OpenRouter榜单出现重大变动，Kimi K2.5从第3名跃升至第1名，使用量翻倍增长125%，Moonshot超越OpenAI成为第三大厂商。Anthropic在多个能力榜单中表现强劲，Claude 4.6包揽编程能力榜单前两名，Text Arena榜单包揽前2名。

2. 重点关注事件

ChatGPT启动广告测试（2.10）：OpenAI开始在ChatGPT中测试广告功能，标志着商业化探索的新阶段。
谷歌宣布Gemini 3 Deep Think重大升级（2.12）：推出专门针对科学、研究与工程场景开发的"推理模式"，旨在推动智能前沿发展。
千问团队推进Qwen 3.5系列发布（2.9）：已向HuggingFace代码库提交相关支持PR，新系列模型即将面世。
字节正式发布Seedance 2.0（2.12）：新一代视频创作模型采用统一的多模态音视频联合生成架构，支持文字、图片、音频、视频四种模态输入，集成了目前业界最全面的多模态内容参考和编辑能力。
DeepSeek上线新模型（2.12）：核心升级包括上下文窗口上限提升至1M tokens，长上下文场景表现突出；整体响应速度明显提升；知识库截止日期显示为2025年5月。新模型仍为纯文本模型，不支持多模态输入。目前官方尚未发布正式公告。
智谱上线并开源GLM-5（2.12）：定位为面向复杂系统工程和长程Agentic任务的基座模型，在Coding与Agent能力上取得开源SOTA表现。
MiniMax上线M2.5旗舰模型（2.12）：最新旗舰模型现已开放访问，用户可通过Web端和桌面端的MiniMax Agent调用该模型。

3. 榜单变化

OpenRouter模型调用量排名

整体调用量：Kimi K2.5从第3名跃升至第1名，使用量翻倍增长125%，以1.52T tokens遥遥领先，是第2名的2倍多。Anthropic两个模型新入前十，Claude Opus 4.6入榜。Trinity Large Preview (free)作为免费模型增长81%。另外有两个模型跌出前十：Grok Code Fast 1（上期第8）和Claude Opus 4.5（上期第6，被4.6替代）。
模型市占率：Moonshot超越OpenAI，成为OpenRouter平台第三大厂商，与Google、Anthropic并立。Google虽然总量微增（1.58T→1.68T），但市场份额流失近1/6，从23%降到19%。MiniMax份额大增1.7%（4.7%→6.4%），tokens涨80%。
模型吞吐量：OpenAI gpt-oss 120B速度暴涨29%（447→576 tok/s），排名反超20B小模型。Meta 3款模型同时进入Top 10，成为入围最多的厂商，Llama 3.3 70B直接挤掉Google Gemini 2.5 Flash Lite，Llama 4系列（Maverick+Scout）双入榜。
编程调用量：Kimi在编程场景展现统治力，市占率30.8%，远超其在通用场景的12.6%份额，同时领先第二名近20个百分点。Claude Opus 4.6空降第3，按Anthropic整体下滑。上期Anthropic双模型（Opus 4.5 + Sonnet 4.5）合计16.6%，本期Anthropic双模型（Opus 4.6 + Sonnet 4.5）合计11.3%。

各领域能力榜单

大语言模型Text Arena：Anthropic包揽前2，终结了Google霸榜，分数突破1500分大关，"thinking"版本领先基础版6分。Kimi K2.5-thinking入榜，第18名（1447分）。GLM-5第11名（1452分），智谱成为新的中国质量代表。
编程能力榜单（Code Arena）：Claude 4.6霸榜前两名，分数突破1560分，较上期冠军（1500分）提升4.5%；Anthropic包揽前3（含4.5-thinking-32k），保持绝对统治。Google模型被GPT-5.2-high（第4）、GLM-5（第6）超越。智谱GLM-5成为本期最大黑马，直接杀入前6，分数1449分，超越Google Gemini 2.5 Pro。
文生图能力榜单（Artificial Analysis Text to Image Leaderboard）：xAI Grok空降第5，xAI首次进入图像生成Top 10，分数1190，超越字节Seedream 4.0（1189）和FLUX.2 [flex]（1184）。
理科能力榜单（GPQA LLM Stats）：无重要变化。
前沿数学能力榜单（EPOCH AI FrontierMath）：Anthropic 4.6代全面取代4.5代，3款配置全部进入Top 5。Google Gemini 3 Pro Preview下跌，从第4跌至第6。
HLE（Human’s Last Exam）：无重要变化。

4. 排行榜

测评类型	第一名	第二名	第三名
模型调用量	Kimi K2.5	Gemini 3 Flash Preview	DeepSeek V3.2
公司市占率	Google	Anthropic	MoonShotai
模型速度	gpt-oss-safeguard-20b	Qwen3 32B	gpt-oss-120b
编程模型调用量	Kimi K2.5	MiniMax M2.1	Claude Opus 4.6

各公司按不同能力领域排名汇总

测评类型	领先公司
大语言模型 Text Arena	Anthropic、Google、xAI、OpenAI
编程能力 Code Arena	Anthropic、OpenAI、智谱、Google、Kimi
编程能力 LiveCodeBench	Anthropic、OpenAI、Google
代码工程任务能力 SWE-bench	Anthropic、Google、OpenAI
图像编辑和生成能力 Image Edit Arena	OpenAI、Google、xAI、字节、腾讯
文生图能力 Text-to-Image Arena	OpenAI、Google、xAI、Black Forest Labs、腾讯
图像编辑和生成能力 Image Editing Leaderboard	OpenAI、Google、xAI、腾讯、字节、Black Forest Labs、阿里巴巴、Reve
文生图能力 Text to Image Leaderboard	OpenAI、Google、Black Forest Labs、xAI、字节
GPQA	OpenAI、Google、Anthropic、xAI
FrontierMath	OpenAI、Anthropic、Google、月之暗面、DeepSeek
Humanity’s Last Exam	Google、OpenAI、Anthropic

关注我，第一时间掌握更多AI前沿资讯！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

精读《Harness design for long-running application development》：真正拉开差距的，不是模型本身，而是你怎么给它harness

2048 AI社区

OpenClaw内部原理完全解析：从Gateway到记忆系统的AI Agent基础设施

2048 AI社区

从零开始构建AI Agent评估体系：12种LangSmith评估方法详解

AI Agent 的评估需要全面考虑其完整的生命周期，从开发阶段到生产部署。评估过程应当涵盖多个关键维度：最终输出的事实准确性和实用价值、推理过程中工具选择的合理性和路径效率、结构化响应生成能力（如 JSON 格式）、多轮对话的上下文维持能力，以及在真实用户流量下的持续性能表现和错误监控能力。为了有效监控和评估 Agent 生命周期的各个组件，LangSmith 作为最具影响力和广泛应用的工具平台