大模型榜单周报（2026/01/31）

本周AI大模型领域迎来多项重要进展：百度发布文心5.0，参数达2.4万亿；通义千问开源Qwen3-TTS语音模型；Kimi发布并开源K2.5多模态模型。榜单方面，DeepSeek V3.2强势崛起，MiMo V2 Flash(free)大幅下滑。编程领域竞争激烈，Grok Code Fast 1优势缩减，Kimi K2.5闯入前五。各厂商在不同能力领域展开激烈角逐，Google、Anthropic

2501_94644293

1378人浏览 · 2026-01-31 13:24:35

2501_94644293 · 2026-01-31 13:24:35 发布

1. 本周概览

本周大模型行业迎来多项重要进展，百度文心5.0正式发布，通义千问开源Qwen3-TTS语音模型，Kimi发布并开源K2.5模型。榜单方面变化剧烈，MiMo V2 Flash (free)遭遇断崖式下跌，DeepSeek V3.2强势跃升，编程领域竞争格局发生重大变化，Grok Code Fast 1领先优势萎缩，新模型Kimi K2.5强势闯入前五。

2. 重点关注事件

百度于1.24日正式发布文心5.0，搭载2.4万亿参数原生全模态架构，在40余项基准测试中领跑国际第一梯队，被称为"最强文科生"
通义千问于1.26开源Qwen3-TTS全系列语音模型，支持3秒克隆与音色创造，延迟低至97ms，开源1.7B（极致性能）和0.6B（轻量高效）两个版本，满足从云端到边缘的多样化部署需求；同时Qwen3-Max-Thinking上线，引入自适应工具调用与测试时扩展技术两大核心创新
DeepSeek于1.27更新OCR模型，DeepSeek-OCR 2通过引入DeepEncoder V2架构，实现视觉编码从「固定扫描」向「语义推理」的范式转变，将原本基于CLIP的编码器替换为轻量级语言模型（Qwen2-500M），并引入具有因果注意力机制的「因果流查询」
Kimi于1.27发布并开源K2.5模型，该模型为原生多模态架构设计，支持最高256,000 tokens的标准上下文长度，支持视觉与文本输入、思考与非思考模式、对话与Agent任务，并进一步提升开源模型的代码水平，尤其在前端开发领域表现突出
MiniMax于1.29发布MiniMax Music 2.5，在「段落级强控制」与「物理级高保真」两大技术难题上实现突破，辅以华语优化及专业混音，让格莱美级音乐创作无需录音棚即可实现

3. 榜单变化

OpenRouter整体模型调用量方面，MiMo V2 Flash (free)遭遇断崖式下跌，调用量从582B tokens骤降至280B，排名由第2滑落至第9，周增长率从+18%转为-52%；DeepSeek V3.2实现强势跃升，调用量从364B增至464B，排名从第7升至第4，周增长率由4%大幅提升至27%；Claude Opus 4.5由高速增长转为明显回调，调用量从395B降至339B，周增长率从+35%转为-14%；Gemini 2.5 Pro跌出前十榜单，其上周413B的调用量本周被gpt-oss-120b以272B进入前十取代；Gemini 2.5 Flash稳步复苏，排名从第8上升至第5，调用量从364B增至394B，周增长率由-3%转正为+8%
OpenRouter模型市占率方面，DeepSeek调用量从上周457B增至本周553B，市场占比由8.0%提升至9.4%；Google主导地位略有削弱，调用量从1.48T降至1.4T，占比由26.0%下滑至24.0%；Xiaomi遭遇断崖式下跌，从第6名（441B，7.8%）直接跌出前十榜单；MoonshotAI强势入局，新进前十并直接占据第7位，获得203B调用量（3.5%份额）；长尾市场爆发式增长，Others类别调用量从349B激增至598B，占比由6.1%飙升至10.2%
OpenRouter模型吞吐量方面，GPT-OSS-120B（Groq提供）具有超强统治力，体现在速度够快+成本可控+规模化验证，速度第2（936 tok/s），成本适中（$0.35/M），请求量最高，可能是当前最主流的生产环境选择；Qwen3 32B（Cerebras提供）崛起，速度第3（736 tok/s），圆点第二大，显示国产模型可能在国际开发者工具链中已占核心位置
OpenRouter编程调用量方面，Grok Code Fast 1领先优势急剧萎缩，调用量占比由22.8%大幅下滑至16.4%；MiniMax M2.1实现跨越式增长，调用量从56.8B翻倍至115B，占比由4.0%大幅提升至7.4%；Kimi K2.5强势闯入前五，以139B tokens和8.9%占比新晋榜单第4位；GPT-5系列双模型重回前十，GPT-5.2与GPT-5.2-Codex分别以61.4B和54.5B tokens调用量占据第8、第9位；上周三大热门模型集体跌出前十，MiMo V2 Flash (free)、Devstral 2 2512 (free)与DeepSeek V3.2分别从上周第5、第7、第9位滑落至十名之外
图像编辑能力榜单（Text to Image Arena）：hunyuan-image-3.0-instruct新上榜单，评分基于预发布测试，可能会随着公开发布后社区反馈和投票的变化而调整
图像编辑能力榜单（Artificial Analysis Image Editing Leaderboard）：Reve V1分数超过FLUX.2 [pro]，二者排名易位，分别排名8、9
文生图能力榜单（Artificial Analysis Text to Image Leaderboard）：FLUX.2 [dev] Turbo分数超过ImagineArt 1.5 Preview，二者排名易位，分别排名10、11
GAIA榜单：Shawn Agent更新v3.1，排名第7，得分达89.37%

4. 排行榜

测评类型	第一名	第二名	第三名
模型调用量	Claude Sonnet 4.5	Gemini 3 Flash Preview	Grok Code Fast 1
公司市占率	Google	Anthropic	OpenAI
模型速度	gpt-oss-safeguard-20b	gpt-oss-120b	Qwen3 32B
编程模型调用量	Grok Code Fast 1	Claude Sonnet 4.5	Claude Opus 4.5

各公司按不同能力领域排名汇总

测评类型	领先公司
大语言模型 Text Arena	Google、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面
编程能力 Code Arena	Anthropic、OpenAI、Google、智谱、MiniMax
编程能力 LiveCodeBench	OpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite	基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统
图像编辑和生成能力 Image Edit Arena	OpenAI、Google、字节、腾讯、Black Forest Labs、Reve
文生图能力 Text-to-Image Arena	OpenAI、Google、Black Forest Labs、腾讯
图像编辑和生成能力 Image Editing Leaderboard	OpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve
文生图能力 Text to Image Leaderboard	OpenAI、Google、Black Forest Labs、字节、Fal
GPQA	OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath	OpenAI、Google、DeepSeek、月之暗面、Anthropic、xAI
Humanity’s Last Exam	Google、OpenAI、Anthropic
GAIA	JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org、ShawnAgent、ZTE-AICloud、LR AILab等

关注我，第一时间掌握更多AI前沿资讯！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

精读《Harness design for long-running application development》：真正拉开差距的，不是模型本身，而是你怎么给它harness

2048 AI社区

从零开始构建AI Agent评估体系：12种LangSmith评估方法详解

AI Agent 的评估需要全面考虑其完整的生命周期，从开发阶段到生产部署。评估过程应当涵盖多个关键维度：最终输出的事实准确性和实用价值、推理过程中工具选择的合理性和路径效率、结构化响应生成能力（如 JSON 格式）、多轮对话的上下文维持能力，以及在真实用户流量下的持续性能表现和错误监控能力。为了有效监控和评估 Agent 生命周期的各个组件，LangSmith 作为最具影响力和广泛应用的工具平台