大模型榜单周报(2026/01/31)
本周AI大模型领域迎来多项重要进展:百度发布文心5.0,参数达2.4万亿;通义千问开源Qwen3-TTS语音模型;Kimi发布并开源K2.5多模态模型。榜单方面,DeepSeek V3.2强势崛起,MiMo V2 Flash(free)大幅下滑。编程领域竞争激烈,Grok Code Fast 1优势缩减,Kimi K2.5闯入前五。各厂商在不同能力领域展开激烈角逐,Google、Anthropic
·
1. 本周概览
本周大模型行业迎来多项重要进展,百度文心5.0正式发布,通义千问开源Qwen3-TTS语音模型,Kimi发布并开源K2.5模型。榜单方面变化剧烈,MiMo V2 Flash (free)遭遇断崖式下跌,DeepSeek V3.2强势跃升,编程领域竞争格局发生重大变化,Grok Code Fast 1领先优势萎缩,新模型Kimi K2.5强势闯入前五。
2. 重点关注事件
- 百度于1.24日正式发布文心5.0,搭载2.4万亿参数原生全模态架构,在40余项基准测试中领跑国际第一梯队,被称为"最强文科生"
- 通义千问于1.26开源Qwen3-TTS全系列语音模型,支持3秒克隆与音色创造,延迟低至97ms,开源1.7B(极致性能)和0.6B(轻量高效)两个版本,满足从云端到边缘的多样化部署需求;同时Qwen3-Max-Thinking上线,引入自适应工具调用与测试时扩展技术两大核心创新
- DeepSeek于1.27更新OCR模型,DeepSeek-OCR 2通过引入DeepEncoder V2架构,实现视觉编码从「固定扫描」向「语义推理」的范式转变,将原本基于CLIP的编码器替换为轻量级语言模型(Qwen2-500M),并引入具有因果注意力机制的「因果流查询」
- Kimi于1.27发布并开源K2.5模型,该模型为原生多模态架构设计,支持最高256,000 tokens的标准上下文长度,支持视觉与文本输入、思考与非思考模式、对话与Agent任务,并进一步提升开源模型的代码水平,尤其在前端开发领域表现突出
- MiniMax于1.29发布MiniMax Music 2.5,在「段落级强控制」与「物理级高保真」两大技术难题上实现突破,辅以华语优化及专业混音,让格莱美级音乐创作无需录音棚即可实现
3. 榜单变化
- OpenRouter整体模型调用量方面,MiMo V2 Flash (free)遭遇断崖式下跌,调用量从582B tokens骤降至280B,排名由第2滑落至第9,周增长率从+18%转为-52%;DeepSeek V3.2实现强势跃升,调用量从364B增至464B,排名从第7升至第4,周增长率由4%大幅提升至27%;Claude Opus 4.5由高速增长转为明显回调,调用量从395B降至339B,周增长率从+35%转为-14%;Gemini 2.5 Pro跌出前十榜单,其上周413B的调用量本周被gpt-oss-120b以272B进入前十取代;Gemini 2.5 Flash稳步复苏,排名从第8上升至第5,调用量从364B增至394B,周增长率由-3%转正为+8%
- OpenRouter模型市占率方面,DeepSeek调用量从上周457B增至本周553B,市场占比由8.0%提升至9.4%;Google主导地位略有削弱,调用量从1.48T降至1.4T,占比由26.0%下滑至24.0%;Xiaomi遭遇断崖式下跌,从第6名(441B,7.8%)直接跌出前十榜单;MoonshotAI强势入局,新进前十并直接占据第7位,获得203B调用量(3.5%份额);长尾市场爆发式增长,Others类别调用量从349B激增至598B,占比由6.1%飙升至10.2%
- OpenRouter模型吞吐量方面,GPT-OSS-120B(Groq提供)具有超强统治力,体现在速度够快+成本可控+规模化验证,速度第2(936 tok/s),成本适中($0.35/M),请求量最高,可能是当前最主流的生产环境选择;Qwen3 32B(Cerebras提供)崛起,速度第3(736 tok/s),圆点第二大,显示国产模型可能在国际开发者工具链中已占核心位置
- OpenRouter编程调用量方面,Grok Code Fast 1领先优势急剧萎缩,调用量占比由22.8%大幅下滑至16.4%;MiniMax M2.1实现跨越式增长,调用量从56.8B翻倍至115B,占比由4.0%大幅提升至7.4%;Kimi K2.5强势闯入前五,以139B tokens和8.9%占比新晋榜单第4位;GPT-5系列双模型重回前十,GPT-5.2与GPT-5.2-Codex分别以61.4B和54.5B tokens调用量占据第8、第9位;上周三大热门模型集体跌出前十,MiMo V2 Flash (free)、Devstral 2 2512 (free)与DeepSeek V3.2分别从上周第5、第7、第9位滑落至十名之外
- 图像编辑能力榜单(Text to Image Arena):hunyuan-image-3.0-instruct新上榜单,评分基于预发布测试,可能会随着公开发布后社区反馈和投票的变化而调整
- 图像编辑能力榜单(Artificial Analysis Image Editing Leaderboard):Reve V1分数超过FLUX.2 [pro],二者排名易位,分别排名8、9
- 文生图能力榜单(Artificial Analysis Text to Image Leaderboard):FLUX.2 [dev] Turbo分数超过ImagineArt 1.5 Preview,二者排名易位,分别排名10、11
- GAIA榜单:Shawn Agent更新v3.1,排名第7,得分达89.37%
4. 排行榜
| 测评类型 | 第一名 | 第二名 | 第三名 |
|---|---|---|---|
| 模型调用量 | Claude Sonnet 4.5 | Gemini 3 Flash Preview | Grok Code Fast 1 |
| 公司市占率 | Anthropic | OpenAI | |
| 模型速度 | gpt-oss-safeguard-20b | gpt-oss-120b | Qwen3 32B |
| 编程模型调用量 | Grok Code Fast 1 | Claude Sonnet 4.5 | Claude Opus 4.5 |
各公司按不同能力领域排名汇总
| 测评类型 | 领先公司 |
|---|---|
| 大语言模型 Text Arena | Google、xAI、Anthropic、百度、OpenAI、智谱、阿里巴巴、月之暗面 |
| 编程能力 Code Arena | Anthropic、OpenAI、Google、智谱、MiniMax |
| 编程能力 LiveCodeBench | OpenAI、Anthropic、Google |
| 代码工程任务能力 SWE-benchLite | 基于Claude、Gemini、GPT、Qwen、DeepSeek开发的开源系统 |
| 图像编辑和生成能力 Image Edit Arena | OpenAI、Google、字节、腾讯、Black Forest Labs、Reve |
| 文生图能力 Text-to-Image Arena | OpenAI、Google、Black Forest Labs、腾讯 |
| 图像编辑和生成能力 Image Editing Leaderboard | OpenAI、Google、字节、Black Forest Labs、阿里巴巴、Reve |
| 文生图能力 Text to Image Leaderboard | OpenAI、Google、Black Forest Labs、字节、Fal |
| GPQA | OpenAI、Google、xAI、Anthropic、阿里巴巴 |
| FrontierMath | OpenAI、Google、DeepSeek、月之暗面、Anthropic、xAI |
| Humanity’s Last Exam | Google、OpenAI、Anthropic |
| GAIA | JoinAI、Nvidia、Suzhou AI Lab&Shuqian Tech、Microsoft AI Asia -Ads、LR AILab of Lenovo CTO Org、ShawnAgent、ZTE-AICloud、LR AILab等 |
关注我,第一时间掌握更多AI前沿资讯!
更多推荐

所有评论(0)