【大模型排行榜】最新25年12月 LLM/ 视频生成/图片生成/ 音频生成 模型排行榜TOP6(deepseek v3.2、gpt 5.1、gemini 3)
2025年12月最新AI模型排行榜显示,Gemini-3-Pro以1492的Elo评分位居通用大模型榜首,在推理和多模态方面表现突出。图片生成领域,Google的gemini-3-pro-image-preview以1242分排名第一,腾讯混元图像3.0紧随其后。视频生成方面,MiniMax的海螺2.3以1228分领先,快手Kling 2.5 Turbo和Google Veo 3并列第二。榜单基于
【大模型排行榜】最新25年12月 LLM/ 视频生成/图片生成/ 音频生成 模型排行榜TOP6(deepseek v3.2、gpt 5.1、gemini 3)
- 评估时间:根据各官方榜单 最新更新时间(大多到 2025-11 / 2025-12)。
- 标准:只看客观榜单分数(Elo / Accuracy),不管开源与否、不看价格。
1️⃣ 通用 LLM(聊天 / 推理)——Chatbot Arena 综合榜 Top 6
排名依据:OpenLM Chatbot Arena+ 综合 Elo(聚合 Arena 对战、AAII v3、ARC-AGI 等 10 个评测)。更新时间:2025-11-26。([OpenLM.ai][1])
| 排名 | 模型 | 公司 | 主要指标(Chatbot Arena+) | 访问方式(示例) |
|---|---|---|---|---|
| 1 | Gemini-3-Pro | Elo ≈1492,当前综合榜第 1,在推理、工具调用和多模态上都非常强。([OpenLM.ai][1]) | 在 Gemini 网页里选择 Gemini 3 Pro;开发者用 Gemini API 里对应的 Pro 模型(云厂商如 Google Cloud / Vertex AI 也已集成)。 | |
| 2 | Grok-4.1-Thinking | xAI | Elo ≈1482,带长思考的 Grok 旗舰版,在创造力和复杂推理上表现突出。([OpenLM.ai][1]) | 通过 xAI/Grok 的 Web 端选择 Thinking 模式;企业可用 Grok API 高级套餐。 |
| 3 | Claude Opus 4.5(thinking-32k) | Anthropic | Elo ≈1466,Anthropic 最新顶级通用 LLM,长上下文 + 深度推理。([OpenLM.ai][1]) | 在 Claude 应用中选择 Opus 4.5 并开启 thinking;开发者用 Claude API 选择 opus-4.5 的 thinking 配置。 |
| 4 | Grok-4.1 | xAI | Elo ≈1465,不带 thinking 扩展的常规版本,延迟更低。([OpenLM.ai][1]) | Grok Web 端默认模型;API 调用对应标准 Grok-4.1 端点。 |
| 5 | GPT-5.1-high | OpenAI | Elo ≈1463,高思考强度配置,专注复杂推理与任务规划。([OpenLM.ai][1]) | 通过 OpenAI 平台 / 企业接口,选择 gpt-5.1 并启用高 effort / high 模式。 |
| 6 | Claude Opus 4.5(标准) | Anthropic | Elo ≈1462,Opus 4.5 的标准推理配置,性能极强同时更省时。([OpenLM.ai][1]) | Claude 应用和 Claude API 中直接选 Opus 4.5 默认配置。 |
2️⃣ 图片生成(Text-to-Image)——LMArena 榜 Top 6
排名依据:LMArena Text-to-Image Arena Overall Elo(2025-11-21 更新)。([beta.lmarena.ai][2])
| 排名 | 模型 | 公司 | 指标(Text-to-Image Arena) | 访问方式(示例) |
|---|---|---|---|---|
| 1 | gemini-3-pro-image-preview(nano-banana-pro) | Elo 1242,当前全球文生图总榜第 1。([beta.lmarena.ai][2]) | 在 Gemini 网页中使用图像生成功能,选择 3 Pro Image 预览;开发者用 Gemini API 的图像生成接口。 | |
| 2 | hunyuan-image-3.0 | 腾讯 | Elo 1161,开源/商用双生态最顶级之一,中文表现尤其强。([beta.lmarena.ai][2]) | 通过腾讯混元图像控制台;或在开源仓库下载 Hunyuan-Image-3.0 权重,本地/私有部署。 |
| 3 | gemini-2.5-flash-image-preview(nano-banana) | Elo 1158,Flash 版,速度快且质量接近 Pro。([beta.lmarena.ai][2]) | Gemini AI Studio 中选择 2.5 Flash Image;API 里调用对应 Flash Image 模型。 | |
| 4 | seedream-4-2k | 字节跳动 | Elo 1144,主打 2K 高分辨率、大场景细节。([beta.lmarena.ai][2]) | 通过字节的 Seed/Seedream 产品或多家第三方多模态平台选择 seedream-4-2k。 |
| 5 | imagen-4.0-ultra-generate-preview-06-06 | Elo 1143,Imagen Ultra 预览版,擅长写实与品牌级素材。([beta.lmarena.ai][2]) | 在 Google Cloud 的 Imagen 4.0 / Vertex AI 图像接口中选择 Ultra 版。 | |
| 6 | imagen-4.0-generate-preview-06-06 | Elo 1130,标准版 Imagen 4.0,性价比更高。([beta.lmarena.ai][2]) | 同样通过 Vertex AI / Imagen 4.0 标准接口调用。 |
3️⃣ 视频生成(Text-to-Video)——Artificial Analysis 榜 Top 6
排名依据:Artificial Analysis Text-to-Video Global Leaderboard Elo。([artificialanalysis.ai][3])
| 排名 | 模型 | 公司 | 指标(Text-to-Video Elo) | 访问方式(示例) |
|---|---|---|---|---|
| 1 | Hailuo 2.3 | MiniMax | Elo 1228,当前全球第一。([artificialanalysis.ai][3]) | 在海螺/Hailuo 视频产品网页直接生视频;开发者通过 MiniMax 视频 API 或一些聚合平台选择 Hailuo 2.3。 |
| 2 | Kling 2.5 Turbo 1080p | 快手 KlingAI | Elo 1227,在运动一致性和物理效果上极强。([artificialanalysis.ai][3]) | 通过 Kling 全球版网站登录使用;部分第三方平台提供 Kling 2.5 Turbo 模型选项。 |
| 3 | Veo 3(No Audio) | Elo 1227,和 Kling 2.5 Turbo 持平,电影感很强。([artificialanalysis.ai][3]) | 在 Google 的视频创作工具中选择 Veo 3;开发者通过 Gemini / Veo API 调用。 | |
| 4 | Veo 3.1 Preview(No Audio) | Elo 1223,更长时长和多镜头控制的预览版。([artificialanalysis.ai][3]) | 目前接入到部分合作平台(如 Higgsfield、Imagine 等),以及 Gemini 视频接口预览通道。 | |
| 5 | Veo 3.1 Fast Preview(No Audio) | Elo 1217,Veo 3.1 的高速版本。([artificialanalysis.ai][3]) | 在支持 Veo 3.1 的平台上选择 fast / 快速预设,适合批量短视频。 | |
| 6 | Ray 3 | Luma Labs | Elo 1212,HDR + 物理一致性出色。([artificialanalysis.ai][3]) | 在 Luma 官网使用 Ray 3 在线生成;开发者可使用 Luma 提供的视频生成 API。 |
紧随其后的还有 Sora 2 Pro / Sora 2 等,Elo 略低一些,但与 OpenAI 生态(ChatGPT、代码解释器等)一体化程度更高。([artificialanalysis.ai][3])
4️⃣ 代码 / Coding 模型——SWE-Bench Verified Top 6
排名依据:DataLearner 汇总的 SWE-Bench Verified 排行,只看 最高分模式(包括 parallel_thinking + 工具,纯看极限性能)。([datalearner.com][4])
| 排名 | 模型(模式) | 公司 | SWE-Bench Verified 成绩 | 访问方式(示例) |
|---|---|---|---|---|
| 1 | Claude Sonnet 4.5 – parallel_thinking + 工具 | Anthropic | 82.0%,目前公开最高分记录。([datalearner.com][4]) | 在 Claude 内部并行实验 / 高级配置中启用 parallel thinking + 工具;部分企业通过专用部署接入该模式。 |
| 2 | Claude Opus 4.5 – thinking | Anthropic | 80.9%,首个突破 80% 的“常规”模式,媒体称其为最新编码 SOTA。([datalearner.com][4]) | Claude 应用和 Claude API 中直接选 Opus 4.5 并使用高 effort(thinking)配置。 |
| 3 | Claude Sonnet 4 – parallel_thinking + 工具 | Anthropic | 80.2%,更早一代 Sonnet,在并行 + 工具模式下依然接近满分。([datalearner.com][4]) | 通过 Claude 企业版 / 内部 Agent 平台启用 Sonnet 4 并行版本。 |
| 4 | Claude Opus 4.1 – parallel_thinking + 工具 | Anthropic | 79.4%,老旗舰在并行模式下仍是世界顶级。([datalearner.com][4]) | 同样需通过 Anthropic/合作云厂商的企业接入配置。 |
| 5 | Claude Sonnet 4.5 – thinking + 工具 | Anthropic | 77.2%,不并行但允许工具调用的模式,被官方定位为“最强日常开发模型”。([datalearner.com][4]) | 在 Claude Code(VS Code 插件、JetBrains 插件)里选择 Sonnet 4.5 并开启工具使用。 |
| 6 | GPT-5.1-Codex-Max – high + 工具 | OpenAI | 76.8%,SWE-Bench Verified 上紧追 Sonnet 4.5,代表 OpenAI 最新旗舰代码智能体。([datalearner.com][4]) | 通过 OpenAI Codex 专用接口 / Codex CLI,或企业专属的 GPT-5.1-Codex-Max 端点。 |
备注:如果只看“非并行、现实可直接用的模式”,一般会拿 Opus 4.5 thinking / Sonnet 4.5 thinking + 工具 / GPT-5.1-Codex-Max 这几个配置来比较。([datalearner.com][4])
5️⃣ 语音 / 音频生成(Text-to-Speech)——Speech Arena Top 6
排名依据:Artificial Analysis Text-to-Speech Leaderboard(Speech Arena) 全局 Elo。([artificialanalysis.ai][5])
| 排名 | 模型 | 公司 | 指标(TTS Elo) | 访问方式(示例) |
|---|---|---|---|---|
| 1 | Inworld TTS 1 Max | Inworld | Elo 1198,当前 TTS 榜首,多语种 + 情感表现极强。([artificialanalysis.ai][5]) | 通过 Inworld 平台创建语音角色;开发者使用 Inworld 的 TTS API,选择 TTS 1 Max。 |
| 2 | MiniMax Speech-02-HD | MiniMax | Elo 1132,多次被称为“中文语音天花板”,高保真、细节丰富。([artificialanalysis.ai][5]) | 在 MiniMax 语音平台选择 Speech-02-HD 模型;国内很多聚合 API 也已集成。 |
| 3 | MiniMax Speech-02-Turbo | MiniMax | Elo 1117,速度更快、成本更低,质量略逊于 HD 但仍是榜单前列。([artificialanalysis.ai][5]) | 同平台选择 Speech-02-Turbo,适合大规模批量配音和实时对话。 |
| 4 | OpenAI TTS-1 | OpenAI | Elo 1115,通用高质量 TTS,和 ChatGPT 生态整合度高。([artificialanalysis.ai][5]) | 通过 OpenAI API 选择 tts-1 模型;也逐步集成到 ChatGPT App 的语音模式。 |
| 5 | Inworld TTS 1 | Inworld | Elo 1093,基础版 Inworld TTS,延迟更低。([artificialanalysis.ai][5]) | 在 Inworld 平台选 TTS 1 模型,用于游戏 NPC、虚拟人语音。 |
| 6 | OpenAudio S1 | Fish Audio | Elo 1080,开源/商用两用,在开源模型中表现非常靠前。([artificialanalysis.ai][5]) | 在 Fish Audio / 开源社区在线体验;也可下载 OpenAudio S1 权重本地部署。 |
简单总结:如果你只想要一套“天花板组合”
按纯性能粗暴选一套多模态“全家桶”(不考虑价格/部署难度)可以是:
- LLM: Gemini-3-Pro / Grok-4.1-Thinking / Claude Opus 4.5(看你偏 Google / xAI / Anthropic 哪家生态)。([OpenLM.ai][1])
- 图片: gemini-3-pro-image-preview + hunyuan-image-3.0。([beta.lmarena.ai][2])
- 视频: Hailuo 2.3 或 Kling 2.5 Turbo + Veo 3.1。([artificialanalysis.ai][3])
- 代码: Claude Sonnet 4.5 / Opus 4.5 + GPT-5.1-Codex-Max。([datalearner.com][4])
- 音频: Inworld TTS 1 Max + MiniMax Speech-02-HD。([artificialanalysis.ai][5])
更多推荐

所有评论(0)