【大模型排行榜】最新25年12月 LLM/ 视频生成/图片生成/ 音频生成模型排行榜TOP6(deepseek v3.2、gpt 5.1、gemini 3）

2025年12月最新AI模型排行榜显示，Gemini-3-Pro以1492的Elo评分位居通用大模型榜首，在推理和多模态方面表现突出。图片生成领域，Google的gemini-3-pro-image-preview以1242分排名第一，腾讯混元图像3.0紧随其后。视频生成方面，MiniMax的海螺2.3以1228分领先，快手Kling 2.5 Turbo和Google Veo 3并列第二。榜单基于

CPT_1024

3366人浏览 · 2025-12-02 11:26:31

CPT_1024 · 2025-12-02 11:26:31 发布

【大模型排行榜】最新25年12月 LLM/ 视频生成/图片生成/ 音频生成模型排行榜TOP6(deepseek v3.2、gpt 5.1、gemini 3）

评估时间：根据各官方榜单 最新更新时间（大多到 2025-11 / 2025-12）。
标准：只看客观榜单分数（Elo / Accuracy），不管开源与否、不看价格。

1️⃣ 通用 LLM（聊天 / 推理）——Chatbot Arena 综合榜 Top 6

排名依据：OpenLM Chatbot Arena+ 综合 Elo（聚合 Arena 对战、AAII v3、ARC-AGI 等 10 个评测）。更新时间：2025-11-26。([OpenLM.ai][1])

排名	模型	公司	主要指标（Chatbot Arena+）	访问方式（示例）
1	Gemini-3-Pro	Google	Elo ≈1492，当前综合榜第 1，在推理、工具调用和多模态上都非常强。([OpenLM.ai][1])	在 Gemini 网页里选择 Gemini 3 Pro；开发者用 Gemini API 里对应的 Pro 模型（云厂商如 Google Cloud / Vertex AI 也已集成）。
2	Grok-4.1-Thinking	xAI	Elo ≈1482，带长思考的 Grok 旗舰版，在创造力和复杂推理上表现突出。([OpenLM.ai][1])	通过 xAI/Grok 的 Web 端选择 Thinking 模式；企业可用 Grok API 高级套餐。
3	Claude Opus 4.5（thinking-32k）	Anthropic	Elo ≈1466，Anthropic 最新顶级通用 LLM，长上下文 + 深度推理。([OpenLM.ai][1])	在 Claude 应用中选择 Opus 4.5 并开启 thinking；开发者用 Claude API 选择 `opus-4.5` 的 thinking 配置。
4	Grok-4.1	xAI	Elo ≈1465，不带 thinking 扩展的常规版本，延迟更低。([OpenLM.ai][1])	Grok Web 端默认模型；API 调用对应标准 Grok-4.1 端点。
5	GPT-5.1-high	OpenAI	Elo ≈1463，高思考强度配置，专注复杂推理与任务规划。([OpenLM.ai][1])	通过 OpenAI 平台 / 企业接口，选择 `gpt-5.1` 并启用高 effort / high 模式。
6	Claude Opus 4.5（标准）	Anthropic	Elo ≈1462，Opus 4.5 的标准推理配置，性能极强同时更省时。([OpenLM.ai][1])	Claude 应用和 Claude API 中直接选 Opus 4.5 默认配置。

2️⃣ 图片生成（Text-to-Image）——LMArena 榜 Top 6

排名依据：LMArena Text-to-Image Arena Overall Elo（2025-11-21 更新）。([beta.lmarena.ai][2])

排名	模型	公司	指标（Text-to-Image Arena）	访问方式（示例）
1	gemini-3-pro-image-preview（nano-banana-pro）	Google	Elo 1242，当前全球文生图总榜第 1。([beta.lmarena.ai][2])	在 Gemini 网页中使用图像生成功能，选择 3 Pro Image 预览；开发者用 Gemini API 的图像生成接口。
2	hunyuan-image-3.0	腾讯	Elo 1161，开源/商用双生态最顶级之一，中文表现尤其强。([beta.lmarena.ai][2])	通过腾讯混元图像控制台；或在开源仓库下载 Hunyuan-Image-3.0 权重，本地/私有部署。
3	gemini-2.5-flash-image-preview（nano-banana）	Google	Elo 1158，Flash 版，速度快且质量接近 Pro。([beta.lmarena.ai][2])	Gemini AI Studio 中选择 2.5 Flash Image；API 里调用对应 Flash Image 模型。
4	seedream-4-2k	字节跳动	Elo 1144，主打 2K 高分辨率、大场景细节。([beta.lmarena.ai][2])	通过字节的 Seed/Seedream 产品或多家第三方多模态平台选择 `seedream-4-2k`。
5	imagen-4.0-ultra-generate-preview-06-06	Google	Elo 1143，Imagen Ultra 预览版，擅长写实与品牌级素材。([beta.lmarena.ai][2])	在 Google Cloud 的 Imagen 4.0 / Vertex AI 图像接口中选择 Ultra 版。
6	imagen-4.0-generate-preview-06-06	Google	Elo 1130，标准版 Imagen 4.0，性价比更高。([beta.lmarena.ai][2])	同样通过 Vertex AI / Imagen 4.0 标准接口调用。

3️⃣ 视频生成（Text-to-Video）——Artificial Analysis 榜 Top 6

排名依据：Artificial Analysis Text-to-Video Global Leaderboard Elo。([artificialanalysis.ai][3])

排名	模型	公司	指标（Text-to-Video Elo）	访问方式（示例）
1	Hailuo 2.3	MiniMax	Elo 1228，当前全球第一。([artificialanalysis.ai][3])	在海螺/Hailuo 视频产品网页直接生视频；开发者通过 MiniMax 视频 API 或一些聚合平台选择 `Hailuo 2.3`。
2	Kling 2.5 Turbo 1080p	快手 KlingAI	Elo 1227，在运动一致性和物理效果上极强。([artificialanalysis.ai][3])	通过 Kling 全球版网站登录使用；部分第三方平台提供 Kling 2.5 Turbo 模型选项。
3	Veo 3（No Audio）	Google	Elo 1227，和 Kling 2.5 Turbo 持平，电影感很强。([artificialanalysis.ai][3])	在 Google 的视频创作工具中选择 Veo 3；开发者通过 Gemini / Veo API 调用。
4	Veo 3.1 Preview（No Audio）	Google	Elo 1223，更长时长和多镜头控制的预览版。([artificialanalysis.ai][3])	目前接入到部分合作平台（如 Higgsfield、Imagine 等），以及 Gemini 视频接口预览通道。
5	Veo 3.1 Fast Preview（No Audio）	Google	Elo 1217，Veo 3.1 的高速版本。([artificialanalysis.ai][3])	在支持 Veo 3.1 的平台上选择 fast / 快速预设，适合批量短视频。
6	Ray 3	Luma Labs	Elo 1212，HDR + 物理一致性出色。([artificialanalysis.ai][3])	在 Luma 官网使用 Ray 3 在线生成；开发者可使用 Luma 提供的视频生成 API。

紧随其后的还有 Sora 2 Pro / Sora 2 等，Elo 略低一些，但与 OpenAI 生态（ChatGPT、代码解释器等）一体化程度更高。([artificialanalysis.ai][3])

4️⃣ 代码 / Coding 模型——SWE-Bench Verified Top 6

排名依据：DataLearner 汇总的 SWE-Bench Verified 排行，只看 最高分模式（包括 parallel_thinking + 工具，纯看极限性能）。([datalearner.com][4])

排名	模型（模式）	公司	SWE-Bench Verified 成绩	访问方式（示例）
1	Claude Sonnet 4.5 – parallel_thinking + 工具	Anthropic	82.0%，目前公开最高分记录。([datalearner.com][4])	在 Claude 内部并行实验 / 高级配置中启用 parallel thinking + 工具；部分企业通过专用部署接入该模式。
2	Claude Opus 4.5 – thinking	Anthropic	80.9%，首个突破 80% 的“常规”模式，媒体称其为最新编码 SOTA。([datalearner.com][4])	Claude 应用和 Claude API 中直接选 Opus 4.5 并使用高 effort（thinking）配置。
3	Claude Sonnet 4 – parallel_thinking + 工具	Anthropic	80.2%，更早一代 Sonnet，在并行 + 工具模式下依然接近满分。([datalearner.com][4])	通过 Claude 企业版 / 内部 Agent 平台启用 Sonnet 4 并行版本。
4	Claude Opus 4.1 – parallel_thinking + 工具	Anthropic	79.4%，老旗舰在并行模式下仍是世界顶级。([datalearner.com][4])	同样需通过 Anthropic/合作云厂商的企业接入配置。
5	Claude Sonnet 4.5 – thinking + 工具	Anthropic	77.2%，不并行但允许工具调用的模式，被官方定位为“最强日常开发模型”。([datalearner.com][4])	在 Claude Code（VS Code 插件、JetBrains 插件）里选择 Sonnet 4.5 并开启工具使用。
6	GPT-5.1-Codex-Max – high + 工具	OpenAI	76.8%，SWE-Bench Verified 上紧追 Sonnet 4.5，代表 OpenAI 最新旗舰代码智能体。([datalearner.com][4])	通过 OpenAI Codex 专用接口 / Codex CLI，或企业专属的 GPT-5.1-Codex-Max 端点。

备注：如果只看“非并行、现实可直接用的模式”，一般会拿 Opus 4.5 thinking / Sonnet 4.5 thinking + 工具 / GPT-5.1-Codex-Max 这几个配置来比较。([datalearner.com][4])

5️⃣ 语音 / 音频生成（Text-to-Speech）——Speech Arena Top 6

排名依据：Artificial Analysis Text-to-Speech Leaderboard（Speech Arena） 全局 Elo。([artificialanalysis.ai][5])

排名	模型	公司	指标（TTS Elo）	访问方式（示例）
1	Inworld TTS 1 Max	Inworld	Elo 1198，当前 TTS 榜首，多语种 + 情感表现极强。([artificialanalysis.ai][5])	通过 Inworld 平台创建语音角色；开发者使用 Inworld 的 TTS API，选择 `TTS 1 Max`。
2	MiniMax Speech-02-HD	MiniMax	Elo 1132，多次被称为“中文语音天花板”，高保真、细节丰富。([artificialanalysis.ai][5])	在 MiniMax 语音平台选择 `Speech-02-HD` 模型；国内很多聚合 API 也已集成。
3	MiniMax Speech-02-Turbo	MiniMax	Elo 1117，速度更快、成本更低，质量略逊于 HD 但仍是榜单前列。([artificialanalysis.ai][5])	同平台选择 `Speech-02-Turbo`，适合大规模批量配音和实时对话。
4	OpenAI TTS-1	OpenAI	Elo 1115，通用高质量 TTS，和 ChatGPT 生态整合度高。([artificialanalysis.ai][5])	通过 OpenAI API 选择 `tts-1` 模型；也逐步集成到 ChatGPT App 的语音模式。
5	Inworld TTS 1	Inworld	Elo 1093，基础版 Inworld TTS，延迟更低。([artificialanalysis.ai][5])	在 Inworld 平台选 `TTS 1` 模型，用于游戏 NPC、虚拟人语音。
6	OpenAudio S1	Fish Audio	Elo 1080，开源/商用两用，在开源模型中表现非常靠前。([artificialanalysis.ai][5])	在 Fish Audio / 开源社区在线体验；也可下载 OpenAudio S1 权重本地部署。

简单总结：如果你只想要一套“天花板组合”

按纯性能粗暴选一套多模态“全家桶”（不考虑价格/部署难度）可以是：

LLM： Gemini-3-Pro / Grok-4.1-Thinking / Claude Opus 4.5（看你偏 Google / xAI / Anthropic 哪家生态）。([OpenLM.ai][1])
图片： gemini-3-pro-image-preview + hunyuan-image-3.0。([beta.lmarena.ai][2])
视频： Hailuo 2.3 或 Kling 2.5 Turbo + Veo 3.1。([artificialanalysis.ai][3])
代码： Claude Sonnet 4.5 / Opus 4.5 + GPT-5.1-Codex-Max。([datalearner.com][4])
音频： Inworld TTS 1 Max + MiniMax Speech-02-HD。([artificialanalysis.ai][5])