2025全球AI疯狂12个月：我们离 AGI 还有多远？

2025年是AI技术爆发式增长的一年，各大科技公司在模型性能、开源生态和多模态应用方面展开激烈竞争。OpenAI推出GPT-5系列和Codex代理，谷歌发布Gemini 3.0及Deep Research代理，Mistral保持开源领先地位。关键突破包括：上下文窗口突破千万token，推理模型成为标配，视频生成质量显著提升（Runway Gen-4.5等），自主代理实现复杂任务自动化，数学奥林匹克

Funny_AI_LAB

702人浏览 · 2026-01-03 14:37:24

Funny_AI_LAB · 2026-01-03 14:37:24 发布

这一年，上下文窗口冲破千万大关，推理模型（Reasoning Models）成为标配。从 Mistral 3 的代理工作流到 Google 的扩展思维模式，从 Llama 4 的万亿参数到 DeepSeek R1 的成本革命，本文带你硬核复盘 2025 年 AI 每一场关键的技术突破与闭源、开源之争。
「 一份清单，带你完整回顾 AI 历史上最疯狂的一年。」

十二月

Mistral AI 推出了Mistral 3系列（Large 和 Ministral），以及Mistral OCR 3和Devstral 2编码系列，通过先进的代理工作流程和 Vibe CLI 集成，巩固了其在开源领域的领先地位。
OpenAI 发布了GPT-5.2，其中包含用于复杂工程任务的自主Codex代理；以及GPT-Image 1.5，该版本在视觉基准测试中排名第一，优于 Nano Banana Pro。
Google 推出了Gemini 3.0 Flash，树立了性价比的新标准，并部署了Deep Research，这是一款能够进行多步合成的自主代理，以及Gemini 2.5 Flash Audio。
亚马逊推出Nova 2系列，其中Nova 2 Sonic是一款原生语音对语音模型，可提供超低延迟和自然的对话流程。
Runway 发布了Gen-4.5，这是一款视频生成模型，在运动一致性和快速响应方面跃居行业排行榜榜首。
xAI 发布了Grok 语音代理 API，为开发者提供原生、实时双向音频流传输功能。
智普AI发布GLM-4.7，这是一款开放权重模型，在全球编码和推理排行榜上名列前茅。
阿里巴巴开源了高效的 6B 型号Z-Image-Turbo，并发布了专门用于高保真排版和复杂视觉合成的 Qwen-Image-2512 。
MiniMax 发布了MiniMax-M2.1，这是一个 20 万上下文的 MoE 模型，在 Web 开发和编码排行榜上名列前茅，确立了其作为领先的开发者开放模型的地位。
据报道， Poetiq公司利用 GPT-5.2 开发的专用系统解决了ARC-2基准测试，这标志着抽象推理领域取得了重大突破。

十一月

Moonshot AI 发布了Kimi K2 Thinking，这是一个开源模型，在推理基准测试中创造了新的记录。
OpenAI 发布了GPT 5.1，其特色在于专门的“思考”和“即时”模式，并扩展了上下文。
xAI 发布了Grok 4.1，结合了高情商和强大的逻辑能力，登上了 LM Arena 排行榜榜首。
谷歌推出了Gemini 3.0，这是一款旗舰级的“智能”模型，在主要基准测试中名列前茅。
OpenAI 推出了GPT 5.1 Codex Max，这是一款专为长期编码任务而构建的智能体模型。-
Google 发布了Nano Banana Pro，这是一款基于 Gemini 3 的高级图像生成和编辑模型。
Anthropic 发布了Claude Opus 4.5，以大幅降低的价格提供卓越的编码和智能体性能。
Black Forest Labs 推出了FLUX 2，这是一款高性能的开源权重图像生成模型。
DeepSeek 发布了开源的DeepSeekMath-V2，并在数学奥林匹克竞赛中获得了金牌。
微软开源了Fara-7B，这是一款针对浏览器代理和计算机控制优化的小型模型。
Poetiq在ARC-AGI-2基准测试中得分超过 60%，远超人类平均水平。

十月

谷歌发布了用于计算机控制的 Gemini 模型，在 GUI 自动化方面实现了最先进的 (SOTA) 性能。
Anthropic 发布了Claude 4.5 Haiku，这是一款快速、经济高效的模型，适用于大容量、低延迟的应用。
OpenAI 发布了ChatGPT Atlas，这是一款 AI 原生网络浏览器，内置“代理模式”，可实现任务自动化。
1X公司发布了Neo，这是一款人形机器人，被宣传为首款面向家庭用户的消费级机器人。

九月

字节跳动发布了Seedream 4.0，这是一款新一代图像模型，它统一了高质量的文本到图像生成和自然语言图像编辑功能。
据报道，Gemini 的高级变体Gemini 2.5 - Deep Think在 ICPC 世界总决赛编程竞赛中取得了金牌级别的成绩。
OpenAI 报告称，其推理和代码模型在 ICPC 测试中获得了满分 (12/12)。
Suno 发布了Suno v5，这是音乐生成方面的一次升级，具有录音室级别的保真度和更自然的人声效果。
阿里巴巴发布了其旗舰模型Qwen-3-Max，该模型拥有超过万亿个参数，专注于长上下文和代理能力。
Wan 2.5发布了，这是一个专注于多镜头一致性和角色动画的生成式视频模型。
Anthropic 发布了Claude Sonnet 4.5，这是一款针对编码、智能体构建和改进推理进行优化的模型。
OpenAI 发布了Sora 2，这是一款旗舰级的视频和音频生成模型，具有改进的物理建模和同步声音功能。
DeepSeek 发布了DeepSeek-V3.2-Exp
OpenAI 和 NVIDIA 宣布建立战略合作伙伴关系，NVIDIA 将为OpenAI 的基础设施提供至少10 吉瓦的 AI 系统。

八月

Google 推出了Gemini 2.5 Deep Think，这是一种特殊的“扩展思维”模式，用于解决复杂问题和探索各种方案。
Anthropic 发布了Claude Opus 4.1，这是一次专注于提升智能体能力和现实世界编码的升级。
Google DeepMind 发布了Genie 3.0，这是一个“世界模型”，用于从文本创建交互式 3D 环境，并能保持数分钟的一致性。
OpenAI 发布了gpt-oss-120b和gpt-oss-20b，这是一系列具有高推理能力的开源模型，针对在普通硬件上运行进行了优化。
OpenAI 推出了其下一代模型 GPT-5 ，该模型在编码方面进行了重大改进，并具有动态“思考”模式，以减少幻觉。
DeepSeek 发布了DeepSeek V3.1，这是一种混合模型，结合了快速和慢速“思考”模式，以提高智能体任务和工具使用的性能。
Google 发布了Gemini 2.5 Flash Image （展示名称为 nano-banana）的预览版，这是一款用于精确图像编辑、合并和保持字符一致性的高级模型。

七月

xAI 发布了Grok 4，在 ARC-AGI v2 上取得了 15.9% 的新 SOTA，在 Humanity’s Last Exam 上取得了 25.4% 的新 SOTA。
OpenAI 发布了ChatGPT Agent，将自主编码、网络搜索和工具使用直接嵌入到聊天界面中。
OpenAI 的一个实验性模型在没有任何外部工具的情况下，在 2025 年国际数学奥林匹克竞赛中获得金牌。
Google 推出了Gemini Deep Think，它通过并行推理解决了六个问题中的五个，并获得了 2025 年国际数学奥林匹克竞赛金奖。
阿里巴巴开源了两个变体，Qwen3-235B-A22B-Instruct-2507（指令调整版）和Qwen3-Coder，用于一般的 LLM 用途和自动代码生成。
Moonshot AI 推出了Kimi K2，这是一款中国 LLM，因其开放的研究重点和强大的性能而备受赞誉。
中国初创公司智普开源了GLM-4.5，这是一个专为智能代理应用量身定制的 130 B 参数模型。

六月

Google 发布了Gemini 2.5 Pro（最终量产版本），该版本在各项基准测试中均名列前茅。
ElevenLabs 推出Eleven v3（alpha） TTS，具有精细的情感控制功能，并支持 70 多种语言。
OpenAI 推出o3 pro，这是一款增强型推理模型，提供扩展的上下文和实时工具集成。

五月

微软推出Phi-4 推理系列，这是一款开源、小巧但高质量的推理模型。
Suno 发布Suno 4.5，修复了闪烁噪声并提高了长曲目中的音频衰减稳定性。
Anthropic 发布了Claude 4 Opus和Claude Sonnet 4：Opus 4 提供混合“深度思考”模式，增强了长期上下文和 7 小时自主运行；Sonnet 4 则专注于提高数学和编程性能。
Google 发布了Veo 3，这是一款用于同步 4K 视频并集成自然音频的视频生成模型；以及Imagen 4，这是一款具有更深层次上下文理解和艺术风格支持的高级图像模型。
OpenAI 发布了Codex，这是一个基于 ChatGPT 的自主代码代理，由 o3 模型驱动，用于编写代码、调试、测试和创建 GitHub Pull Request。
Google 在 Gemini 2.5 Pro 上发布了Jules，这是一个异步自主编码代理，可以分析代码库并创建 GitHub Pull Request。
Google 发布了Gemini 2.5 Pro（深度思考模式）和Gemini 2.5 Flash，具有改进的推理能力、原生音频支持、扩展的上下文和高频任务处理能力。
OpenAI 更新Operator以使用o3模型，在 OSWorld 基准测试中达到 SOTA，并增强了自主浏览器功能。
DeepSeek 开源了R1-0528，这是一个代码和推理模型，具有接近 o4-mini 的性能和适中的计算需求。
Google DeepMind 推出了AlphaEvolve，这是一款使用 LLM 的进化策略的自主代码优化器，在 75% 的数学问题上达到了 SOTA，并在 20% 的情况下发现了增强的算法。
Google 发布了Gemini Diffusion，这是一种实验性的文本扩散模型，它通过噪声优化实现了高速文本生成，并增强了控制力和创造性。
Google 推出了Gemma 3n，这是一款开源的生成式 AI 模型，可在设备上使用，具有高效的架构和多模态（音频、文本、视觉）功能。

四月

Meta 发布了Llama 4，共有三种尺寸，上下文窗口为 1000 万个代币，性能中等。
Google 发布了Gemini 2.5 Flash，它具有动态推理模式，可以根据需要调整推理级别或将其禁用。
亚马逊推出了Nova Act，这是一个用于构建多步骤自主代理的新框架。
OpenAI 发布了三种尺寸的GPT-4.1，上下文窗口为 100 万个 token。
OpenAI 推出了o3 full和o4 mini，它们是用于推理、数学和编程的高度先进的模型。
Midjourney 发布v7 版本，图像质量更高，风格控制更精准。
一系列视频模型更新——Veo 2.0（谷歌）、Runway Gen-4、Vidu Q1和Kling 2.0——在高质量- 视频生成方面实现了飞跃，响应时间、真实感和风格均有所改进。
阿里巴巴发布了开源的 Qwen 3 ，有多种尺寸可供选择，其尺寸虽小，但功能却非常强大。

三月

Google 推出了Gemini 2.5 Pro，这是一款实验性的“思考模型”，具有高级推理和规划能力，100 万个令牌的上下文窗口，并在几个关键基准测试中取得了最高排名。
Google 推出了 Gemma 3 系列，该系列产品具有各种参数大小的开源多模态模型、128K 上下文窗口、多语言支持以及集成的图像和视频理解功能。
OpenAI 集成了GPT-4o 图像生成功能，实现了高保真文本到图像的创建、图像内文本渲染等功能。
Google 在Gemini 2.0 Flash Experimental 中扩展了实验性图像生成和编辑功能，实现了图像生成和编辑，包括增强的文本创建功能。
阿里巴巴发布了QwQ-32B，这是一款开源的 32 位数参数推理模型，具有卓越的数学和编码性能，足以媲美规模更大的模型。
阿里巴巴发布了Qwen2.5-VL 32B，这是一款开源视觉语言模型，在视觉分析、图像中的文本理解和视觉代理任务方面具有强大的功能。
DeepSeek 更新了其开源 MoE 模型DeepSeek-V3-0324，增强了推理、编码和数学能力，使其成为顶级基础模型。
Sesame AI 发布了其对话语音模型 (CSM)，实现了极其逼真的类人实时语音交互，融合了情感细微差别、自然停顿、笑声和上下文记忆。

二月

xAI 发布了Grok 3、Grok 3 Reasoning和Grok 3 mini，这些新一代 AI 模型采用比 Grok 2 强大 10 倍的计算能力进行训练，显著提升了性能。它们包含用于高级推理的“Think”和“Big Brain”模式，以及用于自主网络搜索的 DeepSearch 功能。
Anthropic 推出了Claude 3.7和Claude 3.7 Thinking，这是一款具有增强的编码性能、支持“扩展思维”模式以及分析推理过程能力的新模型。
OpenAI 发布了Deep Research，这是一款用于自主研究的工具，可实现实时网络搜索和综合报告生成。
Google 发布了Gemini 2.0 Flash、Gemini 2.0 Flash-Lite Preview和Gemini 2.0 Pro Experimental。
阿里巴巴推出QwQ-Max——基于 Qwen2.5-Max 的推理模型，提供更强大的分析和逻辑能力。
微软推出Phi4-mini和Phi4 Multimodal，这两款轻量级机型（3.8B 和 5.6B）性能增强，包括支持多模态输入。
OpenAI 发布GPT-4.5，具有先进的模式识别功能，并显著减少了幻觉，提高了准确性和可靠性。

一月

OpenAI 为 Pro 订阅用户发布了Operator——一个能够浏览网站和执行操作的实验性 AI 代理。
Google 推出了Gemini Flash Thinking 0121，这是一款增强型推理模型，在 Arena Chatbots 排名中名列榜首。
DeepSeek开源了推理模型R1和R1-Zero，这两个模型在多个领域展现了与o1类似的性能，而成本却低得多。此外，DeepSeek还发布了体积更小的精简模型，这些模型在同等规模下实现了更高的性能。
谷歌发表了一篇关于名为Titans 的新型语言模型架构的研究论文，该架构旨在使模型能够同时保留短期记忆和长期记忆。这种架构显著提高了处理扩展上下文窗口的能力。
DeepSeek 开源了一款完全多模态的模型Janus Pro 7B，该模型支持文本和图像生成。
阿里巴巴发布了Qwen2.5-Max，这是一款大型语言模型，其性能超越了包括DeepSeek-V3、GPT-4o和Claude 3.5在内的多个领先模型。此外，Qwen2.5-1M系列也已开源，能够处理多达一百万个词元，同时还发布了三种不同尺寸的 Qwen2.5-VL视觉模型系列。
OpenAI 向所有用户（包括免费用户）开放了o3 mini推理模型，该模型包含三个推理级别。在多项基准测试中，该模型与 o1 的性能持平或接近，在编码方面显著优于 o1，并且速度更快、成本更低。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

医疗模型Hyperopt调参稳住AUC

2048 AI社区

Java 后端如何高效对接 Python 微调大模型？四种数据交互方案全解析（含实战代码）

Python 微调大模型可通过 Flask/FastAPI 暴露 REST 接口，Java 使用 Spring 的或调用。Python 示例（FastAPI）：https://www.zhihu.com/zvideo/1993874870761722160/https://www.zhihu.com/zvideo/1993874870648451336/https://www.zhihu.com/

2048 AI社区

AI的平衡艺术：2026年如何在技术狂奔中守护人性价值

2026年AI发展进入精智落地新阶段，战略核心从"盲目追新"转向"平衡艺术"。本文深入探讨技术与人性、创新与治理、自动化与体验三大平衡维度，通过真实场景分析展示如何构建可持续的AI价值体系。文章为企业和技术开发者提供兼具前瞻性与实操性的实施框架，助力在AI浪潮中把握发展节奏。关键词AI战略、技术伦理、人机协同、AI治理、用户体验、可持续创新