2025全球AI疯狂12个月:我们离 AGI 还有多远?
2025年是AI技术爆发式增长的一年,各大科技公司在模型性能、开源生态和多模态应用方面展开激烈竞争。OpenAI推出GPT-5系列和Codex代理,谷歌发布Gemini 3.0及Deep Research代理,Mistral保持开源领先地位。关键突破包括:上下文窗口突破千万token,推理模型成为标配,视频生成质量显著提升(Runway Gen-4.5等),自主代理实现复杂任务自动化,数学奥林匹克
·
这一年,上下文窗口冲破千万大关,推理模型(Reasoning Models)成为标配。从 Mistral 3 的代理工作流到 Google 的扩展思维模式,从 Llama 4 的万亿参数到 DeepSeek R1 的成本革命,本文带你硬核复盘 2025 年 AI 每一场关键的技术突破与闭源、开源之争。
「 一份清单,带你完整回顾 AI 历史上最疯狂的一年。」
十二月
- Mistral AI 推出了Mistral 3系列(Large 和 Ministral),以及Mistral OCR 3和Devstral 2编码系列,通过先进的代理工作流程和 Vibe CLI 集成,巩固了其在开源领域的领先地位。
- OpenAI 发布了GPT-5.2,其中包含用于复杂工程任务的自主Codex代理;以及GPT-Image 1.5,该版本在视觉基准测试中排名第一,优于 Nano Banana Pro。
- Google 推出了Gemini 3.0 Flash,树立了性价比的新标准,并部署了Deep Research,这是一款能够进行多步合成的自主代理,以及Gemini 2.5 Flash Audio。
- 亚马逊推出Nova 2系列,其中Nova 2 Sonic是一款原生语音对语音模型,可提供超低延迟和自然的对话流程。
- Runway 发布了Gen-4.5,这是一款视频生成模型,在运动一致性和快速响应方面跃居行业排行榜榜首。
- xAI 发布了Grok 语音代理 API,为开发者提供原生、实时双向音频流传输功能。
- 智普AI发布GLM-4.7,这是一款开放权重模型,在全球编码和推理排行榜上名列前茅。
- 阿里巴巴开源了高效的 6B 型号Z-Image-Turbo,并发布了专门用于高保真排版和复杂视觉合成的 Qwen-Image-2512 。
- MiniMax 发布了MiniMax-M2.1,这是一个 20 万上下文的 MoE 模型,在 Web 开发和编码排行榜上名列前茅,确立了其作为领先的开发者开放模型的地位。
- 据报道, Poetiq公司利用 GPT-5.2 开发 的专用系统解决了ARC-2基准测试,这标志着抽象推理领域取得了重大突破。
十一月
- Moonshot AI 发布了Kimi K2 Thinking,这是一个开源模型,在推理基准测试中创造了新的记录。
- OpenAI 发布了GPT 5.1,其特色在于专门的“思考”和“即时”模式,并扩展了上下文。
- xAI 发布了Grok 4.1,结合了高情商和强大的逻辑能力,登上了 LM Arena 排行榜榜首。
- 谷歌推出了Gemini 3.0,这是一款旗舰级的“智能”模型,在主要基准测试中名列前茅。
- OpenAI 推出了GPT 5.1 Codex Max,这是一款专为长期编码任务而构建的智能体模型。-
- Google 发布了Nano Banana Pro,这是一款基于 Gemini 3 的高级图像生成和编辑模型。
- Anthropic 发布了Claude Opus 4.5,以大幅降低的价格提供卓越的编码和智能体性能。
- Black Forest Labs 推出了FLUX 2,这是一款高性能的开源权重图像生成模型。
- DeepSeek 发布了开源的DeepSeekMath-V2,并在数学奥林匹克竞赛中获得了金牌。
- 微软开源了Fara-7B,这是一款针对浏览器代理和计算机控制优化的小型模型。
- Poetiq在ARC-AGI-2基准测试中得分超过 60%,远超人类平均水平。
十月
- 谷歌发布了用于计算机控制的 Gemini 模型,在 GUI 自动化方面实现了最先进的 (SOTA) 性能。
- Anthropic 发布了Claude 4.5 Haiku,这是一款快速、经济高效的模型,适用于大容量、低延迟的应用。
- OpenAI 发布了ChatGPT Atlas,这是一款 AI 原生网络浏览器,内置“代理模式”,可实现任务自动化。
- 1X公司发布了Neo,这是一款人形机器人,被宣传为首款面向家庭用户的消费级机器人。
九月
- 字节跳动发布了Seedream 4.0,这是一款新一代图像模型,它统一了高质量的文本到图像生成和自然语言图像编辑功能。
- 据报道,Gemini 的高级变体Gemini 2.5 - Deep Think在 ICPC 世界总决赛编程竞赛中取得了金牌级别的成绩。
- OpenAI 报告称,其推理和代码模型在 ICPC 测试中获得了满分 (12/12)。
- Suno 发布了Suno v5,这是音乐生成方面的一次升级,具有录音室级别的保真度和更自然的人声效果。
- 阿里巴巴发布了其旗舰模型Qwen-3-Max,该模型拥有超过万亿个参数,专注于长上下文和代理能力。
- Wan 2.5发布了,这是一个专注于多镜头一致性和角色动画的生成式视频模型。
- Anthropic 发布了Claude Sonnet 4.5,这是一款针对编码、智能体构建和改进推理进行优化的模型。
- OpenAI 发布了Sora 2,这是一款旗舰级的视频和音频生成模型,具有改进的物理建模和同步声音功能。
- DeepSeek 发布了DeepSeek-V3.2-Exp
- OpenAI 和 NVIDIA 宣布建立战略合作伙伴关系,NVIDIA 将为OpenAI 的基础设施 提供至少10 吉瓦的 AI 系统。
八月
- Google 推出了Gemini 2.5 Deep Think,这是一种特殊的“扩展思维”模式,用于解决复杂问题和探索各种方案。
- Anthropic 发布了Claude Opus 4.1,这是一次专注于提升智能体能力和现实世界编码的升级。
- Google DeepMind 发布了Genie 3.0,这是一个“世界模型”,用于从文本创建交互式 3D 环境,并能保持数分钟的一致性。
- OpenAI 发布了gpt-oss-120b和gpt-oss-20b,这是一系列具有高推理能力的开源模型,针对在普通硬件上运行进行了优化。
- OpenAI 推出了其下一代模型 GPT-5 ,该模型在编码方面进行了重大改进,并具有动态“思考”模式,以减少幻觉。
- DeepSeek 发布了DeepSeek V3.1,这是一种混合模型,结合了快速和慢速“思考”模式,以提高智能体任务和工具使用的性能。
- Google 发布了Gemini 2.5 Flash Image (展示名称为 nano-banana) 的预览版,这是一款用于精确图像编辑、合并和保持字符一致性的高级模型。
七月
- xAI 发布了Grok 4,在 ARC-AGI v2 上取得了 15.9% 的新 SOTA,在 Humanity’s Last Exam 上取得了 25.4% 的新 SOTA。
- OpenAI 发布了ChatGPT Agent,将自主编码、网络搜索和工具使用直接嵌入到聊天界面中。
- OpenAI 的一个实验性模型在没有任何外部工具的情况下,在 2025 年国际数学奥林匹克竞赛中 获得金牌。
- Google 推出了Gemini Deep Think,它通过并行推理解决了六个问题中的五个,并获得了 2025 年国际数学奥林匹克竞赛金奖。
- 阿里巴巴开源了两个变体,Qwen3-235B-A22B-Instruct-2507(指令调整版)和Qwen3-Coder,用于一般的 LLM 用途和自动代码生成。
- Moonshot AI 推出了Kimi K2,这是一款中国 LLM,因其开放的研究重点和强大的性能而备受赞誉。
- 中国初创公司智普开源了GLM-4.5,这是一个专为智能代理应用量身定制的 130 B 参数模型。
六月
- Google 发布了Gemini 2.5 Pro(最终量产版本),该版本在各项基准测试中均名列前茅。
- ElevenLabs 推出Eleven v3(alpha) TTS,具有精细的情感控制功能,并支持 70 多种语言。
- OpenAI 推出o3 pro,这是一款增强型推理模型,提供扩展的上下文和实时工具集成。
五月
- 微软推出Phi-4 推理系列,这是一款开源、小巧但高质量的推理模型。
- Suno 发布Suno 4.5,修复了闪烁噪声并提高了长曲目中的音频衰减稳定性。
- Anthropic 发布了Claude 4 Opus和Claude Sonnet 4:Opus 4 提供混合“深度思考”模式,增强了长期上下文和 7 小时自主运行;Sonnet 4 则专注于提高数学和编程性能。
- Google 发布了Veo 3,这是一款用于同步 4K 视频并集成自然音频的视频生成模型;以及Imagen 4,这是一款具有更深层次上下文理解和艺术风格支持的高级图像模型。
- OpenAI 发布了Codex,这是一个基于 ChatGPT 的自主代码代理,由 o3 模型驱动,用于编写代码、调试、测试和创建 GitHub Pull Request。
- Google 在 Gemini 2.5 Pro 上发布了Jules,这是一个异步自主编码代理,可以分析代码库并创建 GitHub Pull Request。
- Google 发布了Gemini 2.5 Pro(深度思考模式)和Gemini 2.5 Flash,具有改进的推理能力、原生音频支持、扩展的上下文和高频任务处理能力。
- OpenAI 更新Operator以使用o3模型,在 OSWorld 基准测试中达到 SOTA,并增强了自主浏览器功能。
- DeepSeek 开源了R1-0528,这是一个代码和推理模型,具有接近 o4-mini 的性能和适中的计算需求。
- Google DeepMind 推出了AlphaEvolve,这是一款使用 LLM 的进化策略的自主代码优化器,在 75% 的数学问题上达到了 SOTA,并在 20% 的情况下发现了增强的算法。
- Google 发布了Gemini Diffusion,这是一种实验性的文本扩散模型,它通过噪声优化实现了高速文本生成,并增强了控制力和创造性。
- Google 推出了Gemma 3n,这是一款开源的生成式 AI 模型,可在设备上使用,具有高效的架构和多模态(音频、文本、视觉)功能。
四月
- Meta 发布了Llama 4,共有三种尺寸,上下文窗口为 1000 万个代币,性能中等。
- Google 发布了Gemini 2.5 Flash,它具有动态推理模式,可以根据需要调整推理级别或将其禁用。
- 亚马逊推出了Nova Act,这是一个用于构建多步骤自主代理的新框架。
- OpenAI 发布了三种尺寸的GPT-4.1,上下文窗口为 100 万个 token。
- OpenAI 推出了o3 full和o4 mini,它们是用于推理、数学和编程的高度先进的模型。
- Midjourney 发布v7 版本,图像质量更高,风格控制更精准。
- 一系列视频模型更新——Veo 2.0(谷歌)、Runway Gen-4、Vidu Q1和Kling 2.0——在高质量- 视频生成方面实现了飞跃,响应时间、真实感和风格均有所改进。
- 阿里巴巴发布了开源的 Qwen 3 ,有多种尺寸可供选择,其尺寸虽小,但功能却非常强大。
三月
- Google 推出了Gemini 2.5 Pro,这是一款实验性的“思考模型”,具有高级推理和规划能力,100 万个令牌的上下文窗口,并在几个关键基准测试中取得了最高排名。
- Google 推出了 Gemma 3 系列,该系列产品具有各种参数大小的开源多模态模型、128K 上下文窗口、多语言支持以及集成的图像和视频理解功能。
- OpenAI 集成了GPT-4o 图像生成功能,实现了高保真文本到图像的创建、图像内文本渲染等功能。
- Google 在Gemini 2.0 Flash Experimental 中扩展了实验性图像生成和编辑功能,实现了图像生成和编辑,包括增强的文本创建功能。
- 阿里巴巴发布了QwQ-32B,这是一款开源的 32 位数参数推理模型,具有卓越的数学和编码性能,足以媲美规模更大的模型。
- 阿里巴巴发布了Qwen2.5-VL 32B,这是一款开源视觉语言模型,在视觉分析、图像中的文本理解和视觉代理任务方面具有强大的功能。
- DeepSeek 更新了其开源 MoE 模型DeepSeek-V3-0324,增强了推理、编码和数学能力,使其成为顶级基础模型。
- Sesame AI 发布了其对话语音模型 (CSM),实现了极其逼真的类人实时语音交互,融合了情感细微差别、自然停顿、笑声和上下文记忆。
二月
- xAI 发布了Grok 3、Grok 3 Reasoning和Grok 3 mini,这些新一代 AI 模型采用比 Grok 2 强大 10 倍的计算能力进行训练,显著提升了性能。它们包含用于高级推理的“Think”和“Big Brain”模式,以及用于自主网络搜索的 DeepSearch 功能。
- Anthropic 推出了Claude 3.7和Claude 3.7 Thinking,这是一款具有增强的编码性能、支持“扩展思维”模式以及分析推理过程能力的新模型。
- OpenAI 发布了Deep Research,这是一款用于自主研究的工具,可实现实时网络搜索和综合报告生成。
- Google 发布了Gemini 2.0 Flash、Gemini 2.0 Flash-Lite Preview和Gemini 2.0 Pro Experimental。
- 阿里巴巴推出QwQ-Max——基于 Qwen2.5-Max 的推理模型,提供更强大的分析和逻辑能力。
- 微软推出Phi4-mini和Phi4 Multimodal,这两款轻量级机型(3.8B 和 5.6B)性能增强,包括支持多模态输入。
- OpenAI 发布GPT-4.5,具有先进的模式识别功能,并显著减少了幻觉,提高了准确性和可靠性。
一月
- OpenAI 为 Pro 订阅用户发布了Operator——一个能够浏览网站和执行操作的实验性 AI 代理。
- Google 推出了Gemini Flash Thinking 0121,这是一款增强型推理模型,在 Arena Chatbots 排名中名列榜首。
- DeepSeek开源了推理模型R1和R1-Zero,这两个模型在多个领域展现了与o1类似的性能,而成本却低得多。此外,DeepSeek还发布了体积更小的精简模型,这些模型在同等规模下实现了更高的性能。
- 谷歌发表了一篇关于名为Titans 的 新型语言模型架构的研究论文,该架构旨在使模型能够同时保留短期记忆和长期记忆。这种架构显著提高了处理扩展上下文窗口的能力。
- DeepSeek 开源了一款完全多模态的模型Janus Pro 7B,该模型支持文本和图像生成。
- 阿里巴巴发布了Qwen2.5-Max,这是一款大型语言模型,其性能超越了包括DeepSeek-V3、GPT-4o和Claude 3.5在内的多个领先模型。此外,Qwen2.5-1M系列也已开源,能够处理多达一百万个词元,同时还发布了三种不同尺寸的 Qwen2.5-VL视觉模型系列。
- OpenAI 向所有用户(包括免费用户)开放了o3 mini推理模型,该模型包含三个推理级别。在多项基准测试中,该模型与 o1 的性能持平或接近,在编码方面显著优于 o1,并且速度更快、成本更低。
更多推荐

所有评论(0)