Q1: 推理型 LLM 成为主流认知 , 推理能力不再是“高级模式”,而是默认能力。

  • M1: DeepSeek开源了R1模型(推理增强版),以极低的训练成本实现了比肩顶尖闭源模型的数学与代码能力。它不仅迫使Meta和Google重新评估开源策略,也让“思维链(Chain-of-Thought)”技术成为行业标配。

DeepSeek R1 —— 开源推理模型的“核爆点”

  • M2: xAI(马斯克旗下)发布了Grok 3,号称“地球上最强AI”。其特点是极大的上下文窗口和在这个时间点无与伦比的“直言不讳”风格,迅速在社交媒体和极客圈层爆火。

Grok 3 —— 上下文 + 风格 + 社交传播

  • M3: 在Gemini 2.0发布仅一个月后就推出了Gemini 2.5 Pro。新模型大幅提升了多模态理解速度,特别是在长视频分析上展现了统治力。

Gemini 2.5 Pro —— 多模态速度 & 视频理解

Q2:Agent 从 Demo 进入“可用系统”

  • M4: Manus的爆火, 展示了惊人的跨域能力,你给它一个模糊指令(比如“帮我分析这只股票并生成图表,然后做个PPT”),它能自主拆解任务、写Python代码分析数据、调用绘图工具、最后生成文件。

Manus——Agent 概念真正出圈

  • M5: Google发布的Veo 3在生成时长和物理规律一致性上取得了突破,好莱坞工作室开始小规模试用AI生成B-roll(空镜素材)。

Veo 3——视频突破

  • M6: xAI继续激进策略,开始向早期用户推送Grok的新版本(部分渠道称为Grok 3.5或早期Grok 4),重点强化了实时搜索与X(推特)数据的深度整合,使其成为最强的“实时新闻分析师”。

Grok 3.5——实时搜索与X(推特)数据的深度整合

Q3:Vibe Coding + Agent 平台爆发

  • M7: Grok 4正式发布。这一次,它集成了原生工具使用能力(Native Tool Use),不再仅仅是聊天,而是能像程序员一样直接运行代码环境、调用API,解决了复杂的数学和科研问题。

Grok 4——Native Tool Use → Chat → Execution

cursor的成熟,快速切换 Claude / GPT / Gemini / DeepSeek用 最适合的模型干最合适的活,“会不会写 代码”→“会不会指挥模型写代码”

Cursor——Agentic IDE 的事实标准 , Vibe Coding 被主流工程师接受

阿里发布Qoder, 任务级而非代码级 更接近 Manus 的工程版本。

Qoder——面向 Agent Native 的新物种

  • M8: 让粉丝等待已久的Claude 4.1 Opus终于登场(8月5日)。Anthropic继续坚持“安全与可解释性”,4.1 Opus在逻辑推理、创意写作和情感细腻度上重新夺回了“最像人”的AI称号,成为作家和心理咨询类应用的首选。

Claude 4.1 Opus——人味、稳定性、创作者市场

  • M9: DeepSeek-R2发布了年度中期更新,进一步优化了R系列推理模型的效率,再次拉低了全球大模型推理的API价格基准线。

DeepSeek R2 更新——继续压低推理成本

Q4:Agent 平台化 & LLM 成为基础设施

  • M10: OpenAI:Agent Runtime + Persistent Memory,Google:Gemini Agent Stack / Antigravity,阿里:Qoder / 企业 Agent 平台化

Agent 不再是应用,而是平台能力Agent Runtime 成为新的操作系统层

  • M11: 诸神之战 (Claude 4.5 vs Gemini 3.0)。Gemini 3.0 Pro,Google的年度旗舰,采用了稀疏混合专家(SMoE)架构的全新升级版,并在多模态交互上实现了“零延迟”。Claude 4.5 Opus ,紧随其后,Anthropic发布了4.5 Opus。业界评价它是当时最稳健、幻觉率最低的模型,特别是在法律和医疗诊断辅助上表现出色。

Gemini 3.0 Pro——稀疏混合专家(SMoE)架构的全新升级版

Claude 4.5 Opus——业界评价它是当时最稳健、幻觉率最低的模型

模型竞争从“能力展示”走向“能力分层”

  • M12: Gemini 3 Deep Think为了回应年初DeepSeek和OpenAI o系列掀起的“推理潮”,Google发布了专门的“深度思考”版本。该模型在处理国际奥数(IMO)级别难题和复杂代码重构任务时,展示了惊人的自主规划能力,为2025年画上了一个“高智商”的句号。

Gemini 3 Deep Think——回应年初的高智商推理

2025 年 LLM 与 Agent 产品战略时间轴总结

时间

产品 / 模型

核心能力 / 战略意义

产品战略视角

官网链接

Q1

DeepSeek R1

开源推理模型,低成本实现顶尖数学/代码能力

推理成为大模型默认能力,Chain-of-Thought 技术标配

https://deepseek.ai

Grok 3

超大上下文窗口 + 直言风格,社交传播爆火

展示 LLM 的社会传播力与风格差异化,用户认知强化

https://x.ai

Gemini 2.5 Pro

多模态理解速度提升,长视频分析统治力

多模态能力成为差异化指标,推动高复杂任务应用

https://ai.google

Q2

Manus

跨域任务拆解,自主执行分析、绘图、生成文件

Agent 从 Demo → 可用系统,首次形成“工作流型 Agent”

https://manus.ai

Veo 3

视频生成时长与物理规律一致性突破

AI 开始进入专业创作流程,验证生成型工具的行业价值

https://ai.google

Grok 3.5

实时搜索 + X(推特)深度整合

实时信息能力成为 Agent 的核心竞争力

https://x.ai

Q3

Grok 4

原生工具使用(Native Tool Use)、代码执行、API 调用

Agent 平台能力初步落地,复杂任务可交付

https://x.ai

Cursor

Agentic IDE,快速切换模型、指挥模型执行

Vibe Coding 成为工程师主流工作方式,生产力提升倍增

https://cursor.ai

Qoder(阿里)

任务级 Agent,Agent Native,更接近 Manus 的工程版本

探索 Agent OS 型 IDE,定义下一代开发范式

https://caug.cn/

Claude 4.1 Opus

逻辑推理、创意写作、情感细腻

稳定性 + 人味化能力,锁定创作者市场

https://www.anthropic.com

DeepSeek R2

推理效率优化,API 成本下降

推理成本基线拉低,支持 Agent 平台化

https://deepseek.ai

Q4

OpenAI Agent Runtime

Persistent Memory + 工程 Agent 调度

Agent 不再是 App,而是 Runtime 平台,LLM 成基础设施

https://openai.com

Google Gemini Agent Stack / Antigravity

多模态、工具调用、持久上下文

企业级 Agent 平台化

https://ai.google

Qoder 企业版

企业任务级 Agent 平台

企业 Agent 平台落地,支持大规模协作

https://caug.cn/

Claude 4.5 Opus

幻觉率低、稳健性高

法律、医疗等高可靠场景首选

https://www.anthropic.com

Gemini 3.0 Pro

稀疏混合专家架构(SMoE)、零延迟多模态交互

高性能旗舰,展示未来 Agent 的多模态标准

https://ai.google

Gemini 3 Deep Think

IMO 级推理与复杂代码重构

高智商 Agent 展示,形成“思维顶端标杆”

https://ai.google

2026年的ai趋势判断

  • 工具Cursor/Qoder 进一步成熟 , Vibe Coding 成开发者主流生产力方式
  • LLM能力持续增强, 推理 + 知识增强 + 长期上下文 , LLM 成为“智能底座”,幻觉率低、可解释性高
  • *垂直类 Agent 的爆发。

        当LLM 不再是差异化产品,而是“智能底座”。开发者可以专注于垂直任务逻辑、业务知识、行业规则的嵌入,而不是通用能力。各个行业都会构建知识库,业务流程,行业规则, 垂直 Agent 可以利用这些数据进行高可靠决策,而不仅仅是生成文本 。同时随着vibe conding的不断完善,从“写代码”→ “指挥 Agent” → “定义行业 Agent 工作流”,大幅降低开发成本。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐