一、2025年年度总结

很难相信一年就这么过去了,很快又过得很充实,从年初deepseek火了一波后大家都进行复现,很多人利用GRPO训练think推理模型复现ds,再到后来年中各种RL算法遍地开花,比如DAPO、GSPO等;同时多模态大模型也发展很快,去年效果一般的视频生成模型在今年效果已经非常惊艳了,同时也有像阿里全模态qwen-omni这样的“全能”(还是偏多模态理解)的模型出现,给我们看到未来的无限可能。

因为博客之星活动强行逼自己总结一下今年的创作和学习历程,大体可以分为以下几个模块:agent、RL强化学习、多模态大模型、大模型加速推理、推理大模型。有的是工作中需要跟进的方向,有的是自己喜欢的方向,下面对今年产出的博客进行归档分类,简单总结:

一、agent:deepresearch,深度研究智能体,各大LLM,agentic RL,agent范式及其实践

二、RL:dpo,dpo变体,grpo,dapo,gspo,RL综述

三、多模态:qwen omni,端到端语音大模型,ovis2.5图生文模型,视频生成

四、推理加速:投机解码,推理优化综述,sglang框架应用,量化

五、推理大模型/模型结构创新:deepseek,kimi等

二、2025年LLM范式变革

karpathy大佬的总结,个人觉得很有道理,内容浓缩如下:
【2025年大模型总结】,https://karpathy.bearblog.dev/year-in-review-2025/,Andrej Karpathy总结2025年LLM领域6大关键范式变革:

  1. 可验证奖励强化学习(RLVR):成为LLM训练新核心阶段,通过自动可验证奖励训练,让模型自发形成推理策略,靠更长训练时长提升能力,替代部分预训练算力。
  2. “幽灵vs动物”式锯齿状智能:LLM智能形态异于人类/动物,在特定领域能力突出但整体表现不均衡,传统基准测试可信度下降。
  3. Cursor类垂直应用层:LLM应用形成新层级,通过上下文工程、多LLM调用编排、专属GUI等,聚焦特定垂直领域,衔接基础模型与专业场景。
  4. 本地运行的Claude Code:首个成熟LLM代理,在本地计算机运行,结合工具使用与推理,开创“本地AI”交互新范式。
  5. 氛围编程(Vibe Coding):AI突破能力阈值,普通人可通过自然语言编程,专业开发者也能高效创作,重塑软件生产模式。
  6. Nano Banana类LLM图形界面:预示LLM交互从文本向可视化过渡,融合文本生成、图像生成与世界知识,打造更贴合人类习惯的GUI。

在这里插入图片描述

三、2025年博客历程

再接再厉!

在这里插入图片描述

期待大家对个人学习笔记提出建议和分享自己的算法见解,非常感激,2026年会更好!

Reference

[1] 聊聊 2025 LLM 的核心技术进展

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐