【2026年2月上旬】AI生产力再探再报:流水的AI王座,铁打的人类研究员
模型大乱斗:世界最强们又上新了,还有生图、视频、视觉;全能 Agent 轮岗,到底用哪个好啊,体验不过来了;不要忘记学习,优质资料汇总~
前言
2026年的春节档,AI 圈比春晚还热闹。大模型领域继续狂欢,DeepSeek 带来的冲击波还在持续,而 Agent 赛道的竞争已经进入白热化阶段。这个月的关键词很简单:从「对话」到「干活」(从去年一年不都在说这个吗 )。
Clawdbot 创始人刚吹完 Minimax M2.1,我刚从 Vibe Coding 开发浏览器插件中尝到 Kimi2.5 Agent 的甜头,还在考虑要在 Opencode 中玩哪一个模型、买什么套餐时—— GLM-5 来了…我,它,这,就你了!(然后 Minimax M2.5 又发布了,刚写完底稿,豆包 Seed2.0 也发布了)除了底座模型,还有哪些好玩好用的产品呢,来瞅瞅吧!~
一、技术尝鲜快报
(一)模型大乱斗:大家都是世界最强
1.Claude Opus 4.6 / GPT-5.3-Codex / Gemini3 Deep Think
御三家最新力作,无需多言,天花板又被抬高了。这三家打来打去,受益的是坐山观虎斗的用户。
2.GLM-5 / Minimax M2.5 / DeepSeek V4(伪)
国产大模型的狂欢还在继续。今年的春节,我们不只有D指导了。这些模型不仅卷性能,更在卷性价比。
3.LLaDA2.1:速度即正义
100B 扩散语言模型跑出 892 Tokens/秒,这是什么概念?以前我们总说大模型一个个字儿蹦的慢,现在 LLaDA2.1 用实际行动证明:天下武功,唯快不破。
4.阶跃星辰Step 3.5 Flash
极致生成速度、智能体编程、端云结合。Step系列这段时间进步飞快,Flash版本尤其适合需要快速响应的场景。
官方Discord:https://discord.gg/RcMJhNVAQc
5.面壁MiniCPM-o 4.5
相比已有多模态模型,MiniCPM-o 4.5 首次实现了「边看边听边说」以及「自主交互」的全模态能力。模型不再只是把视觉、语音作为静态输入处理,而是能够在实时、多模态信息流中持续感知环境变化,并在输出的同时保持对外界的理解。
(二)生图/视觉新势力
1.Qwen-Image-2.0
阿里通义千问家族的视觉模型又升级了。这次支持1K token长文本指令,什么复杂指令都能理解,中文渲染能力直接拉满,图片编辑功能更是细致到像素级,输出直接就是2K分辨率。简单说,它更懂甲方爸爸的需求了。
2.小红书FireRed-Image-Edit
开源图像编辑新SOTA出现了,修图党狂喜,这波必须冲。
3.DeepSeek-OCR 2
D指导你在干什么,为什么还不上多模态!
项目地址:https://github.com/deepseek-ai/DeepSeek-OCR-2
4.百度PaddleOCR-VL 1.5
全球首个支持异形框定位的文档解析模型,0.9B参数,在复杂文档场景下表现亮眼,正好笔者手头有好几个需要看图识表的项目可以拿来试刀。
模型地址:https://www.modelscope.cn/models/PaddlePaddle/PaddleOCR-VL-1.5
(三)技术新范式:RAG的自我革命
1.UltraRAG:RAG开发的「一键套餐」
RAG(检索增强生成)这个技术栈,做起来特别麻烦:向量数据库要自己搭、检索策略要自己调、API要自己封装。UltraRAG 直接把这事变成了 「配置文件+」的 UI 玩法。它基于 MCP 协议,用 YAML 配置逻辑,用现成组件拼装,从算法到应用一条龙打通。对想快速搭一个内部知识库系统的同学来说,这东西能省不少踩坑时间。
项目地址:https://github.com/OpenBMB/UltraRAG
2.PageIndex:无向量的RAG新思路
总是搞向量数据库太累?PageIndex 提出了一种 「无向量」 RAG 方案。它模仿人类看书,给文档建立树状目录结构。这样AI在找资料的时候,不是瞎猫碰死耗子地去匹配关键词,而是能顺着逻辑结构一层层往下找。特别适合处理那些逻辑性很强的长文档,比如财报或者技术手册。这不仅是技术上的讨巧,更是对「AI如何阅读」的重新思考。
项目地址:https://github.com/VectifyAI/PageIndex
二、生产力军火库
(一)通用领域的战士
1.Agent-browser
把复杂的网页结构转换成AI模型能看懂的文本格式,支持点击、填表、滚动、截图一条龙服务。它还能处理现代网页常见的动态元素,那些用 React/Vue 写的单页应用,传统爬虫见了都摇头。
项目地址:https://github.com/vercel-labs/agent-browser
2.昆仑天工Skywork桌面版
本地推理+权限隔离的路线(本地无算力怎么实现的?),据说是专为桌面场景优化。不过目前只有海外版能用上大G和克牢德,国内用户且等且看。
3.Teamily AI
元宝派+OpenClaw的缝合怪,号称全球首个AI社交通用平台,AI-native即时消息应用。
(二)垂直领域的精英
1.Dexter:AI金融分析Agent
Dexter 炒股不瞎编,直接接入实时市场数据源,能翻阅财报、损益表这些硬数据,并且有一套自我检查的机制。无论如何,投资有风险,谨慎参考使用。
项目地址:https://github.com/virattt/dexter
2.A股智能分析系统
每天自动从多个专业数据源获取行情信息、搜索最新个股新闻,整合数据给大模型做逻辑推理。统计涨跌家数、资金流向、板块热度,生成报告直接发到企业微信、飞书或邮件里。不仅能分析,还能自动交付。
项目地址:https://github.com/ZhuLinsen/daily_stock_analysis
3.AUTOFIGURE:西湖大学「发表级」科研插图神器
西湖大学出品的「发表级」科研论文插图制作 AI Agent,使用多个 Agent 协作完成:Extract Concepts(提取概念)→ Plan Layout(规划布局)→ Validate Structure(验证结构)→ Render Figure(渲染插图)。一条龙服务,生成的图直接能投顶会。
体验地址:https://github.com/defalt-praxis/autofigure-demo
4.PaperBanana:北大+Google Cloud的论文插图智能体
北大联合Google Cloud AI Research推出的科研论文插图制作智能体。输入论文内容,自动生成符合学术规范的示意图、流程图、数据可视化,科研党狂喜系列 +1。
体验地址:https://github.com/dwzhu-pku/PaperBanana
(三)开发工具箱
1.Qoder 升级
最不得不提的是,已全面接入 GLM、Minimax、Kimi 最新款模型,财大气粗的阿里动作就是快。情人节,还是千问心疼你,点杯免费奶茶吧。
- 专为 Qoder 打造:全新 Qwen-Coder-Qoder 模型
- 支持 .agents/skills 目录
- 工具生态持续完善
2.Zvec:开源高性能向量数据库
开箱即用、高性能的嵌入式向量数据库。Zvec 在小规模向量检索场景下表现优异,关键是部署简单、性能彪悍。
开源地址: https://github.com/alibaba/zvec
3.Ultralytics YOLO26:计算机视觉全能选手
YOLO26 支持的计算机视觉任务包括:图像分类、目标检测、实例分割、姿态估计、旋转框(OBB)检测、目标跟踪。一个库全搞定,这就是计算机视觉领域的「瑞士军刀」。
官方文档:https://docs.ultralytics.com/models/yolo26/
4.魔搭OpenAPI:开源社区的基础设施服务
阿里家的模型市场最近开放了完整的API体系,覆盖用户信息、模型管理、数据集管理、MCP服务管理板块。对需要程序化调用模型的开发者来说,这是个重要的基础设施。
使用文档:https://modelscope.cn/docs/openapi
5.WebCheck:网站的「体检报告」
把网址丢进去,它能帮你查个底朝天:服务器位置、DNS记录、SSL证书、技术栈分析、甚至还有碳排放量评估。安全工程师可以用它做快速侦察,开发者可以用来做竞品分析,普通用户也能用它看看自己常逛的网站有没有「裸奔」。
项目地址:https://github.com/Lissy93/web-check
(四)企业级Agent平台
1.火山引擎AgentKit
作为企业级 AI Agent 生命周期平台,AgentKit 负责提供运行时、记忆库/知识库、内置工具、网关、身份等基础设施能力,帮助企业把各类智能体安全地开发、部署和运行起来。对想搭建企业内部 Agent 系统的团队来说,这是个值得关注的选项。
2.AionUi
一个把多模型、多 Agent、本地+云端、文件+任务拉进统一图形界面的本地 AI Cowork 平台。适合追求「一个界面搞定所有AI需求」的用户。
项目地址:https://github.com/iOfficeAI/AionUi
(五)视频创作组
1.快手可灵3.0
强大的分镜、语言生成和视频编辑能力,AI当导演的梦想正在变成现实。3.0版本在一致性和运动流畅度上又有提升。
2.Seedance 2.0
据说是AI视频生成模型的神中神(还没来得及深度体验,人脸参考就被ban掉了),更胜可灵一筹。
3.Remotion
用 React 代码做视频,不用在剪辑软件里拖来拖去,而是把视频当成网页组件来写,最后渲染成 MP4。还有 skills 版本,也可以 AI 剪辑啦。
项目地址:https://github.com/remotion-dev/remotion
三、前沿知识学习
(一)资源合集:给你的AI技能树加点料
1.skill-from-masters
能帮你创建 Skill,在创建之前会先搜索,寻找目标领域的顶级专家的思维模型和最佳实践,确保生成的 Skill 具备专业深度。
项目地址:https://github.com/GBSOSS/skill-from-masters
2.Awesome OpenClaw Skills
各种 Skills 应有尽有,玩转 OpenClaw 必备。
项目地址:https://github.com/VoltAgent/awesome-openclaw-skills
3.OpenAI Skills
Open AI 推出的专为 Codex 设计的 Skill 库,这大概是他们最 Open 的东西了。
项目地址:https://github.com/openai/skills
4.Awesome Web Agents
Steel.dev 整理的与 AI 浏览器相关的工具、框架、论文都整理到了这个列表里。想了解 Web Agent 领域的最新进展?看这个就够了。
项目地址:https://github.com/steel-dev/awesome-web-agents
5.learn-claude-code:手把手教你造Agent
想自己动手做一个 Claude 式 Agent?这个项目从一个最简单的 Bash 脚本开始,一步步带你把工具调用、任务规划这些核心功能加上去。纯新手友好,写完你就能理解 Agent 内部是怎么运转的了。
项目地址:https://github.com/shareAI-lab/learn-claude-code
6.nano-bot:极简Agent入门教科书
香港大学数据科学实验室开源的超轻量级个人 AI 助手,原版 Clawdbot 有43万行代码,nano-bot 缩减了99%,只用了 4000 行代码就实现了核心功能。这东西特别适合想学习 Agent 构建的同学。代码量少不代表功能弱,反而更容易看清 Agent 的核心逻辑:工具调用、任务规划、记忆管理……看一遍源码,胜读十篇论文。
项目地址:https://github.com/HKUDS/nano-bot
7.智谱清言-学习搭子模块
学-练-测的学习闭环,例如把 1700 个 OpenClaw 技巧,用多邻国的方式教会你,寓教于乐。
(二)好文趣闻收录
Clawdbot背后的技术原理,吴恩达出官方课程了
https://mp.weixin.qq.com/s/2CAPjfWpTKJd_l3RuFtYaA
AI看不懂的色盲测试背后,藏着一场像素与诗意的战争
https://mp.weixin.qq.com/s/Ia86VWKtqLSABaVzu3Bsfw?click_id=8
国产版Ollama来了,Clawdbot终于不只属于Mac和英伟达
https://mp.weixin.qq.com/s/RZhyl0rVTkZCV-cJ2ndAAw
AI“租人”平台一夜爆火:时薪3500、2.4万用户抢着“卖身”,专家:警惕劣币驱逐良币
https://mp.weixin.qq.com/s/-hwV7qFr5gZKKNDNDzzH3w
有的AI在算命,有的AI在救命
https://mp.weixin.qq.com/s/4N01uF2hEmWsTLS3Fb4VAA
Claude拒绝撒谎还顶撞了你,我在80页「AI 宪法」看到了最有原则的AI牛马
https://mp.weixin.qq.com/s/jgcWHXB2PqoD5Wbm9Ix3yQ
Python内存优化实战:5个模式让内存占用降低70%
https://mp.weixin.qq.com/s/taPvHu9lCLKFzrisy6hqYw
7个Python库,快速搞定公司内部工具
https://mp.weixin.qq.com/s/abIQNMqFZE2pWu7-8-Epzw
总结
2026年2月上旬的AI生产力战场,有几个明显的趋势:
-
Agent从概念走向可用:无论是编程 Agent 还是浏览器 Agent,核心都是「AI 能替你干活」,而不仅仅是「陪你聊天」。各种垂直 Agent 的出现,也说明全能型选手在特定领域的表现不足。
-
OCR和文档处理重构:DeepSeek-OCR 和百度 PaddleOCR-VL 系列开源后,文档智能的门槛正在快速降低。PageIndex 这种「无向量」RAG 的出现,更是给文档处理带来了新思路。
-
国产模型不甘示弱:打破闭源垄断封锁,差距越来越小,这场仗,我们要打到胜利为止。
-
资源生态爆发:skill-from-masters、Awesome OpenClaw Skills、OpenAI Skills 这些资源库的出现,说明 AI 工具链正在从「单点突破」走向「生态构建」。
等等党永远不亏,下一代AI永远更强。这里是写月报完全跟不上的 Seon塞翁,那么,下旬我们继续「再探再报」。
往期回顾:
更多推荐
所有评论(0)