【2026年1月】AI生产力再探再报：三幻神主宰你的工作生活 OpenCode / Clawdbot / Kimi2.5

2026开年 AI 大小事，OpenCode 终端界面、Clawdbot 本地权限智能体、Kimi2.5 通用Agent、MiniMax 桌面客户端等 30+ AI 工具。

Seon塞翁

718人浏览 · 2026-02-02 00:07:54

Seon塞翁 · 2026-02-02 00:07:54 发布

前言
2026年1月的个人学习笔记。

一、工具尝鲜快报：好玩的，初探感觉不错，但还未十分深入的工具。
二、生产力军火库：好用的，开箱即用的神器，或一些隐藏的技巧。
三、前沿动态回顾：好看的，个人感兴趣的新工具、动态信息，或一些优质资料。

一、工具尝鲜快报

1.Jina Reader

在任何网址前面加上 r.jina.ai/，就能得到这个网页的Markdown版本（部分页面结构复杂和有反爬机制的网站可能失败）。更懒的做法是右键点击书签栏，选择「添加书签」，网址填入以下代码：

javascript:window.open('https://r.jina.ai/'+encodeURIComponent(location.href));

之后在任何网页上点击这个书签，就会自动打开一个新标签页，显示当前网页的Markdown版本，当需要让 AI 食用网页时使用~

2.Firecrawl 爬虫

自动化爬虫界的瑞士军刀，相比传统爬虫，它能更好地处理 JavaScript 渲染的动态页面，智能提取内容，也有对应的MCP服务器。

官方文档：https://docs.firecrawl.dev/zh/developer-guides/examples

3.CrossDesk 远程桌面

只需要打开浏览器，输入被控端的 ID 和密码，就能直接在网页里控制远程电脑。用 iOS 的 Safari 去控制 Windows 11了解一下？

开源地址：https://github.com/kunkundi/crossdesk

4.去AI味儿的写作工具：Humanizer-zh

AI生成的内容总有一股模板式机械味？用 Humanizer-zh 处理一下，瞬间变得像真人写的（注：本文未使用。

开源地址：https://github.com/op7418/Humanizer-zh

5.语音转文字去废话：Voquill

你在说话时难免会有结巴、重复或者呃、嗯之类的语气词，Voquill 能在转录过程中自动把这些废话去掉，留给你一段干净通顺的文本，支持全局热键，在任何桌面软件里都能呼出。

开源地址：https://github.com/josiahsrc/voquill

二、生产力军火库

（一）三幻神单独坐一桌

1.Opencode

Claude Code 的有力替代品，设计了一个基于终端的图形界面，有独立的缓冲区和窗口管理，毫无疑问的本月最火 AI Coding 工具。

开源地址：https://github.com/anomalyco/opencode

2.Clawdbot / Mlotbot / Openclaw

~~和某牢德杠上的都是好样的！~~ 自主性极高、拥有本地极高权限的通用Agent，当下最接近「贾维斯」的产品，一位技术博主表示他的 AI 助手自己开通账号用 ChatGPT 给博主打了语音，说完话它就开始操作电脑干活了。适用于在容灾能力强的或闲置的设备部署，一度让Mac Mini卖断货。

开源地址：https://github.com/openclaw/openclaw

3.Kimi2.5 Agent

当下国产最强在线通用Agent，笔者用其开发了一款浏览器扩展。点击直达：Vibe Coding 实战：告别混乱的浏览器收藏！我开发了一个 AI 书签整理神器

4.Minimax Agent Desktop

众所周知，三幻神有四个，桌面级Agent，可操作本地文件，不折腾 Opencode 和 Claw 的首选。拥有目前国内唯一（大概）具备匹敌接近 NotebookLM + Nano Banana 制作信息图式PPT的能力。（智力表现不稳定，如下图是要求生成本文的总结信息图，产生了幻觉）
在这里插入图片描述

（二）群星闪耀

1.阶跃AI桌面伙伴

都在卷桌面 Agent 了，Claude Cowork 的国产平替，支持 MCP 和 Skills 的桌面办公Agent。

官网：https://www.stepfun.com/download

2.QoderWork

一个面向非开发者、覆盖大量日常工作场景的桌面智能体助手，让每个人都可以像开发者使用 Qoder 那样完成非技术性工作。

3.Openwork

又一款桌面级办公Agent，让非开发者也能像开发者一样指挥 AI 干活。

开源地址：https://github.com/different-ai/openwork

4.Everywhere AI助手

具备情境感知能力，能即时理解你屏幕上的内容。无需截图、复制或切换应用，按下快捷键就能在当前位置获得AI帮助。

官方文档：https://everywhere.sylinko.com/zh-CN/docs/getting-started/introduction.html
开源地址：https://github.com/DearVa/Everywhere

5.LifeTrace 时间管理神器

软件会在后台定时自动截图，利用 OCR 识别文字，再通过向量检索整理信息。它能把零散的截图聚合成智能事件，生成24小时图表告诉你时间都去哪儿了，摸鱼痕迹无所遁形（不是）。

开源地址：https://github.com/FreeU-group/LifeTrace

6.视频剪辑技能包：Videocut-skills

口误识别、静音检测、语气词处理、字幕生成等，一条龙服务。视频创作者的福音，再也不用一帧一帧地手动剪辑了。

开源地址：https://github.com/Ceeon/videocut-skills

7.远程部署利器：EdgeOne Pages MCP

腾讯云团队开发的部署工具，能把项目一键部署到腾讯云的加速网络，既能让别人访问你的网站，又能给网站提速。美滋滋。

8.科研组

Paper2Any：北大 DCAI 课题组推出的科研绘图与 PPT 制作辅助平台，让配图和汇报演示变得更加自动化，还在为论文插图发愁的科研党可以试试。体验地址：
http://dcai-paper2any.nas.cpolar.cn/
DeepTutor：港大发布的开源版 NotebookLM，科研党的学习伴侣。
Prism：OpenAI 新一代科研利器，GPT-5.2 加持的论文写作和协作工作区，登录即免费。
MiroThinker：一款针对研究和预测而优化的开源深度研究Agent。
体验地址：https://dr.miromind.ai/

三、前沿动态回顾

（一）模型动态

1.阿里系开源

Qwen3-TTS：实时语音合成的新标杆，3秒音频实现完美声纹克隆，还支持自然语言描述设计声音。
Qwen-Image-Laced：一键图像分层/无损编辑工具，又多了一个P图的选择。
Thinking with Map：地理定位智能体，地图导航领域的AI新玩家。

2.美团

LongCat：美团上新模型，引入重思考模式，能同时启动8路思考并总结出更全面、更可靠的结论，AI也要学会多角度思考了。

体验地址：https://longcat.ai

3.阶跃星辰

Step3-VL-10B：轻量级开源基础模型，重新定义紧凑高效与前沿多模态智能之间的权衡，在视觉感知、复杂推理和以人为本的对齐方面表现卓越。

模型链接：https://modelscope.cn/models/stepfun-ai/Step3-VL-10B

4.百川智能

Baichuan-M3 Plus：循证增强医疗大模型，幻觉率全球最低（不到3%），医疗领域的AI，终于可以更靠谱一点了。

5.其他关注的模型

LFM2.5-1.2B-Thinking：一款可完全在端侧运行的推理模型，非Transformer架构，以小胜大新案例。
LightOnOCR-2-1B：高效的端到端10亿参数视觉语言模型，用于将文档转换为干净自然的文本。
LFM2-VL：新一代视觉-语言基础模型系列，专为智能手机、笔记本电脑、可穿戴设备和嵌入式系统等终端设备设计，具备高效部署、低延迟和高精度等特点。

（二）音视频生成

1.Chroma 1.0

全球首个开源的支持声音克隆、高保真、端到端、实时语音到语音的AI模型，播客创作者的春天来了。

2.Veo3.1

升级版，体验应该更上一层楼。

3.PixVerse-R1

实时世界模型，又一个视频生成的新玩家。

4.Rodin-Gen2

3D领域的 NanoBanana，3D内容生成的新选择。

体验地址：https://hyper3d.ai/

（三）智能体与框架

1.AnyGen

字节跳动在海外推出的通用智能体，海外版豆包？

2.UI-TARS Desktop

字节跳动开源的基于多模态大模型的 GUI 智能体桌面应用。

开源地址：https://github.com/bytedance/UI-TARS-desktop

3.游戏智能体：COTA

真正具备通用游戏潜力的Agent产品，强调认知、执行、策略和辅助。据官方描述，操作堪比职业选手、决策比肩教练级，推理链路全程清晰可见。

试玩链接：https://www.chaocanshu.cn/product/cota_apply

4.Computer Use Preview

Google 开源的计算机使用 Agent 预览版，让 AI 能像人类一样操作电脑。
开源地址：https://github.com/google-gemini/computer-use-preview

5.ShowUI系列

Show Lab 开源的会从录屏中学习操作的行动智能体 ShowUI-Aloha，以及开源的鼠标智能体 ShowUI-π。

6.Eigent 开源桌面级多智能体平台

专为无缝集成、智能任务执行和无边界自动化而设计，部署一支专业 AI 智能体团队，协作解决复杂任务，如开发、搜索、文档管理、图像和音频处理。

开源地址：https://github.com/eigent-ai/eigent

7.编程智能体看板：Vibe Kanban

专为 AI 编程智能体打造的看板管理工具，提供可视化界面让你像管理人类员工一样管理AI智能体。创建任务卡片，分配给编程智能体，它们会自动开始工作并更新状态。摸鱼的时间又变多了呢（bushi）。

开源地址：https://github.com/BloopAI/vibe-kanban

8.add-skill

将代理技能安装到编码代理中，支持来自任何Git仓库，支持Opencode、Claude Code、Codex、Cursor等。

开源地址：https://github.com/verailabs/add-skill

9.规范驱动 AI 开发框架

Spec-kit 是 GitHub 推出的规范驱动开发框架。另外，由 Fission AI 团队构建的 OpenSpec 更轻量简单，比 Spec-kit 更易上手。

10.前端开发包

Chrome DevTools MCP：将 Chrome 浏览器的开发者工具通过 MCP 暴露给 AI 模型使用，妈妈再也不用担心我手动调试 API 了。

开源地址：https://github.com/ChromeDevTools/chrome-devtools-mcp

Web to MCP：一个 Chrome 扩展，能把网页上的任何 UI 组件直接发送给 AI，让 AI 生成对应的代码。在 Chrome 应用商店搜索 Web to MCP 来安装。

（四）趣文推荐

一文带你看懂，火爆全网的Skills到底是个啥。
https://mp.weixin.qq.com/s/nRVVqPaGxWdNqNrUcurSXg

Anthropic万字长文：一篇AI Agent评估体系的详细解析！
https://mp.weixin.qq.com/s/C2Vpvm662STIohvnLQQgIQ

为了不让 AI 变笨，我决定把聊天记录变成满天繁星
https://mp.weixin.qq.com/s/kBLzL089awtKuVL1XHGMyw

Manus做产品到底好在哪里

https://mp.weixin.qq.com/s/yT9kn5DYWaAuUJsyEoQFdQ

Coze Skill 速通教程：一文学会 Skill 设计方法

https://mp.weixin.qq.com/s/7o5s2k1sXekvtEGlQTWkYg

把超算装进背包：ThinkStation PGX重新定义AI开发者的生产力边界

https://mp.weixin.qq.com/s/WYzSIV0xbVL3Wn7YP0ulmw

DeepSeek R1 发布一周年，不卷功能、不融资、不着急，硬控了科技世界

https://mp.weixin.qq.com/s/cUZ8c2bmh3wsh1xg3ZLy7Q

2025最强AI产品一文看尽丨量子位智库年度AI 100

https://mp.weixin.qq.com/s/zUmwWz3CczJnASGFsj4LYg

我的Python环境管理方式，兼顾常用AI工具依赖环境

https://mp.weixin.qq.com/s/U53fxZKUBbIxd_j0BGAhOg

15万个AI建了个朋友圈吐槽人类，100万人围观Moltbook后傻眼了：原来我们对AI一无所知

https://mp.weixin.qq.com/s/7XRo8ScoFExcoCzgOflB_A

后记

2026年的 AI 圈依然热闹非凡，从通用 Agent 到垂直领域应用，从端侧模型到云端服务，各家都在疯狂发力。工具越来越多，选择越来越难，这正是【再探再报】系列的意义所在——记录 X 筛选。

这里是坐等过年的Seon塞翁，下一篇见！~

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

从聊天框到动态助手：MCP Apps 如何重塑 AI 交互的未来（五十六）

在人工智能向“自主智能体”演进的道路上，我们正见证一个关键的范式转移：大型语言模型（LLM）不再仅仅是文本生成器，而是逐渐成为能感知环境、调用工具并执行复杂任务的智能核心。然而，传统的“文本输入-文本输出”模式，在面对需要精密逻辑、实时数据可视化与复杂业务流操控的生产力场景时，其交互深度的局限性暴露无遗。为了连接模型与广阔的外部世界，应运而生，旨在标准化模型与工具之间的通信，降低生态适配成本。