【2026年1月】AI生产力再探再报:三幻神主宰你的工作生活 OpenCode / Clawdbot / Kimi2.5
2026开年 AI 大小事,OpenCode 终端界面、Clawdbot 本地权限智能体、Kimi2.5 通用Agent、MiniMax 桌面客户端等 30+ AI 工具。
前言
2026年1月的个人学习笔记。
一、工具尝鲜快报:好玩的,初探感觉不错,但还未十分深入的工具。
二、生产力军火库:好用的,开箱即用的神器,或一些隐藏的技巧。
三、前沿动态回顾:好看的,个人感兴趣的新工具、动态信息,或一些优质资料。
一、工具尝鲜快报
1.Jina Reader
在任何网址前面加上 r.jina.ai/,就能得到这个网页的Markdown版本(部分页面结构复杂和有反爬机制的网站可能失败)。更懒的做法是右键点击书签栏,选择「添加书签」,网址填入以下代码:
javascript:window.open('https://r.jina.ai/'+encodeURIComponent(location.href));
之后在任何网页上点击这个书签,就会自动打开一个新标签页,显示当前网页的Markdown版本,当需要让 AI 食用网页时使用~
2.Firecrawl 爬虫
自动化爬虫界的瑞士军刀,相比传统爬虫,它能更好地处理 JavaScript 渲染的动态页面,智能提取内容,也有对应的MCP服务器。
官方文档:https://docs.firecrawl.dev/zh/developer-guides/examples
3.CrossDesk 远程桌面
只需要打开浏览器,输入被控端的 ID 和密码,就能直接在网页里控制远程电脑。用 iOS 的 Safari 去控制 Windows 11了解一下?
开源地址:https://github.com/kunkundi/crossdesk
4.去AI味儿的写作工具:Humanizer-zh
AI生成的内容总有一股模板式机械味?用 Humanizer-zh 处理一下,瞬间变得像真人写的(注:本文未使用。
开源地址:https://github.com/op7418/Humanizer-zh
5.语音转文字去废话:Voquill
你在说话时难免会有结巴、重复或者呃、嗯之类的语气词,Voquill 能在转录过程中自动把这些废话去掉,留给你一段干净通顺的文本,支持全局热键,在任何桌面软件里都能呼出。
开源地址:https://github.com/josiahsrc/voquill
二、生产力军火库
(一)三幻神单独坐一桌
1.Opencode
Claude Code 的有力替代品,设计了一个基于终端的图形界面,有独立的缓冲区和窗口管理,毫无疑问的本月最火 AI Coding 工具。
开源地址:https://github.com/anomalyco/opencode
2.Clawdbot / Mlotbot / Openclaw
和某牢德杠上的都是好样的! 自主性极高、拥有本地极高权限的通用Agent,当下最接近「贾维斯」的产品,一位技术博主表示他的 AI 助手自己开通账号用 ChatGPT 给博主打了语音,说完话它就开始操作电脑干活了。适用于在容灾能力强的或闲置的设备部署,一度让Mac Mini卖断货。
开源地址:https://github.com/openclaw/openclaw
3.Kimi2.5 Agent
当下国产最强在线通用Agent,笔者用其开发了一款浏览器扩展。点击直达:Vibe Coding 实战:告别混乱的浏览器收藏!我开发了一个 AI 书签整理神器
4.Minimax Agent Desktop
众所周知,三幻神有四个,桌面级Agent,可操作本地文件,不折腾 Opencode 和 Claw 的首选。拥有目前国内唯一(大概)具备匹敌 接近 NotebookLM + Nano Banana 制作信息图式PPT的能力。(智力表现不稳定,如下图是要求生成本文的总结信息图,产生了幻觉)
(二)群星闪耀
1.阶跃AI桌面伙伴
都在卷桌面 Agent 了,Claude Cowork 的国产平替,支持 MCP 和 Skills 的桌面办公Agent。
官网:https://www.stepfun.com/download
2.QoderWork
一个面向非开发者、覆盖大量日常工作场景的桌面智能体助手,让每个人都可以像开发者使用 Qoder 那样完成非技术性工作。
3.Openwork
又一款桌面级办公Agent,让非开发者也能像开发者一样指挥 AI 干活。
开源地址:https://github.com/different-ai/openwork
4.Everywhere AI助手
具备情境感知能力,能即时理解你屏幕上的内容。无需截图、复制或切换应用,按下快捷键就能在当前位置获得AI帮助。
官方文档:https://everywhere.sylinko.com/zh-CN/docs/getting-started/introduction.html
开源地址:https://github.com/DearVa/Everywhere
5.LifeTrace 时间管理神器
软件会在后台定时自动截图,利用 OCR 识别文字,再通过向量检索整理信息。它能把零散的截图聚合成智能事件,生成24小时图表告诉你时间都去哪儿了,摸鱼痕迹无所遁形(不是)。
开源地址:https://github.com/FreeU-group/LifeTrace
6.视频剪辑技能包:Videocut-skills
口误识别、静音检测、语气词处理、字幕生成等,一条龙服务。视频创作者的福音,再也不用一帧一帧地手动剪辑了。
开源地址:https://github.com/Ceeon/videocut-skills
7.远程部署利器:EdgeOne Pages MCP
腾讯云团队开发的部署工具,能把项目一键部署到腾讯云的加速网络,既能让别人访问你的网站,又能给网站提速。美滋滋。
8.科研组
-
Paper2Any:北大 DCAI 课题组推出的科研绘图与 PPT 制作辅助平台,让配图和汇报演示变得更加自动化,还在为论文插图发愁的科研党可以试试。体验地址:
http://dcai-paper2any.nas.cpolar.cn/ -
DeepTutor:港大发布的开源版 NotebookLM,科研党的学习伴侣。
-
Prism:OpenAI 新一代科研利器,GPT-5.2 加持的论文写作和协作工作区,登录即免费。
-
MiroThinker:一款针对研究和预测而优化的开源深度研究Agent。
体验地址:https://dr.miromind.ai/
三、前沿动态回顾
(一)模型动态
1.阿里系开源
- Qwen3-TTS:实时语音合成的新标杆,3秒音频实现完美声纹克隆,还支持自然语言描述设计声音。
- Qwen-Image-Laced:一键图像分层/无损编辑工具,又多了一个P图的选择。
- Thinking with Map:地理定位智能体,地图导航领域的AI新玩家。
2.美团
LongCat:美团上新模型,引入重思考模式,能同时启动8路思考并总结出更全面、更可靠的结论,AI也要学会多角度思考了。
体验地址:https://longcat.ai
3.阶跃星辰
Step3-VL-10B:轻量级开源基础模型,重新定义紧凑高效与前沿多模态智能之间的权衡,在视觉感知、复杂推理和以人为本的对齐方面表现卓越。
模型链接:https://modelscope.cn/models/stepfun-ai/Step3-VL-10B
4.百川智能
Baichuan-M3 Plus:循证增强医疗大模型,幻觉率全球最低(不到3%),医疗领域的AI,终于可以更靠谱一点了。
5.其他关注的模型
- LFM2.5-1.2B-Thinking:一款可完全在端侧运行的推理模型,非Transformer架构,以小胜大新案例。
- LightOnOCR-2-1B:高效的端到端10亿参数视觉语言模型,用于将文档转换为干净自然的文本。
- LFM2-VL:新一代视觉-语言基础模型系列,专为智能手机、笔记本电脑、可穿戴设备和嵌入式系统等终端设备设计,具备高效部署、低延迟和高精度等特点。
(二)音视频生成
1.Chroma 1.0
全球首个开源的支持声音克隆、高保真、端到端、实时语音到语音的AI模型,播客创作者的春天来了。
2.Veo3.1
升级版,体验应该更上一层楼。
3.PixVerse-R1
实时世界模型,又一个视频生成的新玩家。
4.Rodin-Gen2
3D领域的 NanoBanana,3D内容生成的新选择。
体验地址:https://hyper3d.ai/
(三)智能体与框架
1.AnyGen
字节跳动在海外推出的通用智能体,海外版豆包?
2.UI-TARS Desktop
字节跳动开源的基于多模态大模型的 GUI 智能体桌面应用。
开源地址:https://github.com/bytedance/UI-TARS-desktop
3.游戏智能体:COTA
真正具备通用游戏潜力的Agent产品,强调认知、执行、策略和辅助。据官方描述,操作堪比职业选手、决策比肩教练级,推理链路全程清晰可见。
试玩链接:https://www.chaocanshu.cn/product/cota_apply
4.Computer Use Preview
Google 开源的计算机使用 Agent 预览版,让 AI 能像人类一样操作电脑。
开源地址:https://github.com/google-gemini/computer-use-preview
5.ShowUI系列
Show Lab 开源的会从录屏中学习操作的行动智能体 ShowUI-Aloha,以及开源的鼠标智能体 ShowUI-π。
6.Eigent 开源桌面级多智能体平台
专为无缝集成、智能任务执行和无边界自动化而设计,部署一支专业 AI 智能体团队,协作解决复杂任务,如开发、搜索、文档管理、图像和音频处理。
开源地址:https://github.com/eigent-ai/eigent
7.编程智能体看板:Vibe Kanban
专为 AI 编程智能体打造的看板管理工具,提供可视化界面让你像管理人类员工一样管理AI智能体。创建任务卡片,分配给编程智能体,它们会自动开始工作并更新状态。摸鱼的时间又变多了呢(bushi)。
开源地址:https://github.com/BloopAI/vibe-kanban
8.add-skill
将代理技能安装到编码代理中,支持来自任何Git仓库,支持Opencode、Claude Code、Codex、Cursor等。
开源地址:https://github.com/verailabs/add-skill
9.规范驱动 AI 开发框架
Spec-kit 是 GitHub 推出的规范驱动开发框架。另外,由 Fission AI 团队构建的 OpenSpec 更轻量简单,比 Spec-kit 更易上手。
10.前端开发包
Chrome DevTools MCP:将 Chrome 浏览器的开发者工具通过 MCP 暴露给 AI 模型使用,妈妈再也不用担心我手动调试 API 了。
开源地址:https://github.com/ChromeDevTools/chrome-devtools-mcp
Web to MCP:一个 Chrome 扩展,能把网页上的任何 UI 组件直接发送给 AI,让 AI 生成对应的代码。在 Chrome 应用商店搜索 Web to MCP 来安装。
(四)趣文推荐
一文带你看懂,火爆全网的Skills到底是个啥。
https://mp.weixin.qq.com/s/nRVVqPaGxWdNqNrUcurSXg
Anthropic万字长文:一篇AI Agent评估体系的详细解析!
https://mp.weixin.qq.com/s/C2Vpvm662STIohvnLQQgIQ
为了不让 AI 变笨,我决定把聊天记录变成满天繁星
https://mp.weixin.qq.com/s/kBLzL089awtKuVL1XHGMyw
Manus做产品到底好在哪里
https://mp.weixin.qq.com/s/yT9kn5DYWaAuUJsyEoQFdQ
Coze Skill 速通教程:一文学会 Skill 设计方法
https://mp.weixin.qq.com/s/7o5s2k1sXekvtEGlQTWkYg
把超算装进背包:ThinkStation PGX重新定义AI开发者的生产力边界
https://mp.weixin.qq.com/s/WYzSIV0xbVL3Wn7YP0ulmw
DeepSeek R1 发布一周年,不卷功能、不融资、不着急,硬控了科技世界
https://mp.weixin.qq.com/s/cUZ8c2bmh3wsh1xg3ZLy7Q
2025最强AI产品一文看尽丨量子位智库年度AI 100
https://mp.weixin.qq.com/s/zUmwWz3CczJnASGFsj4LYg
我的Python环境管理方式,兼顾常用AI工具依赖环境
https://mp.weixin.qq.com/s/U53fxZKUBbIxd_j0BGAhOg
15万个AI建了个朋友圈吐槽人类,100万人围观Moltbook后傻眼了:原来我们对AI一无所知
https://mp.weixin.qq.com/s/7XRo8ScoFExcoCzgOflB_A
后记
2026年的 AI 圈依然热闹非凡,从通用 Agent 到垂直领域应用,从端侧模型到云端服务,各家都在疯狂发力。工具越来越多,选择越来越难,这正是【再探再报】系列的意义所在——记录 X 筛选。
这里是坐等过年的Seon塞翁,下一篇见!~
更多推荐
所有评论(0)