前言
2026年1月的个人学习笔记。

一、工具尝鲜快报:好玩的,初探感觉不错,但还未十分深入的工具。
二、生产力军火库:好用的,开箱即用的神器,或一些隐藏的技巧。
三、前沿动态回顾:好看的,个人感兴趣的新工具、动态信息,或一些优质资料。

一、工具尝鲜快报

1.Jina Reader

在任何网址前面加上 r.jina.ai/,就能得到这个网页的Markdown版本(部分页面结构复杂和有反爬机制的网站可能失败)。更懒的做法是右键点击书签栏,选择「添加书签」,网址填入以下代码:

javascript:window.open('https://r.jina.ai/'+encodeURIComponent(location.href));

之后在任何网页上点击这个书签,就会自动打开一个新标签页,显示当前网页的Markdown版本,当需要让 AI 食用网页时使用~

2.Firecrawl 爬虫

自动化爬虫界的瑞士军刀,相比传统爬虫,它能更好地处理 JavaScript 渲染的动态页面,智能提取内容,也有对应的MCP服务器。

官方文档:https://docs.firecrawl.dev/zh/developer-guides/examples

3.CrossDesk 远程桌面

只需要打开浏览器,输入被控端的 ID 和密码,就能直接在网页里控制远程电脑。用 iOS 的 Safari 去控制 Windows 11了解一下?

开源地址:https://github.com/kunkundi/crossdesk

4.去AI味儿的写作工具:Humanizer-zh

AI生成的内容总有一股模板式机械味?用 Humanizer-zh 处理一下,瞬间变得像真人写的(注:本文未使用。

开源地址:https://github.com/op7418/Humanizer-zh

5.语音转文字去废话:Voquill

你在说话时难免会有结巴、重复或者呃、嗯之类的语气词,Voquill 能在转录过程中自动把这些废话去掉,留给你一段干净通顺的文本,支持全局热键,在任何桌面软件里都能呼出。

开源地址:https://github.com/josiahsrc/voquill

二、生产力军火库

(一)三幻神单独坐一桌

1.Opencode

Claude Code 的有力替代品,设计了一个基于终端的图形界面,有独立的缓冲区和窗口管理,毫无疑问的本月最火 AI Coding 工具。

开源地址:https://github.com/anomalyco/opencode

2.Clawdbot / Mlotbot / Openclaw

和某牢德杠上的都是好样的! 自主性极高、拥有本地极高权限的通用Agent,当下最接近「贾维斯」的产品,一位技术博主表示他的 AI 助手自己开通账号用 ChatGPT 给博主打了语音,说完话它就开始操作电脑干活了。适用于在容灾能力强的或闲置的设备部署,一度让Mac Mini卖断货。

开源地址:https://github.com/openclaw/openclaw

3.Kimi2.5 Agent

当下国产最强在线通用Agent,笔者用其开发了一款浏览器扩展。点击直达:Vibe Coding 实战:告别混乱的浏览器收藏!我开发了一个 AI 书签整理神器

4.Minimax Agent Desktop

众所周知,三幻神有四个,桌面级Agent,可操作本地文件,不折腾 Opencode 和 Claw 的首选。拥有目前国内唯一(大概)具备匹敌 接近 NotebookLM + Nano Banana 制作信息图式PPT的能力。(智力表现不稳定,如下图是要求生成本文的总结信息图,产生了幻觉)
在这里插入图片描述

(二)群星闪耀

1.阶跃AI桌面伙伴

都在卷桌面 Agent 了,Claude Cowork 的国产平替,支持 MCP 和 Skills 的桌面办公Agent。

官网:https://www.stepfun.com/download

2.QoderWork

一个面向非开发者、覆盖大量日常工作场景的桌面智能体助手,让每个人都可以像开发者使用 Qoder 那样完成非技术性工作。

3.Openwork

又一款桌面级办公Agent,让非开发者也能像开发者一样指挥 AI 干活。

开源地址:https://github.com/different-ai/openwork

4.Everywhere AI助手

具备情境感知能力,能即时理解你屏幕上的内容。无需截图、复制或切换应用,按下快捷键就能在当前位置获得AI帮助。

官方文档:https://everywhere.sylinko.com/zh-CN/docs/getting-started/introduction.html
开源地址:https://github.com/DearVa/Everywhere

5.LifeTrace 时间管理神器

软件会在后台定时自动截图,利用 OCR 识别文字,再通过向量检索整理信息。它能把零散的截图聚合成智能事件,生成24小时图表告诉你时间都去哪儿了,摸鱼痕迹无所遁形(不是)。

开源地址:https://github.com/FreeU-group/LifeTrace

6.视频剪辑技能包:Videocut-skills

口误识别、静音检测、语气词处理、字幕生成等,一条龙服务。视频创作者的福音,再也不用一帧一帧地手动剪辑了。

开源地址:https://github.com/Ceeon/videocut-skills

7.远程部署利器:EdgeOne Pages MCP

腾讯云团队开发的部署工具,能把项目一键部署到腾讯云的加速网络,既能让别人访问你的网站,又能给网站提速。美滋滋。

8.科研组

  • Paper2Any:北大 DCAI 课题组推出的科研绘图与 PPT 制作辅助平台,让配图和汇报演示变得更加自动化,还在为论文插图发愁的科研党可以试试。体验地址:
    http://dcai-paper2any.nas.cpolar.cn/

  • DeepTutor:港大发布的开源版 NotebookLM,科研党的学习伴侣。

  • Prism:OpenAI 新一代科研利器,GPT-5.2 加持的论文写作和协作工作区,登录即免费。

  • MiroThinker:一款针对研究和预测而优化的开源深度研究Agent。
    体验地址:https://dr.miromind.ai/

三、前沿动态回顾

(一)模型动态

1.阿里系开源

  • Qwen3-TTS:实时语音合成的新标杆,3秒音频实现完美声纹克隆,还支持自然语言描述设计声音。
  • Qwen-Image-Laced:一键图像分层/无损编辑工具,又多了一个P图的选择。
  • Thinking with Map:地理定位智能体,地图导航领域的AI新玩家。

2.美团

LongCat:美团上新模型,引入重思考模式,能同时启动8路思考并总结出更全面、更可靠的结论,AI也要学会多角度思考了。

体验地址:https://longcat.ai

3.阶跃星辰

Step3-VL-10B:轻量级开源基础模型,重新定义紧凑高效与前沿多模态智能之间的权衡,在视觉感知、复杂推理和以人为本的对齐方面表现卓越。

模型链接:https://modelscope.cn/models/stepfun-ai/Step3-VL-10B

4.百川智能

Baichuan-M3 Plus:循证增强医疗大模型,幻觉率全球最低(不到3%),医疗领域的AI,终于可以更靠谱一点了。

5.其他关注的模型

  • LFM2.5-1.2B-Thinking:一款可完全在端侧运行的推理模型,非Transformer架构,以小胜大新案例。
  • LightOnOCR-2-1B:高效的端到端10亿参数视觉语言模型,用于将文档转换为干净自然的文本。
  • LFM2-VL:新一代视觉-语言基础模型系列,专为智能手机、笔记本电脑、可穿戴设备和嵌入式系统等终端设备设计,具备高效部署、低延迟和高精度等特点。

(二)音视频生成

1.Chroma 1.0

全球首个开源的支持声音克隆、高保真、端到端、实时语音到语音的AI模型,播客创作者的春天来了。

2.Veo3.1

升级版,体验应该更上一层楼。

3.PixVerse-R1

实时世界模型,又一个视频生成的新玩家。

4.Rodin-Gen2

3D领域的 NanoBanana,3D内容生成的新选择。

体验地址:https://hyper3d.ai/

(三)智能体与框架

1.AnyGen

字节跳动在海外推出的通用智能体,海外版豆包?

2.UI-TARS Desktop

字节跳动开源的基于多模态大模型的 GUI 智能体桌面应用。

开源地址:https://github.com/bytedance/UI-TARS-desktop

3.游戏智能体:COTA

真正具备通用游戏潜力的Agent产品,强调认知、执行、策略和辅助。据官方描述,操作堪比职业选手、决策比肩教练级,推理链路全程清晰可见。

试玩链接:https://www.chaocanshu.cn/product/cota_apply

4.Computer Use Preview

Google 开源的计算机使用 Agent 预览版,让 AI 能像人类一样操作电脑。
开源地址:https://github.com/google-gemini/computer-use-preview

5.ShowUI系列

Show Lab 开源的会从录屏中学习操作的行动智能体 ShowUI-Aloha,以及开源的鼠标智能体 ShowUI-π。

6.Eigent 开源桌面级多智能体平台

专为无缝集成、智能任务执行和无边界自动化而设计,部署一支专业 AI 智能体团队,协作解决复杂任务,如开发、搜索、文档管理、图像和音频处理。

开源地址:https://github.com/eigent-ai/eigent

7.编程智能体看板:Vibe Kanban

专为 AI 编程智能体打造的看板管理工具,提供可视化界面让你像管理人类员工一样管理AI智能体。创建任务卡片,分配给编程智能体,它们会自动开始工作并更新状态。摸鱼的时间又变多了呢(bushi)。

开源地址:https://github.com/BloopAI/vibe-kanban

8.add-skill

将代理技能安装到编码代理中,支持来自任何Git仓库,支持Opencode、Claude Code、Codex、Cursor等。

开源地址:https://github.com/verailabs/add-skill

9.规范驱动 AI 开发框架

Spec-kit 是 GitHub 推出的规范驱动开发框架。另外,由 Fission AI 团队构建的 OpenSpec 更轻量简单,比 Spec-kit 更易上手。

10.前端开发包

Chrome DevTools MCP:将 Chrome 浏览器的开发者工具通过 MCP 暴露给 AI 模型使用,妈妈再也不用担心我手动调试 API 了。

开源地址:https://github.com/ChromeDevTools/chrome-devtools-mcp

Web to MCP:一个 Chrome 扩展,能把网页上的任何 UI 组件直接发送给 AI,让 AI 生成对应的代码。在 Chrome 应用商店搜索 Web to MCP 来安装。

(四)趣文推荐

一文带你看懂,火爆全网的Skills到底是个啥。
https://mp.weixin.qq.com/s/nRVVqPaGxWdNqNrUcurSXg

Anthropic万字长文:一篇AI Agent评估体系的详细解析!
https://mp.weixin.qq.com/s/C2Vpvm662STIohvnLQQgIQ

为了不让 AI 变笨,我决定把聊天记录变成满天繁星
https://mp.weixin.qq.com/s/kBLzL089awtKuVL1XHGMyw

Manus做产品到底好在哪里

https://mp.weixin.qq.com/s/yT9kn5DYWaAuUJsyEoQFdQ

Coze Skill 速通教程:一文学会 Skill 设计方法

https://mp.weixin.qq.com/s/7o5s2k1sXekvtEGlQTWkYg

把超算装进背包:ThinkStation PGX重新定义AI开发者的生产力边界

https://mp.weixin.qq.com/s/WYzSIV0xbVL3Wn7YP0ulmw

DeepSeek R1 发布一周年,不卷功能、不融资、不着急,硬控了科技世界

https://mp.weixin.qq.com/s/cUZ8c2bmh3wsh1xg3ZLy7Q

2025最强AI产品一文看尽丨量子位智库年度AI 100

https://mp.weixin.qq.com/s/zUmwWz3CczJnASGFsj4LYg

我的Python环境管理方式,兼顾常用AI工具依赖环境

https://mp.weixin.qq.com/s/U53fxZKUBbIxd_j0BGAhOg

15万个AI建了个朋友圈吐槽人类,100万人围观Moltbook后傻眼了:原来我们对AI一无所知

https://mp.weixin.qq.com/s/7XRo8ScoFExcoCzgOflB_A

后记

2026年的 AI 圈依然热闹非凡,从通用 Agent 到垂直领域应用,从端侧模型到云端服务,各家都在疯狂发力。工具越来越多,选择越来越难,这正是【再探再报】系列的意义所在——记录 X 筛选。

这里是坐等过年的Seon塞翁,下一篇见!~

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐