Clawdbot火到要抢Mac mini，我们直接把GUI Agent跑进云沙盒

什么？曾问鼎OSWorld的GUI Agent开源了？用十分钟把它跑起来是种什么体验

Lybic_AI

416人浏览 · 2026-02-05 10:37:03

Lybic_AI · 2026-02-05 10:37:03 发布

这篇推文，我们想分享一个很具体也很实用的东西：如何在本地用十分钟部署并跑起来曾问鼎 OSWorld 的GUI Agent —— Agentic Lybic，并让它在灵臂 Lybic 的云端 Windows 沙箱里完成一次真实的“动手操作”。

为什么我们选择从这个角度来做一次教程

近几个月以来，一个很明显的风向正在形成：从对话走向执行，从“会说”走向“会做”。最典型的例子就是近期爆火的 Clawdbot，也就是现在叫做 Moltbot 的这款产品。它之所以能迅速出圈，一个重要原因在于它把更接近大众想象的“AI 助理形态”带到了视野里：你对它说一句话，它就能替你去推进任务，像一个真正能动手的同事。

但把“能动手”落到现实世界，路径并不只有一种

像 Moltbot 这一类助理，很多能力来自对各种系统能力的接入和编排：邮件、日历、文件、消息、工单、知识库等，这些往往意味着要对接不同平台的接口或权限体系。对开发者来说这是熟悉的工程工作，对很多小白用户来说则有一定门槛，而且现实里也确实存在一个长期问题：世界上并不是所有软件都有好用的 API 接口，更不是所有关键流程都能被 API 覆盖。很多业务系统、桌面软件、内部工具，最后一步仍然得在界面里完成。

这就引出另一条路线：通过云端沙箱，用 GUI 去操作。

先把一个概念讲清楚。什么是 GUI Agent？

过去我们习惯把 AI 当作“对话工具”，它擅长回答、总结、写作、推理。可当你希望它真正把一件事做完，光有对话还不够。Agent 更接近一种“任务执行者”：它会把目标拆成步骤，选择工具，观察结果，必要时修正路线，直到完成任务。

而 GUI Agent 则是 Agent 的一种实现路线：它不依赖系统提供的标准 API，而是像人一样通过界面完成操作，能看屏幕、点按钮、输入文字、处理弹窗，把现实世界里大量“只能在界面里完成”的流程也纳入自动化范围。

Lybic 走的正是更“界面世界”的路径。它为 GUI Agent 提供云端沙箱环境 + 纯视觉操作引擎，无需 API 或系统改造，即开即用。你可以把它理解成一台随时可创建、可重置的云端电脑。智能体可以在这个环境里“看见屏幕并操作界面”，很多任务因此不再强依赖 API。

更进一步，如果你愿意做二次开发，这套能力也并不局限在某一种入口。它既可以被聊天软件控制，也可以被独立 App 或网页控制。入口可以多样，关键在于执行发生在一个可控的环境里，任务能被观察、能被复现、也更容易把风险限制在边界之内。至于更多玩法，我们也期待与社区和更多开发者一起探索。

顺带一提，本次教程里用到的这个 GUI Agent，是我们在 GitHub 上的开源项目，在权威评测体系 OSWorld 上曾取得过非常靠前的成绩，一度荣登 OSWorld 榜首，成为“世界第一”。我们不会把它当作“万能智能体”来宣传，但希望通过这次“真实部署与真实执行”的体验：你能很直观地看到，一个在评测里表现优秀的 GUI Agent，落到实际环境里到底是什么手感，它在哪些地方让人惊喜，又能带给你怎样的想象空间。

Agentic Lybic 的四层系统架构示意图

对于 Agentic Lybic 的技术相关细节我们暂且按下不表，接下来进入手把手教程部分（python 3.14）

首先打开终端输入如下命令进行代码克隆

git clone https://github.com/lybic/agent.git
cd agent

下载完毕后安装依赖项

uv sync

激活虚拟环境

# macOS 和 Linux
source .venv/bin/activate
# Windows
.venv\Scripts\activate

开发模式下本地安装包

uv pip install -e .

接下来需要去配置几个必须的环境变量

首先是 Lybic 组织 ID、API key、以及沙箱 ID

前往 www.lybic.cn 完成注册登录并进入控制台（如果是新用户可以进入控制台点击领取您的礼物，获取免费的体验资源包）之后左侧选择标签“API 密钥”，获取组织 ID 和 API key。
左侧选择标签“沙箱”，如下图所示创建供使用的沙箱，并获取沙箱 ID，这里提示需要注意一下最大生命周期，到时间后沙箱会自动销毁，不过创建后也可手动设置加时。

然后需要准备模型 API key，至少两个，分别是 LLM（对话/多模态）和文本嵌入模型。

这里推荐使用 doubao，也可以根据自己的喜好使用其他家的产品。

把上述信息填到 gui_agents/.env.example 文件的对应位置中，并将该文件重命名为.env

最后一步，找到 gui_agents/tools/tools_config.json 把 embedding 这一项改成其他的文本嵌入模型产品。因为原来默认的 doubao-embedding-text-240715 模型已下线无法使用。我们这里暂时改成 gemini 。同理，如果其他工具想采用别的模型，只要更改对应的 provider 和 model_name 即可，也别忘了在 .env 中补充相应的 API Key。

关于模型相关的配置与参考，更多细节可以前往 https://docs.lybic.cn/cn/agent/agentServiceModelsConfig/

上述操作全部完成后，恭喜你已经做完了前期的准备工作。

那么到了见证奇迹的时刻，我们来正式运行

python -m gui_agents.cli_app

然后会见到如下图所示的运行过程，会收到提示 “Do you want to continue from a previous task? (y/n):”，选择 N 即可。

最后就可以在“Query：”后输入你想执行的命令了。如，“打开浏览器，搜索灵臂Lybic，把第一条搜索结果的标题复制到记事本中，并保存在桌面上，命名为：Lybic_1 ”，我们可以通过 Lybic 控制台观看沙箱的实时画面，亦可随时人工接管操作。

对于部署过程中遇到问题的朋友，欢迎随时联络小助手协助。我们的 Playground 也提供了更简单直接的体验方式，可以直接在前端体验更完善和强大的 GUI Agent 功能，只需完成登陆并领取资源包即可，传送门：https://playground.lybic.cn/

到这里，我们已经完成了一次最基础的 Agentic Lybic 体验，并让这个 GUI Agent 在 Lybic 的云端沙盒中完成了实际操作。接下来还有很多更强大、更有趣的玩法，值得大家继续探索和共创。借助灵臂 Lybic 提供的可控执行环境与隔离能力，GUI Agent 的构建与迭代可以更简单、更高效，也更容易走向稳定可用。

说到底，无论是通过 API 编排的助理，还是通过界面操作的 GUI Agent，大家追逐的都是同一个方向：让智能体更像人一样完成任务，更像一个能真正交付结果的协作者。路径不同，但目的相近。我们更愿意把这理解成殊途同归的“AGI 形象探索”。

接下来欢迎大家继续把任务复杂度往上加，也欢迎把你遇到的失败案例反馈给我们，我们会一起把这条路跑得更稳。

立即访问GitHub仓库：https://github.com/lybic

智能体相关说明文档：https://docs.lybic.cn/cn/agent/

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

科研党收藏！千笔ai写作，专科生论文神器

2048 AI社区

SPI总线技术实战：从网络组网到存储扩展与高速无线通信

2048 AI社区

为什么 wait() 和 notify() 定义在 Object 类中？从 Java 锁机制设计角度深度解析

Java的wait()、notify()和notifyAll()方法定义在Object类而非Thread类，这源于Java锁机制的设计原理。每个Java对象都内置一个监视器(Monitor)，线程通过竞争对象锁实现同步。wait()会释放当前对象锁并进入等待队列，notify()则唤醒该队列中的线程。若这些方法定义在Thread类中，将无法明确指定等待/唤醒哪个对象的锁，导致同步语义混乱。这种设计

2048 AI社区

所有评论(0)

查看更多评论

Lybic_AI

@Lybic_AI

已为社区贡献3条内容