这篇推文,我们想分享一个很具体也很实用的东西:如何在本地用十分钟部署并跑起来曾问鼎 OSWorld 的GUI Agent —— Agentic Lybic,并让它在灵臂 Lybic 的云端 Windows 沙箱里完成一次真实的“动手操作”。

为什么我们选择从这个角度来做一次教程

近几个月以来,一个很明显的风向正在形成:从对话走向执行,从“会说”走向“会做”。最典型的例子就是近期爆火的 Clawdbot,也就是现在叫做 Moltbot 的这款产品。它之所以能迅速出圈,一个重要原因在于它把更接近大众想象的“AI 助理形态”带到了视野里:你对它说一句话,它就能替你去推进任务,像一个真正能动手的同事。

但把“能动手”落到现实世界,路径并不只有一种

像 Moltbot 这一类助理,很多能力来自对各种系统能力的接入和编排:邮件、日历、文件、消息、工单、知识库等,这些往往意味着要对接不同平台的接口或权限体系。对开发者来说这是熟悉的工程工作,对很多小白用户来说则有一定门槛,而且现实里也确实存在一个长期问题:世界上并不是所有软件都有好用的 API 接口,更不是所有关键流程都能被 API 覆盖。很多业务系统、桌面软件、内部工具,最后一步仍然得在界面里完成。

这就引出另一条路线:通过云端沙箱,用 GUI 去操作。

先把一个概念讲清楚。什么是 GUI Agent?

过去我们习惯把 AI 当作“对话工具”,它擅长回答、总结、写作、推理。可当你希望它真正把一件事做完,光有对话还不够。Agent 更接近一种“任务执行者”:它会把目标拆成步骤,选择工具,观察结果,必要时修正路线,直到完成任务。

而 GUI Agent 则是 Agent 的一种实现路线:它不依赖系统提供的标准 API,而是像人一样通过界面完成操作,能看屏幕、点按钮、输入文字、处理弹窗,把现实世界里大量“只能在界面里完成”的流程也纳入自动化范围。

Lybic 走的正是更“界面世界”的路径。它为 GUI Agent 提供云端沙箱环境 + 纯视觉操作引擎,无需 API 或系统改造,即开即用。你可以把它理解成一台随时可创建、可重置的云端电脑。智能体可以在这个环境里“看见屏幕并操作界面”,很多任务因此不再强依赖 API。

更进一步,如果你愿意做二次开发,这套能力也并不局限在某一种入口。它既可以被聊天软件控制,也可以被独立 App 或网页控制。入口可以多样,关键在于执行发生在一个可控的环境里,任务能被观察、能被复现、也更容易把风险限制在边界之内。至于更多玩法,我们也期待与社区和更多开发者一起探索。

顺带一提,本次教程里用到的这个 GUI Agent,是我们在 GitHub 上的开源项目,在权威评测体系 OSWorld 上曾取得过非常靠前的成绩,一度荣登 OSWorld 榜首,成为“世界第一”。我们不会把它当作“万能智能体”来宣传,但希望通过这次“真实部署与真实执行”的体验:你能很直观地看到,一个在评测里表现优秀的 GUI Agent,落到实际环境里到底是什么手感,它在哪些地方让人惊喜,又能带给你怎样的想象空间。

图片

Agentic Lybic 的四层系统架构示意图

对于 Agentic Lybic 的技术相关细节我们暂且按下不表,接下来进入手把手教程部分(python 3.14)

首先打开终端输入如下命令进行代码克隆

git clone https://github.com/lybic/agent.git
cd agent

图片

下载完毕后安装依赖项

uv sync 

图片

激活虚拟环境

# macOS 和 Linux
source .venv/bin/activate
# Windows
.venv\Scripts\activate

图片

开发模式下本地安装包

uv pip install -e .

图片

接下来需要去配置几个必须的环境变量

首先是 Lybic 组织 ID、API key、以及沙箱 ID

  1. 前往 www.lybic.cn 完成注册登录并进入控制台(如果是新用户可以进入控制台点击领取您的礼物,获取免费的体验资源包)之后左侧选择标签“API 密钥”,获取组织 ID 和 API key。

  2. 左侧选择标签“沙箱”,如下图所示创建供使用的沙箱,并获取沙箱 ID,这里提示需要注意一下最大生命周期,到时间后沙箱会自动销毁,不过创建后也可手动设置加时。

图片

然后需要准备模型 API key,至少两个,分别是 LLM(对话/多模态)和文本嵌入模型。

这里推荐使用 doubao,也可以根据自己的喜好使用其他家的产品。

把上述信息填到 gui_agents/.env.example 文件的对应位置中,并将该文件重命名为.env

图片

最后一步,找到 gui_agents/tools/tools_config.json 把 embedding 这一项改成其他的文本嵌入模型产品。因为原来默认的 doubao-embedding-text-240715 模型已下线无法使用。我们这里暂时改成 gemini 。同理,如果其他工具想采用别的模型,只要更改对应的 provider 和 model_name 即可,也别忘了在 .env 中补充相应的 API Key。

图片

关于模型相关的配置与参考,更多细节可以前往 https://docs.lybic.cn/cn/agent/agentServiceModelsConfig/

上述操作全部完成后,恭喜你已经做完了前期的准备工作。

那么到了见证奇迹的时刻,我们来正式运行 

python -m gui_agents.cli_app

然后会见到如下图所示的运行过程,会收到提示 “Do you want to continue from a previous task? (y/n):”,选择 N 即可。

图片

最后就可以在“Query:”后输入你想执行的命令了。如,“打开浏览器,搜索灵臂Lybic,把第一条搜索结果的标题复制到记事本中,并保存在桌面上,命名为:Lybic_1 ”,我们可以通过 Lybic 控制台观看沙箱的实时画面,亦可随时人工接管操作。

图片

图片

对于部署过程中遇到问题的朋友,欢迎随时联络小助手协助。我们的 Playground 也提供了更简单直接的体验方式,可以直接在前端体验更完善和强大的 GUI Agent 功能,只需完成登陆并领取资源包即可,传送门:https://playground.lybic.cn/

到这里,我们已经完成了一次最基础的 Agentic Lybic 体验,并让这个 GUI Agent 在 Lybic 的云端沙盒中完成了实际操作。接下来还有很多更强大、更有趣的玩法,值得大家继续探索和共创。借助灵臂 Lybic 提供的可控执行环境与隔离能力,GUI Agent 的构建与迭代可以更简单、更高效,也更容易走向稳定可用。

说到底,无论是通过 API 编排的助理,还是通过界面操作的 GUI Agent,大家追逐的都是同一个方向:让智能体更像人一样完成任务,更像一个能真正交付结果的协作者。路径不同,但目的相近。我们更愿意把这理解成殊途同归的“AGI 形象探索”。

接下来欢迎大家继续把任务复杂度往上加,也欢迎把你遇到的失败案例反馈给我们,我们会一起把这条路跑得更稳。

立即访问GitHub仓库  :https://github.com/lybic

智能体相关说明文档:https://docs.lybic.cn/cn/agent/

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐