简介

Skyvern是一个基于大模型的浏览器自动化开源项目,已获GitHub近2万星。它通过规划-执行-验证的AI架构(Planner/Task/Validator),像人类一样理解网页内容,解决了传统RPA工具因页面结构变化导致脚本失效的问题。项目提供Docker部署和Python SDK两种使用方式,让开发者能轻松实现智能网页自动化操作,是学习大模型实际应用的好案例。


逛 GitHub 的时候,发现一个叫 skyvern 的开源项目登上了热榜。

这是一个 AI 控制浏览器自动化工作流的项目。

现在已经在 GitHub 上斩获近 2 万的 Star 了。

一、 开源项目简介

在传统的网页自动化 RPA 开发中,最让人头疼的莫过于页面结构变了。

如果你写过 Selenium 或 Puppeteer 脚本,一定经历过因为网站开发者修改了一个 CSS 类名或调整了按钮位置,导致整套脚本报错失效的崩溃瞬间。

为了维护这些脚本,开发者往往需要花费大量时间去修补 XPath 或 CSS 选择器。Skyvern 这个开源项目试图用大模型和计算机视觉彻底解决这个问题。

它不再依赖死板的代码选择器,而是像人类一样看懂网页,从而进行自动化操作。

堪称Token 消耗神器

下面这张图就是开源项目 Skyvern 的核心原理:

拿 AI 在亚马逊(Amazon.com)上完成购物任务的详细工作流举例。

整个系统分为三个主要模块:Planner(规划器)Task(任务执行器)Validator(验证器)

本质上就是 规划-执行-验证的 AI 架构:

用户输入:去亚马逊网站买一台 iPhone 16,一个手机壳和一个屏幕保护膜。

  • 左侧的 Planner 模块负责将上述复杂的宏观指令拆解成一步步可执行的子步骤。
  • 中间的 Task 模块负责具体执行 Planner 分配的某一个步骤。
  • 左下角的 Validator 模块是一个反馈机制,用于确认任务是否真的完成了。

Validator 的存在确保了每一步都确实完成了才进行下一步,防止 AI 在网页加载失败或操作失误时继续盲目执行。

比如下面这个视频,就是用这个开源项目自动化的获取 Hacker News 上的热门帖子:

你也可以自己去 skyvern 部署的网站体验一下。可以通过界面看到浏览器自动操作的实时画面,整体感觉是,很慢很慢。。。

体验地址:https://app.skyvern.com/workflows

二、 如何使用

Skyvern 提供了 Python 库和基于 Docker 的独立服务两种主要使用方式。为了体验完整功能,包括 UI 界面,推荐使用 Docker 部署。

① 部署环境:你需要安装 Docker 和 Docker Desktop。

② 快速启动(Docker Compose)

克隆开源项目并启动服务:

# 克隆代码
git clone https://github.com/Skyvern-AI/skyvern.git
cd skyvern
# 初始化配置文件(会生成 .env 文件)
# 此时需要根据提示填入你的 LLM API Key(如 OpenAI 或 Claude 的 Key)
./run_skyvern.sh init
# 启动服务
docker compose up -d

启动成功后,访问浏览器 http://localhost:8080 即可看到可视化的操作界面。

③ 通过 Python 代码调用

如果你希望将它集成到自己的代码中,可以安装 SDK:

pip install skyvern

简单的代码示例:

from skyvern import Skyvern
# 初始化
skyvern = Skyvern(api_key="你的_SKYVERN_API_KEY")
# 注:如果是本地部署,需配置 base_url 指向本地服务
# 下达任务
task = await skyvern.run_task(
prompt="去 Hacker News 网站找到今天热度最高的帖子,并返回标题和链接"
)
print(task)

在运行过程中,你甚至可以通过 UI 界面看到浏览器自动操作的实时画面,非常适合调试和监控。

开源地址:https://github.com/Skyvern-AI/skyvern

三、如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐