前言

今天在github 上发现看一款很有意思的AI工具Browser-use,他能直接操控你的浏览器,实现网页自动化,填报,搜索,信息提取,操作简单,现在在gitHub上已经70K star

想象一下,你可以告诉计算机"查找 browser-use 仓库的星标数量",然后它会自动导航到 GitHub,定位仓库并提取信息——这一切都无需编写任何传统的网页自动化代码。

项目介绍

 

Browser-use 是一款革命性的 Python 库,使 AI 智能体能够通过自然语言指令控制网页浏览器。

Browser-use 核心是弥合 AI 语言模型与网页浏览器的差距,打造可理解人类意图并转化为浏览器操作的自动化框架,还能抽象网页自动化复杂性,让开发者专注目标而非实现方式。

核心架构

 

多 LLM 支持(暂时支持国外的)

 

应用

Browser-use 擅长解决传统上需要大量脚本的复杂网页自动化挑战:

  • • ①电商自动化自动将商品添加到购物车、比价并完成结账流程。AI 能处理动态定价、库存检查,甚至解决验证码。

  • • ②数据提取与研究从网站提取结构化数据,进行市场研究并编制报告。AI 能理解上下文并适应不同页面布局。

  • • ③求职自动化阅读简历,查找相关职位信息,并在多个平台提交申请。AI 能根据职位要求定制申请内容。

  • • ④内容管理跨平台创建和管理内容,从社交媒体帖子到 Google Docs 文档创建。

项目实操

安装库:pip install browser-use 创建第一个智能体并分配简单任务

我配置的任务是: 在 Google 上搜索'什么是浏览器自动化',并告诉我前 3 个结果

 

在 .env 文件中设置 LLM API 密钥

具体用什么模型根据实际情况(我用的是gpt-4.1-mini 免费 但有次数限制)

 

运行智能体并观察其

他会分成很多步骤 一步一步 去实现 最后达到最终效果,数据结果会展示在控制台

 

执行流程

  • • 打开浏览器窗口

  • • 导航到 Google

  • • 输入搜索查询

  • • 分析搜索结果

  • • 返回前 3 个结果的结构化摘要

工作原理

 

问题

非常消耗tokens数,我自己是免费的 运行几次就不够用了,被限制31小时多。

 

项目地址

https://github.com/browser-use/browser-use?tab=readme-ov-file

作者小结

简单说,Browser-use,能让 AI 用平常说话的方式控制浏览器。不用写复杂代码,你让它查 GitHub 仓库星标、在谷歌搜东西找结果,它都能搞定,如果你感兴趣,可以来试一试。

都看到这里了,关注一下吧! 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐