备用下载链接

最近我在科技圈看到一个很火的演示视频:对着手机说一句“帮我点一杯冰美式”,手机居然自己打开了外卖软件,找到星巴克,选好咖啡,最后停在支付页面等着确认。关键是,演示用的不是什么还没发布的概念机,就是一台很普通的安卓手机。

当时我就去查了一下,原来这是智谱AI和清华团队搞出来的东西,叫AutoGLM。前两天,他们把这个项目的核心代码开源了,名字叫 Open-AutoGLM。

作为一个平时喜欢折腾软件的人,我马上就去下载试了试。今天就跟大家聊聊这个东西到底是个什么鬼,好不好用,以及如果你也想玩,得注意点什么。
在这里插入图片描述

什么是Open-AutoGLM,我为啥要关注它

简单来说,Open-AutoGLM 就是一个能接管你手机和电脑屏幕的“AI大脑”。

以前我们用的语音助手,比如Siri或者小爱同学,你让它们定个闹钟还行,但如果你说“帮我把刚才拍的照片发给微信置顶的朋友”,它们通常就傻眼了,或者直接给你弹出一个百度搜索结果。这是因为传统的语音助手主要靠系统接口(API)办事,接口没开放的功能,它们就做不到。

Open-AutoGLM 的逻辑完全不一样。它像人一样,是通过“看”屏幕来操作的。

它背后用了一个叫 GLM-4V 的视觉语言模型。当你发出指令后,它会先给手机屏幕截个图,分析屏幕上有哪些按钮、图标、输入框,然后决定手指该点哪里、该往哪滑、该输入什么字。

我之所以选择折腾它,主要看重三点:

一是门槛低。这不需要你买那种几千块的主打AI的最新款手机,只要是安卓机,理论上都能跑。对于我们这种不想为了尝鲜AI就换手机的人来说,这很友好。

二是能跨软件操作。这是最吸引我的。比如我可以让它从大众点评找一家评分最高的餐厅,然后直接跳到微信发给朋友。这种跨APP的操作,以前只有人能做,现在AI也能做了。

三是开源免费。开源意味着代码是公开的,不仅免费,而且相对安全。数据是在自己手里跑,还是传到服务器,这些都比较透明。而且会有很多大神去魔改它,以后玩法会越来越多。

核心功能:它到底能干啥?

我下载配置好环境后,主要测试了这么几个场景,也是官方宣传里比较核心的功能。

APP自动化操作
这是最基础的。我试着对它说:“给我的朋友圈第一条动态点赞”。
它的反应过程是这样的:先打开微信 -> 点击发现 -> 点击朋友圈 -> 识别出第一条动态的点赞按钮 -> 点击点赞。
虽然速度比我自己点要慢几秒(因为它要截图分析),但它真的做到了。我也试了点外卖和打车,只要指令说得清楚,比如“在美团点一份麦当劳的巨无霸套餐”,它基本能走到支付前的那一步。

网页浏览助手
除了手机APP,它还有一个浏览器插件版本(AutoGLM-Web)。装在电脑的Chrome浏览器上,它能帮你查资料。比如我说“帮我查一下杭州明天的天气,并把穿衣建议总结一下”。它会自己打开百度,搜索天气,然后把关键信息抓取下来发给我。这对于需要做资料收集工作的人来说,是个省力的工具。

长流程任务处理
这个比较考验它的“智商”。我试了一个稍微复杂的:“去淘宝找一款销量最高的男士洗面奶,然后把链接复制发到微信的文件传输助手”。
这个任务中间涉及了:打开淘宝 -> 搜索 -> 筛选销量 -> 进详情页 -> 点分享 -> 复制链接 -> 切换微信 -> 粘贴发送。
测试了三次,成功了两次。有一次卡在了淘宝的弹窗广告上,它不知道怎么关掉那个广告,就愣住了。但这已经比传统的脚本强大太多了,因为它是在实时分析屏幕,而不是死板地按坐标点击。

安装和使用过程中的坑

虽然软件很强大,但我必须得泼盆冷水。目前的 Open-AutoGLM 绝不是一个“下载即用”的傻瓜式APP。如果你想自己部署,是有一定门槛的。

环境配置挺麻烦
你需要在电脑上安装 Python 环境,还要会用 GitHub 下代码。如果你从没用过终端或者命令行,这一步可能就会劝退。它涉及到安装很多依赖库,光是配环境我就折腾了一个多小时,中间还遇到了几个报错,全靠去搜索引擎找答案才解决。

硬件配置有要求
虽然说是可以在端侧运行,但如果你想在本地跑那个庞大的模型,对显卡是有要求的。如果你的电脑显卡不行,或者手机芯片太老,跑起来会非常卡,点一下反应半分钟,那就没法用了。
不过它也支持调用云端的 API(智谱的接口),这样对本地硬件要求就低了,但需要联网,而且 API 调用可能会产生费用(目前有免费额度)。

由于是“看”屏幕,容易受干扰
在使用过程中我发现,如果手机突然弹出一个微信消息通知,或者APP突然弹出一个“双十一大促”的广告,AI 可能会被干扰,导致误触或者操作中断。它毕竟不是真的人,对于突发状况的应变能力还没那么强。

隐私授权要谨慎
因为它需要截屏权限和辅助功能权限(Accessibility Service)才能模拟点击,这两个权限在安卓系统里是很高的。虽然是开源项目,代码可见,但在给权限的时候,大家心里还是要有个底,建议先在备用机上测试。

与其他同类软件的对比

为了让大家更直观地了解 Open-AutoGLM 处于什么水平,我拿它和平时大家接触到的工具做个对比表格。

维度 Open-AutoGLM 手机自带语音助手 (Siri/小爱) 自动化脚本工具 (按键精灵/Tasker)
操作原理 视觉识别 (像人眼看屏幕) 系统接口 (厂家写死的) 坐标点击/固定逻辑
灵活性 极高 (能应对UI变化) 低 (只能干系统允许的事) 低 (界面改版就失效)
安装难度 困难 (需配置代码环境) 无 (开机即用) 中 (需编写规则)
跨APP能力 (逻辑连贯) 弱 (很难连续跳跃) 中 (容易断链)
容错率 中 (偶尔发呆) 高 (做不到会直接说不行) 极低 (稍微错位就乱点)
费用 开源免费 (API可能收费) 免费 免费或收费

真实感受

折腾了一圈下来,我觉得 Open-AutoGLM 就像是一个刚刚学会走路的孩子。

它确实代表了未来的方向。你想想,以前我们操作手机,是人去适应机器,我们要记住所需要的按钮藏在哪个菜单里。而 Open-AutoGLM 这种 Agent(智能体),是让机器适应人,我说出需求,它自己去找路径解决。

但是,现阶段它还不能完全替代你的手指。它反应偏慢,偶尔会因为广告弹窗而“发呆”,安装过程对普通用户也不够友好。如果你只是想找个工具帮你省事,现在的它可能反而会让你觉得费事。

但如果你是一个极客,或者对 AI 落地应用感兴趣,那它绝对值得一玩。它让我们看到了“贾维斯”那种助手的雏形——不是只会陪聊,而是真的能帮你干活。

目前这个项目还在快速更新中,据说以后会出打包好的安装包,到时候门槛应该会降低不少。我会继续关注这个项目,如果出了更方便的版本,再来跟大家汇报。

大家如果手里有闲置的安卓机,愿意去 GitHub 上啃代码的,可以去搜一下 Open-AutoGLM 试试。记得回来评论区告诉我,你的 AI 帮你点的第一份外卖是什么。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐