手机也能自动点外卖了?不用换新机,开源的Open-AutoGLM上手体验
简单来说,Open-AutoGLM 就是一个能接管你手机和电脑屏幕的“AI大脑”。以前我们用的语音助手,比如Siri或者小爱同学,你让它们定个闹钟还行,但如果你说“帮我把刚才拍的照片发给微信置顶的朋友”,它们通常就傻眼了,或者直接给你弹出一个百度搜索结果。这是因为传统的语音助手主要靠系统接口(API)办事,接口没开放的功能,它们就做不到。Open-AutoGLM 的逻辑完全不一样。它像人一样,是通
最近我在科技圈看到一个很火的演示视频:对着手机说一句“帮我点一杯冰美式”,手机居然自己打开了外卖软件,找到星巴克,选好咖啡,最后停在支付页面等着确认。关键是,演示用的不是什么还没发布的概念机,就是一台很普通的安卓手机。
当时我就去查了一下,原来这是智谱AI和清华团队搞出来的东西,叫AutoGLM。前两天,他们把这个项目的核心代码开源了,名字叫 Open-AutoGLM。
作为一个平时喜欢折腾软件的人,我马上就去下载试了试。今天就跟大家聊聊这个东西到底是个什么鬼,好不好用,以及如果你也想玩,得注意点什么。
什么是Open-AutoGLM,我为啥要关注它
简单来说,Open-AutoGLM 就是一个能接管你手机和电脑屏幕的“AI大脑”。
以前我们用的语音助手,比如Siri或者小爱同学,你让它们定个闹钟还行,但如果你说“帮我把刚才拍的照片发给微信置顶的朋友”,它们通常就傻眼了,或者直接给你弹出一个百度搜索结果。这是因为传统的语音助手主要靠系统接口(API)办事,接口没开放的功能,它们就做不到。
Open-AutoGLM 的逻辑完全不一样。它像人一样,是通过“看”屏幕来操作的。
它背后用了一个叫 GLM-4V 的视觉语言模型。当你发出指令后,它会先给手机屏幕截个图,分析屏幕上有哪些按钮、图标、输入框,然后决定手指该点哪里、该往哪滑、该输入什么字。
我之所以选择折腾它,主要看重三点:
一是门槛低。这不需要你买那种几千块的主打AI的最新款手机,只要是安卓机,理论上都能跑。对于我们这种不想为了尝鲜AI就换手机的人来说,这很友好。
二是能跨软件操作。这是最吸引我的。比如我可以让它从大众点评找一家评分最高的餐厅,然后直接跳到微信发给朋友。这种跨APP的操作,以前只有人能做,现在AI也能做了。
三是开源免费。开源意味着代码是公开的,不仅免费,而且相对安全。数据是在自己手里跑,还是传到服务器,这些都比较透明。而且会有很多大神去魔改它,以后玩法会越来越多。
核心功能:它到底能干啥?
我下载配置好环境后,主要测试了这么几个场景,也是官方宣传里比较核心的功能。
APP自动化操作
这是最基础的。我试着对它说:“给我的朋友圈第一条动态点赞”。
它的反应过程是这样的:先打开微信 -> 点击发现 -> 点击朋友圈 -> 识别出第一条动态的点赞按钮 -> 点击点赞。
虽然速度比我自己点要慢几秒(因为它要截图分析),但它真的做到了。我也试了点外卖和打车,只要指令说得清楚,比如“在美团点一份麦当劳的巨无霸套餐”,它基本能走到支付前的那一步。
网页浏览助手
除了手机APP,它还有一个浏览器插件版本(AutoGLM-Web)。装在电脑的Chrome浏览器上,它能帮你查资料。比如我说“帮我查一下杭州明天的天气,并把穿衣建议总结一下”。它会自己打开百度,搜索天气,然后把关键信息抓取下来发给我。这对于需要做资料收集工作的人来说,是个省力的工具。
长流程任务处理
这个比较考验它的“智商”。我试了一个稍微复杂的:“去淘宝找一款销量最高的男士洗面奶,然后把链接复制发到微信的文件传输助手”。
这个任务中间涉及了:打开淘宝 -> 搜索 -> 筛选销量 -> 进详情页 -> 点分享 -> 复制链接 -> 切换微信 -> 粘贴发送。
测试了三次,成功了两次。有一次卡在了淘宝的弹窗广告上,它不知道怎么关掉那个广告,就愣住了。但这已经比传统的脚本强大太多了,因为它是在实时分析屏幕,而不是死板地按坐标点击。
安装和使用过程中的坑
虽然软件很强大,但我必须得泼盆冷水。目前的 Open-AutoGLM 绝不是一个“下载即用”的傻瓜式APP。如果你想自己部署,是有一定门槛的。
环境配置挺麻烦
你需要在电脑上安装 Python 环境,还要会用 GitHub 下代码。如果你从没用过终端或者命令行,这一步可能就会劝退。它涉及到安装很多依赖库,光是配环境我就折腾了一个多小时,中间还遇到了几个报错,全靠去搜索引擎找答案才解决。
硬件配置有要求
虽然说是可以在端侧运行,但如果你想在本地跑那个庞大的模型,对显卡是有要求的。如果你的电脑显卡不行,或者手机芯片太老,跑起来会非常卡,点一下反应半分钟,那就没法用了。
不过它也支持调用云端的 API(智谱的接口),这样对本地硬件要求就低了,但需要联网,而且 API 调用可能会产生费用(目前有免费额度)。
由于是“看”屏幕,容易受干扰
在使用过程中我发现,如果手机突然弹出一个微信消息通知,或者APP突然弹出一个“双十一大促”的广告,AI 可能会被干扰,导致误触或者操作中断。它毕竟不是真的人,对于突发状况的应变能力还没那么强。
隐私授权要谨慎
因为它需要截屏权限和辅助功能权限(Accessibility Service)才能模拟点击,这两个权限在安卓系统里是很高的。虽然是开源项目,代码可见,但在给权限的时候,大家心里还是要有个底,建议先在备用机上测试。
与其他同类软件的对比
为了让大家更直观地了解 Open-AutoGLM 处于什么水平,我拿它和平时大家接触到的工具做个对比表格。
| 维度 | Open-AutoGLM | 手机自带语音助手 (Siri/小爱) | 自动化脚本工具 (按键精灵/Tasker) |
|---|---|---|---|
| 操作原理 | 视觉识别 (像人眼看屏幕) | 系统接口 (厂家写死的) | 坐标点击/固定逻辑 |
| 灵活性 | 极高 (能应对UI变化) | 低 (只能干系统允许的事) | 低 (界面改版就失效) |
| 安装难度 | 困难 (需配置代码环境) | 无 (开机即用) | 中 (需编写规则) |
| 跨APP能力 | 强 (逻辑连贯) | 弱 (很难连续跳跃) | 中 (容易断链) |
| 容错率 | 中 (偶尔发呆) | 高 (做不到会直接说不行) | 极低 (稍微错位就乱点) |
| 费用 | 开源免费 (API可能收费) | 免费 | 免费或收费 |
真实感受
折腾了一圈下来,我觉得 Open-AutoGLM 就像是一个刚刚学会走路的孩子。
它确实代表了未来的方向。你想想,以前我们操作手机,是人去适应机器,我们要记住所需要的按钮藏在哪个菜单里。而 Open-AutoGLM 这种 Agent(智能体),是让机器适应人,我说出需求,它自己去找路径解决。
但是,现阶段它还不能完全替代你的手指。它反应偏慢,偶尔会因为广告弹窗而“发呆”,安装过程对普通用户也不够友好。如果你只是想找个工具帮你省事,现在的它可能反而会让你觉得费事。
但如果你是一个极客,或者对 AI 落地应用感兴趣,那它绝对值得一玩。它让我们看到了“贾维斯”那种助手的雏形——不是只会陪聊,而是真的能帮你干活。
目前这个项目还在快速更新中,据说以后会出打包好的安装包,到时候门槛应该会降低不少。我会继续关注这个项目,如果出了更方便的版本,再来跟大家汇报。
大家如果手里有闲置的安卓机,愿意去 GitHub 上啃代码的,可以去搜一下 Open-AutoGLM 试试。记得回来评论区告诉我,你的 AI 帮你点的第一份外卖是什么。
更多推荐

所有评论(0)