手机也能自动点外卖了？不用换新机，开源的Open-AutoGLM上手体验

简单来说，Open-AutoGLM 就是一个能接管你手机和电脑屏幕的“AI大脑”。以前我们用的语音助手，比如Siri或者小爱同学，你让它们定个闹钟还行，但如果你说“帮我把刚才拍的照片发给微信置顶的朋友”，它们通常就傻眼了，或者直接给你弹出一个百度搜索结果。这是因为传统的语音助手主要靠系统接口（API）办事，接口没开放的功能，它们就做不到。Open-AutoGLM 的逻辑完全不一样。它像人一样，是通

2401_88055648

216人浏览 · 2025-12-25 00:31:51

2401_88055648 · 2025-12-25 00:31:51 发布

备用下载链接

最近我在科技圈看到一个很火的演示视频：对着手机说一句“帮我点一杯冰美式”，手机居然自己打开了外卖软件，找到星巴克，选好咖啡，最后停在支付页面等着确认。关键是，演示用的不是什么还没发布的概念机，就是一台很普通的安卓手机。

当时我就去查了一下，原来这是智谱AI和清华团队搞出来的东西，叫AutoGLM。前两天，他们把这个项目的核心代码开源了，名字叫 Open-AutoGLM。

作为一个平时喜欢折腾软件的人，我马上就去下载试了试。今天就跟大家聊聊这个东西到底是个什么鬼，好不好用，以及如果你也想玩，得注意点什么。
在这里插入图片描述

什么是Open-AutoGLM，我为啥要关注它

简单来说，Open-AutoGLM 就是一个能接管你手机和电脑屏幕的“AI大脑”。

以前我们用的语音助手，比如Siri或者小爱同学，你让它们定个闹钟还行，但如果你说“帮我把刚才拍的照片发给微信置顶的朋友”，它们通常就傻眼了，或者直接给你弹出一个百度搜索结果。这是因为传统的语音助手主要靠系统接口（API）办事，接口没开放的功能，它们就做不到。

Open-AutoGLM 的逻辑完全不一样。它像人一样，是通过“看”屏幕来操作的。

它背后用了一个叫 GLM-4V 的视觉语言模型。当你发出指令后，它会先给手机屏幕截个图，分析屏幕上有哪些按钮、图标、输入框，然后决定手指该点哪里、该往哪滑、该输入什么字。

我之所以选择折腾它，主要看重三点：

一是门槛低。这不需要你买那种几千块的主打AI的最新款手机，只要是安卓机，理论上都能跑。对于我们这种不想为了尝鲜AI就换手机的人来说，这很友好。

二是能跨软件操作。这是最吸引我的。比如我可以让它从大众点评找一家评分最高的餐厅，然后直接跳到微信发给朋友。这种跨APP的操作，以前只有人能做，现在AI也能做了。

三是开源免费。开源意味着代码是公开的，不仅免费，而且相对安全。数据是在自己手里跑，还是传到服务器，这些都比较透明。而且会有很多大神去魔改它，以后玩法会越来越多。

核心功能：它到底能干啥？

我下载配置好环境后，主要测试了这么几个场景，也是官方宣传里比较核心的功能。

APP自动化操作
这是最基础的。我试着对它说：“给我的朋友圈第一条动态点赞”。
它的反应过程是这样的：先打开微信 -> 点击发现 -> 点击朋友圈 -> 识别出第一条动态的点赞按钮 -> 点击点赞。
虽然速度比我自己点要慢几秒（因为它要截图分析），但它真的做到了。我也试了点外卖和打车，只要指令说得清楚，比如“在美团点一份麦当劳的巨无霸套餐”，它基本能走到支付前的那一步。

网页浏览助手
除了手机APP，它还有一个浏览器插件版本（AutoGLM-Web）。装在电脑的Chrome浏览器上，它能帮你查资料。比如我说“帮我查一下杭州明天的天气，并把穿衣建议总结一下”。它会自己打开百度，搜索天气，然后把关键信息抓取下来发给我。这对于需要做资料收集工作的人来说，是个省力的工具。

长流程任务处理
这个比较考验它的“智商”。我试了一个稍微复杂的：“去淘宝找一款销量最高的男士洗面奶，然后把链接复制发到微信的文件传输助手”。
这个任务中间涉及了：打开淘宝 -> 搜索 -> 筛选销量 -> 进详情页 -> 点分享 -> 复制链接 -> 切换微信 -> 粘贴发送。
测试了三次，成功了两次。有一次卡在了淘宝的弹窗广告上，它不知道怎么关掉那个广告，就愣住了。但这已经比传统的脚本强大太多了，因为它是在实时分析屏幕，而不是死板地按坐标点击。

安装和使用过程中的坑

虽然软件很强大，但我必须得泼盆冷水。目前的 Open-AutoGLM 绝不是一个“下载即用”的傻瓜式APP。如果你想自己部署，是有一定门槛的。

环境配置挺麻烦
你需要在电脑上安装 Python 环境，还要会用 GitHub 下代码。如果你从没用过终端或者命令行，这一步可能就会劝退。它涉及到安装很多依赖库，光是配环境我就折腾了一个多小时，中间还遇到了几个报错，全靠去搜索引擎找答案才解决。

硬件配置有要求
虽然说是可以在端侧运行，但如果你想在本地跑那个庞大的模型，对显卡是有要求的。如果你的电脑显卡不行，或者手机芯片太老，跑起来会非常卡，点一下反应半分钟，那就没法用了。
不过它也支持调用云端的 API（智谱的接口），这样对本地硬件要求就低了，但需要联网，而且 API 调用可能会产生费用（目前有免费额度）。

由于是“看”屏幕，容易受干扰
在使用过程中我发现，如果手机突然弹出一个微信消息通知，或者APP突然弹出一个“双十一大促”的广告，AI 可能会被干扰，导致误触或者操作中断。它毕竟不是真的人，对于突发状况的应变能力还没那么强。

隐私授权要谨慎
因为它需要截屏权限和辅助功能权限（Accessibility Service）才能模拟点击，这两个权限在安卓系统里是很高的。虽然是开源项目，代码可见，但在给权限的时候，大家心里还是要有个底，建议先在备用机上测试。

与其他同类软件的对比

为了让大家更直观地了解 Open-AutoGLM 处于什么水平，我拿它和平时大家接触到的工具做个对比表格。

维度	Open-AutoGLM	手机自带语音助手 (Siri/小爱)	自动化脚本工具 (按键精灵/Tasker)
操作原理	视觉识别 (像人眼看屏幕)	系统接口 (厂家写死的)	坐标点击/固定逻辑
灵活性	极高 (能应对UI变化)	低 (只能干系统允许的事)	低 (界面改版就失效)
安装难度	困难 (需配置代码环境)	无 (开机即用)	中 (需编写规则)
跨APP能力	强 (逻辑连贯)	弱 (很难连续跳跃)	中 (容易断链)
容错率	中 (偶尔发呆)	高 (做不到会直接说不行)	极低 (稍微错位就乱点)
费用	开源免费 (API可能收费)	免费	免费或收费

真实感受

折腾了一圈下来，我觉得 Open-AutoGLM 就像是一个刚刚学会走路的孩子。

它确实代表了未来的方向。你想想，以前我们操作手机，是人去适应机器，我们要记住所需要的按钮藏在哪个菜单里。而 Open-AutoGLM 这种 Agent（智能体），是让机器适应人，我说出需求，它自己去找路径解决。

但是，现阶段它还不能完全替代你的手指。它反应偏慢，偶尔会因为广告弹窗而“发呆”，安装过程对普通用户也不够友好。如果你只是想找个工具帮你省事，现在的它可能反而会让你觉得费事。

但如果你是一个极客，或者对 AI 落地应用感兴趣，那它绝对值得一玩。它让我们看到了“贾维斯”那种助手的雏形——不是只会陪聊，而是真的能帮你干活。

目前这个项目还在快速更新中，据说以后会出打包好的安装包，到时候门槛应该会降低不少。我会继续关注这个项目，如果出了更方便的版本，再来跟大家汇报。

大家如果手里有闲置的安卓机，愿意去 GitHub 上啃代码的，可以去搜一下 Open-AutoGLM 试试。记得回来评论区告诉我，你的 AI 帮你点的第一份外卖是什么。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

标书查重，如何让核心数据“不出门” 这个工具值得拥有

2048 AI社区

GEO服务商首选指南：阿尔法工场AiOptimus，AI时代品牌增长的绝对优选

不同于普通服务商爬取的社交媒体低质内容，这些经过三重审核的语料能精准适配大模型训练逻辑，某头部基金合作后，AI推荐内容的事实准确率从72%升至99%，彻底规避“认知退化”风险。GEO行业的乱象本质是“能力缺失下的套路丛生”，而阿尔法工场（北京凯金阿尔法科技有限责任公司）旗下的AiOptimus（官网：http://aioptimus.biz/），用RAG+STS的技术硬实力、全透明的服务体系、转化

2048 AI社区

MySQL性能优化

开启慢查询日志，定位运行慢的SQL语句利用explain执行计划，查看SQL执行情况关注索引使用情况：type关注Rows：行扫描关注Extra：没有信息最好加索引后，查看索引使用情况，index只是覆盖索引，并不算很好的使用索引如果有关联尽量将索引用到eq_ref或ref级别复杂SQL可以做成视图，视图在MySQL内部有优化，而且开发也比较友好对于复杂的SQL要逐一分析，找到比较费时的SQL语句