大家好,我是小悟。

凌晨刷到智谱开源AutoGLM的消息时,我正对着手机屏幕发愁,想给外地朋友订张机票,结果在航旅纵横、支付宝、微信之间来回切换,填错两次身份证号才成功。

要是有个“数字助手”能替我搞定这些重复操作,该多省心?没想到第二天,这个幻想就照进了现实。

在这里插入图片描述

AI终于捅破了那层屏幕

过去两年,大模型把“动嘴”的能力卷到了极致,写代码、写剧本、甚至写情书都不在话下。但真正融入生活,总隔着一层玻璃。

毕竟我们每天花在手机上的时间超过5小时,点外卖、订酒店、回消息这些高频操作,AI始终插不上手。

AutoGLM的突破,就在于它撕开了这层屏障。这个能“看见”屏幕、“理解”界面逻辑的AI,像给手机装了个“数字分身”。它能自动在美团选餐厅、在抖音点赞关注、甚至在微信发红包时精准输入金额和祝福语。

这种“拟人化”操作背后,简单说,就是给AI配了个“军师”和“士兵”,规划层负责拆解任务步骤(比如“订机票”要分解为“打开航旅→搜索航班→填信息→支付”),落地层则精准定位界面元素(比如点击“搜索框”而不是广告位)。

在这里插入图片描述

一场关于AI手机生态的“全民实验”

智谱这次开源的“杀招”,不是单纯开放模型参数,而是直接来了一套“完整工具箱”,核心模型、操作框架、50多个高频APP的Demo,甚至适配工具链。

这意味着,任何手机厂商、开发者都能“拿来就用”,在本地或云端快速复现一个能跨APP操作的AI助手。

这对安卓生态简直是“久旱逢甘霖”。安卓虽以开源立足,却困于“碎片化”。全球上万多种设备型号、各厂商定制化系统,让开发者适配成本暴涨。

更关键的是,安卓缺乏统一的AI底座,跨APP协同像在“隔墙喊话”。AutoGLM的开源,相当于给每个玩家发了张“通用通行证”,中小厂商不用烧钱研发,头部厂商也能聚焦差异化创新(比如给AI助手加方言语音、定制化界面)。

更颠覆的是,它重构了手机交互逻辑。传统安卓依赖“应用图标入口”,用户需要手动切换APP完成任务。

而AutoGLM让AI成了“跨APP中枢”,你想“订机票+订酒店+租车”,只需说一句,AI就能自动在航旅、携程、神州租车间跳转,像有个私人助理在帮你跑腿。

这种变化,正在瓦解“应用分发为核心”的旧秩序,未来或许会催生新的流量入口和商业模式。

本地部署就像吃了“定心丸”

当然,也有人担心,能操作手机的AI,会不会偷看聊天记录、泄露支付信息?智谱早料到了这一点,AutoGLM支持本地部署,数据完全留在用户手机或服务器里。

这种“数据主权”设计,直接戳中了用户对云端AI的信任痛点,也让其他依赖云端推理的方案显得“不够诚意”。

AI手机,从“概念”走向“实用”

太多“PPT创新”是概念炫酷,但落地就凉。AutoGLM的不同在于,它解决的是真实痛点。

每天重复的点外卖、订机票、回消息,这些“小事”占用了大量时间,却没技术难度,只是缺个“数字帮手”。

智谱选择开源而非闭源,或许是想通过降低技术门槛,吸引更多开发者加入,共同把AI手机的“蛋糕”做大。

就像安卓当年靠开源打败塞班,AutoGLM或许正在为AI手机制定新的规则,谁先构建起开放的生态,谁就能定义下一代交互标准。

你的手机,正在变成“数字副手”

想象一下这样的场景,早上起床,AI自动帮你取消昨晚误点的外卖订单。上班路上,它根据你的日程订好会议室、发好会议通知。

下班回家,它已经根据冰箱存货和你的口味,在生鲜平台下单了晚餐食材。这些曾经只存在于科幻电影里的画面,可能因为AutoGLM的开源,很快就变成现实。

当然,技术落地需要时间。目前AutoGLM还只能处理高频场景,复杂任务仍需优化,跨设备协同也还在探索中。

但至少,它已经迈出了最关键的一步,让AI从“能说”变成“能做”,从“玩具”变成“工具”。

作为普通用户,我期待的不是更炫酷的技术,而是技术如何让生活更轻松。毕竟,谁不想多睡半小时,让AI替自己“跑腿”呢?

AutoGLM的开源,让我看到了这种可能,它或许会成为AI手机时代的“安卓”,让每台手机都长出AI大脑,让每个人都能拥有一个24小时在线的“数字分身”。

本地安装与使用,源代码部署,更多详细步骤和用法,详见仓库文档:

环境准备

1. Python 环境
建议使用 Python 3.10 及以上版本。

2. ADB (Android Debug Bridge)
下载官方 ADB 安装包,并解压到自定义路径
配置环境变量
MacOS 配置方法:在 Terminal 或者任何命令行工具里

# 假设解压后的目录为 ~/Downloads/platform-tools。如果不是请自行调整命令。
export PATH=${PATH}:~/Downloads/platform-tools
Windows 配置方法:可参考 第三方教程 进行配置。

3. Android 7.0+ 的设备或模拟器,并启用 开发者模式 和 USB 调试
开发者模式启用:通常启用方法是,找到 设置-关于手机-版本号 然后连续快速点击 10 次左右,直到弹出弹窗显示“开发者模式已启用”。不同手机会有些许差别,如果找不到,可以上网搜索一下教程。
USB 调试启用:启用开发者模式之后,会出现 设置-开发者选项-USB 调试,勾选启用
部分机型在设置开发者选项以后, 可能需要重启设备才能生效. 可以测试一下: 将手机用USB数据线连接到电脑后, adb devices 查看是否有设备信息, 如果没有说明连接失败.

4. 安装 ADB Keyboard(用于文本输入)
下载 安装包 并在对应的安卓设备中进行安装。 注意,安装完成后还需要到 设置-输入法 或者 设置-键盘列表 中启用 ADB Keyboard 才能生效(或使用命令adb shell ime enable com.android.adbkeyboard/.AdbIMEHow-to-use)

部署准备工作

1. 安装依赖
pip install -r requirements.txt 
pip install -e .

2. 配置 ADB
确认 USB数据线具有数据传输功能, 而不是仅有充电功能

确保已安装 ADB 并使用 USB数据线 连接设备:

# 检查已连接的设备
adb devices

# 输出结果应显示你的设备,如:
# List of devices attached
# emulator-5554   device

3. 启动模型服务
智谱 BigModel
文档: https://docs.bigmodel.cn/cn/api/introduction
--base-url: https://open.bigmodel.cn/api/paas/v4
--model: autoglm-phone
--apikey: 在智谱平台申请你的 API Key

ModelScope(魔搭社区)
文档: https://modelscope.cn/models/ZhipuAI/AutoGLM-Phone-9B
--base-url: https://api-inference.modelscope.cn/v1
--model: ZhipuAI/AutoGLM-Phone-9B
--apikey:ModelScope 平台申请你的 API Key

# 使用智谱 BigModel
python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "your-bigmodel-api-key" "打开美团搜索附近的火锅店"

# 使用 ModelScope
python main.py --base-url https://api-inference.modelscope.cn/v1 --model "ZhipuAI/AutoGLM-Phone-9B" --apikey "your-modelscope-api-key" "打开美团搜索附近的火锅店"

开源社区:
在这里插入图片描述
图片

谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。

您的一键三连,是我更新的最大动力,谢谢

山水有相逢,来日皆可期,谢谢阅读,我们再会

我手中的金箍棒,上能通天,下能探海

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐