【GitHub开源AI精选】Open-AutoGLM:智谱AI开源的手机端智能助理框架,开启自动化操作新时代
Open-AutoGLM 是一个由智谱AI开源的手机端智能助理框架,基于AutoGLM构建。它能够通过自然语言指令,以多模态方式理解手机屏幕内容,并执行自动化操作来完成用户任务。该框架利用ADB控制设备,结合视觉语言模型感知屏幕,自动生成并执行操作流程。它支持多种操作,如点击、滑动、输入文本等,还内置敏感操作确认机制,确保用户隐私和数据安全。Open-AutoGLM 支持50多款主流中文应用,覆盖
系列篇章💥
目录
前言
在当今数字化时代,人工智能技术正以前所未有的速度改变着我们的生活和工作方式。从语音助手到智能家居,AI的应用场景不断拓展。如今,智谱AI开源的Open-AutoGLM项目,为手机端智能助理领域带来了新的突破。它通过自然语言指令实现手机操作的自动化,让手机真正成为我们的智能助手。
一、项目概述
Open-AutoGLM 是一个由智谱AI开源的手机端智能助理框架,基于AutoGLM构建。它能够通过自然语言指令,以多模态方式理解手机屏幕内容,并执行自动化操作来完成用户任务。该框架利用ADB控制设备,结合视觉语言模型感知屏幕,自动生成并执行操作流程。它支持多种操作,如点击、滑动、输入文本等,还内置敏感操作确认机制,确保用户隐私和数据安全。Open-AutoGLM 支持50多款主流中文应用,覆盖社交、电商、外卖等多个场景,旨在推动AI技术在移动端的发展和应用。
二、核心功能
(一)自然语言理解与任务执行
Open-AutoGLM能够精准解析用户的自然语言指令,并将其转化为具体的手机操作。无论是简单的应用启动,还是复杂的多步骤任务,如在不同电商平台上比价商品,它都能轻松应对。
(二)多模态界面理解
该框架结合视觉语言模型,可准确理解手机屏幕上的各种UI元素。它能够识别文字、图标、按钮等界面内容,从而实现对界面的精准感知,为后续的操作提供依据。
(三)自动化操作
Open-AutoGLM支持模拟真实用户在手机上的多样化操作,包括点击、滑动、文本输入、长按和双击等。这些操作与真实用户行为高度一致,能够流畅地完成各种任务。
(四)隐私与安全保障
在涉及敏感操作时,如支付、隐私设置等,系统会要求用户进行确认,确保操作的安全性。同时,在需要登录或验证码的场景下,支持人工接管功能,保障用户隐私。
(五)远程调试与控制
Open-AutoGLM支持通过WiFi或网络进行远程ADB调试,无需物理连接设备即可实现远程控制与开发。这为开发者提供了极大的便利,提高了开发效率。
(六)广泛应用支持
目前,Open-AutoGLM已兼容50多款主流中文手机应用,涵盖社交、电商、外卖、娱乐等多个领域,能够满足用户在不同场景下的需求。
三、技术揭秘
(一)视觉 - 语言模型集成
Open-AutoGLM使用的AutoGLM-Phone-9B模型经过专门优化,能够处理移动设备的复杂界面。该模型支持通过vLLM或SGLang等推理框架部署,并提供OpenAI兼容的API接口。
(二)ADB自动化机制
系统通过ADB提供的各种命令来控制设备,实现对手机的自动化操作。例如,通过tap(x, y)命令在指定坐标点击,swipe(start_x, start_y, end_x, end_y)命令从起点滑动到终点等。
(三)任务执行生命周期
PhoneAgent的任务执行遵循一个完整的生命周期:初始化、接收任务、循环执行以及结束。在每次迭代中,系统会捕获屏幕、调用模型、执行操作,直到任务完成或达到最大步数限制。
四、应用场景
(一)外卖点餐
用户只需用自然语言描述需求,如“打开美团外卖,搜索附近的火锅店并下单”。Open-AutoGLM能够自动打开美团应用,精准定位到火锅店,查看评价和价格,甚至能自动选择套餐并完成下单操作,整个过程无需用户手动操作,大大节省了时间,让点餐变得更加便捷高效。
(二)社交媒体互动
在微信、微博等社交应用中,用户可以指令AI“点赞好友的最新动态”或“评论抖音视频”。Open-AutoGLM能够自动识别相关内容,精准定位到目标动态或视频,并执行点赞、评论等操作。它还能根据用户的指令生成合适的评论内容,让社交互动更加轻松自然。
(三)办公自动化
在办公软件(如WPS、Microsoft Office)中,用户可以通过语音或文字指令“创建一个名为‘项目计划’的文档并写入会议内容”。Open-AutoGLM能够自动完成文档的创建,并根据用户提供的内容进行编辑和排版,甚至可以插入图表和图片,帮助用户快速整理和优化文档,提高办公效率。
(四)智能家居控制
通过智能家居应用(如小米智能家居),Open-AutoGLM能够精准识别并控制相应的设备。用户只需说“打开客厅的灯并调节到暖光模式”,它就能自动识别并执行操作,实现家居场景的自动化切换,让智能家居设备更加智能和便捷。
(五)交通出行
在地图或打车应用(如高德地图、滴滴出行)中,Open-AutoGLM能够实时规划路线并完成叫车操作。用户只需用自然语言描述目的地,如“我要去机场”,它就能自动打开地图应用,规划最优路线,并在滴滴出行中完成叫车操作,方便快捷。
(六)信息查询
用户可以使用自然语言指令查询各种信息,如“查询明天北京到上海的高铁车次和票价”。Open-AutoGLM能够自动打开12306或其他旅行应用,查询相关信息,并将结果以简洁的方式反馈给用户,帮助用户快速获取所需信息。
五、快速使用
(一)环境准备
- 安装Python:建议使用Python 3.10及以上版本。
- 安装ADB:下载并安装ADB工具,将ADB的路径添加到系统环境变量中。
- 配置安卓设备:确保安卓设备已启用开发者模式和USB调试,并连接到电脑。
- 安装ADB Keyboard:下载并安装ADB Keyboard应用,并在设备的输入法设置中启用。
(二)下载和安装
- 克隆项目代码:访问Open-AutoGLM的GitHub仓库,点击页面右上角的“Code”按钮,选择“Download ZIP”下载项目代码。解压下载的文件到本地一个方便的目录。
- 安装依赖:打开命令行工具,切换到解压后的项目目录,运行以下命令安装依赖:
pip install -r requirements.txt
pip install -e .
(三)模型服务部署
1、智谱 BigModel
文档: https://docs.bigmodel.cn/cn/api/introduction
–base-url: https://open.bigmodel.cn/api/paas/v4
–model: autoglm-phone
–apikey: 在智谱平台申请你的 API Key
2、ModelScope(魔搭社区)
文档: https://modelscope.cn/models/ZhipuAI/AutoGLM-Phone-9B
–base-url: https://api-inference.modelscope.cn/v1
–model: ZhipuAI/AutoGLM-Phone-9B
–apikey: 在 ModelScope 平台申请你的 API Key
3、本地部署模型
提前安装vLLM,启动模型服务:
python3 -m vllm.entrypoints.openai.api_server \
--served-model-name autoglm-phone-9b \
--allowed-local-media-path / \
--mm-encoder-tp-mode data \
--mm_processor_cache_type shm \
--mm_processor_kwargs "{\"max_pixels\":5000000}" \
--max-model-len 25480 \
--chat-template-content-format string \
--limit-mm-per-prompt "{\"image\":10}" \
--model zai-org/AutoGLM-Phone-9B \
--port 8000
模型服务地址为http://localhost:8000/v1。
(四)运行任务
- 交互模式:运行以下命令进入交互模式:
python main.py --base-url <model_service_url> --model "autoglm-phone-9b"
在交互模式下,用户可以输入自然语言指令,系统会自动执行相应的操作。
2. 单次任务:运行以下命令执行单次任务:
python main.py --base-url <model_service_url> --model "autoglm-phone-9b" "任务描述"
示例:python main.py --base-url http://localhost:8000/v1 --model "autoglm-phone-9b" "打开微信,给文件传输助手发送消息:测试成功"。
六、结语
Open-AutoGLM作为智谱AI开源的手机端智能助理框架,凭借其强大的自然语言理解和自动化操作能力,为我们的生活和工作带来了极大的便利。它不仅能够提高我们的效率,还为开发者提供了一个极具潜力的平台,推动了AI技术在移动端的发展。未来,随着技术的不断进步和完善,Open-AutoGLM有望在更多领域发挥更大的作用,让我们拭目以待。
项目地址
- GitHub仓库:https://github.com/zai-org/Open-AutoGLM
- HuggingFace模型库:https://huggingface.co/zai-org/AutoGLM-Phone-9B

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南、AI大模型探索之路(零基础入门)、AI大模型预训练微调进阶、AI大模型开源精选实践、AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑
😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!
更多推荐



所有评论(0)