硬核教程!手搓豆包 AI 手机:Open-AutoGLM 与 GELab-Zero 详细指南
*企业开发者:**想快速体验 AI 手机 Agent ,推荐 Open-AutoGLM**个人开发者:**需要稳定的生产环境和多平台支持,推荐 GELab-Zero💡 推荐方案:两个项目均建议使用七牛云 AI 大模型推理服务,新用户可免费获得 300 万融合抵扣额度,无需本地部署。
七牛云 AI 大模型推理服务已上架 AutoGLM-Phone-9B 和 GELab-Zero-4B 两款官方模型,开箱即用!本文从开发者视角深入解析这两个热门开源项目,并提供完整的七牛云集成方案。

用开源项目打造一台“不被设限”的 AI 手机
最近,豆包 AI 手机(中兴版)确实火出圈,相信大家都像小编一样,既抢不到,又觉得二手溢价太高。更尴尬的是,近期不少用户发现,这款手机在试图接管微信、淘宝等国民级 App 时,往往会被应用端的安全策略“拦截”或阻止,买回来却发现核心场景没法用,实用性大打折扣。
其实,真正的 AI 手机未必需要购买昂贵的专用硬件。今天,让我们通过开源项目配合七牛云 AI 大模型推理服务,让手边的任何新老 Android 手机秒变 AI 神器,能够流畅操作微信、京东等主流应用,甚至能帮你自动发朋友圈、清理未读消息。
技术原理
这类 AI 手机 Agent 的核心原理非常简单:
1.屏幕截图:通过 ADB/HDC 等调试工具获取手机实时屏幕画面
2.视觉理解:将截图送入多模态大模型,理解当前界面内容和用户意图
3.动作规划:模型基于理解结果,规划下一步的操作动作(点击、滑动、输入等)
4.执行反馈:通过 ADB/HDC 执行操作,并获取新的屏幕截图形成闭环
这种方案的优势在于:
✅ 跨应用通用:不依赖特定应用的 API,理论上可以操作任何可见界面
✅ 自然语言交互:用户只需用自然语言描述需求,无需学习复杂的命令
✅ 视觉理解能力:能够理解界面布局、文字内容、图标含义等视觉信息
✅ 开发门槛低:基于成熟的 ADB 工具和大模型 API,开发者可以快速上手
应用场景
AI 手机 Agent 可以应用于多种实际场景:
- 生活助手:“帮我订一份附近的火锅外卖”
- 信息检索:“在某乎搜索如何学习理财,查看点赞最多的回答”
- 购物比价:“对比这款洗发水在某东和某宝的价格,选便宜的下单”
- 批量操作:“清理手机里所有已读的通知消息”

热门开源项目的差异与效果对比
目前开源社区中,Open-AutoGLM 和 GELab-Zero 是两个最受关注的 AI 手机 Agent 项目。虽然它们的核心思路类似,但在实现细节、模型选择和工程架构上有明显差异。
Open-AutoGLM - 智谱 AI
项目背景
- 开发团队:智谱 AI(清华大学知识工程实验室孵化)
- GitHub 星标:19.4k+ ⭐
- 模型基础:基于 GLM-4V 系列视觉语言模型
- 许可证:Apache-2.0
技术特点
1.多平台支持
✅ Android 7.0+ 设备(通过 ADB)
✅ HarmonyOS NEXT 设备(通过 HDC)
✅ iOS 设备(通过 WebDriverAgent)
2.模型方案
提供 AutoGLM-Phone-9B 和 AutoGLM-Phone-9B-Multilingual 两个版本。七牛云已上架官方 AutoGLM-Phone-9B 模型,推荐使用云端服务
3.安全机制
敏感操作确认机制
支付/登录场景人工接管
截图失败自动检测(黑屏检测)
GELab-Zero - 阶跃星辰
项目背景
- 开发团队:阶跃星辰(StepFun)
- GitHub 星标:1.7k+ ⭐
- 模型基础:GELab-Zero-4B-preview
- 许可证:MIT
技术特点
1.轻量级设计
仅 4B 参数的视觉语言模型
针对消费级硬件优化(Mac M 系列芯片、NVIDIA RTX 4060)
支持 INT8/INT4 量化,最低可降至 2.2GB
2.MCP 服务器支持
支持多设备管理和任务分发
首个支持 GUI-MCP-Server 的开源项目
提供 ReAct、多智能体协作、定时任务三种模式
3.Benchmark 性能
在 Android World 等真实场景测试中表现优异
GUI 理解、定位、交互等多维度评估领先
对比总结

选型建议
**企业开发者:**想快速体验 AI 手机 Agent ,推荐 Open-AutoGLM
**个人开发者:**需要稳定的生产环境和多平台支持,推荐 GELab-Zero
💡 推荐方案:两个项目均建议使用七牛云 AI 大模型推理服务,新用户可免费获得 300 万融合抵扣额度,无需本地部署
引入七牛云 AI 大模型服务
虽然两个项目都支持本地部署模型,但对于大多数开发者来说,本地部署存在硬件成本高、配置复杂、维护困难等挑战。

🎉 强烈推荐:使用七牛云 AI 大模型在线推理服务! 七牛云已上架 AutoGLM-Phone-9B 和 GELab-Zero-4B 两款官方模型,无需任何本地部署即可直接使用。
七牛云服务优势
- 官方模型直达
✅ 已上架 AutoGLM-Phone-9B 和 GELab-Zero-4B 官方模型
✅ 零部署成本,无需购买 GPU 硬件
✅ 开箱即用的 API 服务
- 完美兼容
标准的 OpenAI API 格式
可直接替换两个项目的模型后端
支持流式输出和多模态输入
- 高性能保障
专业运维团队保障服务稳定性
低延迟响应,平均延迟 < 500ms
根据调用按量计费,新用户免费获得 300 万融合抵扣额度
七牛云集成方案
七牛云提供标准的 OpenAI 格式 API,已上架的模型包括:
z-ai/autoglm-phone-9b - 适用于 Open-AutoGLM 项目
stepfun-ai/gelab-zero-4b-preview - 适用于 GELab-Zero 项目
# Open-AutoGLM 使用七牛云示例
from phone_agent import PhoneAgent
from phone_agent.model import ModelConfig
model_config = ModelConfig(
base_url="http://openai.qiniu.com/v1",
api_key="YOUR_QINIU_API_KEY",
model_name="z-ai/autoglm-phone-9b", # 七牛云已上架
)
agent = PhoneAgent(model_config=model_config)
result = agent.run("使用浏览器找到七牛云官网")
详细安装与配置指南(使用 AI 助手自动化部署)
💡 智能安装方式:本章节推荐使用 AI 编程助手(如 GitHub Copilot、Claude Code 等)来自动化完成项目安装和配置。AI 助手可以实时读取官方最新文档,确保你获得最准确的安装步骤。
为什么推荐使用 AI 助手?
1.始终获取最新信息-AI 助手可以实时访问官方仓库,获取最新的安装文档和依赖版本
2.自动化错误排查-遇到问题时,AI 可以分析错误日志并提供针对性解决方案
3.个性化配置-根据你的系统环境(macOS/Windows/Linux)自动调整安装命令
4.节省时间-无需手动查阅多个文档,AI 帮你一步到位
使用 AI 助手安装 Open-AutoGLM
准备工作
1.克隆项目到本地
# 克隆 Open-AutoGLM 仓库
git clone https://github.com/zai-org/Open-AutoGLM.git
cd Open-AutoGLM
# 在 VS Code 中打开项目
code .
2.申请七牛云 API Key
访问 七牛云官网:
- 注册/登录账号
- 进入「AI 大模型推理服务」
- 创建 API Key
- 选择已上架的模型:z-ai/autoglm-phone-9b
3.使用 AI 助手完成安装
在 VS Code 中打开项目后,先使用 USB 连接线将手机连接到电脑,然后向 AI 助手(GitHub Copilot Chat / Claude Code)提问:
请帮我完成以下任务:
1. 阅读这个项目的 README.md 文件,了解安装步骤
2. 检测我的系统环境(操作系统、Python 版本)
3. 根据官方文档,帮我安装所有依赖
4. 配置 ADB/HDC 工具(如果需要)
5. 配置手机设备连接
6. 安装 ADB Keyboard(Android 设备)
7. 验证安装是否成功
我的设备类型是:[Android / HarmonyOS / iOS]
我想使用七牛云 API,而不是本地部署模型
4.集成七牛云 API
安装完成后,让 AI 助手帮你配置七牛云 API:
请帮我配置七牛云 API:
1. 我的 API Key 是:YOUR_QINIU_API_KEY
2. 模型名称:z-ai/autoglm-phone-9b
3. API 地址:https://openai.qiniu.com/v1
4. 生成命令行测试说明
5.根据 AI 输出测试命令运行,例如:
# 让 AI 助手帮你测试
python main.py \
--base-url "https://openai.qiniu.com/v1" \
--apikey "YOUR_QINIU_API_KEY" \
"打开设置查看手机信息"
常见问题处理
遇到任何问题时,直接将错误信息粘贴给 AI 助手:
安装时遇到以下错误:
[错误日志]
请帮我分析问题并提供解决方案
AI 助手会:
- 分析错误原因
- 查阅官方 Issues 和文档
- 提供详细的解决步骤
- 如果需要,修改配置文件或脚本
使用 AI 助手安装 GELab-Zero
准备工作
1.克隆项目到本地
# 克隆 GELab-Zero 仓库
git clone https://github.com/stepfun-ai/gelab-zero
cd gelab-zero
# 在 VS Code 中打开项目
code .
2.使用 AI 助手完成安装
向 AI 助手提问:
请帮我完成以下任务:
1. 阅读项目的 README.md 和安装文档
2. 检查 Python 版本要求(项目要求 3.12+)
3. 如果 Python 版本不符合,指导我安装 Miniforge
4. 创建虚拟环境并激活
5. 安装所有依赖
6. 配置 ADB 工具
7. 验证安装
我想使用七牛云 API 来替代本地模型部署
3.集成七牛云 API
请帮我修改配置,使用七牛云 API:
1. 找到项目中的模型配置文件
2. 修改配置,使用七牛云的 API
3. API Key: YOUR_QINIU_API_KEY
4. 模型名称: stepfun-ai/gelab-zero-4b
5. API 地址: https://openai.qiniu.com/v1
4.启动可视化界面(可选)
请帮我启动 GELab-Zero 的可视化界面:
1. 找到 Streamlit 可视化脚本
2. 启动服务
3. 告诉我如何访问界面
更多推荐

所有评论(0)