【GitHub开源AI精选】TuriX-CUA:开源AI桌面Agent,让AI像真人一样接管Windows和macOS
TuriX-CUA是一个基于Python开发的开源AI智能体项目,其核心目标是让大语言模型具备操作电脑的能力。它通过“看屏幕-理解-操作”的循环,实现自动化任务执行,支持Windows和MacOS系统,并且可以通过MCP协议与其他AI工具集成,极大地扩展了应用场景。
系列篇章💥
目录
前言
在AI技术飞速发展的今天,大语言模型的应用已经从简单的对话交互逐渐拓展到实际的自动化操作领域。TuriX-CUA项目应运而生,它旨在通过开源的方式,让AI能够直接操作电脑,实现各种复杂的任务自动化,为开发者和用户提供一种全新的高效工作模式。
一、项目概述
TuriX-CUA是一个基于Python开发的开源AI智能体项目,其核心目标是让大语言模型具备操作电脑的能力。它通过“看屏幕-理解-操作”的循环,实现自动化任务执行,支持Windows和MacOS系统,并且可以通过MCP协议与其他AI工具集成,极大地扩展了应用场景。
二、核心功能
(一)智能屏幕识别与操作
TuriX-CUA能够通过截屏识别屏幕内容,精准地模拟鼠标点击和键盘输入,从而实现自动化任务执行。它采用先进的UI定位技术,即使面对复杂的网页或非标准界面元素,也能准确识别并进行操作。
(二)多模态任务执行
该工具支持多种复杂任务,如预订机票、搜索信息、生成图表并插入文档等。它结合视觉信息和上下文语义分析,提供更自然的人机对话体验,能够理解用户意图并完成复杂的多步骤操作。
(三)多模型架构
TuriX-CUA采用Planner和Executor分工合作的多模型架构。Planner负责将复杂任务拆解为多个可执行的子步骤,Executor则负责具体的交互操作。这种分工模式不仅提高了任务执行的成功率和稳定性,还降低了单一模型的认知负荷。
(四)跨平台支持
TuriX-CUA兼容Windows和MacOS两大主流操作系统,能够满足不同用户的操作系统需求,使其在更广泛的场景中得以应用。
(五)MCP协议集成
通过支持MCP协议,TuriX-CUA可以与Claude等其他AI工具无缝协作。这意味着用户可以在这些应用中直接下达自然语言指令,由Claude通过MCP协议调度TuriX执行相应操作,从而实现复杂任务的自动化。
(六)灵活的模型配置
用户可以根据自身需求更换底层AI模型,如OpenAI或本地部署的Qwen3-VL,以满足不同的性能和隐私要求。
(七)任务规划与分解
TuriX-CUA能够将复杂任务拆解为多个步骤,逐一执行,从而提升任务的完成度。这种任务规划能力使其能够应对更复杂的自动化需求。
三、技术揭秘
(一)三步循环:看-想-动
TuriX-CUA的核心逻辑是一个不断循环的三步流程:
- 看(See)——屏幕截图:每隔固定时间间隔,TuriX会对当前屏幕进行截图。在MacOS上使用系统级截图API,在Windows上则使用PIL或pyautogui等库。
- 想(Think)——多模态模型推理:将截图发送给多模态大语言模型(VLM),同时附带任务描述和上下文信息。模型会返回一个结构化的操作指令,并附带推理过程,这使得整个系统具备了可解释性。
- 动(Act)——执行操作:根据模型返回的指令,TuriX通过模拟鼠标和键盘操作来执行具体任务。
(二)状态感知与异常处理
TuriX-CUA具备一定的状态感知和异常处理能力。它能够检测页面加载状态、识别并处理弹窗,甚至在操作失败时尝试回退或换一种方式。这些能力通过在prompt中加入详细的指导以及利用多模态模型的视觉理解能力来实现。
四、应用场景
(一)文档处理
TuriX-CUA能够自动创建、编辑和发送文档,如Word、Excel和PowerPoint。它可以根据用户指令生成报告、插入图表,并将文档发送给指定联系人,极大地提高了文档处理的效率,尤其适合需要频繁撰写和修改文档的办公场景。
(二)邮件管理
在邮件管理方面,TuriX-CUA可以自动撰写、发送和回复邮件。用户只需设置好规则,它就能自动处理日常邮件任务,如回复常见问题、整理邮件分类等,帮助用户节省时间,提升邮件处理的效率。
(三)数据收集
TuriX-CUA能够自动从网页或应用程序中提取数据,例如搜索并记录产品价格、股票信息等。它可以通过自动化操作,快速收集和整理数据,为用户提供准确的信息支持,适用于市场调研、数据分析等场景。
(四)内容搜索与浏览
TuriX-CUA可以在浏览器中自动搜索内容、浏览网页,并执行点赞、评论或分享等操作。它能够根据用户指令快速定位信息,完成社交互动或内容筛选,适合需要频繁浏览和操作网页的用户。
(五)界面测试
对于软件开发人员,TuriX-CUA可以自动测试软件的用户界面,验证功能是否正常运行。它能够模拟用户操作,检查界面元素的响应情况,帮助开发者快速发现并修复问题,提升软件的稳定性和用户体验。
(六)商务操作
TuriX-CUA能够完成复杂的商务操作,如预订机票、酒店和网约车。它能够自动填写表单、比较价格并完成预订流程,为商务出行提供便捷支持,节省用户的时间和精力。
(七)社交媒体管理
在社交媒体管理方面,TuriX-CUA可以自动搜索视频、点赞内容、收集信息等。它能够根据用户设定的规则,自动完成社交媒体的互动操作,帮助用户更好地管理社交媒体账号。
(八)开发测试
TuriX-CUA可以辅助开发者在VS Code中编写代码、调试项目,甚至自动化测试软件功能。它能够根据用户指令快速定位问题并提供解决方案,提升开发效率。
(九)个性化任务
用户可以根据自身习惯定制操作,如定时备份文件、监控特定网页更新等。TuriX-CUA的灵活性使其能够满足用户的个性化需求,为用户提供更加贴心的自动化服务。
五、快速使用
(一)环境准备
- 安装Python和Conda:确保安装了Python 3.12和Conda。使用以下命令创建Python环境:
conda create -n turix_env python=3.12 conda activate turix_env pip install -r requirements.txt - 克隆项目代码:从GitHub克隆TuriX-CUA项目代码:
git clone https://github.com/TurixAI/TuriX-CUA.git cd TuriX-CUA
(二)配置模型
- 编辑
config.json:在examples/config.json中配置任务和API密钥。例如:
如果需要使用其他模型,可在{ "agent": { "task": "open system settings, switch to Dark Mode" }, "llm": { "provider": "turix", "api_key": "YOUR_API_KEY", "base_url": "https://llm.turixapi.io/v1" } }main.py中定义并配置。
(三)权限设置
- macOS权限:
- 打开“系统设置-隐私与安全性-辅助功能”,添加终端和使用的IDE(如Visual Studio Code)。
- 启用Safari的远程自动化功能:
osascript -e 'tell application "Safari" to do JavaScript "alert(\\"Triggering accessibility request\\")" in document 1'
- Windows权限:切换到
windows分支,按照说明进行权限设置。
(四)启动Agent
- 运行项目:在配置完成后,运行以下命令启动Agent:
观察Agent根据配置的任务描述自动操作桌面。python main.py
六、结语
TuriX-CUA作为一款开源的AI桌面Agent,通过其强大的核心功能和灵活的技术架构,为用户提供了一种全新的自动化工作方式。它不仅降低了AI技术的使用门槛,还通过创新的技术架构为用户带来了高效、智能的桌面操作体验。随着技术的不断发展和社区生态的逐步完善,TuriX-CUA有望在更多领域发挥更大的作用。
- GitHub仓库:https://github.com/TurixAI/TuriX-CUA

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南、AI大模型探索之路(零基础入门)、AI大模型预训练微调进阶、AI大模型开源精选实践、AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑
😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!
更多推荐



所有评论(0)