【GitHub开源AI精选】EvoCUA:美团开源的多模态计算机操作智能体,重塑自动化新范式
EvoCUA(Evolving Computer Use Agent)是由美团开源的多模态智能体,专注于计算机操作自动化任务。它通过自然语言指令和屏幕截图,实现对Chrome、Excel、PowerPoint等主流应用的端到端多轮操作,显著提升了AI在真实操作系统环境中的执行能力。在权威的OSWorld评测基准中,EvoCUA以56.7%的任务成功率位居所有开源模型榜首,超越多个业界知名竞品。
系列篇章💥
目录
前言
随着人工智能技术的飞速发展,大模型在自然语言处理和计算机视觉等领域取得了显著进展。然而,在复杂的计算机图形界面操作任务中,现有模型仍面临诸多挑战。美团技术团队推出的EvoCUA模型,通过创新的数据合成与训练方法,为这一领域带来了突破性进展。
一、项目概述
EvoCUA(Evolving Computer Use Agent)是由美团开源的多模态智能体,专注于计算机操作自动化任务。它通过自然语言指令和屏幕截图,实现对Chrome、Excel、PowerPoint等主流应用的端到端多轮操作,显著提升了AI在真实操作系统环境中的执行能力。在权威的OSWorld评测基准中,EvoCUA以56.7%的任务成功率位居所有开源模型榜首,超越多个业界知名竞品。
二、核心功能
(一)多轮上下文交互
EvoCUA支持在动态变化的桌面环境中进行多轮交互,能够根据任务需求逐步完成操作。例如,在PPT中添加图表时,模型会先截取当前幻灯片界面,识别元素位置后执行精确操作。
(二)自然语言驱动的自动化
EvoCUA能够解析复杂的自然语言指令,完成跨应用任务,如从网页抓取数据并生成图表、整理会议纪要并插入PPT模板等。
(三)视觉-语言深度融合
模型同步处理屏幕截图和用户指令,实现更鲁棒、更细粒度的操作意图理解,显著提升了任务执行的准确性和效率。
(四)低步数高完成率
通过结构化动作空间建模与路径规划优化,EvoCUA能够在更少的交互轮次内达成目标,兼顾速度与准确性。
(五)完全开源可定制
EvoCUA的代码、训练流程及预训练权重全部公开,便于研究者与开发者进行二次开发、领域适配与能力扩展。
三、技术揭秘
(一)数据合成与训练方法
EvoCUA采用创新的数据合成方法,生成大量高质量的训练数据,模拟真实世界中的计算机操作任务。其训练方法能够在不降低模型通用性能的情况下,显著提升计算机使用能力。
(二)强化学习优化机制
在训练过程中,EvoCUA引入强化学习技术,通过奖励机制优化模型的行为策略。模型在多轮交互中不断试错和学习,逐步找到最优的操作路径。
(三)混合模型架构设计
EvoCUA基于大型语言模型(LLM)和视觉语言模型(VLM)构建,具备强大的语言理解和生成能力,同时能处理视觉信息。通过特定的提示和解析机制,模型将自然语言指令转化为具体的操作指令。
四、基准评测
在OSWorld基准测试中,EvoCUA取得了56.7%的成功率,创造了开源模型的新纪录,大幅超越了此前最好的开源模型OpenCUA-72B(45.0%)和领先的闭源模型UI-TARS-2(53.1%)。此外,EvoCUA在不同规模的基础模型上均实现了性能提升,证明了其强大的通用性和可扩展性。

五、应用场景
(一)智能办公助理
EvoCUA可自动执行Excel数据处理、PowerPoint制作、Word编辑等办公任务,大幅提升工作效率。例如,它可以根据自然语言指令生成数据可视化图表和分析报告,助力数据解读。此外,EvoCUA还能自动整理会议纪要、生成报表,让办公流程更加高效。
(二)智能测试与研发提效
在软件开发中,EvoCUA可用于自动化测试、代码生成和界面设计。它能够根据自然语言指令生成测试脚本,自动检测界面异常,辅助低代码界面搭建,加速产品迭代周期。通过减少人工干预,EvoCUA显著提高了软件开发和测试的效率。
(三)自助技术支持系统
EvoCUA能够通过自然语言交互帮助用户解决软件问题,提供技术支持和自动化客服服务。它可以根据用户的问题描述,主动操作软件复现问题、定位原因并提供修复建议,提升客服响应质量与效率。
(四)教育内容生成与实操教学
EvoCUA支持生成教学课件、个性化学习路径和在线课程内容,辅助教育和培训。它可以根据教学目标自动生成带操作演示的课件、交互式实验指南或分步操作视频脚本,赋能数字化教学。
(五)自然语言数据分析平台
EvoCUA可以根据自然语言指令生成数据可视化图表和分析报告,助力数据解读。它能够接收口语化查询,自动调用工具完成数据清洗、计算、绘图等操作,为数据分析提供更高效的支持。
六、快速使用
(一)环境准备
推荐使用Python 3.12,通过以下命令安装依赖:
git clone https://github.com/meituan/EvoCUA.git
cd EvoCUA
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
(二)模型下载与部署
从HuggingFace下载模型权重,并使用vLLM作为OpenAI兼容的推理服务器:
huggingface-cli download meituan/EvoCUA-32B-20260105 \
--local-dir /path/to/EvoCUA-32B \
--local-dir-use-symlinks False
vllm serve /path/to/EvoCUA-32B \
--served-model-name EvoCUA \
--host 0.0.0.0 \
--port 8080 \
--tensor-parallel-size 2
(三)运行评估
运行以下命令在OSWorld基准上进行评估:
python3 run_multienv_evocua.py \
--headless \
--provider_name aws \
--observation_type screenshot \
--model EvoCUA-S2 \
--result_dir ./evocua_results \
--test_all_meta_path evaluation_examples/test_nogdrive.json \
--max_steps 50 \
--num_envs 30 \
--temperature 0.01 \
--max_history_turns 4 \
--coordinate_type relative \
--resize_factor 32 \
--prompt_style S2
七、结语
EvoCUA作为美团开源的多模态计算机操作智能体,通过创新的数据合成与训练方法,在计算机操作自动化领域取得了显著的性能提升。它不仅在权威评测基准中刷新了开源模型的记录,还为研究者和开发者提供了一个强大的工具和平台。未来,随着技术的不断进步和社区的共同努力,EvoCUA有望在更多领域实现更广泛的应用。
八、项目地址
- GitHub仓库:https://github.com/meituan/EvoCUA
- HuggingFace模型页面:https://huggingface.co/meituan/EvoCUA-32B-20260105

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南、AI大模型探索之路(零基础入门)、AI大模型预训练微调进阶、AI大模型开源精选实践、AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑
😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!
更多推荐



所有评论(0)