汇聚NVIDIA、OpenCV、Hugging Face、宇树、智源全球顶尖专家共绘【具身智能】下一站蓝图

GOSIM杭州2025大会将于9月13-14日举办，聚焦AI前沿技术，设2场Keynote、5大论坛及12场Workshop。其中“具身智能”分论坛汇聚NVIDIA、OpenCV等顶尖专家，探讨机器人操作系统、视觉模型、人形机器人等突破性进展。亮点包括OpenCV5开源生态、NVIDIA世界模型Cosmos、低成本人形机械臂等创新成果。大会将展示从单机智能到群体智能的技术跃迁，推动具身智能商业化落

CSDN资讯

457人浏览 · 2025-09-02 14:53:24

CSDN资讯 · 2025-09-02 14:53:24 发布

9 月 13–14 日，GOSIM 全球开源创新汇主办、CSDN 承办的 GOSIM HANGZHOU 2025 将在杭州盛大开启。大会聚焦前沿技术趋势，设置 2 场 Keynote 演讲，两大高端论坛（GOSIM AI Vision Forum 与 Open for SDG ），5 大主题论坛（AI 模型与基础设施、具身智能、智能体网络、应用与智能体、下一代 AI）、9 场 Workshop 与 3 场 Hackathon 创新竞赛，并特别联动 RustGlobal + RustChinaConf 和 GOSIM AI for Humanity Spotlight 两大重磅活动。

当下 AI 热度持续攀升，机器人的智能化程度正在快速提高。在 5 大主题论坛中，备受瞩目的「具身智能」分论坛将汇集来自 NVIDIA、OpenCV.org、Hugging Face、智源、宇树科技、AIRS‌、Kornia、深开鸿等全球顶尖机构与企业的一线专家，共同深入探讨从机器人基础架构到多模态模型、从自主导航算法到人形机器人平台的全方位突破，共绘具身智能技术的新蓝图。

「具身智能」分论坛精彩看点：

● 开源创新：了解开源机器人操作系统平台的最新进展，剖析高效的数据采集方法和模型训练策略，为打造更智能、更灵活的机器人奠定坚实基础。

● 视觉革新：紧跟 Kornia、DORA-RS计算框架等开源项目与最新视觉-语言模型的前沿动态，为机器人赋予更强大的环境理解与交互能力，开启无限可能。

● 人形机器人的崛起：关注开源人形机器人及协作机器人生态的发展趋势，见证这些技术如何将科幻愿景照进现实。

● 群体智能协作：探索多机器人协同的新范式，从单机智能迈向群体智能，通过跨平台协作与统一框架实现多机器人协作作业，加速具身智能开源生态的构建与落地。

大会购票通道已开启，立即扫码报名：

精彩主题前瞻：开源协作驱动机器人未来

🔹 Satya Mallick OpenCV.org CEO

Satya Mallick 博士是 OpenCV.org 的首席执行官 —— 这一非营利机构维护着世界上最大的计算机视觉库。他是一位人工智能、计算机视觉和机器学习领域的企业家。在创办 AI 咨询公司 Big Vision LLC 之前，他共同创立了 Sight Commerce Inc（前身为 Taaz Inc.），在那里打造的 AI 产品服务了超过 1 亿用户。他的工作曾被 TechCrunch、Huffington Post、纽约时报和华尔街日报等媒体报道。Mallick 博士还创建了一些最受欢迎的在线计算机视觉和 AI 课程。2017 年，IBM 的 AI 博客将他评为“推特上值得关注的 20 位 AI 领域人物”之一。

《OpenCV 5：开源软件的奋斗与胜利》

在当今世界，庞大的 AI 项目大多是闭源的，少数公司似乎正掌控着 AI 的未来。人们不禁要问：“OpenCV 5 到哪儿了？”欢迎加入社区，一起了解这个我们都在使用和喜爱的开源计算机视觉库的过去、现在与未来。他将讨论 OpenCV 5 的新特性与改进，以及哪些功能已被弃用。最后，还会分享 OpenCV 的未来发展路线图。

🔹 董学勤康迪科技董事长

董学勤，同济大学车辆工程专业工学博士，2022年加入康迪集团，现任康迪科技集团董事会主席。在汽车行业拥有超过 20 年的经验，曾成功领导了多家公司。在车辆设计、工程，及创新产品的开发、制造和商业化方面拥有广泛的管理团队背景，有着丰富的实践经验和广博的专业知识。

《从非公路车到机器人：康迪科技的“三海”突围之路》

基于电动非公路车构建的生产全球化与供应链全球化，销售网络全球化的基础。讲诉康迪科技如今作为智能机器人领域的集成者，锚定北美安放巡检以及高尔夫球童机器人，如何从制造出海，到智造出海，再到生态出海，成为中国技术摆渡人。

🔹 Edgar Riba Bonsai Robotics 资深研究工程师，Kornia 项目创始人

Edgar Riba 任职于 Bonsai Robotics，Kornia 项目的创始人兼项目负责人，负责引领Agentic AI与视觉-语言动作模型方面的研究，以及为教育和研究型机器人量身打造相关工具。他擅长将经典计算机视觉、深度学习与真实世界的机器人应用紧密结合，提供稳健、可扩展的自动化解决方案，专注于先进的计算机视觉与空间人工智能技术。

《Amiga：面向智能农业与户外物流的模块化 AI 优先平台》

本次演讲将介绍下一代机器人平台——Amiga，这是一种专为农业和户外物流场景设计的模块化机器人平台。Amiga 旨在实现快速原型开发与实际部署，支持定制化的电动多功能车辆，以精简劳动密集型任务，降低成本，并促进有机再生农业的实践。

🔹 Xavier Tao 陶海轩 1ms.ai 创始人

1ms.ai 是一家致力于打造突破性人工智能开源项目的初创公司，其中一个项目是 DORA-RS，这是一种新型的中间件，能够以领先的性能在AI模型、传感器与执行器之间共享数据。这使得跨模态（包括文本、音频、视觉与行动）构建复杂应用成为可能，也帮助我们实现了一些非常复杂的机器人演示项目。

《利用 DORA-RS 混合多模态 AI 模型，解决复杂机器人任务》

近年来，Transformer 模型在许多复杂的预测任务上实现了突破性的成果，使得一些曾经极具挑战的机器人任务变得触手可及。在本次演讲中，我们将重点介绍在机器人领域发挥关键作用的一些模型，以及这些模型目前存在的局限性。

🔹 尹云鹏人形机器人上海有限公司运控算法与框架负责人

尹云鹏，OpenLoong控制框架开发者。

《从格物到致知，具身智能机器人开发范式的改变》

在具身智能与人形机器人交汇发展的大背景下，以数据学习、模型训练为核心的机器人开发范式革命悄然展开。国家地方共建人形机器人创新中心推出“格物-致知”通用机器人开发平台，提供机器人从高层算法模型训练、任务流编排到底层具身硬件配置的全流程开发能力，搭配国地中心全开源 OpenLoong 控制框架，一站完成异构本体适配、计算架构适配、仿真实机适配，加速具身智能场景应用落地。

🔹 马生悦宇树科技机器人技术总监

现任宇树机器人技术总监，专注于机器人控制系统、感知与智能移动。他毕业于中山大学人工智能专业，拥有丰富的算法开发、系统集成与实际部署经验。精通 ROS、Mujoco、Isaac Gym 和 Linux 系统内核，曾主导多个涉及导航、自主控制及在宇树 GO2 和 H1 等足式机器人上进行强化学习的项目。马生悦发布过开源项目，热衷于将前沿 AI 技术与机器人硬件相结合，推动自主移动的技术边界。

《商业中的人与智能体交互：自主性与人工控制的平衡》

随着智能体——尤其是 AI 驱动的机器人——日益融入实体业务运营，平衡自主性与人工监管的需求愈加迫切。本演讲中，他将结合宇树与包括吉利、Exeeta 在内的全球行业领导者的合作部署经验，探讨机器人自主性如何在不牺牲安全与控制的前提下提升效率。内容将介绍五级自主性谱系，分析何时应将控制权交给智能体、何时应人工介入；并阐述宇树在协作机器人设计中的方法，涵盖传感器集成、实时干预能力及可解释的行为策略。重点探讨“自适应伙伴”概念——机器人不只是工具，而是具备决策意识和安全合规性的协作伙伴。演讲还将分享在制造、物流及研发环境中与人工操作员建立信任、确保部署过程中负责任创新的实践案例。

核心要点：

理解工业机器人自主性谱系
人机协作的真实案例
平衡自主性与安全性的技术策略
面向信任、透明与长期应用的设计

🔹 Tao Li 深开鸿软件工程师

Tao Li，深开鸿软件工程师，目前担任 OpenHarmony 开源机器人系统项目的主要开发者。

《基于 OpenHarmony 的机器人操作系统》

本研究将主要介绍深开鸿联合产业界与学术界共同研发的一款基于 OpenHarmony 的开源、全场景、智能化机器人全栈操作系统。该系统面向教育、工业自动化、巡检、服务机器人等多种机器人应用场景。与传统基于 Ubuntu 系统和 ROS（机器人操作系统）中间件的方案相比，我们的方案以 OpenHarmony 为基础系统，并结合 Dora 机器人中间件，在安全性、可控性、可信性、云边端协同以及应用开发语言范式等方面具备显著优势。此外，该架构有助于构建开放生态，促进开源共创，加速商业化落地。

🔹 顾金伟 NVIDIA 首席研究科学家兼技术负责人

顾金伟博士现任英伟达首席研究科学家，并兼任香港中文大学客座副教授。他的研究方向涵盖生成式人工智能、世界模型，以及计算机视觉、计算机图形学和机器学习等领域。他于 2010 年在哥伦比亚大学取得计算机科学博士学位，分别于 2002 年和 2005 年在清华大学获得学士和硕士学位。

在英伟达期间，他是 Cosmos 模型开发的技术负责人之一。Cosmos 是一系列多模态世界基础模型，致力于在机器人、自动驾驶和生成式人工智能等领域实现真实世界的应用。在加入英伟达之前，他曾在深慧视科技（SenseBrain）担任研发执行总监，主要负责基于新型图像传感器和成像系统的移动计算摄影技术研究。

顾金伟博士在计算机视觉领域顶级会议和期刊上发表了大量论文，并曾担任 IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 和 IEEE Transactions on Computational Imaging (TCI) 副编辑（2018-2023），并多次担任 CVPR、NeurIPS、ICCV、ICCP 和 ECCV 等顶级会议的领域主席，以及多个学术研讨会（如MIPI、RichMediaGAI）的组织主席。他于 2018 年成为 IEEE 高级会员。他的研究成果已成功应用于诸多产品，包括 NVIDIA-Cosmos、NVIDIA-CoPilot SDK、NVIDIA-DriveIX SDK，以及广泛应用于旗舰手机中的超分辨率、超级夜景、人像修复和RGBW成像解决方案等。

《面向物理 AI 的 Cosmos 世界基础模型》

NVIDIA Cosmos 是一系列专为物理AI（Physical AI）而设计的世界基础模型，主要包括三个核心组件：Cosmos-Predict、Cosmos-Transfer 和 Cosmos-Reason。本次演讲将全面介绍 Cosmos 模型的整体架构、发展历程、基准测试与评估方法，并着重讲解面向机器人与自动驾驶应用所开展的模型后训练（post-training）工作。同时，他也将展示如何利用 Cosmos 世界基础模型高效完成合成数据生成（SDG）、具身智能（Embodied AI）及其他下游任务。

🔹 王鹏伟北京智源人工智能研究院具身智能大模型负责人

王鹏伟，北京智源人工智能研究院具身智能大模型负责人、目前主要负责具身大脑大模型 RoboBrain 以及小脑框架 RoboOS，研究方向是具身智能、多模态大模型、深度学习、自然语言处理和机器学习等方向，曾就职于阿里巴巴达摩院以及快手科技大模型中台部门，主要负责大规模语音语义一体化等多模态交互系统以及多模态预训练项目，具有丰富的多模态大模型、文本大模型以及机器智能等产学经验。

《具身大小脑操作框架与具身大脑模型构建》

本次演讲将详细介绍智源研究院发布的首个跨本体具身大小脑协作框架 RoboOS 与开源具身大脑 RoboBrain，可实现跨场景多任务轻量化快速部署与跨本体协作，推动单机智能迈向群体智能，为构建具身智能开源统一生态加速场景应用提供底层技术支持，为主流本体提供一站式大小脑部署流程，提供即插即用解决方案。

🔹 Martino Russi Hugging Face 具身智能工程师

他是一名在具身智能与开源硬件交叉领域工作的机器人工程师与 AI 研究员，致力于让前沿机器人技术触手可及，将机械设计、嵌入式系统与机器学习结合起来，推动人机交互的边界。

《HopeJr：面向所有人的 500 美元开源人形机械臂》

本演讲将介绍一款低成本开源人形机器人手臂，支持灵巧操作与通过可穿戴手套进行实时远程操控。他将分享该系统的机械设计、嵌入式架构，以及支持从人类输入中实时学习的控制流程。目标是让机器人技术大众化，让具身技术不再依赖大型团队或工业实验室。同时，也会探讨开源硬件过程中的挑战、直观的远程操控系统开发，以及将机器学习集成到整套系统的经验。

🔹 Yuyuan Yuan ZettaScale 高级软件工程师

一名活跃在 ZettaScale Technology 的 Rust 爱好者，专注于开发 Zenoh —— 一种开源协议，旨在支持高效且可扩展的分布式系统，适用于自动驾驶系统、无人机和机器人等应用。始终在探索新技术！

《以 Zenoh 驱动 ROS 2 的未来：快速、可扩展且具备弹性的机器人与自主系统通信》

现代机器人、车联网（V2V）和自主系统需要快速、可扩展且具备弹性的通信能力。Zenoh 将发布/订阅、查询和存储统一起来，提供低延迟的 Tier-1 ROS 2 中间件 rmw_zenoh，并推出 ros-z，这是一个全新的 Rust 框架，旨在让 ROS 2 开发更加高效与简洁。

🔹 Jian Shi Kornia AI 联合创始人

Jian Shi，Kornia AI 的联合创始人，Kornia 库（PyTorch 中领先的计算机视觉架）的核心维护者之一。他致力于通过开放协作来推动空间人工智能技术的发展和普及，目前是阿卜杜拉国王科技大学（KAUST）的博士候选人，研究方向为生成模型与立体视觉。

《基于 Kornia 的易用型智能体视觉计算框架》

本次演讲将介绍一种突破性的计算机视觉方法，它结合了 Kornia 视觉库与大语言模型，构建出具备智能体特性的计算机视觉系统。展示如何利用MCP，将复杂的计算机视觉操作转化为自然语言交互，从而让用户无需深厚的编程基础，也能轻松实现先进的图像与视频处理功能。

🔹 毛永森 Manycore Tech研究工程师

毛永森，Manycore Tech Inc. 的一名研究工程师，在西蒙弗雷泽大学（SFU）完成论文，成功拿到硕士学位，专注于三维计算机视觉与图形学领域。他有幸在GrUVi 实验室得到Manolis Savva 教授以及Angel Xuan Chang 的指导。此前，曾先后获得浙江大学（ZJU）与西蒙弗雷泽大学（SFU）的工学学士学位。他的研究兴趣在于弥合合成与真实世界三维场景数据之间的鸿沟，以推动计算机视觉和机器人学的下游应用。

《SpatialLM：用于结构化室内建模的大语言模型训练》

SpatialLM 是一种专为处理三维点云数据并生成结构化三维场景理解输出而设计的大语言模型。其输出包括墙体、门、窗等建筑构件，以及带有语义类别的定向物体包围框。与传统采用特定任务网络设计的方法不同，我们的模型遵循标准多模态大语言模型架构，并直接基于开源大语言模型进行微调。

为训练SpatialLM，团队收集了大规模高质量合成数据集，包含 12,328个室内场景（54,778 个房间）的点云数据及真实三维标注，并对不同建模与训练方案进行了细致研究。在公开基准测试中，本模型在布局估计任务上达到最先进性能，在三维物体检测任务中表现出竞争优势。由此，为增强现代大语言模型的空间理解能力指明了一条可行路径，可应用于增强现实、具身机器人等领域。

🔹 夏轩深圳市人工智能与机器人研究院副研究员

夏轩，博士毕业于上海交通大学，现任深圳市人工智能与机器人研究院副研究员。他是国家自然科学基金项目负责人，2024 年吴文俊人工智能科学技术进步奖获得者，深圳市高层次人才及深圳市龙岗区高层次人才。其主要研究方向包括具身智能、多模态学习、计算机视觉、缺陷检测及生成模型等领域。他主持了国家自然科学基金、广东省自然科学基金、中国博士后科学基金等多个科研项目，并参与多项国家、省市级基金项目及企业合作项目。已出版专著一部，发表论文二十余篇，申请发明专利十余项。

《AIRSPEED:用于具身智能的开源通用数据生产平台》

本次演讲将介绍 AIRSPEED 这一通用数据生产平台，整合上下游资源，满足从基础软硬件开发商到具身智能应用商的全方位数据需求。AIRSPEED 平台在技术架构与功能设计上展现出卓越的创新性与前瞻性。其采用 ROS 2 架构，确保分布式灵活部署，通过通用软件接口实现设备快速调通，兼容多种遥操作设备、机器人本体以及末端执行器，无论是 VR 遥操作、手柄遥操作，还是外骨骼控制，都能无缝衔接，实现对任意机器人形态的适配控制。在数据生成方面，AIRSPEED 支持预测生成、轨迹合成、资产合成等多种功能，可依据用户需求生成任意操作轨迹、可交互资产以及智能体决策，为具身智能模型训练与算法优化提供丰富、高质量的数据资源。

🔹 岑明重庆邮电大学教授

岑明，2006 年于中国科学院研究生院获得光学工程博士学位。现任重庆邮电大学教授。职业生涯中，曾担任软件系统分析师和汽车电子与嵌入式系统研究中心副主任。他的研究方向包括信息融合、多目标跟踪、自动驾驶与智能机器人。

《面向非结构化环境的地图生成与路径规划方法》

地面自主平台在灾难救援、矿产开采、现场巡检和农业作业等领域的应用日益广泛。其中，定位与地图构建技术对于此类平台至关重要。然而，在非结构化环境中，障碍物和不可通行区域呈现出多样类型和复杂特征。现有的面向结构化环境设计的地图构建与路径规划方法难以有效应对这些挑战。因此，面向非结构化环境的地图生成与路径规划方法具有重要的研究价值。

更多精彩议题持续更新中，欢迎关注 GOSIM 大会官网。

9 月 13- 14 日，GOSIM HANGZHOU 2025

1500 + 全球一线开源开发者

100 + 海内外资深专家

100 +优质技术分享

5 大技术论坛

12 场主题 Workshop

4 场 Hackathon 创新竞赛

1 场 GOSIM AI for Humanity Spotlight

特别联动 Rust 十周年精彩活动 RustGlobal + RustChinaConf

大咖云集，内容丰富

欢迎亲临现场

与全球开源资深大咖面对面交流！

立即打开链接或扫码抢购：

9 月的杭州，西子湖畔，我们等你共赴一场关于“开源、协作与未来”的技术盛会！

点击「阅读原文」或扫描下方二维码，即刻加入 GOSIM HANGZHOU 2025！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

告别集成烦恼！H-ZERO iframe 支持第三方系统 / AI 助手轻松接入

2048 AI社区

开发AI编程工具的方案分析

大语言模型的 Token 成本是项目运营的核心成本之一，需要实现精确的上下文控制、智能压缩策略、增量更新机制，在保证功能完整性的前提下最小化 Token 消耗，这涉及复杂的文本压缩算法、上下文窗口管理、模型调用优化等技术。：必须与 VS Code、IntelliJ、Vim 等主流开发环境实现无缝集成，涉及插件开发、协议适配、实时同步等复杂技术。：不仅要理解代码语法，更要理解代码的业务逻辑、设计模式