NVIDIA 中国开发者日｜三场技术分论坛科技演讲一览,活动报名持续热招中

NVIDIA中国开发者日2025将于11月14日在苏州举办，聚焦大语言模型、机器人/物理AI及开发工具三大领域。技术分论坛将带来精彩议题：大语言模型专场分享GPU优化、SGLang框架应用等；机器人专场介绍Cosmos平台、人形机器人落地实践；开发工具专场探讨GPU计算演进、CuTeDSL应用等前沿话题。大会面向全国开发者开放注册，提供与行业领袖交流、获取最新技术动态的机会。

扫地的小何尚

764人浏览 · 2025-11-04 13:42:57

扫地的小何尚 · 2025-11-04 13:42:57 发布

NVIDIA 中国开发者日｜三场技术分论坛科技演讲一览,活动报名持续热招中

在这里插入图片描述

11 月 14 日,年度重磅开发者盛宴 — NVIDIA 中国开发者日 2025 将在苏州国际博览中心 G 馆举办,大会面向全国开发者、AI 爱好者与行业领袖开放。

大会将聚焦当下最新技术动向,分享 NVIDIA 在大语言模型、机器人/物理 AI、开发工具等领域的创新与实践,助力每一位开发者在快速演进的技术生态中找到合作与成长的机遇。

目前大会持续开放活动注册中,以下三场技术分论坛科技演讲一睹为快:

分论坛 - 大语言模型训练与推理专场

13:30 ─ 14:15 在 NVIDIA GPU 上优化大语言模型训练与推理

杨军 | NVIDIA 计算架构高级总监

本议题将系统讲解如何把 NVIDIA GPU 推至性能极限。内容覆盖端到端优化策略:从 kernel 与运行时调优、消除 Host 开销,到系统级调度和算法-系统协同设计。通过真实案例,你将学会如何借助精细的系统设计整合这些方法,获得显著性能提升。

14:15 ─ 15:00 SGLang:高效的开源大规模 LLM 服务框架

鲍科 | SGLang 社区核心开发者

SGLang 是一个开源的高性能大语言模型推理服务框架,已在众多头部企业中承担核心生产流量。本次分享将深入介绍 SGLang 的核心特性与关键性能优化技术,并结合实际部署案例,分享在大规模推理中的工程经验与优化洞察,最后展望 SGLang 的未来演进Roadmap。

15:00 ─ 15:45 TensorRT-LLM 中的大规模 EP(专家并行)优化

朱恩伟 | NVIDIA GPU 计算专家团队工程师

DeepSeek-V3/R1 采用超大规模、细粒度 MoE 架构,显著提升了开源模型质量,也给优化带来新挑战。本议题介绍 TensorRT-LLM 中大规模 Expert Parallelism(EP)的设计与实现:涵盖通信 kernel、专家负载均衡及多项 kernel/系统级优化,可显著减少 MoE 分组 GEMM 的内存访问,提升算子强度。

15:45 ─ 16:30 NVFP4 推理最佳实践

薛博阳 | NVIDIA GPU 计算专家团队工程师

NVFP4 是 NVIDIA Blackwell 系列引入的 4 位浮点低精度格式(E2M1:1 符号位/2 指数位/1 尾数位)。其核心创新为"双级微块缩放 + 高精度缩放因子",在极低位宽下仍能将量化误差压到最低,从而大幅提升内存效率与吞吐,同时保持模型精度。

分论坛 - 机器人 / 物理 AI 专场

13:30 ─ 14:15 Cosmos:为物理 AI 打开大门

匡磊 | NVIDIA 解决方案架构师

NVIDIA Cosmos™ 是专为物理 AI 打造的平台,集成最先进的生成式世界基础模型(WFM)、安全护栏以及加速数据治理管线。机器人需要海量、多样化的训练数据才能有效感知并与环境交互。借助 Cosmos WFM,开发者可生成可控、高保真的合成数据,用于训练机器人感知与策略网络。本次分享将介绍 Cosmos 最新更新及机器人蓝图。

14:15 ─ 15:00 感知·可视化·弥合 Sim2Real 鸿沟,让人形机器人落地

何斌 | 同济大学

Sim2Real 差距是机器人领域的热门难题。本演讲将介绍我们用于评估 Sim2Real 性能的基准流程,研究从底层关节控制入手,聚焦上半身运动;同时设计 AI 驱动执行器并给出完整训练闭环,显著缩小仿真到真机的差距。

15:00 ─ 15:45 Jetson Thor 释放物理 AI 实时推理

郑涛 | NVIDIA 解决方案资深架构师

NVIDIA Jetson Thor(2025 发布)是面向物理 AI 与机器人的最新边缘计算平台。本次议题将介绍其硬件/软件特性、高性能推理、低延迟及强大的多传感器数据处理能力,完美适配机器人端到端工作流。

15:45 ─ 16:30 Isaac 性能剖析与最佳实践

康晖 | NVIDIA 开发与技术部高级工程师

IsaacSim 性能分析与优化一直是用户关注焦点。本议题将手把手演示如何在 IsaacSim 中 profiling 工作负载、剖析性能瓶颈与行为,并给出相应的优化策略,帮助开发者更高效地使用 IsaacSim/Isaac Lab 及扩展插件。

分论坛- NVIDIA 开发工具专场

13:30 ─ 14:15 GPU 计算与编程模型的演进:在异步计算中平衡吞吐与延迟

刘冰 | NVIDIA GPU 计算专家团队高级工程师

本次议题聚焦 GPU CUDA 优化核心技术,从最大化计算性能、显存带宽利用率及降低延迟角度出发,通过分享 GPU 硬件与 CUDA 软件编程的协同演进路线与优化背后的第一性原理,展示硬件架构与算法设计的高效协同机制。最终结合 CUTLASS 等高性能框架工具实战案例,助力开发者加速AI训练/推理热点场景(如 DeepSeek V3/R1 大模型优化),释放 GPU 的极致性能。

14:15 ─ 15:00 CuTeDSL 的发展与应用:功能迭代、路线图及其作为代码生成后端的探索

池宇希,方杰 | NVIDIA GPU 计算专家团队高级工程师

自今年 3 月 GTC 首秀以来,CuTeDSL 已历经多轮版本迭代,能力与生态迅速成熟。本次演讲将系统回顾其设计哲学与核心优势、关键特性、版本进展及产品路线图,并结合典型行业落地案例剖析部署路径与踩坑经验。此外,我们还将首次分享把 CuTeDSL 作为 TileLang 代码生成后端的初步探索。

15:00 ─ 15:45 面向 LLM 的性能剖析驱动优化

余慜 | NVIDIA GPU 计算专家团队高级工程师

大模型开发中常遇性能不佳、拖尾进程、运行时卡顿等难题。本议题将介绍一套性能分析与诊断工具 —— Nsight Systems、CUPTI、NVIDIA Resiliency Extension 及 PyTorch Profiler ——并通过实例演示其用法,帮助开发者快速定位瓶颈、提升系统效率。

15:45 ─ 16:30 NVIDIA Spectrum-X 软件参考架构

宋庆春 | NVIDIA 网络亚太区高级总监

Spectrum-X 是首款专为 AI打造的以太网互连平台,已成为大型 AI 工厂与 AI 云的事实标准, 也是目前唯一经过验证、可高效连接超 10 万卡 GPU 集群的以太网方案。其软件参考架构涵盖了 NVIDIA 网络端到端软件, 包括设备固件、DOCA、NetQ、Cumulus、NCCL、CloudAI 等全套软件栈,客户可借此在最短时间内构建 AI 工厂并获得最优 AI 性能。