论文解读：Tai Chi: A General High-Efficiency Scheduling Framework for SmartNICs in Hyperscale Clouds

维度传统方案Tai Chi调度粒度毫秒级微秒级CP/DP 隔离静态分区 / 进程隔离vCPU/pCPU 混合虚拟化IPC 语义需 RPC 改造原生 IPC 透明保留部署侵入性高（需改 CP/DP）零代码修改硬件依赖需新特性（如 UINTR）兼容现有 SmartNIC生产适用性实验室原型已大规模商用三年。

yiyeguzhou100

970人浏览 · 2025-10-21 19:31:56

yiyeguzhou100 · 2025-10-21 19:31:56 发布

这篇论文《Tai Chi: A General High-Efficiency Scheduling Framework for SmartNICs in Hyperscale Clouds》（https://dl.acm.org/doi/10.1145/3731569.3764851）由阿里巴巴集团团队发表于 SOSP ’25，针对超大规模云环境中 SmartNIC 上控制平面（Control Plane, CP）与数据平面（Data Plane, DP）任务调度效率低下的问题，提出了一种创新的软硬件协同调度框架——Tai Chi。其核心创新点可归纳为以下五方面：

1. 首次实现 CP 与 DP 的高效协同调度，兼顾双方 SLO

问题背景：现有 SmartNIC 部署采用静态 CPU 分区——DP 为保障低延迟预留大量 CPU（导致 67.5% 的 CPU 空闲），而 CP（如 VM 启动）因资源不足频繁违反 SLO。
Tai Chi 的突破：通过动态复用 DP 的空闲 CPU 周期来加速 CP 任务，在不牺牲 DP 性能的前提下，将 VM 启动时间缩短 3.1 倍，显著提升资源利用率与 CP SLO 满足率。

2. 提出“混合虚拟化”（Hybrid Virtualization）架构

传统虚拟化缺陷：
- Type-1（如 Xen）：DP 运行在 vCPU 上，引入 7%+ 性能开销；
- Type-2（如 QEMU/KVM）：DP 与 CP 分属不同 OS，破坏原生 IPC，需大量代码改造。
Tai Chi 创新设计：
- DP 直接运行在物理 CPU（pCPU）上 → 零虚拟化开销；
- CP 运行在虚拟 CPU（vCPU）上，但 vCPU 与 pCPU 共享同一操作系统内核；
- 通过 1:1 物理/虚拟地址映射 和 统一 IPI 编排器（Unified IPI Orchestrator），使 vCPU 对 OS 完全透明（如 lscpu 无法区分），保留原生 IPC 语义（如共享内存、信号、管道等）。

✅ 实现了“虚拟化隔离 + 原生性能 + 无缝通信”的三重目标。

3. 利用硬件特性实现微秒级（µs-scale）抢占，消除长尾延迟

关键挑战：CP 任务包含毫秒级非可抢占内核例程（如 spinlock），会阻塞 DP 的突发 I/O，引发 DP 长尾延迟。
Tai Chi 解法：
- 将 CP 任务置于 vCPU 上执行 → 利用硬件虚拟化支持的 VM-exit 机制，可在任意时刻中断 CP（即使在内核中）；
- 结合 硬件工作负载探针（Hardware Workload Probe）：利用 SmartNIC 可编程 I/O 加速器在 I/O 包到达前 2.7µs 预处理窗口，提前触发中断，主动抢占 vCPU，恢复 DP 执行；
- 巧妙隐藏 2µs 的 vCPU 切换开销，实现 µs 级调度精度，避免 DP 延迟尖峰。

4. 零侵入式部署，兼容现有生态

无需修改 CP/DP 代码：
- CP 任务通过标准 CPU 亲和性（如 cgroup）绑定到 vCPU；
- DP 服务只需插入 <10 行代码 调用 notify_idle_DP_CPU_cycles() 接口（或通过空轮询计数自动检测）；
- vCPU 被注册为“原生 CPU”，所有 IPC、系统调用行为与物理 CPU 一致。
跨平台兼容：支持 NVIDIA BlueField-3、Intel IPU、阿里 CIPU、Azure SmartNIC 等主流 SmartNIC。

5. 极低开销，已在生产环境大规模验证

性能开销极小：
- DP 平均性能开销仅 0.7%（峰值 1.92%），主要来自 cache/TLB 污染；
- 虚拟化调度开销被硬件探针“隐藏”，ping RTT 与基线几乎一致。
生产验证：已在阿里云超大规模生产环境部署三年，无 DP SLO 违规报告，VM 启动延迟稳定降低 3.1 倍。

总结：Tai Chi 的核心创新价值

维度	传统方案	Tai Chi
调度粒度	毫秒级	微秒级
CP/DP 隔离	静态分区 / 进程隔离	vCPU/pCPU 混合虚拟化
IPC 语义	需 RPC 改造	原生 IPC 透明保留
部署侵入性	高（需改 CP/DP）	零代码修改
硬件依赖	需新特性（如 UINTR）	兼容现有 SmartNIC
生产适用性	实验室原型	已大规模商用三年

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

iwr -useb https://openclaw.ai/install.ps1 | iex 这里的iwr怎么安装？

摘要：iwr是PowerShell中Invoke-WebRequest的别名，用于发起HTTP/HTTPS请求。命令iwr -useb https://openclaw.ai/install.ps1|iex表示下载并执行远程脚本。在Windows系统中，iwr是PowerShell 3.0+的内置命令；Linux/macOS需安装PowerShell Core才能使用。执行前需验证来源可信性，并注

2048 AI社区

C++进阶9：异常和智能指针

2048 AI社区

精细化拓客背景下，B端号码核验的困局与技术破局路径氪迹科技法人、股东、号码核验、筛选系统

B端拓客正面临号码核验的精准度与成本双重困境。传统核验模式存在精准度低（不足85%）、数据滞后、成本高企等问题，导致大量无效线索消耗人力财力。新兴技术方案通过AI算法和实时算力，将精准度提升至98%，核验成本降至行业1/3，并解决数据时效性问题。这种"低价高质"模式适配电销、金融等多元场景，支持API对接和批量处理，帮助团队实现降本增效。技术驱动的核验服务正成为行业趋势，推动B