在自动驾驶、移动机器人等具身智能系统的端侧部署赛道中,大语言模型(LLM)始终受困于精度-延迟的双重矛盾——云端优化的模型在边缘设备上要么因高延迟无法满足实时需求,要么因精度妥协丧失任务能力。来自理想汽车、国创决策智能等机构的研究团队提出了基于 Roofline 建模的端侧 LLM 硬件协同设计定律,创新性地将模型损失定律与硬件性能建模结合,构建了精度-延迟的帕累托前沿分析框架,实现了从 “经验式架构选择” 到 “原理性硬件-模型协同优化” 的范式转变,让端侧 LLM 架构设计周期从数月缩短至数天,为资源受限场景下的 LLM 部署提供了全新技术路径。

原文链接:端侧部署福利!具身大模型在精度、效率的平衡矛盾被Co-Design Scaling Laws解决了

  • 论文标题:Hardware Co-Design Scaling Laws via Roofline Modeling for On-Device LLMs
  • 作者团队:理想汽车 & 国创决策智能技术研究所
  • 论文地址:https://www.arxiv.org/abs/2602.10377

痛点直击:端侧 LLM 部署的三大核心困境

现有端侧 LLM 部署方案多为 “云端模型裁剪+硬件适配” 的被动模式,未从底层实现模型与硬件的协同设计,核心痛点集中在三方面:

痛点类型 具体表现 核心影响
架构-硬件错配 Transformer 的注意力层受带宽限制、前馈层受计算限制,KV 缓存占用片上内存,模型深度 / 宽度的朴素缩放与硬件特性严重不匹配 推理性能远低于硬件理论峰值,算力 / 带宽资源利用率低
设计效率低下 依赖穷举式架构搜索与实测,需对数千种候选架构进行训练和基准测试,时间与计算成本极高 无法快速适配不同边缘硬件平台,规模化部署受限
多目标优化失衡 传统神经架构搜索(NAS)仅优化精度单目标,难以在严格的延迟 / 内存约束下平衡精度与效率 易出现 “精度达标但延迟超预算” 或 “延迟满足但精度不足” 的问题

**核心问题总结:**端侧 LLM 部署缺乏统一的硬件-软件协同建模框架,未建立 “架构超参数-模型损失-推理延迟” 的显性映射关系,无法实现多约束下的最优架构选择。

硬核拆解:Co-Design Scaling Laws的四大核心创新

该研究围绕建模-搜索-优化-验证形成全链路突破,首次提出可落地的端侧 LLM 硬件协同设计定律,核心是通过损失定律建模精度Roofline 建模刻画延迟,并构建帕累托前沿实现双目标联合优化,每个模块都精准破解传统方案的短板。

核心框架:精度-延迟双建模的协同设计范式

研究摒弃了 “先设计模型,后硬件适配” 的传统思路,构建了以Roofline 模型为基础的硬件-模型协同设计框架,实现架构超参数与硬件性能的深度绑定,整体框架如图3所示。

  • 双建模核心逻辑

    精度建模(损失定律):将模型验证损失显式建模为架构超参数(层数、维度、KV 缓存维度、FFN 扩展比、MoE 激活率)的可分离函数,通过大量实验拟合出损失预测公式,实现从架构参数到模型精度的直接预测;

    性能建模(Roofline 延迟分析):基于 Roofline 模型刻画硬件的计算-带宽瓶颈,将推理延迟分解为预填充(Prefill)和解码(Decode)两个阶段,推导出具身的延迟计算公式,实现从架构参数到推理延迟的精准估计。

  • 联合优化目标:在固定硬件约束下,将端侧 LLM 架构设计转化为带约束的损失最小化问题,数学表达为:

    min ⁡ θ ∈ Θ L ( θ ) s.t. T ( θ ; H , W ) ≤ T lat , M ( θ ; W ) ≤ M budget \min_{\theta \in \Theta} \mathcal{L}(\theta) \quad \text{s.t.} \quad T(\theta; H, W) \leq T_{\text{lat}},\quad M(\theta; W) \leq M_{\text{budget}} minθΘL(θ)s.t.T(θ;H,W)Tlat,M(θ;W)Mbudget

    其中 θ = ( l , d , d m , r , ρ ) \theta = (l, d, d_m, r, \rho) θ=(l,d,dm,r,ρ)为模型架构超参数, T ( θ ; H , W ) T(\theta; H, W) T(θ;H,W)为 Roofline 建模的推理延迟, M ( θ ; W ) M(\theta; W) M(θ;W)为内存消耗,通过该目标实现精度与效率的协同优化。

关键建模:损失定律与 Roofline 延迟的显性表达

精度建模:多维度架构超参数的损失拟合

研究通过训练 170 种涵盖稠密 / 稀疏(MoE)的 Transformer 架构(各训练 100 亿 token),拟合出显性的损失预测公式,突破了传统定律仅考虑参数量的局限,覆盖层数、宽度、MoE 激活率、FFN 扩展比、KV 缓存维度等核心架构参数:

L ^ ( θ ) = κ l l α l + κ ρ ⋅ ρ α ρ r α r d β 1 + κ d r α r d β 2 + κ m d m α m + L ∞ \hat{\mathcal{L}}(\theta) = \frac{\kappa_l}{l^{\alpha_l}} + \frac{\kappa_\rho \cdot \rho^{\alpha_\rho}}{r^{\alpha_r} d^{\beta_1}} + \frac{\kappa_d}{r^{\alpha_r} d^{\beta_2}} + \frac{\kappa_m}{d_m^{\alpha_m}} + \mathcal{L}_\infty L^(θ)=lαlκl+rαrdβ1κρραρ+rαrdβ2κd+dmαmκm+L

该公式将损失分解为层数项、稀疏-宽度项、容量项、KV 缓存项和不可约损失,拟合结果在训练集上 R 2 = 0.975 R^2=0.975 R2=0.975、验证集上 R 2 = 0.952 R^2=0.952 R2=0.952,实现了对模型损失的高精度预测,无需对每个候选架构进行全量训练。

性能建模:Roofline 驱动的端到端延迟推导

基于 Roofline 模型的计算-带宽瓶颈判定(延迟取 “计算耗时” 与 “内存访问耗时” 的最大值),将 LLM 推理延迟拆分为预填充和解码两个阶段,推导出端到端延迟公式:

T ^ θ = T total ( S in , S out ) = l ⋅ T layer pre ( S in ) + ∑ s = 1 S out l ⋅ T layer dec ( S + S in ) \hat{T}_\theta = T_{\text{total}}(S_{\text{in}}, S_{\text{out}}) = l \cdot T_{\text{layer}}^{\text{pre}}(S_{\text{in}}) + \sum_{s=1}^{S_{\text{out}}} l \cdot T_{\text{layer}}^{\text{dec}}(S + S_{\text{in}}) T^θ=Ttotal(Sin,Sout)=lTlayerpre(Sin)+s=1SoutlTlayerdec(S+Sin)

其中,预填充阶段受计算限制(注意力层O(S2)复杂度),解码阶段受内存带宽限制(权重反复从片外内存加载),该模型能精准捕捉不同架构超参数、硬件特性(峰值算力、持续带宽)和工作负载(批次、序列长度)对延迟的影响,支持 5 万 + 架构配置在 20 分钟内完成延迟评估。

架构搜索:帕累托最优的 PLAS 框架

研究提出PLAS(Pareto-optimal LLM Architecture Search) 框架,将架构搜索转化为帕累托前沿分析,解决了多目标优化下的最优架构选择问题:

帕累托最优定义:一个架构 θ ∗ \theta^* θ为帕累托最优,当且仅当不存在其他架构 θ \theta θ,使得 L ( θ ) ≤ L ( θ ⋆ ) ∧ T ( θ ; H , W ) ≤ T ( θ ⋆ ; H , W ) \mathcal{L}(\theta) \leq \mathcal{L}(\theta^\star) \land T(\theta; H, W) \leq T(\theta^\star; H, W) L(θ)L(θ)T(θ;H,W)T(θ;H,W)(至少一个严格成立),所有帕累托最优架构构成精度-延迟帕累托前沿

前沿构建策略:采用拉丁超立方抽样初始化架构集,通过迭代采样帕累托前沿的稀疏区域和邻域实现精细化搜索,直至前沿稳定;

量化协同优化:对比 FP16 和 INT8 精度下的帕累托前沿,如图 5 所示,发现 INT8 量化能显著降低延迟,但因非线性操作(Softmax、层归一化)无法量化,提速效果低于理论 2 倍,为量化与架构的协同优化提供了方向。

理论升华:硬件约束下的最优架构解析解

在实证搜索的基础上,研究进一步推导出不同硬件约束下架构超参数的解析解,实现了从 “实证搜索” 到 “原理性优化” 的跨越,核心针对三类典型约束场景:

仅延迟约束:最优 MoE 激活率 ρ ∗ = ρ m i n ρ^∗=ρ_{min} ρ=ρmin(最大化稀疏性),因为稀疏性不增加每 token 计算量,却能提升模型容量,是 “无成本的精度提升”;

仅内存约束:推导出宽度-稀疏性定律 ρ ∗ ∝ d ( β 1 − β 2 ) / α ρ ρ^*\propto d^{(\beta_1−\beta_2)/\alpha ρ} ρd(β1β2)/αρ,即模型宽度翻倍时,激活率需降低约 2.3 倍,为内存受限下的稀疏性分配提供了定量准则;

延迟-内存双约束:分预填充 + 内存、解码 + 内存两种子场景,推导出激活率、层数、FFN 扩展比、GQA(分组查询注意力)的解析公式,揭示了硬件约束对架构参数的定量影响。

实验验证:NVIDIA Jetson Orin 上的全方位性能突破

研究在NVIDIA Jetson Orin(典型边缘 AI 硬件)上完成了全面验证,对 1942 种候选架构进行基准测试,核心围绕架构搜索效率、精度-延迟 trade-off、实际任务性能三大维度展开,对比基线为工业级轻量模型 Qwen2.5-0.5B。

核心实验结果与深度分析

架构搜索效率:从数月缩短至数天

传统穷举式架构搜索需对数千种架构进行全量训练和实测,周期长达数月;而基于该研究的损失定律 + Roofline 延迟建模,仅需训练 170 种代表性架构拟合模型,后续通过理论预测即可完成帕累托前沿构建,架构选择周期从数月缩短至数天,计算成本降低 90% 以上。

精度-延迟 trade-off:帕累托前沿的最优架构特征

通过帕累托前沿分析,发现端侧 LLM 的最优架构存在显著的共性特征,与云端 LLM 的 “深而窄” 设计形成鲜明对比:

  • MoE 稀疏架构占主导:100% 的帕累托最优架构为 MoE 稀疏模型,在 batch=1 的端侧场景下,MoE 能在保持每 token 计算量不变的前提下提升模型容量,实现更优的精度-效率比;
  • 宽而浅的设计偏好:最优架构层数通常低于 20 层,宽度显著更大,且宽度的损失降低效率高于层数,因为端侧解码阶段受内存带宽限制,层数增加会线性提升内存访问量,而宽度的边际成本更低;
  • 紧凑型 FFN 扩展比:最优 FFN 扩展比远低于传统的 4×,甚至低于 1×,说明端侧场景下,将参数从 FFN 转移至模型宽度或 MoE 专家数,能获得更好的效率;
  • 阶段化 MoE 配置:预填充阶段偏好少专家(避免内存瓶颈),解码阶段偏好多专家(无额外延迟且提升容量),总延迟优化需平衡两者。
约束场景下的架构设计准则

研究针对不同端侧应用场景的延迟需求,给出了可落地的架构选择指南,为实际部署提供直接参考:

跨硬件平台的强大泛化

研究给出了不同硬件平台(Jetson Orin/Thor)上的帕累托最优前沿,验证了“硬件协同设计扩展定律“的跨硬件平台泛化性。

消融与分析:关键设计的必要性验证

研究通过大量消融实验,验证了损失定律拟合、Roofline 延迟建模、MoE 稀疏架构、宽而浅设计等关键模块的必要性:

损失定律的预测精度:拟合公式在未见过的架构上仍能实现 95% 以上的预测精度,避免了大量无效的训练和实测;

Roofline 建模的可靠性:解析延迟与实测延迟的相关性极高,误差在 10-20% 以内,满足架构排序和选择的需求;

MoE 稀疏的不可替代性:稠密架构在端侧 batch=1 场景下,精度-效率比远低于 MoE 架构,无法进入帕累托前沿;

宽而浅 vs 深而窄:在相同延迟约束下,宽而浅的架构损失比深而窄的架构低 15-20%,是端侧场景的最优选择。

实际任务性能:同延迟下精度提升 19.42%

在 NVIDIA Jetson Orin 上,选择与 Qwen2.5-0.5B推理延迟完全匹配的帕累托最优架构,进行同条件训练和测试:

  • 训练动态:协同设计的架构在整个训练过程中损失始终更低,模型容量利用效率更高;
  • 下游性能:协同设计架构的困惑度(Perplexity)为 50.88,相比 Qwen2.5-0.5B(63.14)降低 19.42%,实现了 “同延迟下的精度显著提升”,验证了硬件协同设计的实际价值。

总结:开启端侧 LLM 的硬件-模型协同设计时代

该研究的核心价值不仅在于实现了端侧 LLM 架构设计的效率与性能突破,更在于首次提出了可落地的端侧 LLM 硬件协同设计定律,构建了 “架构超参数-模型精度-硬件性能” 的统一建模框架,实现了从 “经验式设计” 到 “原理性优化” 的范式转变。其核心贡献可概括为三大跨越:

建模跨越:首次将损失定律与 Roofline 硬件建模结合,实现了精度-延迟的显性映射,为多约束优化奠定基础;

搜索跨越:提出 PLAS 框架,将架构搜索转化为帕累托前沿分析,将设计周期从数月缩短至数天;

理论跨越:推导出不同硬件约束下架构超参数的解析解,给出了可落地的端侧 LLM 设计准则。

尽管目前该框架仍基于 Transformer 架构,尚未扩展至 SSM-Transformer 混合架构等新型结构,且对硬件核函数融合、缓存效应的建模仍可进一步精细化,但该研究已证明:硬件-模型的协同设计是破解端侧 LLM 精度-延迟矛盾的核心关键。未来通过将该框架扩展至更多边缘硬件平台(如 TPU、专用 AI 加速器)、融合新型高效架构、轻量化建模适配低功耗设备,有望加速 LLM 在自动驾驶、移动机器人、智能家居等端侧场景的规模化部署。

重磅!

VLA+RL方向首个系统教程来啦!Online RL/Offline RL/test time RL等~

推荐阅读

我们用低成本的机械臂完成pi0/pi0.5/GR00T/世界模型等VLA任务~

好用,高性价比!面向具身科研领域打造的轻量级机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

具身智能与传统机器人任务有什么区别?主流方案有哪些?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐