背景

“GLM-4.5拥有 3550 亿总参数量,其中 320 亿活跃参数;GLM-4.5-Air 采用更紧凑的设计,拥有 1060 亿总参数量,其中 120 亿活跃参数。”

定义与关系

  • 总参数量:模型中所有可训练参数的总和(包括嵌入层、注意力层、前馈网络等),反映模型的理论容量
  • 活跃参数:在单次前向传播中实际参与计算的参数子集。例如:
    • 稀疏激活模型(如MoE):每次只激活部分专家网络(如Switch Transformer每次激活1/8的专家)。
    • 动态参数共享(如LoRA、AdaLoRA):通过低秩分解或掩码动态选择参数。
    • 条件计算(如专家选择、路由机制):根据输入动态决定激活哪些路径。

关系
活跃参数 ≤ 总参数量(通常远小于)。例如,Switch Transformer总参数量1.6T,但单次计算仅激活约50B参数(活跃参数占比~3%)。

作用与意义

(1)效率提升
  • 计算成本:活跃参数直接决定FLOPs和内存占用。稀疏激活(如MoE)允许在总参数量极大时,仍保持低计算量(如GPT-3 175B的FLOPs vs. MoE-1T的FLOPs可能相近)。
  • 存储优化:通过参数共享(如LoRA)或量化,减少实际存储需求(例如Meta的LLaMA-65B通过4-bit量化压缩至33GB)。
(2)性能与容量的权衡
  • 总参数量:提供潜在容量(如知识存储),但需通过稀疏激活或动态路由有效利用。例如:
    • MoE模型:总参数量大(如GLaM 1.2T),但活跃参数少(96B),在多项任务上超越GPT-3(175B全激活)。
    • 过拟合风险:总参数量过大但活跃参数不足时,可能因参数利用率低导致欠拟合。
(3)训练与推理的差异化设计
  • 训练阶段:总参数量影响梯度更新范围,但可通过梯度稀疏化(如ZeRO-3、DeepSpeed)减少实际通信量。
  • 推理阶段:通过动态剪枝(如Block-Sparse Attention)或专家卸载(如MoE的路由缓存),进一步降低活跃参数。

总参数量是模型的“潜在智慧”,而活跃参数是其“实际执行力”。二者的分离设计(如稀疏化、动态路由)是大模型突破规模限制的核心技术,使得“用更少的计算,实现更强的性能”成为可能。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐