模型学习系列之参数

文章摘要：在大模型（如Transformer架构）中，总参数量（Total Parameters）和活跃参数（Active Parameters）是两个关键但不同的概念，它们的关系和意义直接影响模型的效率、性能和落地可行性。

程序猿炎义

501人浏览 · 2025-08-03 21:44:22

程序猿炎义 · 2025-08-03 21:44:22 发布

背景

“GLM-4.5拥有 3550 亿总参数量，其中 320 亿活跃参数；GLM-4.5-Air 采用更紧凑的设计，拥有 1060 亿总参数量，其中 120 亿活跃参数。”

定义与关系

总参数量：模型中所有可训练参数的总和（包括嵌入层、注意力层、前馈网络等），反映模型的理论容量。
活跃参数：在单次前向传播中实际参与计算的参数子集。例如：
- 稀疏激活模型（如MoE）：每次只激活部分专家网络（如Switch Transformer每次激活1/8的专家）。
- 动态参数共享（如LoRA、AdaLoRA）：通过低秩分解或掩码动态选择参数。
- 条件计算（如专家选择、路由机制）：根据输入动态决定激活哪些路径。

关系：
活跃参数 ≤ 总参数量（通常远小于）。例如，Switch Transformer总参数量1.6T，但单次计算仅激活约50B参数（活跃参数占比~3%）。

作用与意义

（1）效率提升

计算成本：活跃参数直接决定FLOPs和内存占用。稀疏激活（如MoE）允许在总参数量极大时，仍保持低计算量（如GPT-3 175B的FLOPs vs. MoE-1T的FLOPs可能相近）。
存储优化：通过参数共享（如LoRA）或量化，减少实际存储需求（例如Meta的LLaMA-65B通过4-bit量化压缩至33GB）。

（2）性能与容量的权衡

总参数量：提供潜在容量（如知识存储），但需通过稀疏激活或动态路由有效利用。例如：
- MoE模型：总参数量大（如GLaM 1.2T），但活跃参数少（96B），在多项任务上超越GPT-3（175B全激活）。
- 过拟合风险：总参数量过大但活跃参数不足时，可能因参数利用率低导致欠拟合。

（3）训练与推理的差异化设计

训练阶段：总参数量影响梯度更新范围，但可通过梯度稀疏化（如ZeRO-3、DeepSpeed）减少实际通信量。
推理阶段：通过动态剪枝（如Block-Sparse Attention）或专家卸载（如MoE的路由缓存），进一步降低活跃参数。

总参数量是模型的“潜在智慧”，而活跃参数是其“实际执行力”。二者的分离设计（如稀疏化、动态路由）是大模型突破规模限制的核心技术，使得“用更少的计算，实现更强的性能”成为可能。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

前后端分离校园资产管理系统｜SpringBoot+Vue+MyBatis+MySQL完整源码+部署教程

2048 AI社区

Lighthouse安全组自动化审计与加固：基于MCP协议的智能运维实践

本文介绍了一个简易版网络资源监控器的Rust实现方案。该系统通过读取配置文件中的URL列表，定期发送HTTP请求来监测网站可用性，记录响应时间和状态码，并在网站不可达时发出告警。系统采用reqwest库进行异步HTTP请求，tokio处理异步运行时，clap解析命令行参数，csv库存储监控结果到文件。实现过程包括：1)单个网站监测函数；2)读取监控列表；3)异步定时监控模块；4)CSV日志记录功能

2048 AI社区

Spring Bean介绍（被Spring IoC容器创建、装配、管理的Java对象）IoC容器、控制反转（IoC）、依赖注入（DI）、循环依赖

Spring Bean = 被Spring IoC容器创建、装配、管理的Java对象。IoC容器（Inversion of Control Container）是Spring框架的核心引擎，负责创建、组装、管理所有Bean，并将“控制权”从开发者手中“反转”交给框架。它不一定是“JavaBean”（无参构造+getter/setter），而是一个生命周期由Spring全权负责的对象。你可以把Spr