神经网络权重维度（Linear层为例）

线性层权重矩阵维度解释

Differential Caculus

638人浏览 · 2025-02-13 09:12:21

Differential Caculus · 2025-02-13 09:12:21 发布

以pytorch中的nn.Linear线性层为例，在神经网络中，权重矩阵的形状通常是(output_size, input_size)，原因是权重矩阵用于将输入数据的特征映射到输出空间，而并非是直接理解出的“(input_size, output_size)”。

对于nn.Linear, 输入通常为(batch_size, input_size), 我们将通过权重矩阵将输入向量从'input_size'维度进行空间映射到'output_size' 维度。公式如下：

$\text{output} = \text{input} \times \text{weights}^T + \text{bias}$

where:

input shape: (batch_size, input_size)
weight shape: (output_size, input_size) --> weight^T: (inputs_size, output_size)
bias shape: (output_size, )

所以通过矩阵乘法以后，输出数据的形状为(batchs_size, output_size)符合预期。因此权重矩阵的形状是(output_size, input_size)而非(input_size, output_size)

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

The most detailed analysis of the MCU startup process

2048 AI社区

惊叹！提示工程架构师让区块链与提示系统结合焕发新活力

本文将以“去中心化AI问答系统如何用提示工程架构师的思维，设计“区块链+提示系统”的融合架构；如何让智能合约“连接”提示系统，实现“动态逻辑”的可信执行；如何用区块链保障提示系统的“过程可追溯”，让AI输出更可信。我们要做一个用户可以信任的AI问答系统用户输入问题（比如“解释区块链的去中心化”），系统用提示工程生成答案；答案的生成过程（提示模板、模型参数、生成时间）存储在区块链上，不可篡改；答案的

2048 AI社区

AI应用架构师如何提升智能数字身份管理系统的可用性

早上8点，你急着赶地铁刷码进站，却因为“人脸认证失败”在闸机前滞留3分钟；午休时想登录电商APP抢优惠券，却因为“密码忘记+短信验证码延迟”错过秒杀；晚上加班远程访问公司系统，却因为“陌生设备需要二次认证”反复输入验证码——这些场景，几乎每个互联网用户都经历过。数字身份管理（Identity Management, IDM）是现代数字生活的“通行证”，而智能数字身份管理系统（Intelligen