2025 | 上海交大首个「类人脑」大模型诞生，重塑机器学习范式！

上海交通大学团队提出BriLLM（Brain-inspired Large Language Model），采用"SiFu（Signal Fully-connected flowing）学习"范式，通过"静态语义节点+动态电生理式信号传播"机制重构语言生成过程。该模型具有结构内生可解释性、推理复杂度与上下文长度解耦等优势，并采用稀疏共享策略降低参数规模。小规

LLM精进之路

933人浏览 · 2025-08-21 18:17:41

LLM精进之路 · 2025-08-21 18:17:41 发布

导读

上海交通大学团队提出 BriLLM（Brain‑inspired Large Language Model） 。论文主张以“SiFu（Signal Fully‑connected flowing）学习”替代现有深度学习范式，用“静态语义节点 + 动态电生理式信号传播”的机制重塑语言生成过程，试图从根部解决 Transformer/GPT 的三大顽疾：不可解释性、随上下文长度急剧膨胀的计算复杂度、以及模型容量与上下文长度强耦合。作者通过小规模原型验证了序列续写能力与训练稳定性，并讨论了在词表规模扩大、稀疏连接训练后的可扩展性。 author

论文基本信息

论文标题：BriLLM: Brain‑inspired Large Language Model
作者：Hai Zhao，Hongqiu Wu，Dongjie Yang，Anni Zou，Jiale Hong
作者单位：Shanghai Jiao Tong University
发布时间：2025‑08‑12
论文来源：https://arxiv.org/pdf/2503.11299
代码地址：https://github.com/brillm05/BriLLM0.5

摘要

论文提出 BriLLM 与其底层的 SiFu 学习框架。该框架将每个词元（token）映射为一个可解释的“语义节点”，节点之间通过双向可学习的边进行信号传播，利用“能量最大化”准则完成下一词预测。与仅在输入/输出可解释的黑盒深度网络不同，BriLLM 试图实现全链路可解释：每个节点、每条边的行为与意义都可被追踪。与此同时，SiFu 的推理复杂度不随序列长度二次增长，模型容量也不再与上下文长度绑定。原型系统在中英维基语料上进行了小规模训练，展示了序列续写的可行性与训练损失的稳定下降，并通过“稀疏连接共享”显著压缩了参数规模。作者进一步给出在大词表、稀疏化条件下扩展至百亿至两百亿级参数的可行性分析。

➔➔➔➔点击查看原文，获取更多大模型相关资料

研究背景及相关工作

研究背景

Transformer 及其 GPT 系列已成为自然语言处理的事实标准，但长期依赖的注意力机制导致计算与显存消耗随序列长度 O() 增长；同时，表示学习的“黑盒性”使得模型内部机理难以解释，开发与部署面临安全与合规挑战。另一方面，神经科学研究（如 Huth 等，2016）提示：人类大脑的语义信息在皮层呈现较稳定的空间分布，不同区域对语义类别具有相对可解释的响应；认知过程则表现为跨区域的电生理信号动态传播与整合。这些特征启发了“把语义映射为节点、以信号传播驱动推理”的尝试。

主要贡献

提出 SiFu 学习范式：以有向图表征词表，节点为语义位置，边为双向传导通道；以“能量最大化”的动态信号传播替代传统前向计算，形成与语言生成匹配的电生理式推理过程。
结构内生可解释：节点语义绑定与路径可视化使预测过程具备“认知可追踪性”，可把错误定位到具体节点/边的异常激活与连接权。
与上下文长度解耦：推理复杂度不再与输入序列长度强耦合，模型容量主要由词表规模与节点维度决定，理论上可以处理“任意长”上下文。
稀疏化可扩展：在大词表下，通过低频共现边的矩阵共享与稀疏训练，将理论上的致密全连接图压缩到可训练规模，为 1e11～2e11 量级参数提供工程可行性。

研究方法与基本原理

问题设定与符号

词表：，对每个建立节点。
图结构：，边表示从到的可学习传导。
信号：在输入序列对应的节点上注入初始信号，沿图传播；节点与边各自带有参数化的变换。
目标：给定前缀，选择使传播后信号“能量”最大的候选节点作为。

节点‑边参数化与信号更新

每个节点实现为带偏置的 GeLU 层，维度为。每条有向边配对一个的传导矩阵，用于线性变换后再经非线性激活。为刻画序列次序，引入位置编码。对相邻两节点的单步传播可写为：

起始时刻采用常量向量以激活首个节点。对前缀中所有已访问节点的信号，使用可学习权重进行加权整合：

最终预测通过“能量最大化”实现：

直观而言，传播路径就是模型“思考”的轨迹；能量最高的候选节点代表“最被激活的语义位置”，与下一词对应。

The schematic illustration of SiFu mechanism.

与 Transformer 的关键差异

运算流组织：Transformer 以层为单位执行“并行匹配 + 聚合”（注意力），SiFu 以图为底座推进“逐步传播 + 加权整合”。
复杂度刻画：标准注意力在长序列下为，而 SiFu 的核心计算与词表图规模、节点维度与有效活跃边数相关，推理阶段对序列长度的依赖被弱化（更接近与解耦）。
可解释性与可视化：SiFu 天然给出“节点能量热图”和“路径序列”，便于做错误定位、鲁棒性诊断与知识编辑。

An illustration of SiFu Directed Graph (Numbers by the node denote energy scores).

训练目标与优化

训练以自回归方式进行：给定前缀，要求正确下一词的能量最大。实现上仍可采用交叉熵损失，对所有候选节点能量经 softmax 转化为概率分布，最小化正确词的负对数似然。为缓解全连接图的参数爆炸，作者采用“稀疏共享”策略：对低频共现的边共享固定矩阵，仅对高频边保留独立参数，从而在不破坏全局连通性的前提下显著降低参数量与显存开销。

The training network of BriLLM for one training sample

复杂度与可扩展性分析

设词表大小为、节点维度为。理论上全连接图的参数量。但自然语言呈长尾分布，大量词对的共现极低，因此可对低频边进行参数共享与稀疏保留：

高频边：保留独立矩阵，保证主干语义通路的表达力；
低频边：共享若干模板矩阵，减少冗余；
进一步可结合剪枝、量化、分块低秩等工程手段。

作者据此给出：在 4 万词表规模下，通过稀疏化可把“理论 16B+ 级别”的致密参数压缩到 百亿～两百亿 的数量级，且推理时不需要随成比例增加计算。这一点在长上下文应用（检索增强、代理互动、工具使用）中具有直接意义。

The architecture of BriLLM.

方法细节

数据与表示

语料：中文与英文维基百科，各自 token；训练时将序列截断为 32 长度以验证概念可行性。
词表：约 4k，方便在有限显存内快速迭代。
节点维度：。
位置编码：正弦‑余弦形式，保证顺序敏感性。

网络与优化

激活函数：GeLU。
优化器：AdamW（）。
训练资源：8×NVIDIA A800，约 1.5k 步，目标是验证“训练曲线稳定下降 + 序列续写可行”。
损失：交叉熵（基于能量转概率）。

稀疏化与共享策略

初始以“全连接”建立上界；
统计边的共现频率，阈值以下的统一映射到共享矩阵集合；
在训练中对共享集合与独立矩阵分别更新，逐步形成“主干 + 稀疏从属”的结构；
结果显示：中文原型从理论 16.9B 降至 2.19B；英文从 16.9B 降至 0.96B，压缩比可达 5.7%～13%。

The training loss

实验与结果解析

实验设置

目标：验证 SiFu/BriLLM 的三件事—— *（1）自回归续写可行； *（2）训练曲线稳定； *（3）稀疏化后的参数与计算成本可控。
数据：中/英维基子集，序列长度截断为 32。
指标：
- 训练损失的单调下降与稳定性；
- 案例级解码质量（训练样本与测试样本各若干条）；
- 参数统计（稀疏前后）。

核心观察

训练稳定：损失曲线平滑下降，未出现振荡与发散，说明“能量最大化 + 交叉熵”在该结构上可良好优化。
序列续写：在训练样本上生成合理；在测试样本上虽有不通顺或杂糅，但能维持基本主题与语法结构，显示了“以信号路径驱动的生成”具可行性。
参数压缩：稀疏共享显著降低参数量与显存占用，为扩大词表与节点维度留出空间。

结果解析

与 GPT‑1 的“能力定位”：论文将原型的序列续写能力与“最早期 GPT‑1 的核心生成能力”类比。就可读性与连贯性而言，原型尚不稳定，但作为“结构范式验证”，已达到了“可生成 + 可训练”的最低可行门槛。
可解释性价值：由于每一跳的传播与每一节点能量都可导出，研究者可以直接检查“模型为何走了这条路径”，这对于调试、知识编辑、对抗鲁棒性研究（如屏蔽某类边）非常有用。
长上下文潜力：按作者设想，推理时无需随线性或二次扩大注意力匹配，因此有望在极长上下文任务中保持稳定成本。但要真正做到“任意长”，仍需在训练阶段提供足够长的样本与跨段整合机制。