导读

上海交通大学团队提出 BriLLM(Brain‑inspired Large Language Model) 。论文主张以“SiFu(Signal Fully‑connected flowing)学习”替代现有深度学习范式,用“静态语义节点 + 动态电生理式信号传播”的机制重塑语言生成过程,试图从根部解决 Transformer/GPT 的三大顽疾:不可解释性、随上下文长度急剧膨胀的计算复杂度、以及模型容量与上下文长度强耦合。作者通过小规模原型验证了序列续写能力与训练稳定性,并讨论了在词表规模扩大、稀疏连接训练后的可扩展性。 author

论文基本信息

  • 论文标题:BriLLM: Brain‑inspired Large Language Model

  • 作者:Hai Zhao,Hongqiu Wu,Dongjie Yang,Anni Zou,Jiale Hong

  • 作者单位:Shanghai Jiao Tong University

  • 发布时间:2025‑08‑12

  • 论文来源:https://arxiv.org/pdf/2503.11299

  • 代码地址:https://github.com/brillm05/BriLLM0.5

摘要

论文提出 BriLLM 与其底层的 SiFu 学习框架。该框架将每个词元(token)映射为一个可解释的“语义节点”,节点之间通过双向可学习的边进行信号传播,利用“能量最大化”准则完成下一词预测。与仅在输入/输出可解释的黑盒深度网络不同,BriLLM 试图实现全链路可解释:每个节点、每条边的行为与意义都可被追踪。与此同时,SiFu 的推理复杂度不随序列长度二次增长,模型容量也不再与上下文长度绑定。原型系统在中英维基语料上进行了小规模训练,展示了序列续写的可行性与训练损失的稳定下降,并通过“稀疏连接共享”显著压缩了参数规模。作者进一步给出在大词表、稀疏化条件下扩展至百亿至两百亿级参数的可行性分析。

➔➔➔➔点击查看原文,获取更多大模型相关资料

研究背景及相关工作

研究背景

Transformer 及其 GPT 系列已成为自然语言处理的事实标准,但长期依赖的注意力机制导致计算与显存消耗随序列长度 O() 增长;同时,表示学习的“黑盒性”使得模型内部机理难以解释,开发与部署面临安全与合规挑战。另一方面,神经科学研究(如 Huth 等,2016)提示:人类大脑的语义信息在皮层呈现较稳定的空间分布,不同区域对语义类别具有相对可解释的响应;认知过程则表现为跨区域的电生理信号动态传播与整合。这些特征启发了“把语义映射为节点、以信号传播驱动推理”的尝试。

相关工作

  1. 注意力与长上下文:从 Transformer 到各种线性/稀疏注意力、K/V 缓存、旋转位置编码等,核心目标是在长上下文下降低二次复杂度与保持记忆,但大多仍停留于“改良注意力”的范畴。

  2. 可解释性:探针、特征可视化、注意力归因、激活修补等方法更多是“事后解释”,难以达到结构层面的内生可解释。BriLLM 试图从结构层面嵌入可解释性:每个 token‑node 先验绑定语义含义,传播路径天然给出“推理轨迹”。

  3. 类脑与能量模型:能量基学习(Energy‑based Models)与电路类比在视觉/语言中均有尝试,但常见方案要么难以规模化,要么与主流自回归建模脱节。SiFu 将“能量最大化”直接用于下一词选择,并与自回归预测无缝对接。

➔➔➔➔点击查看原文,获取更多大模型相关资料

主要贡献

  • 提出 SiFu 学习范式:以有向图表征词表,节点为语义位置,边为双向传导通道;以“能量最大化”的动态信号传播替代传统前向计算,形成与语言生成匹配的电生理式推理过程。

  • 结构内生可解释:节点语义绑定与路径可视化使预测过程具备“认知可追踪性”,可把错误定位到具体节点/边的异常激活与连接权。

  • 与上下文长度解耦:推理复杂度不再与输入序列长度强耦合,模型容量主要由词表规模与节点维度决定,理论上可以处理“任意长”上下文。

  • 稀疏化可扩展:在大词表下,通过低频共现边的矩阵共享与稀疏训练,将理论上的致密全连接图压缩到可训练规模,为 1e11~2e11 量级参数提供工程可行性。

研究方法与基本原理

问题设定与符号

  • 词表:,对每个 建立节点 。

  • 图结构:,边 表示从 到 的可学习传导。

  • 信号:在输入序列对应的节点上注入初始信号 ,沿图传播;节点与边各自带有参数化的变换。

  • 目标:给定前缀 ,选择使传播后信号“能量”最大的候选节点作为 。

节点‑边参数化与信号更新

每个节点实现为带偏置的 GeLU 层,维度为 。每条有向边配对一个 的传导矩阵,用于线性变换后再经非线性激活。为刻画序列次序,引入位置编码 。对相邻两节点 的单步传播可写为:

起始时刻采用常量向量 以激活首个节点。对前缀中所有已访问节点的信号,使用可学习权重 进行加权整合:

最终预测通过“能量最大化”实现:

直观而言,传播路径就是模型“思考”的轨迹;能量最高的候选节点代表“最被激活的语义位置”,与下一词对应。

The schematic illustration of SiFu mechanism.

The schematic illustration of SiFu mechanism.

与 Transformer 的关键差异

  1. 运算流组织:Transformer 以层为单位执行“并行匹配 + 聚合”(注意力),SiFu 以图为底座推进“逐步传播 + 加权整合”。

  2. 复杂度刻画:标准注意力在长序列下为 ,而 SiFu 的核心计算与词表图规模 、节点维度 与有效活跃边数相关,推理阶段对序列长度的依赖被弱化(更接近与 解耦)。

  3. 可解释性与可视化:SiFu 天然给出“节点能量热图”和“路径序列”,便于做错误定位、鲁棒性诊断与知识编辑。

An illustration of SiFu Directed Graph (Numbers by the node denote energy scores).

An illustration of SiFu Directed Graph (Numbers by the node denote energy scores).

训练目标与优化

训练以自回归方式进行:给定前缀,要求正确下一词的能量最大。实现上仍可采用交叉熵损失,对所有候选节点能量经 softmax 转化为概率分布,最小化正确词的负对数似然。为缓解全连接图的参数爆炸,作者采用“稀疏共享”策略:对低频共现的边共享固定矩阵,仅对高频边保留独立参数,从而在不破坏全局连通性的前提下显著降低参数量与显存开销。

The training network of BriLLM for one training sample

The training network of BriLLM for one training sample

复杂度与可扩展性分析

设词表大小为 、节点维度为 。理论上全连接图的参数量 。但自然语言呈长尾分布,大量词对的共现极低,因此可对低频边进行参数共享稀疏保留

  • 高频边:保留独立矩阵,保证主干语义通路的表达力;

  • 低频边:共享若干模板矩阵,减少冗余;

  • 进一步可结合剪枝、量化、分块低秩等工程手段。

作者据此给出:在 4 万词表规模下,通过稀疏化可把“理论 16B+ 级别”的致密参数压缩到 百亿~两百亿 的数量级,且推理时不需要随 成比例增加计算。这一点在长上下文应用(检索增强、代理互动、工具使用)中具有直接意义。

The architecture of BriLLM.

The architecture of BriLLM.

方法细节

数据与表示

  • 语料:中文与英文维基百科,各自 token;训练时将序列截断为 32 长度以验证概念可行性。

  • 词表:约 4k,方便在有限显存内快速迭代。

  • 节点维度:。

  • 位置编码:正弦‑余弦形式,保证顺序敏感性。

网络与优化

  • 激活函数:GeLU。

  • 优化器:AdamW()。

  • 训练资源:8×NVIDIA A800,约 1.5k 步,目标是验证“训练曲线稳定下降 + 序列续写可行”。

  • 损失:交叉熵(基于能量转概率)。

稀疏化与共享策略

  • 初始以“全连接”建立上界;

  • 统计边的共现频率,阈值以下的统一映射到共享矩阵集合;

  • 在训练中对共享集合与独立矩阵分别更新,逐步形成“主干 + 稀疏从属”的结构;

  • 结果显示:中文原型从理论 16.9B 降至 2.19B;英文从 16.9B 降至 0.96B,压缩比可达 5.7%~13%。

The training loss

The training loss

实验与结果解析

实验设置

  • 目标:验证 SiFu/BriLLM 的三件事—— *(1)自回归续写可行; *(2)训练曲线稳定; *(3)稀疏化后的参数与计算成本可控。

  • 数据:中/英维基子集,序列长度截断为 32。

  • 指标

    • 训练损失的单调下降与稳定性;

    • 案例级解码质量(训练样本与测试样本各若干条);

    • 参数统计(稀疏前后)。

核心观察

  1. 训练稳定:损失曲线平滑下降,未出现振荡与发散,说明“能量最大化 + 交叉熵”在该结构上可良好优化。

  2. 序列续写:在训练样本上生成合理;在测试样本上虽有不通顺或杂糅,但能维持基本主题与语法结构,显示了“以信号路径驱动的生成”具可行性。

  3. 参数压缩:稀疏共享显著降低参数量与显存占用,为扩大词表与节点维度留出空间。

结果解析

  • 与 GPT‑1 的“能力定位”:论文将原型的序列续写能力与“最早期 GPT‑1 的核心生成能力”类比。就可读性与连贯性而言,原型尚不稳定,但作为“结构范式验证”,已达到了“可生成 + 可训练”的最低可行门槛。

  • 可解释性价值:由于每一跳的传播与每一节点能量都可导出,研究者可以直接检查“模型为何走了这条路径”,这对于调试、知识编辑、对抗鲁棒性研究(如屏蔽某类边)非常有用。

  • 长上下文潜力:按作者设想,推理时无需随 线性或二次扩大注意力匹配,因此有望在极长上下文任务中保持稳定成本。但要真正做到“任意长”,仍需在训练阶段提供足够长的样本与跨段整合机制。

局限与风险

  • 生成质量与多样性:当前原型的测试样本输出存在语法/语义破碎。要追平主流水平,需要更大规模训练、更精细的稀疏策略与更强的正则化。

  • 参数规模与工程复杂度:即使稀疏后仍可能达百亿到两百亿参数;如何在分布式训练中有效管理“共享/独立矩阵”的同步与路由,是工程挑战。

  • 与外部知识的结合:SiFu 侧重“路径能量”而非显式检索,如何无缝融合 RAG、工具使用与多模态节点,还需系统设计。

  • 评价标准:仅用训练损失与案例级样例难以全面刻画;需要标准基准(困惑度、问答/推理任务)与可解释性定量指标。

总结与展望

总结

BriLLM/SiFu 以“语义节点 + 动态信号传播”的结构,试图从范式层面回应大模型的可解释性与长上下文挑战。原型在有限资源下展示了可训练、可生成、可压缩的基本可行性,最重要的价值在于:把推理过程显式化为可观察的能量‑路径轨迹,为后续的透明化、可控化大模型提供了新的设计思路。

展望

短期看,需要在更大语料、更长序列与更严格基准上验证可扩展性,并建立配套的“路径质量”度量体系;中期看,稀疏化、共享矩阵设计与分布式训练优化将决定工程落地的上限;长期看,随着多模态节点与工具节点的并入,SiFu 有潜力形成“统一语义‑行为图谱”的可解释 AGI 框架。

 ➔➔➔➔点击查看原文,获取更多大模型相关资料 

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐