揭秘 AI 推理:OpenAI 稀疏模型让神经网络首次透明化;Calories Burnt Prediction:为健身模型注入精准能量数据
近年来,大语言模型在能力上突飞猛进,但其内部决策过程如同一个深度纠缠的「黑箱」,难以追溯和理解。这一根本性难题,严重阻碍了AI在医疗、金融等高风险领域的可靠应用。如何让模型的思考过程变得透明、可追溯,仍是悬而未决的关键问题。
近年来,大语言模型在能力上突飞猛进,但其内部决策过程如同一个深度纠缠的「黑箱」,难以追溯和理解。这一根本性难题,严重阻碍了AI在医疗、金融等高风险领域的可靠应用。如何让模型的思考过程变得透明、可追溯,仍是悬而未决的关键问题。
基于此,OpenAI 于 2025 年 12 月发布的 0.4B 参数大语言模型 Circuit Sparsity,它采用电路稀疏技术,将 99.9% 的权重置零,构建出可解释的稀疏计算架构,突破传统 Transformer 的「黑箱」决策限制,使 AI 推理过程可逐层解析。该模型的核心,是通过一套独特的训练方法,将传统密集神经网络改造为结构化的稀疏「电路」。
*动态强制稀疏:与传统方法不同,它在训练的每一步都执行「动态剪枝」,每轮仅保留权重中绝对值最大的极少数(如0.1%),其余强制归零,迫使模型从一开始就学习在极简连接下工作。
*激活稀疏化:在注意力机制等关键位置引入激活函数,使神经元的输出趋于「非此即彼」的离散状态,从而在稀疏网络中形成清晰的信息通道。
*定制化组件:采用 RMSNorm 替代 LayerNorm 以防止破坏稀疏性;并引入 Bigram 查找表来处理简单词汇预测,让主网络更专注于复杂逻辑。
通过上述方法训练出的模型,其内部自发形成了功能明确、可被解析的「电路」。每个电路负责一个特定子任务。研究人员可明确识别出,某些神经元专门用于检测「单引号」,而另一些则充当逻辑「计数器」,相比传统密集模型,完成相同任务所需的活跃节点数量大幅减少。其配套的「桥梁网络」 技术,试图将稀疏电路中获得的解释映射回 GPT-4 等高性能密集模型,也为分析现有大模型提供了潜在工具。
目前,HyperAI超神经官网已上线了「Circuit Sparsity:OpenAI 开源新稀疏模型」,快来试试吧~
在线使用:https://go.hyper.ai/WgLQc
1 月 5 日-1 月 9 日,hyper.ai 官网更新速览:
* 优质教程精选:4 个
* 热门百科词条:5 条
* 1 月截稿顶会:9 个
访问官网:hyper.ai
公共教程精选
1.Circuit Sparsity:OpenAI 开源新稀疏模型
Circuit-sparsity 是 OpenAI发布的 0.4B 参数大语言模型。它采用电路稀疏技术,将 99.9% 的权重置零,构建出可解释的稀疏计算架构,突破传统 Transformer 的「黑箱」决策限制,使 AI 推理过程可逐层解析。随模型发布的 Streamlit 工具包提供「激活桥」技术,支持研究者追踪内部信号路径、分析功能对应电路,并比较稀疏与密集模型的性能差异。
在线运行:https://go.hyper.ai/zui8w

Demo 页面
2.HY-MT1.5-1.8B:多语言神经机器翻译模型
HY-MT1.5-1.8B 是腾讯混元团队发布的 18 亿参数多语言机器翻译模型。它基于统一 Transformer 架构,支持 33 种语言与 5 种民族语言/方言的互译,并针对混合语言、术语控制等真实场景优化。该模型在接近 7B 模型翻译质量的同时,参数规模仅为三分之一,支持量化部署与 HuggingFace 生态集成,适用于高效、低成本的多语言在线翻译服务。
在线运行:https://go.hyper.ai/I0pdR

Demo 页面
3.AWPortrait-Z 肖像美术 LoRA
AWPortrait-Z 是一款基于 LoRA 技术的肖像增强模型。它作为插件与主流文生图扩散模型结合,无需重训基础模型,即可显著提升人像生成的真实感与摄影质感。该模型专门优化了面部结构、肤质纹理与光影氛围的渲染,生成效果更自然、细腻,适用于需要摄影级真实感的人像创作与图像合成。
在线运行:https://go.hyper.ai/wRjIp

Demo 页面
4.Granite-4.0-h-small 一站式进行多语言对话与代码任务
Granite-4.0-h-small 是 IBM 发布的 32 亿参数长上下文指令微调模型。它基于基础模型微调,融合开源与合成数据,采用监督微调、强化学习对齐及模型合并技术。该模型具有优秀的指令遵循与工具调用能力,采用结构化对话格式,专为高效的企业级应用场景优化。
在线运行:https://go.hyper.ai/1HhB9

Demo 页面
热门百科词条精选
1. 人机回圈 HITL
2. 超倒数排序融合 RRF
3. 具身导航 Embodied Navigation
4. 多层感知机 Multilayer Perceptron
5. 强化微调 Reinforcement Fine-Tuning
这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

一站式追踪人工智能学术顶会:https://go.hyper.ai/event
以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!
下周再见!
更多推荐
所有评论(0)