目录

1 引言

2 概念与范畴:解释、可解释性、可理解性到底在说什么

3 方法体系综述:从“透明模型”到“后验解释器”

3.1 局部替身模型:LIME与“可在局部被线性逼近”的想象

3.2 统一归因框架:SHAP与“唯一满足一组公理”的加性解释

3.3 规则型解释:Anchors把“通常成立”换成“高精度成立”

4 深度学习解释:梯度、显著图、概念与对抗脆弱性

5 反事实解释:从“为什么”走向“怎么办”

6 样例解释与数据归因:把“责任”追溯到训练数据

7 评估与“反解释陷阱”:从好看走向可检验

8 NLP与大模型时代:从“注意力即解释”到“机制可解释”

9 标准、治理与文档化:解释不是“加一个按钮”,而是生命周期工程

10 未来方向:更忠实、更可用、更可治理

参考文献(精选,按主题整合)


1 引言

在过去十余年里,机器学习模型从“可被人读懂的统计模型”逐步演化为参数规模巨大、结构高度非线性、训练数据高度异质的复杂系统。性能的跃升带来了应用边界的扩张:从推荐、广告到医疗、司法、金融、公共治理,模型输出被越来越多地用作“行动依据”。与此同时,一个愈发尖锐的矛盾也浮出水面:当模型影响真实世界的资源分配与权利义务时,我们不仅要问“预测准不准”,还要问“为什么会这样”“它依据了什么证据”“在什么条件下不可靠”“它是否可能系统性地伤害某些人”。这便是可解释人工智能(Explainable AI, XAI)成为长期热点的根本原因之一。

但“解释”并不是一个单一目标。它既包含面向终端用户的可理解叙事,也包含面向工程师的调试证据;既可能是对单次决策的局部说明,也可能是对整体规律的全局总结;既可以追求“看上去合理”,也可以追求“与模型真实机制一致”。解释的多义性,直接导致研究与实践中常见的分歧:有人把可解释性当作透明度(模型本身易懂),有人把它当作后验说明(黑盒外再套一层解释器),有人强调人因与社会心理(解释要符合人的认知偏好),也有人强调科学性与可检验性(解释必须可证伪、可反事实检验)。这类张力在综述文献中被反复讨论:Lipton 指出“可解释性”话语往往被混用、动机彼此不兼容,从而使“解释”变成一个滑动的口号而非可操作的科学目标。 (arXiv)

进入大模型时代,问题进一步复杂化。大语言模型不仅输出标签或分数,还能输出“像解释一样”的自然语言理由,这让“解释的生成”变得廉价,却也让“解释的可信”更加困难:模型可以给出流畅且令人信服的理由,但这些理由是否真是模型内部推理的因果来源?在 NLP 社区,Jacovi & Goldberg 对“忠实性(faithfulness)与可读性/合理性(plausibility)”的区分,几乎成为后来评估讨论的坐标系;而 Lyu 等在更近期的综述中进一步系统化了“忠实解释”的方法族谱与评价范式,提示我们:当解释本身也由模型生成时,传统的“看起来对不对”很可能只衡量了可读性而非忠实性。 (ACL Anthology)

2 概念与范畴:解释、可解释性、可理解性到底在说什么

“解释”在人工智能语境中往往被赋予工程意义,但它同时是一种社会心理行为。Miller 的综述强调,社会科学关于解释的研究已经积累了大量结论:人们偏好对比性的解释(为什么是A而不是B),偏好与目的相关的解释(对我有什么用),偏好简短、可操作、与既有信念兼容的叙事;这些偏好并不保证解释忠实,却强烈影响“解释是否被接受”。因此,把 XAI 简化为“输出一组特征重要性”经常会失焦:同一解释对象,在不同受众、不同情境下需要完全不同的解释形式。 (科学直接)

在标准与治理侧,NIST 提出“可解释AI四原则”,用更工程化的语言把目标拆成四类:系统应提供解释(Explanation),解释对目标用户应有意义(Meaningful),解释应与系统过程相一致(Explanation Accuracy),并且系统应知道自己何时超出能力边界(Knowledge Limits)。这种表述的价值在于:它把“解释”从单点产物(某张图、某段话)提升为系统属性(何时解释、解释给谁、解释是否准确、何时拒答/降级)。 (NIST出版物)

为了避免“概念先天含混”,学界常用若干对立维度把问题空间切开:透明(intrinsic)vs 后验(post-hoc),局部(local)vs 全局(global),模型无关(model-agnostic)vs 模型相关(model-specific),以人为中心(human-centered)vs 以机制为中心(mechanistic/faithfulness-centered)。Doshi-Velez & Kim 进一步提出三类评估场景:仅依赖形式指标的“功能性评估(functionally grounded)”、带有人类但不含真实任务的“人类评估(human-grounded)”、以及在真实任务中检验解释是否提升决策质量的“应用性评估(application-grounded)”。这套框架在今天仍非常实用,因为它提醒我们:许多争论并非方法优劣,而是评估场景不同导致的目标函数不同。 (arXiv)

表1 关键术语的常用界定与典型落点(“解释”不是一个指标,而是一组指标的折中)

术语 常见界定 典型“落地形态” 常被忽略的风险点
可解释性/可理解性(Interpretability) 人是否能理解模型/输出/依据 可读规则、可视化、因果叙述 “理解”是相对的:受众差异巨大
解释(Explanation) 对某个输出给出证据/理由 特征重要性、反事实、样例、自然语言理由 解释可以“看似合理但不忠实”
忠实性(Faithfulness) 解释是否反映模型真实因果机制 干预/反事实检验、删特征测性能 很难通过人评直接判断 (ACL Anthology)
稳健性(Stability/Robustness) 小扰动下解释是否稳定 邻域一致性、重复采样一致性 解释可能被“对抗性操纵” (arXiv)
有意义(Meaningful) 解释是否对用户有用 可行动建议、可争辩理由 可能牺牲忠实性换取“好懂” (NIST出版物)

3 方法体系综述:从“透明模型”到“后验解释器”

XAI 的第一条路线并不是给黑盒“配翻译”,而是尽量直接使用结构上就可理解的模型。Rudin 在高风险场景中强烈主张:与其事后解释黑盒,不如从一开始就设计可解释模型;因为后验解释可能掩盖错误机制,甚至在制度层面提供“看似合规”的遮羞布。她的观点并非否认后验解释的价值,而是强调:当决策后果重大时,解释的可验证性与责任归属尤为关键,越是不能出错的地方越不应把安全押在“解释器是否靠谱”上。 (Nature)

然而工程现实是:高性能模型常常已经存在,且替换成本巨大。于是第二条路线——后验解释——成为主流实践。后验解释又分为两大思路:一类输出“特征对预测的贡献”(归因/重要性),另一类输出“如果改变哪些输入,结果会不同”(反事实/可行动解释)。前者更像诊断工具,后者更像沟通工具:它天然满足 Miller 所说的“对比性解释”偏好,因为用户往往更关心“怎样才能从拒绝变成通过”而非“模型内部的全部逻辑”。 (科学直接)

表2 主流解释方法的“坐标系”概览

方法族 局部/全局 模型无关/相关 主要输出 典型用途
透明模型(线性/规则/可加) 多为全局 相关 参数/规则 合规、审计、可追责 (Nature)
局部替身模型(LIME等) 局部 无关 局部线性权重/文本高亮 单例解释、快速诊断 (KDD)
一致性加性解释(SHAP) 局部→可聚合全局 多为无关 Shapley值归因 对比分析、特征贡献排序 (NeurIPS 会议论文集)
规则锚点(Anchors) 局部 无关 高精度规则前提 生成“足够条件”的解释 (华盛顿大学计算机科学主页)
梯度归因(IG/Grad-CAM) 局部 相关 像素/Token重要性图 视觉/文本归因、调试 (NeurIPS)
概念解释(TCAV等) 介于局部/全局 相关 “概念敏感度” 用人类概念检验模型 (arXiv)
样例解释(Influence等) 局部 相关/半相关 关键训练样本 数据错误定位、追责 (arXiv)
反事实解释(Wachter等) 局部 多为无关 最小可行变更 申诉、指导、合规沟通 (Studocu)

3.1 局部替身模型:LIME与“可在局部被线性逼近”的想象

Ribeiro 等提出的 LIME 之所以影响深远,是因为它把解释问题转化为一个直观的工程套路:在某个样本附近采样扰动点,用黑盒模型给这些点打分,再训练一个人能读懂的小模型(常是稀疏线性模型或小规则集)去拟合这一局部行为,从而把“黑盒在这一点附近怎么看输入”翻译成“可读的权重”。 (KDD) 这一思路的魅力在于普适:不管是文本分类、图像分类还是表格模型,只要你能定义“扰动”与“局部邻域”,就能套用。与此同时,它的脆弱性也来自同一处:邻域如何定义、扰动是否符合数据分布、替身模型复杂度如何取舍,这些细节会显著改变解释结论,而这些变化对非技术用户往往不可见。正因如此,LIME 常被用作探索性工具,而不应被当作“唯一真相”。

3.2 统一归因框架:SHAP与“唯一满足一组公理”的加性解释

Lundberg & Lee 将一类常见解释形式抽象为“加性特征归因模型”,并证明在若干性质(如一致性)约束下,Shapley值提供了唯一解,从而把多个既有方法纳入统一框架并给出可计算近似。 (NeurIPS 会议论文集) 在实践中,SHAP 的强项在于可比较:你可以在不同样本间比较某特征的贡献分布,也可以把局部归因聚合为全局重要性画像。其广泛传播也得益于成熟工具链(如官方文档与 explainers 体系)。 (SHAP) 但需要反复强调的一点是:SHAP 解释的是“在给定背景分布与特征联合结构假设下,特征对预测的贡献分摊”,它不是因果结论。SHAP 文档中也专门提示过在寻求因果洞见时要格外谨慎。 (SHAP)

3.3 规则型解释:Anchors把“通常成立”换成“高精度成立”

如果说 LIME 的输出仍像“统计权重”,Anchors 则尝试输出更像人类语言的规则:在某个预测附近,找一组前提(锚点)使得只要满足这些前提,模型就以高精度给出同一预测。 (华盛顿大学计算机科学主页) 这种解释的好处在于可操作:它回答“在什么条件下你可以确信模型会这么判”。代价是覆盖率:高精度规则往往只覆盖输入空间的一小片区域。换句话说,Anchors 更像“模型行为的局部契约”,而不是“模型的整体逻辑”。

4 深度学习解释:梯度、显著图、概念与对抗脆弱性

在视觉与深度网络语境里,“解释”经常被简化为显著图(saliency map):哪些像素/区域对当前输出最重要。Grad-CAM 利用梯度在卷积特征图上做加权聚合,生成可视化的热力图,因其直观与易用而成为事实标准之一。 (SpringerLink) Integrated Gradients 则从公理化角度定义“从基线到输入的路径积分归因”,试图规避单点梯度噪声与饱和问题。 (NeurIPS) 这两类方法共同代表了“模型相关的梯度归因”路线:直接读模型的微分信息,以期得到更贴近机制的解释。

但“看起来像机制”并不意味着“真的忠实”。Adebayo 等提出的“显著图理智检验(sanity checks)”展示了一个刺痛行业的事实:不少显著图方法在随机化模型参数后仍能产生相似的可视化,这意味着它们可能更多捕捉了输入结构或可视化先验,而非模型学到的判别依据。 (NeurIPS) 更进一步,Ghorbani 等指出解释的脆弱性:在预测标签不变、输入变化几乎不可察觉的情况下,解释可以被系统性地操纵而发生巨大改变;这提示我们,解释本身也可能成为攻击面或误导源。 (arXiv) 因而,在深度学习场景里,“解释=热力图”最多只是起点,任何严肃应用都需要把解释放进可检验的评估框架里。

表3 深度网络常见解释方法、优势与主要风险

方法 核心思想 优势 主要风险/误用点
Grad-CAM 梯度加权卷积特征图得到定位热图 直观、适合视觉定位 (SpringerLink) 可能对层选择敏感;热图“像注意力”但未必是因果
Integrated Gradients 基线→输入路径积分归因 公理化、可控基线 (ResearchGate) 基线选择影响巨大;仍需忠实性检验 (NeurIPS)
显著图类(统称) 梯度/扰动生成重要性图 实现简单 可能通过 sanity checks 暴露为“非模型依赖” (NeurIPS)
概念解释(TCAV) 用人类概念方向测试敏感度 更接近“概念层”理解 (arXiv) 概念数据集构造偏差;概念方向不唯一
解释稳健性研究 检验解释是否易被操纵 揭示风险边界 (arXiv) 说明“漂亮解释”可能不可信,带来制度层误用

5 反事实解释:从“为什么”走向“怎么办”

在信贷拒绝、招聘筛选、风控拦截等场景里,用户的核心诉求经常不是“模型内部逻辑是什么”,而是“怎样才能得到不同结果”。Wachter 等提出的反事实解释强调:不必打开黑盒,只需给出使结果翻转的最小输入变化,即可同时满足可理解、可行动与可争辩等目标。 (Studocu) 这种解释与 Miller 所总结的人类解释偏好高度契合——它天然提供对比(A而不是B)、提供行动建议、并且避免泄露模型细节,从而在商业保密与用户权利之间取得某种张力平衡。 (科学直接)

然而反事实解释在技术上并不只是“找最近的翻转点”。如果模型输入包含不可变属性(性别、出生地)或受保护属性,反事实的可行动性与公平性就会变成硬约束;如果特征高度相关(收入与职业、教育与年龄),反事实还需遵守数据流形,否则会给出“统计上不可能”的建议。也正因此,反事实解释更适合作为“与制度结合的沟通接口”,而不是纯粹的数学最优化产物:它需要业务规则、伦理边界与合规要求共同塑形。

表4 反事实解释的“质量维度”示例(同一解释很难同时极致优化)

维度 含义 典型冲突
距离最小 变更幅度尽量小 可能不可行动(改不了的特征)
可行动 变更应可由当事人实现 可能牺牲最小距离
合法/合规 不鼓励歧视、符合规则 可能牺牲个体最优
可信/在分布内 不违反数据分布常识 可能变得复杂难懂
稳健 小扰动下仍成立 可能牺牲简洁

6 样例解释与数据归因:把“责任”追溯到训练数据

当模型被质疑偏见、错误或泄露隐私时,“解释”常常意味着追责:这个输出与哪些训练样本有关?Koh & Liang 将稳健统计中的 influence functions 引入现代模型,提供一种追溯单个预测“受哪些训练点影响最大”的思路,并展示了它在调试、发现数据错误等任务上的实用性。 (arXiv) 与特征归因相比,样例归因更贴近工程修复:你不仅知道“模型看重什么特征”,还可能直接定位“哪批训练数据导致了这种偏差”,从而指向数据清洗、重采样或标注修复等具体行动。

但这一方向同样面临“解释是否稳定”的挑战:Ghorbani 等指出基于样例的解释也可能出现脆弱性,即在预测不变时解释样例发生显著变化。 (arXiv) 因而,在把样例归因用于法律或合规证据之前,仍需要严谨的稳健性评估与可重复性保障。

7 评估与“反解释陷阱”:从好看走向可检验

解释研究最难的部分,往往不是提出一个新解释器,而是证明它“有用且可信”。这正是 Doshi-Velez & Kim 所谓“解释科学尚不严谨”的根源:缺少统一定义、缺少可比基准、缺少与任务风险匹配的评估协议。 (arXiv) 在实践里,一个常见误区是把用户喜好当作忠实性:人类确实能评价解释是否清晰、是否令人信服,但 Jacovi & Goldberg 明确提醒,忠实性不是人能直接标注的对象;如果人能准确判断解释是否忠实,那么解释本身就失去了存在意义。 (ACL Anthology)

为应对这种困境,近年来出现了两条互补路径。第一条是“干预式评估”:删掉解释指出的重要特征,看预测是否显著变化;或对模型内部表示做因果干预,看解释是否预测了这种变化。第二条是“稳健性与理智检验”:Adebayo 的 sanity checks 通过随机化权重等方式检验解释是否真正依赖模型。 (NeurIPS) 与此同时,Vilone & Longo 从系统综述角度整理了“解释应满足的多种要求”以及相应评估方法,强调评价不应只看单一指标,而应明确面向谁、用于何事、承担多大风险。 (科学直接)

表5 常见评估框架与代表性观点

框架/观点 核心主张 代表来源
三类评估场景(功能/人类/应用) 解释评价应与使用场景绑定 Doshi-Velez & Kim (arXiv)
忠实性≠可读性 人评更像“合理性”,忠实性需机制检验 Jacovi & Goldberg (ACL Anthology)
理智检验 随机化后解释仍像原来则说明不可信 Adebayo et al. (NeurIPS)
解释脆弱性 解释可被对抗操纵,需稳健性评估 Ghorbani et al. (AAAI)
多维要求与层级评估 解释要求多元,需层级化整理与评估 Vilone & Longo (科学直接)

8 NLP与大模型时代:从“注意力即解释”到“机制可解释”

在 NLP 场景中,解释问题长期与“文本依据”纠缠在一起:高亮哪些词、哪些句子是模型做出判断的依据。一度流行的说法是“注意力权重就是解释”,但这一说法在忠实性层面屡遭挑战。Jacovi & Goldberg 对此给出更一般的批评:如果我们不区分忠实性与可读性,就会把“看起来像依据”的信号误当作“真实因果依据”。 (arXiv) 更近一步,Lyu 等在综述中把忠实解释方法分为相似性、内部结构分析、反传归因、反事实干预、自解释模型等类别,并系统讨论每类方法的忠实性假设与评估策略,这对于今天处理“模型会说理由”尤其关键。 (ACL Anthology)

大语言模型使得“生成解释”几乎成为默认能力,但这并不自动带来可解释性。相反,它放大了“解释幻觉”:模型可以在不暴露真实内部机制的情况下,产出高度连贯的解释文本,甚至对解释风格进行迎合。于是,XAI 的前沿正在部分回到“机制解释(mechanistic interpretability)”:不是让模型讲故事,而是尽量还原模型内部的表示、回路与算法。近年来,Anthropic 的 transformer-circuits 系列持续发布机制解释研究与方法,包括用稀疏自编码器抽取可解释特征并讨论可扩展性;这些工作强调从“特征—回路—算法”多层级理解模型。 (变压器电路) OpenAI 也发布了与稀疏结构和可解释回路相关的研究,例如关于权重稀疏 transformer 的可解释电路以及“通过稀疏回路理解神经网络”的研究博客,试图通过结构约束与分析工具让回路更可分解、更易被人类命名与检验。 (OpenAI) 与此同时,学术界也出现面向稀疏自编码器与机制解释的综述与系统化整理(例如 2025 年在 ACL Findings 出现的 SAE 综述),反映该方向正在从“少数团队的手工技艺”走向更标准化的研究范式。 (ACL Anthology)

表6 大模型时代“解释”的两条主线及其张力

主线 典型产物 优势 主要风险
语言化解释(模型自述理由) 自然语言 rationale/链式理由 低成本、易沟通 容易只提升“可读性”而非忠实性 (ACL Anthology)
机制解释(回路/特征/干预) 可解释特征、回路图、因果干预结果 更可检验、更接近机制 成本高、工具链仍在演进 (变压器电路)

9 标准、治理与文档化:解释不是“加一个按钮”,而是生命周期工程

当 AI 进入监管视野,解释从“锦上添花”变成“制度接口”。欧盟《AI Act》围绕风险分级提出系统性义务,其中对于高风险系统强调透明性与向部署者提供信息(例如能力与限制、如何理解输出、风险与维护等),使得“解释/信息提供”成为合规的一部分。 (欧洲人工智能法案) 与之相呼应,模型与数据文档化框架(Model Cards、Datasheets for Datasets)把“如何报告模型表现、适用边界、数据来源与限制”制度化,目的不是生成漂亮文档,而是让组织在发布与部署时对风险、偏差与失效模式承担更清晰的责任。 (arXiv)

从工程视角看,这意味着 XAI 不应只存在于“事后给一张图”的界面层,而应嵌入从需求、数据、训练、评测、上线、监控到迭代的全链路:在训练前明确解释需求与受众,在训练中进行可解释性诊断与数据归因,在上线后用解释辅助监控漂移与异常,在事故发生时用可追溯证据支持复盘与问责。否则,解释会沦为合规“装饰”,既不能提升安全,也不能提升信任。

10 未来方向:更忠实、更可用、更可治理

未来几年,XAI 可能会沿着三条“更难但更必要”的方向演进。第一条是忠实性:把解释从审美问题变成科学问题,强调可干预、可证伪、可重复,并对解释的脆弱性给出系统防护。Adebayo 的理智检验与 Ghorbani 的脆弱性研究已经告诉我们:不经检验的解释很可能是一种幻象。 (NeurIPS) 第二条是人因与任务融合:解释不是给所有人同一种形态,而是与用户的决策任务、时间压力、专业背景相耦合;Miller 与 NIST 的工作提醒我们,“有意义”本身是解释质量的重要组成部分。 (科学直接) 第三条是治理化:解释与透明性将越来越多地以法律义务、行业标准、文档模板、审计流程的形式固化;Model Cards、Datasheets 与 AI Act 的透明义务已经把这条路打开。 (arXiv)

在大模型时代,这三条路线会更紧密地缠绕在一起:语言化解释提高可用性却可能降低忠实性,机制解释提高忠实性却提升门槛与成本,治理要求推动标准化却也可能诱发“合规形式主义”。真正成熟的 XAI 体系,必须能在这些张力之间给出可操作的折中:明确场景风险、明确受众需求、明确可检验指标,并在全生命周期持续校验解释是否仍然可靠。


参考文献

  1. Ribeiro, M. T., Singh, S., & Guestrin, C. “Why Should I Trust You?” Explaining the Predictions of Any Classifier. KDD 2016. (KDD)

  2. Lundberg, S. M., & Lee, S.-I. A Unified Approach to Interpreting Model Predictions. NeurIPS 2017. (NeurIPS 会议论文集)

  3. Ribeiro, M. T., Singh, S., & Guestrin, C. Anchors: High-Precision Model-Agnostic Explanations. AAAI 2018. (华盛顿大学计算机科学主页)

  4. Sundararajan, M., Taly, A., & Yan, Q. Axiomatic Attribution for Deep Networks (Integrated Gradients). ICML 2017(常见版本见 arXiv/公开稿)。 (ResearchGate)

  5. Selvaraju, R. R., et al. Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization. IJCV 2020(早期版本广泛流传于 2017-2018)。 (SpringerLink)

  6. Kim, B., et al. Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV). ICML 2018. (arXiv)

  7. Koh, P. W., & Liang, P. Understanding Black-box Predictions via Influence Functions. ICML 2017. (arXiv)

  8. Wachter, S., Mittelstadt, B., & Russell, C. Counterfactual Explanations Without Opening the Black Box. 2017/2018(常见为 GDPR 语境论文)。 (Studocu)

  9. Doshi-Velez, F., & Kim, B. Towards A Rigorous Science of Interpretable Machine Learning. 2017. (arXiv)

  10. Miller, T. Explanation in Artificial Intelligence: Insights from the Social Sciences. Artificial Intelligence, 2019. (科学直接)

  11. Lipton, Z. C. The Mythos of Model Interpretability. 2016(及其后在 CACM/Queue 的扩展讨论)。 (arXiv)

  12. Rudin, C. Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead. Nature Machine Intelligence, 2019. (Nature)

  13. Adebayo, J., et al. Sanity Checks for Saliency Maps. NeurIPS 2018. (NeurIPS)

  14. Ghorbani, A., Abid, A., & Zou, J. Interpretation of Neural Networks is Fragile. AAAI 2019 / arXiv 2017. (AAAI)

  15. Jacovi, A., & Goldberg, Y. Towards Faithfully Interpretable NLP Systems: How Should We Define and Evaluate Faithfulness? ACL 2020. (ACL Anthology)

  16. Lyu, Q., Apidianaki, M., & Callison-Burch, C. Towards Faithful Model Explanation in NLP: A Survey. Computational Linguistics, 2024. (ACL Anthology)

  17. NIST IR 8312. Four Principles of Explainable Artificial Intelligence. 2021. (NIST出版物)

  18. Broniatowski, D. A. Psychological Foundations of Explainability and Interpretability in AI. NIST IR 8367. 2021. (NIST出版物)

  19. Vilone, G., & Longo, L. Notions of explainability and evaluation approaches for explainable AI. Information Fusion, 2021. (科学直接)

  20. Mitchell, M., et al. Model Cards for Model Reporting. 2018/2019. (arXiv)

  21. Gebru, T., et al. Datasheets for Datasets. 2018(及后续在 CACM 的版本)。 (arXiv)

  22. EU AI Act 透明与信息提供条款解读(Article 13 等)与议会信息页。 (欧洲人工智能法案)

  23. Anthropic Transformer Circuits(机制可解释系列与“Scaling Monosemanticity”等)。 (变压器电路)

  24. OpenAI 关于稀疏回路与可解释性研究材料(示例:权重稀疏 transformer、稀疏回路理解)。 (OpenAI)

  25. ACL Findings 2025:Sparse Autoencoders 综述(LLM 机制解释方向的整理)。 (ACL Anthology)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐