AAAI/CVPR论文详解 | 万字长文了解可解释AI工具及技术的最新进展

2022-09-14 04:09

机器之心分析师网络

作者：仵冀颖

编辑：H4O

本文聚焦于研究和开发可解释性工具的内容，对AAAI-2022《Tutorial on Explanations in Interactive Machine Learning》提及的三类可解释性工具/方法（局部可解释性、规则可解释性、概念可解释性）进行了解读，重点了解可解释性工具和方法的最新研究进展。

1 背景

近年来，学术界、工业界以及政府部门对 AI 伦理的重视程度日益加强，从 AI 伦理监管政策到 AI 伦理技术手段，提升 AI 伦理合规性和打造 AI 伦理技术工具、产品服务成为不断提升 AI 市场竞争优势的一个核心点。从工业界的具体实践角度看，国外的主流科技公司，包括 IBM、微软、Google 等，以及国内的腾讯、微博、美团等，都持续加大对 AI 伦理的研究和实践，腾讯研究院还发布了业内首份《可解释 AI 发展报告 2022—打开算法黑箱的理念与实践》。

可解释 AI 是一个非常庞杂的领域，除了涉及 AI 算法 / 模型等技术，还涉及伦理、法律法规等问题。同时，追求可解释 AI 还需要平衡 AI 的效率和性能的问题。因此，可解释 AI 是一个有待进一步探索的长期问题，也是迫切需要解决的关键问题。从可解释 AI 研究的切入点角度来说，目前主要可以分为两类，一类是关注如何促进模型透明性，例如，通过控制或解释 AI 模型 / 算法的训练数据、输入输出、模型架构、影响因素等，提高模型的透明性，使监管部门、模型使用者以及用户能够更加容易理解 AI 模型；另一类则是研究和开发可解释性工具，即利用工具对已有的 AI 模型进行解释，例如微软的用于训练可解释模型、解释黑盒系统的开源软件包 InterpretML、TensorFlow 2.0 可解释性分析工具 tf-explain、IBM 的 AI Explainability 360 toolkit 等。

本文聚焦于研究和开发可解释性工具的内容，对 AAAI-2022《Tutorial on Explanations in Interactive Machine Learning》提及的三类可解释性工具 / 方法（局部可解释性、规则可解释性、概念可解释性）进行了解读，重点了解可解释性工具和方法的最新研究进展。

在刚刚过去的 AAAI-2022 中，有一个专门的 tutorial 介绍交互式机器学习的可解释性。整个 tutorial 由四名专家分别介绍了动机和挑战、通过局部解释进行交互、通过基于规则的解释进行交互和通过基于概念的解释进行交互四部分内容[2]，聚焦于可解释性工具，即从技术角度上提升 AI 模型本身的可解释性，使其对于用户来说更加“透明”。

2 通过局部解释进行交互

通过局部解释进行交互的方法是最常见的可解释 AI 方法，即给定一个预测器和一个目标决策，输入属性确定哪些输入变量与决策 "最相关"，我们比较熟悉的 SHAP 解释模型（SHapley Additive exPlanation）、LIME 解释器（Local Interpretable Model-agnostic Explanations）都属于这一类方法。

基于局部解释方法的特点包括：

使用户能够建立个别预测的心理模型；
较难获取足够多的样本来获得模型决策过程的概况；
可能会根据用户观察到的样本而产生偏见。

本文从 AAAI-2022 的 tutorial 中选择一种方法，即 FIND，来进行解读。本文正式发表在 EMNLP 2020 中，相关代码已公布 https://github.com/plkumjorn/FIND。

FIND: Human-in-the-Loop Debugging Deep Text Classifiers

由于获得一个完美的训练数据集（即一个相当大的、无偏见的、能很好地代表未见案例的数据集）几乎是不可能的，许多现实世界的文本分类器是在现有的、不完美的数据集上训练的。因此，这些分类器有可能具有不理想的特性。例如，它们可能对某些子群体有偏见，或者由于过度拟合而在实际环境中不能有效工作。本文提出了一个框架，使人类能够通过禁用不相关的隐藏特征来调试深度学习文本分类器[3]。作者将这个框架命名为 FIND（Feature Investigation aNd Disabling，特征调查和禁用）。FIND 利用一种解释方法，即层级相关性传播（layer-wise relevance propagation，LRP）[1]，来理解分类器预测每个训练样本时的行为。然后，它使用词云汇总所有信息，以创建一个模型的全局视觉图，使得人类能够理解由深度分类器自动学习的特征，然后在测试期间禁用一些可能影响预测准确性的特征。

LRP 是一种基于深度泰勒分解的解释方法，利用输入特征的重要性分数来解释神经网络预测。LRP 利用深度泰勒分解技术，通过预先训练的网络，将输出的相关性向后分配，并确定节点对分类的贡献。根据激活度和网络权值，通过在下一层传播相关性来获得每层的相关性。解释器给出了与输入图像具有相同维数的像素级热图，从而可视化了输入图像中对所选类别有贡献的重要区域。

现代 NLP 模型通常是端到端的，没有显式编码语义特征，理解和分析它们的工作都不直观，所以人们很想知道模型到底都学到了什么。如图 1 所示，NLP 黑盒模型很难清晰的表征单词 (x) 和类别概率 (p) 之间的关联关系：

图 1. 单词 (x) 和类别概率 (p) 之间的关联难以映射 (图片来自 Tutorial slides, https://sites.google.com/view/aaai22-ximl-tutorial)

一般来说，深度文本分类器可以分为两部分。第一部分进行特征提取，将输入文本转化为代表输入的密集向量（即特征向量）。第二部分进行分类，将特征向量通过密集层后，用 softmax 激活来获得预测的类的概率。这些深度分类器都是不透明的，因为人类无法解释中间向量或用于特征提取的模型参数的含义。这使得人类无法运用他们的知识来修改或调试分类器。相反，如果我们了解每个特征中捕获了输入的哪些模式或质量，就可以理解模型的整体推理机制，因为分类部分的密集层就变得可解释了。本文通过引入 LRP，检查每个特征检测到的输入模式是否与分类有关。另外，这些特征可以应用于密集层以支持正确的类别。图 2 具体展示了 FIND 的架构。

图 2. FIND 调试框架概述

考虑一个包含 | C | 个类别的文本分类任务，其中 C 是所有类别的集合，V 表征语料库（词汇）中唯一的词汇集合。给定训练数据集 D = {(x_1, y_1), ..., (x_N, y_N)}，其中 x_i 是第 i 个文档，包含 L 个词的序列[xi1, xi2,..., xiL]，y_i 为 x_i 的类别标签。使用一个在数据集 D 上训练的深度文本分类器 M 将一个新的输入文件 x 归入其中一个类别 M(x) 。M 可以分为两部分—特征提取部分 M_f 和分类部分 M_c:

其中，f 为 x 的特征向量，W 和 b 为 M_c 的层参数。最终输出为预测概率向量 p。

为了了解模型 M 是如何工作的，作者分析了激活每个特征 f_i 的输入模式或特征。具体来说，使用 LRP，对于训练数据集中的样本 x_j 的每一个 f_i，我们计算一个相关性向量 r_ij，以表征 x_j 中每个词对于 f_i 值的相关性分数（贡献）。具体的，对于一个一般的神经网络

z_ij 为神经元 i 神经元 i 与神经元 j 之间的权重
把所有神经元到神经元 j 的 z_ij 合起来加上 bias term 偏置项，得到上一层所有神经元到神经元 j 的向量 zj
经激活函数 g 处理得到下一层神经元 xj

了解特定神经元与分类决策函数 f(x)的相关性 R_j ^( l + 1 )，希望根据发送到前一层的神经元的消息来获得这种相关性的分解，将这些消息记作 R_ (i ← j)。

l + 1 层的某个神经元 j 的相关性 = l + 1 层的神经元 j 给 l 层所有神经元的相关性之和。

x_j 和 f_i 的相关性向量 r_ij 可以依上式计算得到。

在对训练样本的所有 d 个特征执行上述操作后，可以生成词云来帮助用户更好地理解模型 M。这样就做到了：不清楚潜在特征是什么意思，但清楚它是如何映射到每个类别的，即模型的可解释性。

词云: 对于每个特征 f_i，创建（一个或多个）词云，以可视化输入文本中高度激活 f_i 的模式。这可以通过分析训练数据中所有 x_j 的 r_ij 并在词云中显示获得高相关性分数的词或 n-grams 来实现。作者表示，不同的模型架构可能有不同的方式来生成词云，以有效地揭示特征的行为。

本文选择 CNN 作为分类器，来自训练样本的每个特征都有一个包含 n-grams 的词云，由 CNN 的 max-pooling 选择。如图 3，对应于过滤器大小为 2 的特征，给出了 bi-grams（例如，“love love”, “love my”, “loves his” 等），其字体大小与 bi-grams 生成的特征值的大小相对应。这与之前的工作分析 CNN 特征的方式类似，相当于使用 LRP 对输入的特征值进行反向传播，并裁剪出 LRP 得分不为零的连续输入词，显示在词云中。

图 3. 来自 CNN 的一个特征的词云（或字面意思是 n-gram）

如前所述，我们想知道学到的特征是否有效，是否与分类任务相关，以及它们是否从下一层获得适当的权重，可以通过让人类考虑每个特征的词云并告诉我们该特征与哪个类别相关来实现。

不过，在实际场景中这样的直接应用还是存在问题。如果一个词云接收的答案与它真实的类别（表征为 W）不同，则表明该模型存在问题。例如，假定图 3 中的词云表征情感分析任务中的特征 f_i，但 W 的第 i 列暗示 f_i 分类为“负面情感类别(negative sentiment class)”，则我们可以判断这个模型是不正确的。如果这个词云出现在产品分类任务中，这也是有问题的，因为词云中的短语对任何产品类别都不具有鉴别性，是无法给出正确的分类结果的。因此，作者进一步修正该方法，为用户提供了禁用与任何有问题的词云相对应的特征的处理方式。将 M_c 修正为 M’_c：

Q 是一个掩码矩阵，⊙是一个元素相乘的运算符。最初，Q 中的所有元素都是能够实现特征和输出之间所有连接的元素。为了禁用特征 f_i，将 Q 的第 i 列设置为零向量。禁用特征后，冻结 M_f 的参数并微调 M’_c 的参数 (除了掩码矩阵 Q) 在最后一步用原始训练数据集 D 进行微调。

作为示例，作者在 Yelp 数据库中进行了实验。Yelp 库用于预测餐厅评论的情绪（正面或负面），作者抽出 500 个样本作为 Yelp 的训练数据。使用 MTurk 上的人类反应来给特征分配等级。由于每个分类器有 30 个原始特征（d = 30），作者将它们分为三个等级（A、B 和 C），每个等级有 10 个特征。预计排名 A 的特征对预测任务最相关、最有用，而排名 C 的特征最不相关，可能会破坏模型的性能。

图 4 显示了来自 Yelp 数据集的三个 CNN 样本之一的平均特征分数的分布。图 5 给出了每个等级的词云的示例。我们可以清楚地看到这三个特征的不同质量。一些参与者回答说，图 5 中的等级 B 特征与正面类别相关（可能是由于 "delicious" 这个词），W 中这个特征的权重也是如此（正面：负面 = 0.137：-0.135）。有趣的是，图 5 中的等级 C 特征得到了负分，因为一些参与者认为这个词云与正面类别有关，但实际上模型将这个特征作为负面类别的证据（正面：负面 = 0.209：0.385）。

图 4. 在 Yelp 数据集上训练的 CNN 模型的平均特征分数的分布

图 5. 排名 A、B、C 的 CNN 特征的词云示例

3 通过基于规则的解释进行交互

通过基于规则的解释可以看做是一种基于全局解释的方法。基于全局解释方法的特点包括：

能够提供一个概述图；
能够避免表述性偏见；
这种全局简化的概述处理是以忠实性为代价的。

规则可以直接从数据中学习（白盒模型），也可以从模型的替代物中学习（黑盒模型）。现有基于规则的解释方法的区别主要在于“规则的复杂性、准确性、非重叠性” 这三方面。此外，他们在展示规则的方式上也有差异（决策列表、决策集）。为了准确反映决策边界，规则必须涵盖越来越窄的数据片 / 集，而这反过来会对可解释性产生负面影响。我们也从 tutorial 给出的方法中选择一篇进行深入解读。

Machine Guides, Human Supervises: Interactive Learning with Global Explanations

本文是 AAAI 2021 中的一篇文章，提出了解释性引导学习（explanatory guided learning，XGL），这是一种新型的交互式学习策略，在这种策略中，机器引导人类监督者为分类器选择信息丰富的样本。这种引导是通过全局解释来提供的，全局解释总结了分类器在样本空间的不同区域的行为，并暴露出其缺陷。与其他由机器发起并依赖局部解释的解释式交互学习策略相比，XGL 的设计是为了应对机器提供的解释超过分类器质量的情况。此外，XGL 利用全局解释来打开人类发起的互动的黑匣子，使监督员能够选择挑战所学模型的信息样本。XGL 最大的优势在于：规则可以是简单的，同时用来指导人类的反馈[4]。

令 H 表征一类黑盒分类器 h，即神经网络或内核机。我们的目标是从数据中学习一个分类器 h。最初我们可能只能获得一个小的训练集 S_0，随后可以通过 supervisor 获取更多的样本。为了便于理解和控制，还要求机器以专家 supervisor 可以理解的方式解释自己的信念（belief），这将有助于识别预测器逻辑中的错误。解释式主动学习（explanatory active learning，XAL）就是这一类代表方法。在 XAL 中，机器从一个未标记的样本池中选择 queries x，并要求 supervisor 对其进行标记，此外，XAL 还给出对 queries 的预测结果以及对预测结果的局部解释。这些解释揭示了生成这些预测结果的原因，例如特征相关性，并与预测结果一起构建一个 narrative。此外，supervisor 还可以通过对解释提供反馈来控制 predictor，例如，可以指出 predictor 错误地依赖了哪些特征。

不过，由于局部解释侧重于 queries，XAL 输出的 "narrative" 忽略了未知数（unknown unknowns，UU），根据定义，机器在这种情况下表现得很差。UU 可能会诱使机器向用户过度推销自己的性能，特别是当它们与高成本相关联时。这就导致了叙述性偏见（narrative bias，NB）。直观地说，NB 衡量的是 queries x1,...,X_T 传达给用户的性能与真正的风险 R_T。用户感受到的性能是 XAL 的 narrative 随着时间推移所暴露的损失的函数。图 6（左）具体展示了这个问题，合成数据的设计是为了诱发未知的 UU。将红色的样本分组为间隔均匀的集群，而蓝色的样本则均匀地分布在其他地方。主动 RBF SVM 经过 140 次不确定性采样迭代后选择的 queries 被圈在黄色的地方，背景是决策面。queries 明显集中在已知的红色集群周围，在这些区域中分类器的预测和解释（如特征相关性或梯度信息）性能都较好。queries 完全忽略了模型在未知的红色集群上的糟糕表现，因此也被 XAL 的输出 narrative 所忽略。

AL（active learning）在存在未知数（unknown unknowns，UU）的情况下，也就是分类器会犯高置信度错误的区域，工作效果很差。这在类别偏移和概念漂移的情况下是很常见的，而当与高错误标记成本相关时，尤其具有挑战性。图 6（左）说明了这个问题，合成数据的设计是为了诱发未知的未知数 UU。将红色的样本分组为间隔均匀的集群，而蓝色的样本则均匀地分布在其他地方。主动 RBF SVM 经过 140 次不确定性采样迭代后选择的查询被圈在黄色的地方，背景是决策面。查询明显集中在已知的红色集群周围，该区域中分类器在预测和解释（如特征相关性或梯度信息）方面都已经表现良好。模型在未知的红色集群上的糟糕表现完全被查询所忽略，因此也被 XAL 的表述输出所忽略。

图 6. 左图：基于不确定性的 AL 查询已知红色聚类周围的点（黄色圈出）而忽略了未知的聚类；中图：XGL 发现了大多数的红色集群；右图：HINTER 从肝炎数据集中提取的规则样本（类别为活体、死体）：医生只需花费很少的精力就能理解和（验证）这样的规则

本文提出使用由人类发起的互动学习作为解决叙述性偏见（NB）的方法。该方法的出发点是：如果 supervisor 能看到并理解 h 的决策面，她就能识别已知和未知的错误—从而确定 predictor 是否行为不当—并明智地选择可以纠正这些错误的例子。当然，在实际应用的场景中 h 是非常复杂的，所以本文所讨论的问题是理想状态下的，真正的挑战是如何使其可行。

本文提出了一种使用人类发起的互动学习作为应对表述性偏见的方法，即 XGL。如果一个有动力的、有知识的监督者能看到并理解 h 的决策面，她就能识别已知和未知的错误，从而确定预测者是否有错误行为，并智能地选择纠正这些错误的样本。当然，由于 h 的决策面可能非常复杂，这种策略纯属在理想状态下的措施。因此，应用这种策略的关键性挑战在于如何使其实用。

作者提出通过利用全局解释以一种紧凑和可解释的方式概括 h 来解决这个问题。全局解释是一个可解释的 h 的替代品 g，通常是一个浅层决策树或一个规则集。这些模型能够分解成简单的原子元素，如简短的决策路径或简单的规则，从而可以独立描述和可视化，并与个别样本相关联。图 6（右）展示了一个样本模块。通常 g 是通过模型蒸馏得到的，即，通过使用一个全局解释器π将 h 投影到 G 上：

其中，P 是 ground-truth 分布，M 为损失函数，Ω用于衡量解释的复杂度，λ>0 控制忠实于 h 和简单性之间的权衡。期望值通常由一个经验性的蒙特卡洛估计所取代，该估计使用来自 P 的新的 i.i.d. 样本或使用任何可用的无标签样本。

XGL 的伪代码如 Algorithm 1 所示。在每次迭代中，在当前训练集 S 上拟合一个分类器 h，并使用全局解释 g=π(h)进行概括。然后，将 g 提交给 supervisor。每条规则都被翻译成 visual artifact 或文字描述，并与它所涵盖的样本一起展示。按照规则对样本进行标注。然后要求 supervisor 提供一个或多个解释有误的样本，将这些样本添加到训练集 S 中。循环往复，直到 h 足够好或查询 budget 用完。

在实践中，supervisor 可以通过以下方式查找错误：

扫描样本，每个样本都与预测和规则一起显示，并指出一个或多个错误；
搜索错误的规则，然后为其提供反例。

第一种策略模仿的是引导式学习（guided learning，GL）：在 GL 中，给定一个关于某些目标概念的文本描述和一个通过搜索引擎获得的样本列表，用户必须在列表中识别该概念的样本。不同的是，在 XGL 中，样本与相应的预测结果和解释一起呈现，这使得用户有可能识别实际的错误并理解模型。从这个角度讲，XGL 之于 GL，就像 XAL 之于 AL 一样：一种让无交互的东西变得不透明的方法。样本可以按规则分组，以便于对它们进行扫描。鉴于 GL 已经成功地部署在工业应用中，作者认为 XGL 也可以做到。第二种策略是针对有能力识别不良规则并识别或合成反例的专家。由于规则通常比样本少得多（在本文实验中，通常是 5-30 条规则 vs 数百或数千条样本），这种策略可能效率更高。通过对规则进行适当的规范化，可以促进规则的可解释性。

XGL 的设计是为了抵御叙述性偏见（NB），同时使专家 supervisor 能够识别错误。作者强调，简单地将全局解释与机器启动的交互式学习结合起来，并不能达到同样的效果，因为 queries 的选择仍然会受到 UU 的影响。XGL 的另一个好处是，它原生支持在每次迭代中选择成批的实例，从而降低了 queries 成本。作者在本文中将讨论和实验限制在 one example-per-query 的情况下，以简化与竞争对手的比较。

将选择例子的责任转移给人类 supervisor 也存在风险。全局性的解释可能是一个太粗略的总结，或者可能被 supervisor 误解。这一问题同样影响了 AL 和 XAL。所以，作者表示，应将 XGL 应用于不太可能出现这些问题或其影响可以忽略的环境中。

XGL 的主要缺点无疑是全局解释的认知和计算成本。计算成本可以通过随着 h 的更新而递增地更新 g 来减少。认知成本可以通过以下几种方式改善：可以将全局解释限制在实例空间的那些区域中；根据需要调整全局解释的分辨率，例如可以先向 supervisor 提供粗略的规则 g，然后允许他完善 g，并 "放大" 那些看起来可疑的区域或子空间。不管怎么说，全局解释必然比局部解释或不解释要求更高。像其他互动协议一样，XGL 涉及一个 human-in-the-loop 的步骤，supervisor 必须参与进来并在其中投入时间和注意力。作者的论点是：在高估错误模型的代价很大的应用中，这种额外的努力是合理的。

作者将本文基于规则的 XGL 的实现方法命名为 HINTER（Human-INiTiated Explanatory leaRning），并在几个 UCI 数据集上使用标准的二元分类器（SVM 和梯度提升树）与几个由人类和机器发起的替代方案进行了比较。作者在图 6 所示的合成数据集以及来自 UCI 存储库的几个分类数据集中进行了实验，实验结果见图 7。在大多数数据集中，HINTER 的预测结果与竞争对手的预测结果相同或更好。在特别难的合成数据上，性能差异相当明显，XGL 比竞争对手高出近 20% 的 F1 分数。作者分析这也是由于 UU 的原因。AL 和随机抽样只是很少查询红色类别的样本，这就是他们在图 7（左）中显示的进展缓慢的原因，而 GL 对少数类别过度抽样。在所有原始数据集和所有 "+uu" 变体中，XGL 的表现与所有竞争对手相似或更胜一筹。表现最差的是 german 数据集，无论选择何种基础分类器，XGL 在 F1 方面的表现都很差，但在表述性偏见（NB）方面仍然表现最好。综上所述，结果表明，在存在 UU 的情况下，XGL 倾向于学习更好的分类器，而如果 UU 的问题不大，XGL 的表现也是合理的。

图 7：在三个有代表性的数据集上，当查询次数增加时，所有竞争者的 F1 得分（上）和表述偏见（下，越低越好）：合成任务（左），banknote（中）和 german（右）

4 通过基于概念解释进行交互

本节重点讨论基于概念解释的交互方法，包括基于概念的模型（Concept-based models，CBMs）和神经符号模型（Neuro-symbolic models），这些模型注重模型解释的更高语义水平的优势。前述的局部或基于规则的方法难以访问模型内部、概念层面的原因，特别是对于黑箱模型而言。而基于概念解释的方法则试图从概念和语义的角度分析 AI 模型的工作机理。文献 [5] 为 tutorial 中提及的一篇文章，我们对其加以解读。

Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations

本文最新发表在 CVPR 2022 中，主要研究目的是通过弱监督和人机互动在原型离散的潜在空间上学习视觉概念。本文提出了交互式概念交换网络（interactive Concept Swapping Networks，iCSNs），这是一个通过弱监督和隐性原型表征来学习以概念为基础的表征的新框架[5]。这种以语义为基础的、离散的潜在空间有利于人类理解和人机互动。

由于概念学习的复杂性，同时受到心理学和认知科学领域中关于概念原型的研究结果的启发，作者研究了原型表征在学习人类可理解和可修订的概念表征方面对神经概念学习者的优势。为此，本文提出了 iCSN，它通过弱监督方式来学习隐含地将语义概念与原型表征结合起来。这种结合是通过离散的距离估计和配对数据样本之间的共享概念表征的交换来实现的。iCSN 允许查询和修订其学习的概念（如图 8），并整合关于未见过的概念的知识（如图 9）。

图 8. 一个经过训练的模型（左）询问人类用户（右），如果它从数据中提取的概念与用户的知识相吻合。随后，该模型可以接受来自用户的修改意见

图 9. 用于学习新概念的人机互动。用户查询一个对象，并在必要时引导机器的原型建议

iCSN 的完整框架见图 10。

图 10. 交互式概念交换网络。iCSN 基于一个确定性的自动编码器结构，提供一个最初的 entangled latent encoding（1）read-out 编码器；（2）从潜在空间中提取相关信息，并将其提取的概念编码与一组原型插槽进行比较；(3)通过一个加权的、基于 softmax 的点积；(4)生成一个离散代码，表明每个概念编码的最相似的原型插槽。iCSNs 是通过简单的重建损失、通过匹配配对的弱监督和交互方法来训练的；(5)共享概念的潜在概念表征，强制将语义信息与特定的原型表征结合起来

基于原型的概念架构。给定输入 x_i，为了简单起见，下述表述中会从符号中删除样本索引 i，并用 x 表示整个图像。在本文框架中，x 也可以是图像子区域的潜在表征。通过预处理步骤，例如通过分割算法或合成生成场景模型，可以隐式或显式地从图像中提取该子区域。此外，假设每个 x 包含几个属性，例如颜色、形状和大小。将这些属性的实现称为基本概念，例如 “蓝色” 或“三角形”。将 “颜色” 称为一个范畴概念，或者在认知和心理科学领域中经常被称为上位概念（superordinate concept）。由此，每个图像 x 都有 ground-truth 基本概念 c，J 表示上位概念的总数。作者做了一个必要的假设，即每个上位概念 x 只能包含一个基本概念实现。为了简单起见，进一步假设每个上位概念包含相同数量的基本概念 K，这些概念在实践中可能会有所不同。

假设编码器 - 解码器结构，定义一个输入编码器 h(·)，它接收图像 x 并将其编码为潜在表征 h(x)=z。iCSN 没有像许多基于自动编码器的方法那样直接从 z 重建，而是首先将几个 read-out 编码器 Mj(·)应用于潜在表征 z，从而生成 Mj(z)=φ_j。将编码φ_j 称为概念编码。每个 read-out 编码器的目标是从纠缠的潜在空间 z 中提取与上位概念（例如颜色）相对应的相关信息。我们将在下面讨论如何强制提取特定于概念的信息。iCSN 的一个核心组件是一组代码本，每个代码本包含多个原型插槽（prototype slots）。将这个集合定义为Θ:=[p_1,…,p_j]。其中，p_j 表示代码本，每个代码本包含一组有序的可训练、随机初始化的原型插槽。

为了将每个概念编码φ_j 分配给 p_j 的一个原型插槽，将相似度分数 S_dot(·,·)定义为其两个输入的点积上的 softmax。通过这种方式，得到概念编码φ_j 和特定原型插槽(p_j)^k 之间的相似度：

得到的相似度向量 s_j 包含类别 j 的每个原型插槽的相似度得分，对应的概念编码为φ_j。为了进一步离散化和将概念绑定到各个原型插槽，引入第二个函数 Sτ(·)，将加权 softmax 函数应用于相似度分数：

本文实验中，逐步降低τ以逐渐加强信息的绑定。在τ的极端情况下，∏j 类似于一个独热向量（在 j>1 的情况下，多标签独热向量），以表征概念编码φ_j 最类似于第 j 个类别的哪个原型插槽。最后，将每个类别的加权相似性分数连接到一个向量中，以接收最终的原型距离码 y，并将其传递给解码器 g(·)，以重建图像。

概念交换和弱监督。在训练之前，即初始化之后，还没有语义知识绑定到原型插槽。然而，在收敛的 iCSN 中发现的语义知识是通过弱监督的训练过程和简单的交互技巧间接学习的。本文采用匹配配对方法，这是一种实用的弱监督训练过程，以克服无监督解纠缠的问题。在这种方法中，观察到一对图像 (x,x’)，它们共享数据中潜在变化因素的已知子集的值，例如颜色，而共享因素的总数可以在 1 到 J− 1 之间变化。通过这种方式，模型可以使用配对的附加信息来约束和指导其潜在表征的学习。以前关于弱监督训练（特别是 VAEs）的工作恢复方法主要是在共享因子 ID 处应用 x 和 x’的编码器分布的乘积或平均值，而 iCSN 则是在成对表征之间使用一个简单的交换技巧。具体来说，当 v 是图像对(x,x’) 之间的共享因子 ID 时，相应的相似度分数 (∏_v, ∏’_v) 在最终对应的原型代码之间交换：

这种交换过程具有直观的语义，它迫使 iCSN 从第一幅图像中提取信息，用于表征第二幅图像的类别 v 的属性。

训练目标。iCSN 最终通过在大小为 N 的批次中每对图像的单像素重建损失进行训练：

该损失项与之前关于原型学习的几项工作形成对比，之前的这些工作会通过额外的一致性损失来加强语义绑定。iCSN 则通过将语义绑定隐式地包含到网络体系结构中，减少了引入额外超参数以及对多个目标进行更复杂的优化过程的需要。

与 iCSNs 交互。iCSNs 的目标，尤其是与 VAEs 相比，不一定是学习底层数据分布的生成潜在变量模型，也可以是学习人类可以理解和交互的原型概念表征。因此，自编码器结构是达到目的的一种手段，而不是必要条件。然而，iCSN 不是在收敛后丢弃解码器，而是可以呈现输入样本对每个概念最接近的原型重建。因此，通过在测试时查询这些原型重建，人类用户可以确认预测的概念是否有意义，并可能检测到不想要的模型行为。通过定义测试时重构误差的阈值，iCSN 可以给出其在识别新样本中概念的确定性的启发式指示。

由于存在离散且语义受限的潜在代码 y，人类用户可以通过将 y 视为多标签独热编码与 iCSNs 交互。例如，逻辑陈述∀img. ⇒ ¬hasconcept(img, p 11 ) or ∀img. isin(img, imgset) ⇒ hasconcept(img, p 12 )，用户可以制定逻辑约束，分别读作“从未检测到原型 p 11 所代表的概念”“对于这组图像中的每一幅图像，你都应该检测到原型 p 12 所代表的概念。”。用户可以以交互方式管理一组表现不正确的图像。

最后，iCSNs 的模块化特点还具有交互式在线学习能力。例如，当模型提供包含新概念的数据样本时，或当数据中存在的一个因素最初被认为不重要，但在初始学习阶段被认为很重要时，在这两种情况下，交互的方法取决于要学习的概念的层次结构，即它是基本概念还是上位概念。假设人类用户对 iCSN 之前的概念表示满意，并且 J（每个代码本的原型槽总数）被设置为高估，用户可以简单地通过相关类别的一个未使用的原型插槽给出反馈以表示新的基本概念。如果需要学习一个新的上位概念，可以在初始训练阶段通过添加额外的 read-out 编码器来实现。与其他 read-out 编码器相比，该编码器不映射到原型插槽的空间。最终，可以训练 iCSN 的初始潜在空间 z 来表征完整的数据分布。为了包含最初被认为不相关的概念，可以只扩展 J，这意味着添加一个新的 read-out 编码器 m_J+1(z)=φ_J+1 和代码本 P_J+1 到 iCSN。然后，m_J+1 学习将新的基本概念从 “新的” 上位概念绑定到 p_J+1，p_J+1 只需要新的数据对来举例说明以前不重要的概念。

本文提出了一个新的基准数据集：基本概念推理（Elementary Concept Reasoning，ECR），如图 11。ECR 由恒定颜色背景上二维几何对象的 RGB 图像（64×64×3）组成。对象的形状（圆形、三角形、正方形和五边形）、大小（大小）和颜色（红色、绿色、蓝色、黄色）可以不同。为每种颜色添加均匀的抖动，从而产生不同的色调。每个图像都包含一个固定在图像中心的对象。对图像进行配对处理，使单个图像中的对象至少共享 1 个、最多共享 J− 1 个共有属性。ECR 包含 5000 个图像对和 2000 个用于验证的图像的训练集。

图 11. 基本概念推理数据集样本。每张样本图像（左）描绘了一个居中的二维物体，具有三种不同的属性：颜色、形状和大小。对图像进行配对，使得这些物体共享一个和两个概念（右）

在本文实验中，作者将 iCSN 与几个基线方法进行比较，包括无监督训练的β-VAE 和使用编码器分布的算术平均值的 Ada-VAE。为了与通过共享匹配配对训练的 iCSN 和 Ada-VAE 进行公平的比较，最初将 Ada-VAE 作为一种较弱的监督形式引入，作者也用已知的共享因子 ID 训练 Ada-VAE。这个基线本质上类似于β-VAE，在已知的共享因子 ID 处对图像进行编码器分布的平均化。这一方法在本文实验结果中表示为 VAE。最后，作者将 iCSN 与一个离散化的 VAE 方法进行比较，该方法通过 Gumbel-softmax 技巧使用分类分布（Cat-VAE）。Cat-VAE 的训练方式与 VAE 相同，即通过份额配对和编码器分布的平均化。

作者通过线性探测研究每个模型的潜在编码。表 6（上）中的结果记录了不同模型在五次随机初始化过程中所进行验证集的平均精度和标准偏差。我们观察到，CSN 的潜在编码具有近乎完美的预测性能，并且超过了所有变分方法。重要的是，CSN 的表现甚至超过了 VAE 方法（VAE 和 Cat VAE），后者与 CSN 在同样类型的弱监督下接受训练。β-VAE 的平均性能比弱监督模型差。然而，Ada-VAE 的表现比β-VAE 差。此外，Cat VAE 的离散潜在表征也比 CSN 表现差。Cat VAE 运行情况表明性能存在较大偏差，同时表明多个 Cat VAE 运行收敛到次优状态。总之，尽管 ECR 数据集仅包含单个 2D 几何对象的变化，但基线模型的性能不如 CSN，即使使用相同数量的信息进行训练。

表 6. 通过决策树（DT）和逻辑回归（LR）进行线性探测。(上)对 iCSN 模型和各种基线的 latent codes 进行探测。(下)通过对 Cat-VAE 的 latent codes 进行探测，并进行编码器分布交换和 iCSN 概念编码平均化的消融研究。所有的分类准确率都是在测试集上计算出来的

iCSN 的语义约束离散潜在空间的一个优点是，人类用户可以直接识别次优概念表征，见上文所示的图 8。在识别正确或错误学习的概念后，用户可以在这个离散的概念空间上应用简单的逻辑反馈规则。具体来说，在通过弱监督进行训练后，建议机器和人类用户讨论所学的概念，并确定这些概念是否与用户的知识一致，或者是否需要修改。例如，iCSN 可以学习在几个原型插槽上表示颜色，或者通过一个插槽表示两个形状，这表明它错误地认为这些形状属于同一个概念。然后，iCSN 可以通过两种方式传达其学到的概念。首先，它可以根据推断出的离散原型距离代码对共享一个概念的新图像进行分组，并询问人类用户分组后的图像是否确实共享一个共同的基本概念，如图 8 所示。其次，利用解码器，它可以呈现每个学习概念的原型重建，例如，呈现具有蓝色原型阴影的对象，参见上文所示的图 9。在确定了潜在的次优概念表征之后，人类用户可以通过逻辑规则在 iCSNs 的离散化潜在空间上进行交互，并进一步改进表征。

对于之前所有的 vanilla CSN 配置，人工检查了 32 个可能的概念组合中的一个示例的概念编码 y，并确定了在每个单独概念的大多数示例中 “激活” 的原型插槽（主插槽），此外，根据概念识别那些在示例子集（辅助插槽）中从未激活或很少激活的原型插槽。接下来，在 y 上应用 L2 损失，使用原始重建损失和该额外 L2 损失微调原始训练集上的先前运行结果。这种反馈的语义是，应该只由主要原型槽来表示概念。此外，在两次运行中，修改了一个观察到的次优解，即五边形和圆绑定到同一原型插槽。因此，在训练集的所有五边形样本上提供反馈，以绑定到另一个空的原型插槽，并再次通过额外的 L2 损失约束优化。

5 小结

我们在这篇文章中从可解释性工具的研发角度讨论了可解释 AI 问题，讨论的依据是 AAAI-2022 tutorial 中提及的最新研究成果。目前，国内外关于可解释 AI 真正落地的应用还比较少，主要集中在几个超大型公司，而学术界对这一问题的关注也远不如其它 AI 领域多。但是随着数字经济的重要性越来越高，平台企业的合规性发展成为了下一步 AI 算法 / 模型应用的关键。此外，从监管端来说，促进可解释 AI 的发展也是有效监管数字经济的重要抓手。最后，可解释 AI 也是我们广大用户应用 AI 模型的定心石。随着越来越多国内大型企业对可解释 AI 的重视度不断提升，相信可解释 AI 会很快在大量的应用场景中使用，可解释性工具的研发也会受到更多研究人员的关注。

本文参考引用的文献

[1] Bach S , Binder A , Montavon G , et al. On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation， PLOS ONE, 2015, 10

[2] Tutorial on Explanations in Interactive Machine Learning，AAAI 2022，https://sites.google.com/view/aaai22-ximl-tutorial

[3] Lertvittayakumjorn et al., 2020, FIND: Human-in-the-Loop Debugging Deep Text Classifiers, EMNLP 2020

[4] Teodora Popordanoska, Mohit Kumar, Stefano Teso, Human-in-the-Loop Debugging Deep Text Classifiers,AAAI 2021

[5] Stammer, W. , et al. "Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations." CVPR 2022

仵冀颖，工学博士，毕业于北京交通大学，曾分别于香港中文大学和香港科技大学担任助理研究员和研究助理，现从事电子政务领域信息化新技术研究工作。主要研究方向为模式识别、计算机视觉，爱好科研，希望能保持学习、不断进步。

关于机器之心全球分析师网络

Synced Global Analyst Network

机器之心全球分析师网络是由机器之心发起的全球性人工智能专业知识共享网络。在过去的四年里，已有数百名来自全球各地的 AI 领域专业学生学者、工程专家、业务专家，利用自己的学业工作之余的闲暇时间，通过线上分享、专栏解读、知识库构建、报告发布、评测及项目咨询等形式与全球 AI 社区共享自己的研究思路、工程经验及行业洞察等专业知识，并从中获得了自身的能力成长、经验积累及职业发展。

感兴趣加入机器之心全球分析师网络？点击文末「阅读原文」立即申请。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章