ACL 2023 Findings | 概率句法角度的Transformer诠释

科技

2023-07-24 05:07

©PaperWeekly 原创 · 作者 | 吴昊一

单位 | 上海科技大学

研究方向 | 自然语言处理

本文介绍了上海科技大学屠可伟课题组的一项研究，提出了一个与 Transformer 结构极为类似的概率句法模型。该论文已被 ACL 2023 接收为 Findings 长文。

论文标题：

Probabilistic Transformer: A Probabilistic Dependency Model for Contextual Word Representation

论文链接：

https://faculty.sist.shanghaitech.edu.cn/faculty/tukw/acl-f23pt.pdf

代码链接：

https://github.com/whyNLP/Probabilistic-Transformer

Transformer: 一个黑盒模型

曾几何时，句法分析是自然语言处理的核心步骤。但过去十年间，基于经验设计的神经网络席卷了 NLP 领域，成为了主流的方法手段 [1]，而句法结构在这些方法中逐渐被淡化和忽视。Transformer 就是其中的一个重要代表：尽管有研究表明 Transformer 具有一定的编码句法结构的能力，但其本质上仍是一个依据经验设计的黑盒模型，这些能力从何而来，我们不得而知。

为此，世界各地的研究人员正试图揭开 Transformer 工作原理的面纱。例如，马毅教授团队近期指出 Transformer 是表示压缩与稀疏化的迭代过程 [2]，田渊栋博士则透彻分析了单层 Transformer 的原理 [3]。

LeCun力挺，马毅教授五年集大成之作：完全数学可解释的白盒Transformer，性能不输ViT

田渊栋新作：打开1层Transformer黑盒，注意力机制没那么神秘

我们最新发表的工作尝试从一个全新的角度来思考这个问题。我们不再关注 Transformer 中的每个细节，而是从理论出发，构建了一个传统的概率模型来建模句子中的依存语法结构，并推导了该模型的近似推理算法。通过分析计算图，我们发现该模型与 Transformer 存在着惊人的相似之处。同时，在各种中小规模数据集上，我们的模型与 Transformer 性能不相上下。

Probabilistic Transformer

2.1 依存关系与注意力机制

直观地看，依存关系与 Transformer 中的注意力机制颇为类似。依存关系中，句子的每个单词都会有一个依存头；而注意力中，每个单词会在句中所有单词上有一个注意力分布。同时，Transformer 将相同的计算模块堆叠多层的方式与迭代式的近似推理算法颇为类似。这些相似性启发我们从近似依存句法分析的角度重构出 Transformer。

2.2 用条件随机场建模依存关系

对一段给定的文本，我们构造如下的条件随机场。每个单词有一个标签（Label）和依存头（Dependency Head）：标签表示了这个单词所携带的句法和语义类别信息，依存头则表示了这个单词在依存图中的父节点。它们都作为变量存在，如下图所示：

举个例子：给定一个句子I love NLP。如果我们令标签表示单词的词性，那么有

。如果I的依存头为love，那么。

在实际运用过程中，我们的模型并不规定单词标签的含义，而是将此作为隐变量让模型来学习。事实上，我们正是希望通过单词的标签，来获得单词上下文相关的向量表示。

变量之间通过因子（Factors）相连。这些因子携带了整个条件随机场中的参数，即评分张量（score tensor）。我们让每个标签变量与一元因子相连，让一元因子编码单词本身上下文无关的信息；对于第个单词，我们让依存头变量与其对应的标签变量和另一个其他的标签变量用一个三元因子相连，使得这个三元因子仅在时激活。

受到 Transformer 多头注意力的启发，我们设计了多通道依存关系。每个通道（channel）独立地拥有一组依存头变量和三元因子，表示句子中一种可能的依存关系。通道使用上标来表示。

在推理的过程中，我们采用平均场变分推断（MFVI, Mean Field Variational Inference）的迭代近似算法。这个算法迭代更新每个变量在其取值空间上的分布，用以近似所有变量的联合后验概率分布。整个推理的计算过程是连续可导的。我们取迭代更新后每个单词在标签上的分布作为最终上下文相关的词表示。如同 Encoder-only Transformer 一样，这些词表示可以接上任意任务相关的神经网络来完成下游任务。将因子中的评分张量视作参数，采用梯度下降的方法，我们可以完成整个模型的学习。

类似Transformer的计算图

如果你不熟悉条件随机场，对变分推断也不了解，没有关系。由于采用梯度下降来学习模型中的参数，我们可以像 Transformer 一样绘制出我们模型近似推理的计算图。有趣的事情就在于这里：建模依存关系的概率模型的计算图，与 Transformer 竟然极为类似！

如果我们考虑单个通道的推理过程，那么这与 Transformer 中的缩放点积注意力非常类似。在缩放点积注意力中，我们将 Q 与 K 相乘，经过 softmax 得到注意力矩阵，最后与 V 相乘。这恰好对应着 MFVI 中信息从两个标签变量经过一个三元因子传递给依存头变量，经过 softmax 归一化得到依存头对于整个句子的分布，再将信息通过三元因子传递回标签变量。

如果我们结合多个通道的推理过程，那么信息将独立地在不同的通道中更新，最后在标签节点中以相加的方式聚合。这与 Transformer 中的多头注意力几乎完全一致，只是我们的模型由于在两次信息传递的过程中经过了同一个三元因子，因此相较于多头注意力存在着参数共享。

如果考虑整个更新推理过程，那么 MFVI 的迭代方式与 Transformer 的多层叠加方式也非常类似。相比之下，我们可以观察到一些有趣的不同之处：

我们的模型不包含前馈神经网络。我们也设计过含有类似前馈神经网络结构的概率模型，但实验发现性能并没有得到显著的提升。
我们的模型不包含残差连接和层归一化。但计算图中我们可以发现类似的结构：在每一次迭代的结果中，我们会加上初始分布（类似于词嵌入）。Softmax 则替代了层归一化被置于多通道推理之前，这似乎与 Transformer 中的 pre-LN 变种类似。
我们的模型在每一层都共享所有的参数。这与 Universal Transformer 和 ALBERT 的思路一致。

这个模型的结构与 Transformer 如此类似，是我们意料之外的。基于这些观察，我们为这个模型起名为 Probabilistic Transformer。

与Transformer不相上下的性能

既然理论上我们的模型与 Transformer 享有如此类似的结构，那么它在真实数据集上的表现又如何呢？我们在掩码语言模型（MLM, Masked Language Modeling），词性标注（POS, Part-of-Speech Tagging），命名实体识别（Named Entity Recognition），情感分析（SST, Stanford Sentiment Treebank）等多个任务上进行了测试。

可以看到，两个模型在大部分情况下表现不相上下。遗憾的是，我们仅在中小规模的数据集上观察到了这样的现象。当我们采用训练集大小超过 100k 的大规模数据集时，Probabilistic Transformer 的表现开始显著落后于 Transformer。

还能做些什么

尽管我们的模型表现未能超越 Transformer，但其本身是基于依存句法分析和统计学习的理论构建的，这可以为我们带来许多新的启发，将句法分析和统计学习中成熟的技术类比运用到最先进的神经网络模型中。例如，阻尼（damping）在条件随机场近似推理中是一种常用而有效的技术手段，我们发现如果对依存头变量使用适当的阻尼，其计算图恰好对应于注意力矩阵上的残差连接，即 RealFormer 中使用的方法。

传统统计学习与现代神经网络方法之间可能存在着极为紧密的联系，而我们有机会通过借鉴这些成熟的传统方法来快速发展现有的方法。

在这份工作中，我们构造了一个简单的概率依存模型，使用一个离散的标签变量来表示一个单词。但我们也可以采用一个向量，或是一个连续变量来表示一个单词。如果这样，我们是否可以得到一个更有趣的模型？对于依存头，我们是否可以考虑带上依存边的标签？对于 Transformer 的其他结构和变种，我们是否也可以构造相对应的概率模型？这些有趣的问题值得我们未来进行进一步的研究。

-写在最后-

我是本文的作者吴昊一，很高兴能在屠可伟教授的指导下完成这份工作。在开展这个课题的过程中，屠老师悉心指导，讨论课题时往往不知不觉过去了几个小时，非常开心。屠老师平易近人，为人处世以身作则，在屠老师的课题组，学习的不仅是科研的方法，更是做人的道理。特别是在 ACL 会议中与其他同学交流之后，我为自己当时选择屠老师作为导师而感到非常庆幸。

上海科技大学信息学院屠可伟教授课题组主要从事自然语言处理、机器学习等人工智能领域的研究，侧重于研究语言结构的表示、推理、学习以及相关应用。课题组每年都在各大顶会发表很多论文，例如在 ACL-2023 发表了 6 篇主会论文和 2 篇 Findings 论文，其中一篇还获得了杰出论文奖。

课题组招收硕士研究生（推免生）、博士生（名额待定）、博士后和研究助理，如果你对我们的工作感兴趣，希望在这里开展研究，不妨给屠老师发一封电子邮件。

更多信息请访问屠可伟老师主页：

http://faculty.sist.shanghaitech.edu.cn/faculty/tukw/

参考文献

[1] Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. In Y. Bengio & Y. LeCun (Eds.), 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings. http://arxiv.org/abs/1409.0473
[2] Yu, Y., Buchanan, S., Pai, D., Chu, T., Wu, Z., Tong, S., Haeffele, B. D., & Ma, Y. (2023). White-Box Transformers via Sparse Rate Reduction. ArXiv Preprint ArXiv:2306.01129.
[3] Tian, Y., Wang, Y., Chen, B., & Du, S. (2023). Scan and Snap: Understanding Training Dynamics and Token Composition in 1-layer Transformer. arXiv preprint arXiv:2305.16380.

更多阅读