ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架

2023-05-05 04:05

如今流行的预训练语言模型大多采用 Transformer 作为模型架构，已经在诸多下游任务中（包括文本分类，文本摘要，文本生成）表现出了强劲的性能。然而目前大多数针对预训练模型的应用主要集中在纯文本领域，对伴随着网络结构信息的文本数据缺乏相关研究。

另一方面，图神经网络在图数据的建模问题中应用十分广泛。然而，现存的图神经网络需要将图中点/边所原本带有的信息转化为特征向量输入到模型中。但是当图中的点/边带有文本信息时，它们通常需要使用词袋模型首先进行文本信息提取。在这个过程中，原始文本丰富的语义信息将会被折损。

本文主要研究了边上带有文本的图（用户-商品交互图，社交网络）上的表示学习问题。针对预训练语言模型和图神经网络模型的问题，我们提出了一套基于 Transformer 架构的编码方法，解决了文本语义信息和网络结构信息难以共同建模的问题。

论文题目：

Edgeformers: Graph-Empowered Transformers for Representation Learning on Textual-Edge Networks

收录会议：

ICLR 2023

论文链接：

https://openreview.net/pdf?id=2YQrqe4RNv

代码链接：

https://github.com/PeterGriffinJin/Edgeformers

研究背景

现实生活网络（社交网络/信息网络）数据中的边常常带有丰富的文本信息。比如，社交网络中用户之间会有 email 消息交流，我们如果将用户建模成网络中的点，用户之间的交互建模成网络中的边，那么边就会自然的带有 email 文本信息；电子商务平台中用户常常会给购买过的商品留下评论文本，我们如果将用户和商品建模成网络中的点，用户和商品之间的交互建模成网络中的边，那么这些边就会带有评论文本数据。这种类型的图就叫做边上带有文本的图（textual-edge network）。

当在此类图上进行边上文本的理解时，不仅应该关注文本本身，也应该关注边两端的点的信息。比如，在基于某用户对某商品的评论进行商品打分预测（边的理解）时，即使给出类似的评论文本（边），不同的用户给相同商品的打分也可能不同，因为这也将受用户（点）本身的用词偏好的影响。

与此同时，当在此类图上进行点的理解时，边上的文本信息也非常重要。比如，我们可以根据用户对商品的评论文本（边上文本）来理解用户（点）的购买偏好。

主流的图神经网络模型主要使用传播-聚合机制来建模网络中的点，但缺乏对于图中边信息的利用；现存的基于边的图神经网络需要首先将边所自然带有的信息转化成一个特征向量，再输入到模型之中。如果我们使用这种方法来编码边上带有文本的图，那么边所带有的文本信息将无法被很好地建模（文本到词袋向量的转化将产生信息的折损）。

另一方面，预训练语言模型善于捕捉文本的语义信息，但是无法建模文本之间的显式关系，因此也难以被直接使用到 textual-edge network 建模中。

方法介绍

基于 Transformer 模型架构，我们分别提出了边表示学习模型 Edgeformer-E 和点表示学习模型 Edgeformer-N，来共同建模图上的文本语义信息和结构化信息。

2.1 边的表示学习（Edgeformer-E）

不同于简单地编码文本，在 textual-edge network 上做边上文本的表征学习时，我们还需要考虑边两头连接的点的语义信息。预训练语言模型已经被证明了非常善于获取文本语义，因此我们尝试在预训练语言模型 Transformer 架构的基础上增加图结构信息的建模。我们的核心想法是在每一层的 Transformer 输入引入虚拟 token 来表示点的信息，并合并到原本的文本语言表征矩阵：

进一步地，我们将整合后的表征矩阵输入到非对称的多头注意力机制中，来实现文本信息和结构化信息的共同建模：

最终，我们将表征矩阵输入 FFN 网络：

在本文中，我们使用简单的按层投影的方式来获取每一个 Transformer 层的初始点信息向量：

2.2 点的表示学习（Edgeformer-N）

在做点的表征学习时，一个非常直接的想法是将 Edgeformer-E 得到的目标点所连出去边的表征进行聚合：

进一步地，我们发现其实在目标点已经给定了的情况下，它所连出去的边上的文本在语义层面可以起到促进的作用。比如在 email 网络中，当给定关于 “Transformer” 的文本，并且我们知道发送该文本的人还发送了其他关于 “machine learning” 的文本时，那么我们可以由此推断前面的 “Transformer” 说的是一种深度学习架构而不是变压器。因此，在给定目标点的情况下，我们在做边的编码时引入了第三种虚拟 token：

2.3 模型训练

我们分别采用边分类和点之间是否连边的预测来学习边和点的表征：

实验

1. 边分类（edge classification）

2. 边预测（link prediction）

3. 点分类（node classification）

结论

本文主要聚焦 textual-edge network 中的表征学习问题，并提出了一套基于 Transformer 架构的表征学习框架 Edgeformers。作者在横跨三个领域（电子商务，图书，社交网络）的五个数据集上进行了多种任务（边分类，边预测，点分类）的模型比较，展示了 Edgeformers 的巨大潜力。

更多阅读