Redian新闻
>
ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架

ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架

科技


如今流行的预训练语言模型大多采用 Transformer 作为模型架构,已经在诸多下游任务中(包括文本分类,文本摘要,文本生成)表现出了强劲的性能。然而目前大多数针对预训练模型的应用主要集中在纯文本领域,对伴随着网络结构信息的文本数据缺乏相关研究。


另一方面,图神经网络在图数据的建模问题中应用十分广泛。然而,现存的图神经网络需要将图中点/边所原本带有的信息转化为特征向量输入到模型中。但是当图中的点/边带有文本信息时,它们通常需要使用词袋模型首先进行文本信息提取。在这个过程中,原始文本丰富的语义信息将会被折损。


本文主要研究了边上带有文本的图(用户-商品交互图,社交网络)上的表示学习问题。针对预训练语言模型和图神经网络模型的问题,我们提出了一套基于 Transformer 架构的编码方法,解决了文本语义信息和网络结构信息难以共同建模的问题。


论文题目:
Edgeformers: Graph-Empowered Transformers for Representation Learning on Textual-Edge Networks

收录会议:

ICLR 2023

论文链接:

https://openreview.net/pdf?id=2YQrqe4RNv

代码链接:

https://github.com/PeterGriffinJin/Edgeformers




研究背景


现实生活网络(社交网络/信息网络)数据中的边常常带有丰富的文本信息。比如,社交网络中用户之间会有 email 消息交流,我们如果将用户建模成网络中的点,用户之间的交互建模成网络中的边,那么边就会自然的带有 email 文本信息;电子商务平台中用户常常会给购买过的商品留下评论文本,我们如果将用户和商品建模成网络中的点,用户和商品之间的交互建模成网络中的边,那么这些边就会带有评论文本数据。这种类型的图就叫做边上带有文本的图(textual-edge network)。


当在此类图上进行边上文本的理解时,不仅应该关注文本本身,也应该关注边两端的点的信息。比如,在基于某用户对某商品的评论进行商品打分预测(边的理解)时,即使给出类似的评论文本(边),不同的用户给相同商品的打分也可能不同,因为这也将受用户(点)本身的用词偏好的影响。


与此同时,当在此类图上进行点的理解时,边上的文本信息也非常重要。比如,我们可以根据用户对商品的评论文本(边上文本)来理解用户(点)的购买偏好。


主流的图神经网络模型主要使用传播-聚合机制来建模网络中的点,但缺乏对于图中边信息的利用;现存的基于边的图神经网络需要首先将边所自然带有的信息转化成一个特征向量,再输入到模型之中。如果我们使用这种方法来编码边上带有文本的图,那么边所带有的文本信息将无法被很好地建模(文本到词袋向量的转化将产生信息的折损)。


另一方面,预训练语言模型善于捕捉文本的语义信息,但是无法建模文本之间的显式关系,因此也难以被直接使用到 textual-edge network 建模中。




方法介绍


基于 Transformer 模型架构,我们分别提出了边表示学习模型 Edgeformer-E 和点表示学习模型 Edgeformer-N,来共同建模图上的文本语义信息和结构化信息。



2.1 边的表示学习(Edgeformer-E)


不同于简单地编码文本,在 textual-edge network 上做边上文本的表征学习时,我们还需要考虑边两头连接的点的语义信息。预训练语言模型已经被证明了非常善于获取文本语义,因此我们尝试在预训练语言模型 Transformer 架构的基础上增加图结构信息的建模。我们的核心想法是在每一层的 Transformer 输入引入虚拟 token 来表示点的信息,并合并到原本的文本语言表征矩阵:



进一步地,我们将整合后的表征矩阵输入到非对称的多头注意力机制中,来实现文本信息和结构化信息的共同建模:



最终,我们将表征矩阵输入 FFN 网络:



在本文中,我们使用简单的按层投影的方式来获取每一个 Transformer 层的初始点信息向量:



2.2 点的表示学习(Edgeformer-N)

在做点的表征学习时,一个非常直接的想法是将 Edgeformer-E 得到的目标点所连出去边的表征进行聚合:



进一步地,我们发现其实在目标点已经给定了的情况下,它所连出去的边上的文本在语义层面可以起到促进的作用。比如在 email 网络中,当给定关于 “Transformer” 的文本,并且我们知道发送该文本的人还发送了其他关于 “machine learning” 的文本时,那么我们可以由此推断前面的 “Transformer” 说的是一种深度学习架构而不是变压器。因此,在给定目标点的情况下,我们在做边的编码时引入了第三种虚拟 token:



2.3 模型训练


我们分别采用边分类和点之间是否连边的预测来学习边和点的表征:





实验


1. 边分类(edge classification)
2. 边预测(link prediction)

3. 点分类(node classification)




结论


本文主要聚焦 textual-edge network 中的表征学习问题,并提出了一套基于 Transformer 架构的表征学习框架 Edgeformers。作者在横跨三个领域(电子商务,图书,社交网络)的五个数据集上进行了多种任务(边分类,边预测,点分类)的模型比较,展示了 Edgeformers 的巨大潜力。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICLR 2023 | DIFFormer: 扩散过程启发的Transformer10行代码搞定图Transformer,图神经网络框架DGL迎来1.0版本此「错」并非真的错:从四篇经典论文入手,理解Transformer架构图「错」在何处ICLR 2023 | Specformer: 基于Transformer的集合到集合图谱滤波器科学匠人 | 胡瀚:成功用Swin Transformer连接CV和NLP主流架构的“破壁人”大幅优化推理过程,字节高性能Transformer推理库获IPDPS 2023最佳论文奖2023 春 祝姐妹们周末快乐!解码器 | 基于 Transformers 的编码器-解码器模型国际要闻简报,轻松了解天下事(032022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!CVPR 2023 | 统一框架MAGE:表征学习超MAE,无监督图像生成超越Latent Diffusion11个LLM一起上,性能爆炸提升!AI2联合USC开源LLM-Blender集成学习框架:先排序再融合|ACL 2023深圳·香港 | Knowledge Transfer(KT)知识转化论坛:智能制造基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下Eruope 2023比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤ICLR 2023|场景三维重建新SOTA!基于3D Transformer的单目场景重建前美团联合创始人王慧文 “正在收购” 国产开源深度学习框架OneFlow国际要闻简报,轻松了解天下事(03CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKeyCVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion人间再无刘三姐CVPR 2023 | 正则化方法DropKey: 两行代码高效缓解视觉Transformer过拟合没有邓小平右派慢慢长夜无绝期编码器-解码器 | 基于 Transformers 的编码器-解码器模型【谝闲分享】:再写一篇有关我家老三。清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下ICML 2023 | 轻量级视觉Transformer (ViT) 的预训练实践手册无自注意力照样高效!RIFormer开启无需token mixer的Transformer结构新篇章在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数寓意不祥花,无辜任怨嗟怎么开始学佛(十二)成佛就是成自己最新综述!南洋理工和上海AI Lab提出基于Transformer的视觉分割综述清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型transformer的细节到底是怎么样的?Transformer 连环18问!PackedBert:如何用打包的方式加速Transformer的自然语言处理任务ICLR 2023 | 微软提出自动化模型训练剪枝框架OTO,一站式获得轻量级架构
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。