Redian新闻
>
架构瓶颈原则:用注意力probe估计神经网络组件提供多少句法信息

架构瓶颈原则:用注意力probe估计神经网络组件提供多少句法信息

公众号新闻

机器之心报道

编辑:陈萍、杜伟

本文中,剑桥和 ETH Zurich 的研究者从一个新的角度探讨了 probing,不关心模型编码了多少信息,而是关心它的组件可以提取多少信息。然后使用 V-information 来量化这个数量。通过评估流行的 transformer 语言模型注意力机制,该研究发现关于句子的语法树信息大部分都可以由模型提取。然而,对于随机初始化的 transformer 模型而言,情况并非如此。因此,该研究得出结论,对 transformer 的训练会导致注意力头具有解码语法树的潜力。

预训练语言模型在各种自然语言处理任务上的惊人表现,引起了人们对其分析的兴趣。Probing 是进行此类分析所采用的最普遍的方法之一。在典型的 probing 研究中,probing 是一个插在中间层的浅层神经网络,通常是一个分类器层。其有助于探查不同层捕获的信息。使用辅助任务对 probing 进行训练和验证,以发现是否捕获了此类辅助信息。


一般来讲,研究者首先冻结模型的权重,然后在模型的上下文表示的基础上训练probe,从而预测输入句子的属性,例如句法解析(其对句子结构进行分析,理清句子中词汇之间的连接规则)。不幸的是,关于如何设计此类 probe 的最佳实践仍然存在争议。


一方面,有研究者倾向于使用简单的 probe,这样就可以将 probe 与 NLP 任务区分开来;另一方面,一些人认为需要复杂的 probe 才能从表示中提取相关信息。此外,还有一些人考虑折中的方法,主张将复杂性 - 准确性帕累托曲线上的 probe 考虑在内。


本文中,来自剑桥大学、苏黎世联邦理工学院的研究者提出架构瓶颈原则 (ABP,architectural bottleneck principle) 作为构建有用 probe 的指南,并试图测量神经网络中的一个组件可以从馈送到它的表示中提取多少信息。为了估计给定组件可以提取多少信息,该研究发现 probe 应该与组件完全相同。根据这一原理,该研究通过注意力 probe 来估计有多少句法信息可用于 transformer。



论文地址:https://arxiv.org/pdf/2211.06420.pdf


举例来说,该研究假设 transformer 的注意力头是其使用句法信息的瓶颈,因为这是 transformer 中唯一可以同时访问多个 token 的组件。根据 ABP,该研究提出注意力 probe,就像注意力头一样。该 probe 回答了这样一个问题:transformer 在计算其注意力权重时可以使用多少句法信息?


结果表明,大多数(尽管不是全部)句法信息都可以通过这种简单的注意力头架构提取:英语句子平均包含 31.2 bit 的句法树结构信息,而注意力 probe 可以提取 28.0 bits 信息。更进一步,在 BERT、ALBERT 和 RoBERTa 语言模型上,一个句子的语法树大部分是可以被 probe 提取的,这表明这些模型在组成上下文表示时可以访问句法信息。然而,这些模型是否真的使用了这些信息,仍然是一个悬而未决的问题。


注意力 Probe 


目前,有许多方法用来设计有效的 probe,分类原则大致包括:线性原则、最大信息原则、易提取原则,此外还包括本文提出的 ABP 原则。


可以说 ABP 将前三个原则联系起来。最重要的是,ABP 泛化了线性原则、最大信息原则,此外,ABP 还通过限制 probe 的容量来隐式控信息制提取的难易程度。


该研究重点关注 transformer 注意力机制。此前研究人员曾断言,在计算注意力权重时,transformer 会使用句法信息。此外,注意力头是 transformer 中唯一可以同时访问多个单词的组件。因此,在注意力头的背景下探索 ABP 是一个自然的起点。具体而言,根据 ABP,我们可以研究 transformer 的注意力头可以从输入表示中提取多少信息。


实验结果


对于数据,研究者使用了通用依赖(UD)树库。他们分析了四种不同类型的语言,包括巴斯克语、英语、泰米尔语和土耳其语。此外,研究者将分析重点放在未标记的依赖树上,并注意到 UD 使用特定的句法形式,这可能会对结果造成影响。


对于模型,研究者探讨了以上四种语言的多语言 BERT 以及仅支持英语的 RoBERTa 和 ALBERT。根据 ABP,他们保持 probe 的隐藏层大小与 probed 架构中的相同。最后,他们还将一个具有与 BERT 相同架构的未训练 transformer 模型作为基线。


下图 1 展示了主要结果。首先,研究者的 probe 估计大多数句法信息可以在中间层提取。其次,大量句法信息在馈入注意力头的表示中进行编码。虽然他们估计使用英语、泰米尔语和巴斯克语句子编码的信息接近 31 bits,但使用土耳其句子编码的信息约为 15 bits。研究者怀疑这是因为土耳其语在语料库中的句子最短。



研究者还发现,句子中的几乎所有句法信息都可用于考虑中的基于 transformer 的模型。例如在英语中,他们发现信息量最大的层在 BERT、RoBERTa 和 ALBERT 中的 V 系数分别为 90%、82% 和 89%,具体如下表 1 所示。这意味着这些模型可以访问一个句子中约 85% 的句法信息。不过未训练的 BERT 表示并不适合这种情况。



最后,研究者将 BERT 的注意力权重(通过其预训练的注意力头计算)直接插入到原文公式 (8) 并分析产生的未标记附件分数。英语相关的 BERT 结果如下图 2 所示。简言之,虽然注意力头可以使用大量的句法信息,但没有一个实际的头可以计算与句法树非常相似的权重。


但是,由于 BERT 有 8 个注意力头,因此可能以分布式方式使用句法信息,其中每个头依赖该信息的子集。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICML2022 | GNNRank: 基于有向图神经网络从两两比较中学习全局排序TPAMI 2022 | 利用子图同构计数提升图神经网络的表达能力上海交大副教授五年参禅:神经网络的简单偏好中日友谊回顾(圖)中山大学HCP Lab团队:AI解题新突破,神经网络推开数学推理大门自动驾驶企业Mobileye估值坍塌:降至160亿美元 路演PPT曝光清华&上交等发表Nature子刊!分片线性神经网络最新综述!神经网络的简单偏好搭载DALL-E2!微软AI设计神器Designer内测启动,Adobe的最强对手快来了知识分子的脊梁,是如何一步步弯曲的[电脑] Unifi,让个性化的家庭网络组建变得更容易北邮王啸:挖掘图神经网络中的「万物真理」神经网络高斯过程 (Neural Network Gaussian Process)ICLR'23截稿, 图神经网络依然火热 (附42 篇好文整理)NeurIPS 2022 | 基于解耦因果子结构学习的去偏差图神经网络大规模GNN如何学习?北邮最新《分布式图神经网络训练》综述,35页pdf阐述分布式GNN训练算法和系统ACL2022 | 成分句法分析新进展:跨领域挑战与更稳健的句法分析器从“陌生人为我付账”说起研究人员开发在小型设备上训练大型神经网络 保护隐私每日原则:根据原则来工作蓝莓司康,红龙虾饼,新奥尔良鸡腿解决神经网络的百年难题,MIT新模型Liquid CfC让模拟大脑动力学成为可能亚裔诉哈佛案庭审前夕回顾19年前华人维权漂亮的一仗百岁汇编语言之母逝世!71岁时她还在和儿子合写神经网络论文公开课预告:Modulus 基于物理信息神经网络(PINN)加速流体力学模拟仿真汇编语言之母100岁逝世:曾和冯·诺依曼一起研究,退休后还在研究神经网络从多篇顶会论文看图神经网络黑盒攻击近期进展清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!一种基于神经网络的策略,可增强量子模拟只需一次向前推导,深度神经网络可视化方法来了!(ECCV Workshops 2022)总听到老师说“孩子注意力不集中”?这几个游戏能帮助提高孩子注意力!NeurIPS 2022 | ​NAS-Bench-Graph: 图神经网络架构搜索BenchmarkAAAI 2022 | 正交图神经网络7 Papers & Radios | 用神经网络推开数学推理大门;世界首个宏基因组蛋白质图谱
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。