NeurIPS 2023 Spotlight | 基于超图的表格语言模型
本文从理论和实验的角度都证实了该方法能够学得表格鲁棒的,富有表达性的表示, 并在下游四个表格表示学习任务中取得了超越基线模型的表现。
论文地址:
背景
然而,这类工作都假设表格是一个序列,忽略的表格本身结构特征。我们人在理解一个表格数据时并非一行一行的读下去,而是会按照表格的结构去理解,比如从表格标题,再到各个列名,然后到感兴趣的行和单元格。基于这样的背景,本文提出基于超图的表格语言模型将克服这些工作的缺陷,最大程度地保留表格的结构信息,以学得表格数据更好的表示。
动机
这样建模的好处是我们可以最大程度的保留表格的结构信息,我们总结了表格的结构信息有以下四类, 均可由超图保留下来。
表格是具有行列排列的不变性的特征。如上图,如果将表格的第一行和第三行交换,并不会影响表格的内容;同理,交换表格的第二列和第三列,也不会影响表格内容。而超图本身的不变性特征,可以天然地建模表格的这个特征。
来自同一行或者同一列的单元格具有天然的联系。如上图中,第一列的单元格都是足球俱乐部名称,而第一行的单元格,都是 Barcelona 这只球队的不同属性。超图模型将这些单元格连起来,可以自然地学得其联系。
表格是有层级结构的:从最细粒度的单元格,到中间粒度的行与列,再到最粗粒度的表格。我们的超图模型对于不同的层级都有对应的节点或者超图边。我们将中间粒度的行与列,以及粗粒度的表格都建模成了超图边,可以保留这样的层级结构。
来自同一列或者行的单元格之间的交互联系,是多边的交互关系,而并不是两两交互关系。这是我们使用超图来建模,而非用普通图模型的重要原因。在超图中,相互连接的节点被看作是一个集合(set),集合之间的交互式多边的,而非两两之间的关系。
方法
一是基于表格单元格污损的 ELECTRA [3] 预训练目标。我们将预训练的表格数据中的 15% 的的单元格随机替换成其他值,然后利用一个全连接层对所有的单元格进行二分类,判断单元格是否被污损。 二是基于超图结构破坏的对比学习(Contrastive Learning)的预训练目标。我们将建好的超图中 30% 的连接破坏掉,以形成对比学习中的正例。对于每个表格我们破坏两次形成两个正例,然后与同一个批(batch)中的其他表格作为负例进行对比,从而进行自监督学习。
实验
我们的 HYTREL 模型在所有任务上均获得列超越强基线模型的效果,其中在 ELECTRA 上预训练的模型在前三个任务中表现最好,而对比学习预训练模型在表格相似性预测中表现最好,可能的原因是对比学习的预训练目标函数本身包括了表格的相似性预测,从而使得用其训练的模型能更好的预测表格的相似性。 我们的 HYTREL 模型,在不经过预训练的时候,仍可以获得接近强基线模型的效果,这与之前的表格语言模型 TaBERT 形成了鲜明的对比。这从实证的角度证明了将表格结构纳入到表格语言模型的有效性。
总结和展望
参考文献
[1] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
[2] Lee, Juho, et al. "Set transformer." (2018).
[3] Iida, Hiroshi, et al. "Tabbie: Pretrained representations of tabular data." arXiv preprint arXiv:2105.02584 (2021).
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者