AAAI 2023 | 基于视觉感知的常识知识获取
©作者 | 社媒派SMP
来源 | 社媒派SMP
论文链接:
作者单位:
研究动机
在本工作中,我们提出将基于视觉感知的常识获取定义为一个远程监督的多样本学习任务(图 1),模型可以在不依赖任何图像中实体关系标注的情况下,从包含特定实体对(比如 人-瓶子)的大量图片中总结出实体之间的常识关系(比如 可以抓握)。
先导实验
值得注意的是,尽管在基于文本的世界知识中 ONE 和 ATT 取得了不错的效果,它们在 CKE 上的表现却非常差。我们认为这是由于常识知识相比于世界知识要更为复杂,许多细粒度的关系之间存在语义重叠(站在上方 和 行走在上方)和上下位词冲突(在上方,站在上方)的问题。
解决方案
我们设计了 CLEVER 框架(图3)来利用视觉语言预训练模型深度理解每一张输入图片,然后使用对比性注意力机制从这些图片中选择对于常识抽取而言有效信息丰富的实例,进而归纳出实体对之间的常识关系。
1. 相比于其他方法,CLEVER 在多个指标上获得了更高的自动常识获取性能(表1);
2. 相比于基于文本的常识获取和基于预训练模型的常识获取,CLEVER 抽取的常识知识在人工评测中取得了显著的优势(图4)另外,CLEVER 的常识可靠度分数与人工打分结果取得了 0.78 这样高的斯皮尔曼相关系数,证明了 CLEVER 的抽取结果和人类判断的一致性;
3. 所提出的对比性注意力机制可以从大量图片中选择出对于常识知识获取而言更具信息量的样本,这些样本可以作为知识库中的证据从而提供更具可解释性的常识抽取结果(图5);
4. 从 CLEVER 抽取出的常识知识(表4)中可以看出模型能够获取许多现有知识库中不存在的常识知识。
总结:在该工作中,我们将自动常识知识获取定义为一个基于图片的远程监督的多样本学习任务,并提出了一个相应的框架来解决此问题。模型通过利用预训练视觉语言模型对每张输入图片进行深度理解,并基于提出的对比性注意力机制总结所有图片的信息从而归纳出最终的常识知识。大量实验证明了方法的有效性。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者