Redian新闻
>
AAAI 2023 | 基于视觉感知的常识知识获取

AAAI 2023 | 基于视觉感知的常识知识获取

公众号新闻


©作者 | 社媒派SMP

来源 | 社媒派SMP


论文标题:
Visually Grounded Commonsense Knowledge Acquisition

论文链接:

https://arxiv.org/abs/2211.12054

作者单位:

清华大学,新加坡国立大学,汉堡大学,腾讯




研究动机

大规模的常识性知识库促进了许多人工智能应用,如计算机视觉、自然语言处理。常识知识的自动获取(CKE)因此成为了一个重要而具有挑战性的问题。基于文本进行常识知识的自动获取通常受限于文本中常识的稀疏性和报告偏差。相比而言,视觉感知提供了关于现实世界实体的丰富的常识知识,例如(人-可以抓握-瓶子)。

在本工作中,我们提出将基于视觉感知的常识获取定义为一个远程监督的多样本学习任务(图 1),模型可以在不依赖任何图像中实体关系标注的情况下,从包含特定实体对(比如 人-瓶子)的大量图片中总结出实体之间的常识关系(比如 可以抓握)。




先导实验

我们首先构建了一个常识获取基准数据集,并在此上进行了大量的先导实验来研究已有方法的效果。分析实验结果(图2),我们发现基于文本的方法和对预训练语言模型的查询表现很差(RTP, LAMA),这是因为文本中常识知识的稀疏性,通过对预训练语言模型进行微调,我们发现模型取得了较好的效果(Prompt-FT, Vanilla-FT);另外,视觉感知能够提供丰富的信息,直接基于平均归纳进行多样本学习就可以取得所测方法中最高的性能(AVG)。
实验结果也验证了多样本学习对于可以规模化的自动常识知识获取是必要的,因为图片关系抽取模型(VRD)尽管利用了更多的图像标注却难以取得可比的性能;目前的多样本学习算法并不能解决 CKE 问题,这些算法整体的性能表现还不够好(ONE, ATT, AVG)。

值得注意的是,尽管在基于文本的世界知识中 ONE 和 ATT 取得了不错的效果,它们在 CKE 上的表现却非常差。我们认为这是由于常识知识相比于世界知识要更为复杂,许多细粒度的关系之间存在语义重叠(站在上方行走在上方)和上下位词冲突(在上方,站在上方)的问题。




解决方案

我们设计了 CLEVER 框架(图3)来利用视觉语言预训练模型深度理解每一张输入图片,然后使用对比性注意力机制从这些图片中选择对于常识抽取而言有效信息丰富的实例,进而归纳出实体对之间的常识关系。

具体来说,为了对每张输入图片中的实体交互进行深度理解,我们将图片中所有物体的图像特征和对应类别名称输入给预训练视觉语言模型进行编码。在此基础上,我们将物体的图像特征输出和类别特征输出结合起来作为物体特征,之后将待抽取实体关系的两个类别的物体特征结合起来就得到了图片级别的深度理解。
最后,通过应用我们设计的对比性注意力机制将所有候选的实体关系作为查询特征,我们为每一个关系类别构建了一个基于关系的图像集合注意力分布来归纳所有输入图像的特征。相比于传统的注意力机制,对比性注意力机制显式建模了正确实体关系和错误实体关系之间的对比损失,从而减轻了常识知识复杂性导致的语义重叠和上下位词冲突带来的影响。



主要实验结果

1. 相比于其他方法,CLEVER 在多个指标上获得了更高的自动常识获取性能(表1);

2. 相比于基于文本的常识获取和基于预训练模型的常识获取,CLEVER 抽取的常识知识在人工评测中取得了显著的优势(图4)另外,CLEVER 的常识可靠度分数与人工打分结果取得了 0.78 这样高的斯皮尔曼相关系数,证明了 CLEVER 的抽取结果和人类判断的一致性;

3. 所提出的对比性注意力机制可以从大量图片中选择出对于常识知识获取而言更具信息量的样本,这些样本可以作为知识库中的证据从而提供更具可解释性的常识抽取结果(图5);

4. 从 CLEVER 抽取出的常识知识(表4)中可以看出模型能够获取许多现有知识库中不存在的常识知识。

总结:在该工作中,我们将自动常识知识获取定义为一个基于图片的远程监督的多样本学习任务,并提出了一个相应的框架来解决此问题。模型通过利用预训练视觉语言模型对每张输入图片进行深度理解,并基于提出的对比性注意力机制总结所有图片的信息从而归纳出最终的常识知识。大量实验证明了方法的有效性。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CF-ViT:用于视觉Transformer的由粗到细的两阶段动态推理架构 | AAAI 2023南方科技大学视觉智能与感知实验室招收访问学生及科研助理EMNLP 2022 | 基于视角转换的反事实数据增强方法【法律】在堪培拉租房,你不可不知的冷知识——法律小科普错误的例子证明错误的结论:论“中国队大胜美国队与中国队大败美国队”收藏!新冠防护必知的40个知识点EMNLP 2022 | SentiWSP: 基于多层级的情感感知预训练模型超越ConvNeXt!Conv2Former:用于视觉识别的Transformer风格的ConvNet图说丨收藏!新冠防护必知的40个知识点【图解】收藏!新冠防护必知的40个知识点胡塞尔关于感知的三种看法视觉 AI 少为人知的研究蓝海:临地安防苏州实验室及新型显示与视觉感知石城实验室简介打造属于机器人的触觉感官,腾讯Robotics X实验室做到了更快、更轻、更准NeurIPS 2022 | 视觉感知质量攻击:NR-IQA模型鲁棒性的试金石NeurIPS 2022 | 清华提出首个退化可感知的展开式Transformer清华提出首个退化可感知的展开式Transformer|NeurIPS 2022AAAI 2023 | 均匀序列更好:时间间隔感知的序列推荐数据增强方法角逐「视觉感知」万亿市场,这家国内领跑者如何挑战性能天花板?CIKM 2022最佳论文提名:证据感知的文档级关系抽取方法USB接口之争:基于竞争的封闭,基于计划的开放,哪个更好?​AAAI 2023 | 基于历史对比学习的时序知识图谱推理China’s open-door policy在伊朗,一群没有道德良知的人在教育有道德良知的人聚焦丨打造智能视觉产业新高地 2023浙江诸暨智能视觉平行论坛综述Linux新手必知的常用命令大全大半生就爬過一座山姚洋+何刚:中国经济的新挑战与必要的常识人生如白驹过隙,哪有时间把玩悲剧?大姨人民日报:新冠防护必知的40个知识点(你一定要知道)​ICDE 2022 | 时空间隔感知的序列POI推荐当AI数字人遇上少年中国风,一场属于视听行业的变革悄然已至让机器人的触觉感官更灵敏、稳定、高效,腾讯Robotics X在传感器上火力全开CIKM 2022最佳论文:融合图注意力机制与预训练语言模型的常识库补全
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。