EMNLP 2022奖项揭晓,最佳论文这脑洞绝了!
新智元报道
新智元报道
【新智元导读】近日,自然语言处理顶会EMNLP公布了今年的论文获奖情况,包括最佳长论文(1 篇)、最佳短论文(1 篇)等。
在看获奖论文之前,我们先来思考人工智能中一个核心而底层的问题:什么是抽象以及它能够给我们带来什么?
举个例子,万年前的「猴子们」观察了大量的物理对象(object)、实体(entity)以及他们之间的关系(relation)等,逐渐在脑子里面形成了「石头」、「家庭」、「在...之间」、「因果」等概念,经过很长一段时间之后,「猴子们」把这些存在脑海里面的概念用「字」和「词」表示了出来,这些蕴含着抽象概念的字和词经过复杂的、有规则的组合,形成了各种各样的语言,而语言能够表达、演绎、推理一切!就这样,人类智能诞生了~
论文链接:https://arxiv.org/abs/2211.16492
数据集的构建
七巧板整体形状的预测:这部分数据集叫做 FULL 「This shape as whole looks like ___」 部分预测:形容某个单独的部分是干啥的,因为细节标注比较密,所以把这部分数据集叫做 DENSE 「The part you selected looks like___」
作者还从 DENSE 里面挑出来一些标注不那么密的子集,叫做 DENSE10.
数据集质量衡量
形状命名差异(shape naming divergence,SND):用来衡量不同标注员进行不同七巧板图像的形状标注时的总体差异; 部分命名差异(part naming divergence PND):用来衡量不同标注员进行不同七巧板图像的局部标注时的总体差异,计算方式和 SND 大致相同; 分块分割一致性(part segmentation agreement,PSA):用来衡量不同标注员划分局部时的总体差异,也就是不同的人可能将不同的板板组合划分成某个部分。作者把这个看作是「使用最大权重匹配的线性和分配问题」,并使用成本矩阵计算(快去复习算法)。
具体的计算公式以及得到结论的细节,感兴趣的读者可以移步原文~
多模态模型有抽象能力吗?
作者把构建的数据集叫做 KILOGRAM,主要衡量了两类代表性多模态模型的视觉抽象能力:
以 CLIP 为代表的双塔模型:视觉和语言模态采用不同的 encoder; 以 ViLT 为代表的单塔模型:视觉和语言拼接成一长串输入,喂给同一个 encoder。
1. 任务形式化
因此总的来说,这就是一个简单的文图匹配(ITM, image-text matching)或分类任务。
2. 输入和输出
图像分成两种形式:作为整体的「BLACK」以及局部标注的「COLOR」
文本分成两种形式:作为整体的「WHOLE」以及局部标注的「PARTS」
然后还可以采用一些数据增强的手段:「AUG」
这样,不同的图像-文本形式组合就代表了不同粒度的抽象理解能力。
3. 模型训练
一共有两种主要的实验设定:
PT: 仅使用预训练模型,不精调,以 zero-shot 的方式在 KILOGRAM 上测试;
FT: 使用预训练模型,并使用对比训练在 KILOGRAM 精调并测试。
在精调的基础上,还可以进行上文提到的数据增强(AUG)
4. 实验结果
仅仅看 zero-shot (i.e., PT)的表现,CLIP略优于ViLT;
添加局部信息并没有太大的作用,说明预训练模型并不能很好地推理文本和七巧板局部之间的关联;
WHOLE+BLACK 上的 zero-shot 的实验表现说明,预训练模型并不能很好地将熟悉的概念泛化到抽象的形状当中去(它知道现实世界中狗狗是什么样子的,但是并不能将七巧板抽象狗和真实狗狗联系在一起);
精调可以大幅改进性能;
在精调设定下,在文本描述中添加局部信息可以提升性能,但是在七巧板图像中添加局部信息并没有用;当两者都提供时,改善很明显;
在精调设定下的实验结果与人工评测结果规律相似;
数据增强只对 CLIP 有用,但对 ViLT 没用;
在PARTS+COLOR条件下,ViLT的表现明显优于人类的平均表现。
一点碎碎念
本篇工作中将传统的童年玩具「七巧板」的概念与多模态模型巧妙关联,用模型理解文本与七巧板图案局部、整体之间的关联,来评估模型的视觉抽象能力。
七巧板作为童年益智启蒙玩具,是在人类在视觉认知上对图块与图案之间的分割、组合能力的体现,也正是本文开头提到的认知科学上智能过程中人类进行推理、泛化的底层能力。
作为Best Paper,本篇论文无论是从数据集的构建还是实验设计来看,都是非常创新且具备很高的研究价值的工作,也对模型能力在人类智能上的评估有很强的指导意义。
获奖名单
最佳长论文
最佳短论文
论文链接:https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.70.pdf
最佳长论文荣誉提名
最佳 Demo 论文
微信扫码关注该文公众号作者