Redian新闻
>
ICML 2022 | 字节提出首个用于评测预训练视觉语言模型真正泛化能力的基准评测平台 VLUE

ICML 2022 | 字节提出首个用于评测预训练视觉语言模型真正泛化能力的基准评测平台 VLUE

科技


字节跳动人工智能实验室的研究者提出了 VLUE(Vision-Language Understanding Evaluation Benchmark)——首个用于评测预训练视觉语言模型真正的泛化能力的基准评测平台。实验结果发现,目前多模态预训练的测评存在预训练数据和下游任务测评数据领域高度重合的问题,因此,普遍高估了视觉语言预训练模型真正的泛化和迁移能力。相关工作已经被 ICML 2022 接收。


▲ VLUE Leaderboard


论文链接:
https://arxiv.org/abs/2205.15237

项目链接:

https://vlue-benchmark.github.io/VLUE-website/leaderboard.html

数据集/代码链接:

https://github.com/MichaelZhouwang/VLUE




背景介绍


近年来,以视觉语言预训练(Vision-Language Pre-training)为代表的多模态预训练模型大幅提高了许多视觉语言任务的性能,在一些任务上(如 VQA)甚至达到了媲美一般人类表现的结果,但是具有代表性且常见的视觉语言任务数据集中的图片都和视觉语言模型预训练常用的数据存在严重的重合。


具体来说,图片文字抽取(image-text retrieval),视觉问答(visual question answering),视觉定位(visual grounding)这些视觉语言任务的常用数据集都是基于 MSCOCO 数据集中的图片进行标注的。而几乎所有的视觉语言模型在预训练中都会用到 MSCOCO 中的文本图片进行预训练。


因此,视觉语言模型在迁移到这些数据集之前,就已经在预训练过程中记忆了这些数据集,甚至是测试集中的图片和对应的文字描述,预训练视觉语言模型当前在这些常见数据集中所展示出的优秀效果很可能因为这种 in-distribution bias 的影响而被高估了的。


为了更好地评估预训练视觉语言模型真正的泛化/迁移能力,来自字节跳动人工智能实验室(AI Lab)的研究者提出了 VLUE(Vision-Language Understanding Evaluation Benchmark),首个视觉语言模型评测的基准平台。VLUE 中收集包含四个代表性视觉语言任务:图片文字抽取(image-text retrieval),视觉问答(visual question answering),视觉语言推理(natural language visual reasoning),以及视觉定位(visual grounding)的 Out of Distributio(OOD)测试集。


和这些任务中现有的数据集不同的是,VLUE 中这些测试集中包含了来自和常见视觉语言预训练数据分布不同的、更多样、更具有代表性的视觉概念和图片。这使得评估预训练视觉语言模型真正的泛化/迁移能力成为了可能。


另外,研究者们也指出了目前视觉语言预训练领域中模型评估过程中另一个普遍存在的问题:目前的工作在评估和对比的时候往往只关注绝对性能的比较。但是实际应用中,模型的效率和效果之间的平衡也是比较模型时很重要的一个因素。另外只汇报和比较绝对性能也限制了领域中训练更高效环保的视觉语言模型这一重要方向的发展。因此,在视觉语言模型评测的基准平台中引入效率-性能权衡(efficiency-performance trade-off)的综合指标来辅助视觉语言模型的评测也是非常有必要的。


VLUE 团队重新评估了 7 个具有代表性的预训练视觉语言模型在收集到的 OOD 测试集中的泛化表现以及效率-性能权衡的结果,证实了现有的数据集图片分布所带来的对视觉语言模型真实效果的高估以及因此带来的模型比较中的误差,并且揭示了不同模型结构在效率-性能权衡中所存在的显著差异。




VLUE基准评测平台


VLUE 是首个视觉语言模型评测的基准平台,包含了图片文字抽取(image-text retrieval),视觉问答(visual question answering),视觉语言推理(natural language visual reasoning),以及视觉定位(visual grounding)这四个代表性的视觉语言任务。这四类任务也是目前绝大多数预训练视觉语言模型工作所采用的下游数据集。


为了排除 in-distribution bias,评估预训练视觉语言模型真正的泛化/迁移能力,我们首先需要收集来自和视觉语言预训练阶段所使用的图片来源和分布不同的图片用于后续数据集的标注。另外,我们也希望选取的图片尽量包含更多有代表性的视觉概念并足够多样。常见的网络图片来源很难确保没有被包含进视觉语言预训练过程中,此外,收集足量合适的图片也比较困难。幸运的是,我们发现来自 EMNLP 2021 的 MaRVL 数据集(Visually Grounded Reasoning across Languages and Cultures)中刚好包含了我们所需要的图片集。


MaRVL 是一个多语言版本的视觉语言推理数据集,在图片选取的过程中特别注重和强调了从不同的文化和地区选择了多样的视觉概念并人工进行了图片的收集和筛选工作。


如下图所示,MSCOCO 数据集中绝大多数的视觉概念都来自于西方文化,其他从互联网上爬取的视觉语言预训练的数据(如 CC3M/12M 等)也是如此。相反地,MaRVL 数据集中则包含了来自不同地区和文化的图片,因此图片的分布和视觉语言预训练数据不同,且更具有普适性。这和本文的出发点恰好不谋而合,因此 VLUE 平台中采用了 MaRVL 数据集作为图片来源。


▲ MaRVL图片和MSCOCO图片的对比


有了图片来源之后,VLUE 团队的研究者们利用字节众包平台,首先进行了数据的筛选和过滤,然后依据这四个视觉语言任务的标注方法,对 MaRVL 的图片进行标注,以此作为 OOD test set。标注完成后的数据集信息,以及原始数据集的信息如下图所示:


▲ VLUE数据集统计信息


我们可以看到我们所标注的数据规模相比原始数据集的规模还是较小,因此我们在 VLUE 中将这些标注的数据集作为和原始数据集图片分布不同的一个 OOD test set,研究者们可以将视觉-语言预训练模型在对应任务原始的数据集中训练完成的模型直接迁移到 VLUE 的 OOD test set 中进行评测。




实验结果


在实验中,我们选取了 7 个有代表性的视觉语言模型在 VLUE 基准平台进行测试,各个模型在原始测试集和在新标注的 OOD test set 中的表现如下图所示。我们可以看到,所有被测试的模型在 OOD test set 上的表现都有明显的下降,这印证了作者们关于预训练数据和下游任务数据分布重合会带来对预训练视觉语言模型效果的高估的猜测。


另外我们也发现在 OOD test set 上进行模型比较也会带来和在之前的 in domain 原始数据集不同的结论,比如 VL-T5 在 NLVR 任务中原始数据集的表现相比 ViLBERT 和 LXMERT 都有一定差距,但是在 OOD test set 中的效果则较大幅度地超过了这两个模型,甚至达到了会和 ALBEF,X-VLM 等模型相当的效果。因此我们相信,在 VLUE benchmark 中的 OOD test set 对模型进行测试,对于评价预训练视觉语言模型真正的迁移和泛化能力是非常有必要的。


▲ VLUE实验结果


此外,本文还对常见视觉语言模型的效果-效率权衡进行了评测,结果如下图所示。我们可以清楚地看到,利用 Vision Transformer 的多模态模型在效果上略好的同时在效率方面明显胜过基于目标检测的多模态模型。这对研究者比较/选择多模态模型提供了新的角度,也为后续多模态预训练模型的研究方向提供了一定的指导。


▲ 视觉语言模型效果-效率的权衡


 团队简介

字节跳动 AI-Lab NLP&Research 专注于人工智能领域的前沿技术研究,涵盖了自然语言处理、机器人等多个技术研究领域,同时致力于将研究成果落地,为公司现有的产品和业务提供核心技术支持和服务。团队技术能力正通过火山引擎对外开放,赋能 AI 创新。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
玩转元宇宙!刚刚,绿厂亮出首个虚实共生计算平台从ICML 2022看域泛化(Domain Generalization)最新进展如何高效、精准地进行图片搜索?看看轻量化视觉预训练模型不拥枪不是美国人Ladder Side-Tuning:预训练模型的“过墙梯”别人的基准,治好了我的精神内耗知青进城和李向阳进城的不同无限视觉生成模型NUWA-Infinity让视觉艺术创作自由延伸疫情两年后欧洲三国游 (1)-计划与行程AAAI 2022 | 车辆重识别全新方向!解决恶劣天气下的车辆重识别!有效提升真实世界可行性!训练代码以及预训练模型皆以开源!未去黄泛区农场之前, 真的没想到那儿的生活不但比农村, 甚至比很多城市都好陀螺研究院:2022年上半年Quest2出货量约590万台,Quest系列累计出货量达1770万台;Meta Q2 财报公布G-Research:ICML 2022论文推荐ICML 2022 | 关注AI技术的你,快来查收这份机器学习前沿论文精选!文档智能多模态预训练模型LayoutLMv3:兼具通用性与优越性自监督榜首!字节跳动提出视觉预训练模型dBOT,重新审视Masked Image ModelingSRC资产导航监测平台Tsrc上线了Barclays JetBlue Plus 信用卡【80k 开卡奖励】重磅 ◇ 加国央行暴力加息没完!基准利率或至3.5%!但CMHC称房价最多下跌5%字节AI Lab提出的新多语言多模态预训练方法刷榜!已开源ECCV 2022 | 单点监督目标检测!国科大提出P2BNet:标一个点就能训练出强有力的目标检测器​一文梳理ICML 2022中图机器学习热点和趋势CVPR 2022 | 只需要一组预训练参数,所有恶劣天气一次解决!波士顿感恩圣诞双节提升营,​大学校园入住体验、竞赛SAT双道超车!凤姐的冤屈难诉与作祟的嫌隙人们政策解码|提升重大战略区域适应气候变化能力,具体如何落实?以微流控芯片为核心开发流式荧光POCT检测平台,芯凯瑞生物赋能快检市场ACL 2022 | 基于Prompt的自动去偏:有效减轻预训练语言模型中的偏见首个超大型真实世界研究:Omicron感染者病情严重程度大幅减弱!不知道如何提高视觉语言大模型?浙大与联汇研究院提出新型多维度评测框架对预训练语言模型中跨语言迁移影响因素的分析ICML 2022 | 分析与缓解自动架构搜索(NAS)中的干扰问题多模态预训练模型指北——LayoutLMWAIC 2022 | 澜舟科技创始人&CEO 周明:基于预训练语言模型的可控文本生成研究与应用潮声POC检测平台改版上线
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。