Redian新闻
>
NAACL22 | 引入多模态对比学习来增强句子特征学习

NAACL22 | 引入多模态对比学习来增强句子特征学习

科技

知乎:李加贝

方向:跨模态检索

论文:MCSE: Multimodal Contrastive Learning of Sentence Embeddings

链接:https://aclanthology.org/2022.naacl-main.436.pdf

代码:https://github.com/uds-lsv/MCSE

视觉作为人类感知体验的核心部分,已被证明在建立语言模型和提高各种NLP任务的性能方面是有效的。作者认为视觉作为辅助语义信息可以进一步促进句子表征学习。在这篇论文中,为了同时利用视觉信息和文本信息,作者采用了sota句子嵌入框架SimCSE,并将其扩展为多模态对比目标。作者发现,除了文本语料库之外,使用少量多模态数据可以显著提高STS任务的性能。在论文的最后,作者也对该方法所存在的局限性进行了分析

虽然这篇论文的框架非常简单,但是我觉得对于实验和作者的局限性分析还是有值得思考的地方

方法

MCSE模型

SimCSE

就是通过dropout+编码两次构建正样本对,进行对比学习

给定一个图像句子对,把他们映射到一个共同的嵌入空间中

f()为预训练的语言编码器和预训练的图像编码器,g()为映射头

接下来就是多模态对比学习:

最终的损失函数为 SimCSE的损失+多模态对比损失:

Experiments

作者使用Flickr30k(包含29, 783个训练图像)和MS-COCO(包含82, 783个训练图像)作为多模态数据集,使用Wiki1M个句子)作为文本语料库

SimCSEMCSE的差别就是,MCSE利用了图像-句子对,引入了多模态对比损失。即使多模态数据量相对较小,可获得辅助视觉信息的MCSE模型也能进一步取得显著的改进。在STS16上,Bert+MCSE的性能较差,作者解释为域差异,其中一些接近训练分布的子集比其他子集更能从视觉基础中获益。

表1

为了进一步研究不同数据集的影响,作者只在多模态数据上训练模型,并在表2中报告结果。我们观察到,在没有大型纯文本语料库的情况下,性能比表1中的结果下降了很多,但是依然可以超过SimCSE。此外,作者将成对的图像替换为打乱的图像进行训练,模型下降了0.8-5.0个点,进一步验证了视觉语义的有效性

这点其实我不太理解,是将图像句子对的匹配关系给打乱了么,如果是这样的话,感觉好像没什么意义呀

表2

作者使用bert-base model只在多模态数据上进行了训练,来研究数据规模大小对性能的影响,在数量有限的样本上,SimCSE取得了更好的性能,随着数据量的增加,MCSE的性能更好,作者推测,这一现象可以归因于多模态映射投权重的渐进训练

作者报告了alignment and uniformity两个量化指标,结果表明,与SimCSE模型相比,MCSE模型在保持一致性的同时获得了更好的对齐得分。这一分析进一步支持了视觉基础可以通过改善文本嵌入空间的对齐特性来增强句子特征学习。

Limitations

作者还指出了该方法所存在的局限性,多模态数据收集标注困难,如果可以合理的利用噪声图像-句子对,或者摆脱显式的图像文本对齐关系,将会有很大的实用价值。此外,我们发现只有来自相关领域的子集可以获得显著的改进,而其他子集则受到域偏移的影响。对于学习通用的句子嵌入来说,减小域偏移是至关重要的。此外,“语义相似度”的定义是高度任务依赖的。除了STS基准之外,值得探讨的是纯文本模型和多模态模型在其他基准上的性能差距,这些基准也可以评估句子特征的质量。



📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。


最近文章

EMNLP 2022 和 COLING 2022,投哪个会议比较好?

一种全新易用的基于Word-Word关系的NER统一模型

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果

ACL'22 | 快手+中科院提出一种数据增强方法:Text Smoothing

阿里+中科院提出:将角度margin引入到对比学习目标函数中并建模句子间不同相似程度

中文小样本NER模型方法总结和实战




下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套


下载二:南大模式识别PPT  后台回复南大模式识别



投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等

记得备注呦

整理不易,还望给个在看!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
文档智能多模态预训练模型LayoutLMv3:兼具通用性与优越性最近骗子特别猖獗!专门给大家提个醒约会遇到“女恶魔”!男子面基女网友 下秒遭变态对待 还淡定掉外卖吃阿里+中科院提出:将角度margin引入到对比学习目标函数中并建模句子间不同相似程度MICCAI 2022 | 基于对比学习和视觉Transformer的弱监督视频肠息肉检测2022年Q3以太坊生态报告:投机交易和杠杆需求减少;NFT 日交易者激增;Optimism和 Arbitrum迎来 L2 盛夏NeurIPS 2022|探明图对比学习的“游戏规则”:谱图理论视角说说SP先生和我那辆Colnago中国科大AFM: 全球首款水下多模态电子皮肤新旧更替美国入境档案--叶南袁晓园一日一诗:“我在树下读书/ 一些花瓣落下来/ 冗长的句子,断成了诗”||马维驹:辜负了春天(读诗版)“我们的祖先到底是谁?为何智人胜出?”丨2022诺奖深入回答了这些问题。附Svante Pääbo趣闻“在所有事情上打败所有人”,微软多模态新作横扫12类任务,连纯视觉SOTA都刷新了康龙化成2022年中报点评:业务快速建设期利润短期承压,未来增长动力充足【东吴医药朱国广团队】Npj Comput. Mater.: 单线态裂变设计规则探索,机器学习来助力最近大火的多模态 , 落地了吗?面向社交媒体的多模态属性级情感分析研究多模态预训练模型指北——LayoutLMSIGIR 2022 | 港大等提出超图对比学习在推荐系统中的应用古人类DNA与重症新冠有关?2022诺奖得主Pääbo,竟是前诺奖得主私生子字节AI Lab提出的新多语言多模态预训练方法刷榜!已开源全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务思考方式比思考更重要,学习方式比学习更重要黑恶势力横行就像回到了民国时中国经济未来增长点在哪?|《财经》封面ICML2022 | GNNRank: 基于有向图神经网络从两两比较中学习全局排序李飞飞两位高徒联合指导:能看懂「多模态提示」的机器人,zero-shot性能提升2.9倍NeurIPS 2022|图对比学习的结构公平性初探中国经济未来增长点在哪?这一疑难句子应该如何理解?​300+篇文献!一文详解基于Transformer的多模态学习最新进展细粒度语义理解超越CLIP!华为云与浙大联合发布多模态预训练模型LOUPE,无需人工标注,零样本迁移实现目标检测!泰格医药2022年中报点评:业绩稳健高速增长,临床前业务加速布局有望带来增量!【东吴医药朱国广团队】旧情人Colnago,
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。