Redian新闻
>
CVPR 2023 | 中山大学HCP实验室新突破:用因果范式再升级多模态大模型

CVPR 2023 | 中山大学HCP实验室新突破:用因果范式再升级多模态大模型

公众号新闻


©作者 | 机器之心编辑部

来源机器之心



中山大学人机物智能融合实验室(HCP)在 AIGC 及多模态大模型方面成果丰硕,在近期的 AAAI 2023、CVPR 2023 先后入选了十余篇,位列全球研究机构的第一梯队。其中一个工作实现了用因果模型来显著提升多模态大模型在调优中的可控及泛化性——《Masked Images Are Counterfactual Samples for Robust Fine-tuning》。

山大学人机物智能融合实验室(HCP)在 AIGC 及多模态大模型方面成果丰硕,在近期的 AAAI 2023、CVPR 2023 先后入选了十余篇,位列全球研究机构的第一梯队。

其中一个工作实现了用因果模型来显著提升多模态大模型在调优中的可控及泛化性——《Masked Images Are Counterfactual Samples for Robust Fine-tuning》。

论文标题:

Masked Images Are Counterfactual Samples for Robust Fine-tuning

论文链接:

https://arxiv.org/abs/2303.03052


使用预训练的大规模模型在下游任务上进行微调是当前流行的深度学习范式。尤其是近期预训练语言大模型 ChatGPT 的出色表现,使得这套技术范式得到了广泛的认可。经过海量数据的预训练,这些预训练大模型能够适应现实环境中多变的数据分布,因而在通用场景中表现出较强的鲁棒性。


然而,当用下游场景数据对预训练大模型进行微调以适应特定应用任务时,绝大多数情况下这些数据具有单一性。以这些数据对预训练大模型进行微调训练,往往会降低模型鲁棒性,使基于预训练大模型的应用变得困难。特别是在视觉模型方面,由于图像的多样性远远超过语言,下游微调训练导致视觉相关的预训练大模型鲁棒性下降的问题尤其突出。

之前的研究方法通常通过模型集成等方式在模型参数层面隐式地保持微调后预训练模型的鲁棒性。但是,这些工作并没有分析微调导致模型分布外性能下降的本质原因,也没有明确解决上述大模型微调后鲁棒性下降的问题。

该工作以跨模态大模型为基础,从因果关系的角度分析了预训练大模型鲁棒性损失的本质原因,并据此提出了一种能够显著提升模型鲁棒性的微调训练方法。该方法使得模型在适应下游任务的同时,仍能保持较强的鲁棒性,更好地满足实际应用需求。

以 OpenAI 在 2021 年发布的跨模态预训练大模型 CLIP(Contrastive Language–Image Pre-training)为例:CLIP 是一种基于对比的图片 - 文本联合学习的跨模态预训练大模型,是 Stable Diffusion 等生成式模型的基础。该模型通过包含约 4 亿个图像 - 文本对的海量多源数据进行训练,在一定程度上学习到了一些对于分布变化鲁棒的因果关系。

然而,当用特征单一的下游数据对 CLIP 进行微调时,容易破坏模型学习到的这些因果知识,因为训练图像的非语义表征和语义表征是高度纠缠的。例如,将 CLIP 模型迁移应用到 “农场” 这一下游场景时,许多训练图像中的 “奶牛” 都在草地上。

此时,微调训练可能使模型学习到依赖草地这一非 “奶牛” 的语义表征来预测图像的语义。然而,这种相关性并不一定是真实的,例如 “奶牛” 也可能出现在公路上。因此,模型在进行微调训练后,其鲁棒性会降低,应用时的输出结果可能变得极不稳定,缺乏可控性。

基于团队多年的大模型搭建和训练经验,该工作从因果关系的角度重新审视了预训练模型微调导致鲁棒性下降的问题。基于因果建模与分析,该工作提出了一种基于图像掩码构造反事实样本,并通过掩码图像学习提高模型鲁棒性的微调训练方法。

具体而言,为了打破下游训练图像中的假性相关,该工作提出了一种基于类激活图(CAM)的方法掩盖并替换图像特定区域的内容,用以操纵图像的非语义表征或语义表征,产生反事实样本。微调模型可以通过蒸馏的方式学习模仿预训练模型对这些反事实样本的表征,从而更好地解耦语义因素与非语义因素的影响,提高对下游领域中分布偏移的适应能力。



实验表明,该方法能够显著提高预训练模型在下游任务中的性能,同时在提升鲁棒性方面相较于现有大模型微调训练方法有显著优势。

该工作的重要意义是在一定程度上打开了预训练大模型从深度学习范式中继承的 “黑盒子”,是解决大模型的 “可解释性” 和 “可控性” 问题的重要探索,让我们离切实可享受的由预训练大模型带领的生产力提升越来越近。

中山大学 HCP 团队自 Transformer 机制问世起,从事大模型技术范式研究多年,致力于提升大模型的训练效率和引入因果模型来解决大模型的 “可控性” 问题。团队多年来自主研究开发了多个视觉、语言、语音和跨模态的预训练大模型,与华为诺亚方舟实验室联合开发的 “悟空” 跨模态大模型 (链接:https://arxiv.org/abs/2202.06767) 即是其中的典型案例。

About the Author

关于作者

中山大学人机物智能融合实验室 (HCP Lab) 在多模态认知计算、机器人与嵌入式系统、元宇宙与数字人、可控内容生成等领域开展体系化研究,并深入应用场景打造产品原型,输出大量原创技术及孵化创业团队。实验室由 IAPR Fellow 林倞教授于 2010 年创办,获得中国图像图形学会科技一等奖、吴文俊自然科学奖、省级自然科学一等奖等荣誉;培养了梁小丹、王可泽等国家级青年人才。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2023 | 基于CLIP的微调新范式!训练速度和性能均创新高!2023 春 祝姐妹们周末快乐!难诉相思,送谢莉斯老师CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏谷歌推出多模态Vid2Seq,理解视频IQ在线,字幕君不会下线了|CVPR 2023追赶GPT-4的多模态大模型对比分析Nature: 电子科技大学镍基超导研究的新突破:H元素的关键作用博士无工作不赚钱改变了命运吗多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始CVPR 2023 | 大模型流行之下,SN-Net给出一份独特的答卷国际要闻简报,轻松了解天下事(03今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一AAAI 2023 | 多模态对话的SPRING来了!无需标注就能做多模态问答预训练哈工大讯飞联合实验室发布图文多模态预训练模型VLE转:2023 回国探亲(5)xh123w,男,中山大学硕士,医师,月入1.5万,91年,身高174,珠海/中山在线可玩:阿里开源多模态大模型mPLUG-Owl,电影问答、梗图理解、多轮聊天……CVPR 2023 | 浙大提出全归一化流模型PyramidFlow:高分辨率缺陷异常定位新范式量子论对狭义相对论的致命的依赖GPT-4刷屏,这家中国AI企业多模态大模型已落地应用多年,新版本内测了(可申请)招募白内障患者@上海市第一人民医院及全国10家医院 I 中山大学中山眼科中心研制ZOC2017217新药Eruope 2023达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力CVPR 2023 | YOLOv7强势收录!时隔6年,YOLOv系列再登CVPR!从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力WB实验、PCR、Co-IP实验……40+实验,中科院高级实验员protocol掉落!复旦大学NLP实验室《自然语言处理导论》 网络初版发布CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型硬核课程全网首发!高级人工智能:多模态大模型LLM与AIGC前沿技术实战CVPR 2023 第一个大模型研讨会和比赛!GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?CVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法重访西班牙(2)-大西洋边的名城中山大学HCP实验室新突破:用因果范式再升级多模态大模型威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4微软:多模态大模型GPT-4就在下周,撞车百度?回国, 十年签证可办了GPT-4震撼发布:多模态大模型,升级ChatGPT和必应,开放API,太太太强了!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。