Redian新闻
>
CVPR 2023 | 模块化MoE将成为视觉多任务学习基础模型

CVPR 2023 | 模块化MoE将成为视觉多任务学习基础模型

公众号新闻
机器之心专栏

机器之心编辑部

UMass Amherst 淦创团队提出了 Mod-Squad 模型,它可以从多任务大模型中提取针对单一任务的相同性能小模型,在 Taskonomy 大数据集和 PASCALContext 数据集上取得了最佳效果。

多任务学习(MTL)存在很多挑战,因为不同任务之间的梯度可能矛盾。为了利用任务之间的关联,作者引入了 Mod-Squad 模型,它是多个专家组成的模块化模型。模型可以灵活优化任务和专家的匹配,针对任务选择部分专家。模型让每一个专家只对应部分任务,每一个任务只对应部分专家,以此最大化利用任务之间的正向联系。Mod-Squad 整合了 Mixture of Expert (MoE) 层到 Vision Transformer 模型中,并引入了新的损失函数鼓励专家和任务之间的稀疏但强烈的依赖关系。此外,对于每个任务,模型都可以只保留小部分专家网络,并且性能与原来的大模型相同。模型在 13 个视觉任务的 Taskonomy 大数据集和 PASCALContext 数据集上取得了最佳效果。


论文地址:https://arxiv.org/abs/2212.08066
项目地址:https://vis-www.cs.umass.edu/mod-squad/
Github地址:https://github.com/UMass-Foundation-Model/Mod-Squad

多任务学习(MTL)的目的是建模任务之间的关系,并为多种任务构建统一的模型。如图 1 所示,Mod-Squad 的主要动机就是要让专家只被一些任务更新而不是所有任务,且每一个任务只更新部分专家。这样可以利用模型的全部容量的同时避免任务间的互相干扰。

图 1.Mod-Squad: 专家和任务互相选择。MoE ViT: 所有专家都被所有任务使用。

下面简单介绍下该文章。

模型结构

图 2.Mod-Squad: 将专家组 (mixture-of-expert) 插入到 Vision Transformer.

如图 2 所示, Mod-Squad 的结构就是将 Mixture-of-expert (MoE) 引入 Vision Transformer (ViT)。MoE 是一种机器学习模型,其中多个专家组成了一个混合模型。每个专家都是一个独立的模型,并且每个模型对于不同的输入有不同的贡献。最后,所有专家的贡献被加权并组合在一起以得到最终的输出。这种方法的优势在于它可以根据输入图像的内容动态地选择最佳的专家并且控制计算量。

之前的 MoE 模型收敛后,可以根据不同图片使用不同的专家,但是针对某个任务,模型会收敛到倾向于使用全部专家。Mod-Squad 可以做到让模型针对图片来使用不同的专家,并且模型可以在收敛后,达到一个任务只使用一部分专家的状态。接下来介绍这是怎么实现的。

最大化专家和任务之间的 mutual information

本文提出了一个任务和专家的联合概率模型来优化专家 E 和任务 T 之间的分配。这个概率模型会用来计算专家和任务之间的 mutual information,并作为额外的损失函数来优化 MoE 里的权重网络。Mutual information 公式如下,E 和 T 的概率可以由 MoE 里的权重网络得到,具体可以参见论文。
 


最大化任务和专家之间的 mutual information 之后,模型就可以让专家和任务拥有稀疏且非常强的依赖关系,如图 3 所示。最左边的就是 Mod-Squad 的任务使用专家频率。可以看出,Mod-Squad 的任务和专家之间有着更稀疏但尖锐的频率。

图 3. 任务使用不同专家的频率图对比。横轴是不同的专家,纵轴是不同的 task,颜色深代表更高的使用频率。Mod-Squad 的频率图更加稀疏且尖锐。

这个任务和专家之间稀疏且非常强依赖关系的好处就是:

1. 相近的任务倾向于使用同一个专家;
2. 专家倾向于被一组正相关的任务使用;
3. 模型的容量被全部使用,但每个任务只使用部分容量,可以根据任务调整使用容量;
4. 可以针对特定任务从多任务大模型中提取出单任务小模型,并具有和大模型一样的性能。这个特性能用于从超大多任务模型中提取出单任务小模型。

根据任务之间分享专家的频率,模型还可以算出任务之间的相似性,如下图所示。可以看出,偏 3D 的任务之间更倾向于使用相同专家,因此更加相似。

实验部分

Mod-Squad 可以在不损失精度的情况下针对单一任务进行剪枝,下图纵轴是性能,横轴是参数量。


在大数据集 Taskonomy 上也有很大的提升,可以看到,Mod-Squad 比单纯的 MTL 平均高了 2.8 个点,并且在剪枝以后保持着一样的性能。


在 PASCAL-Context 上跟其他方法的对比,Mod-Squad 比其他 MoE 方法平均高出了接近两个点。


具体细节可以参照原文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2喜剧片:你会遇到一个高大黝黑的陌生人CVPR 2023 Workshop | 动态点云感知任务挑战赛启动!CVPR 2023 | MobileOne:移动端仅需1ms的高性能主干!超越MobileViT!Meta视觉大模型来了!完全自监督无需微调,多任务效果超OpenCLIP阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-OwlCVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型CVPR 2023 | YOLOv7强势收录!时隔6年,YOLOv系列再登CVPR!Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式CVPR 2023 | 即插即用!BRA:新注意力,BiFormer:一种视觉新主干Eruope 2023CVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型邓小平在中共中央会议上的检讨低能耗低时耗,中科院&香港大学团队使用新方法进行多任务学习的可穿戴传感器内储层计算今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会CVPR 2023 | 移动传感器引导的跨时节六自由度视觉定位,准确且高效【元宵快闪】《萱草花》+ 春节真人秀答案片链接见内,24小时后删除CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent Diffusion2023 春 祝姐妹们周末快乐!第五篇:强化学习基础之马尔科夫决策过程CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKeyCVPR 2023论文总结!CV最热领域颁给多模态、扩散模型重访西班牙(8)-飘香的欧洲果园CVPR 2023 | 南大王利民团队提出LinK:用线性核实现3D激光雷达感知任务中的large kernel2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力Dapr和Rainbond集成,实现云原生BaaS和模块化微服务开发小扎亲自官宣Meta视觉大模型!自监督学习无需微调,多任务效果超OpenCLIP丨开源大脑视觉信号被Stable Diffusion复现图像!“人类的谋略和谎言不存在了” | CVPR2023CVPR 2023 | HPM:在掩码学习中挖掘困难样本,带来稳固性能提升!转:2023 回国探亲(5)CVPR 2023 | 精准、通用、轻量!EqMotion:等变轨迹预测与不变关系推断模型《墨尔本的秋天》为女神节打call国际要闻简报,轻松了解天下事(03CVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法CVPR 2023 | 统一框架MAGE:表征学习超MAE,无监督图像生成超越Latent DiffusionCVPR 2023 论文分享会|精彩抢先看:视觉 + X(Visual + X)CVPR 2023 | 正则化方法DropKey: 两行代码高效缓解视觉Transformer过拟合明天直播|CVPR 2023 论文分享会邀你共话计算机视觉的前沿发展!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。