Redian新闻
>
ICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型

ICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型

公众号新闻

©作者 | 虎子哥

单位 | 香港大学


论文标题:
FROSTER: Frozen CLIP is A Strong Teacher for Open-Vocabulary Action Recognition

论文链接:

https://arxiv.org/pdf/2402.03241

代码链接:

https://github.com/Visual-AI/FROSTER


背景介绍
本文的研究课题是开集动作识别(open-vocabulary action recognition),具体来说就是测试集中的视频动作类别与训练集动作类别基本没有重叠或重叠程度很小,因此这需要模型具备较高的泛化性能。目前视频领域主流的做法是基于图像-文本对预训练的模型(主要是 CLIP)先在视频数据集上进行 fine-tuning,然后再进行测试集的验证。

通过实验探索,我们发现:尽管 fine-tuning 可以让CLIP具备不错的视频特征提取的能力,但这也会让它失去大规模预训练所得到的泛化性能。具体的表现就是,那些在闭集(closed-set)场景下优秀的视频分类器们,一到了开集场景下实验性能便大大缩水,甚至不如原先的预训练 CLIP 模型了。因此如何让视频模型在 fine-tuning 的同时还能保持住预训练的知识,成为了本文的研究重点。


问题探究

我们首先尝试了一组在闭集场景下表现优异的 CLIP-based 的视频模型:Action CLIP [1] , AIM ST-Adapter [2] 以及 ST-Adapter [3]。具体的实验设置为:首先将模型在 Kinetics-400 上进行 fine-tuning,然后在 UCF-101,HMDB-51 以及 Kinetics-600 数据集上分别进行了测试。

需要特别注意的是,针对 Kinetics-600 数据集,我们将验证集中与 Kinetics-400 相同的类别剔除,以保证开集验证的可靠性。实验结果如下图 1 所示。


▲ 图1. 跨数据集性能探究


不难发现,在 UCF-101 与 HMDB-51 数据集上,fine-tune 模型的性能比 Frozen CLIP 更强,但是在 Kinetics-600 数据集上,fine-tune 模型的实验性能却比 frozen CLIP 要更弱。这种不一致的泛化性表现引起了我们的好奇心,因此我们进一步地去分析训练集(Kinetics-400)与各个测试集(UCF-101,HMDB-51 和 Kinetics-600)之间的类别相似性关系。

具体来说,我们用 CLIP 的 text encoder 提取不同数据集的各个类别的文本特征,然后利用余弦相似度进行类别相似性的度量。图 1 中,我们用小括号中的数字来表示数据集类别的相似度,如:UCF-101(0.805)。

我们注意到,在测试数据与训练数据具备更高相似度的数据集上(UCF-101 和 HMDB-51),fine-tune 模型相较 Frozen CLIP 的性能表现更加优异。反之,在 Kinetics-600 上,fine-tune 模型的性能则更弱。

针对这个现象,一个可能的解释是:在与训练数据更相似的测试类别上,模型通过 fine-tuning 学习到的知识可有效地被用作识别,因此性能更好。而在与训练数据不那么相似的测试类别上,模型需要更多地依赖预训练的泛化性知识,但这些知识已经在 fine-tune 的过程中被逐渐抹去了(典型的灾难遗忘问题(catastrophic forgetting issue)),因此 fine-tune 模型性能更差。

受这些实验现象的启发,我们认为一个基于 CLIP 的开集动作识别模型应该具备以下特点: 

1. 由于 CLIP 预训练是没有使用视频数据集的,因此模型需要学习视频域的相关知识(video-specific),用于弥补 CLIP 在时域建模方面的不足。 

2. 模型需要能保持住预训练 CLIP 的能力,这对于泛化性能力的保持很重要。 

为了验证以上猜想,我们直接将 fine-tune 模型和 frozen clip 的结果进行相加后平均输出。如图 1 所示,可以发现 ensemble 的所有模型在三个数据集上的性能都获得了较大程度的提升,这有效地验证了我们的假设。但是直接采用 ensemble 的方式,计算量和参数量都将会成倍地增加。


方案设计

为了解决以上问题,如图 2 所示,我们提出了一种新的结构 FROSTER 用来同时实现以上两个目标:

针对第一点(时域建模),我们直接采用 cross-entropy loss 对 fine-tune 模型进行监督。

针对第二点(泛化性特征保持),我们将 frozen clip 作为 teacher 模型对 fine-tune 模型的特征进行蒸馏,借此希望预训练的能力能够得到很好地保持。蒸馏过程类似于一个正则化项,确保 fine-tune 特征不会偏离 frozen clip 的特征太远。因为有两个不同的目标,我们需要在它们之间平衡特征学习。

▲ 图2. 模型结构示意图

▲ 图3. 残差特征蒸馏


以冻结的 CLIP 模型作为教师模型,实现基于特征的蒸馏有两种常见的方法,如图所示 (a) 和 (b)。如图 (a) 所示,由于 fine-tune 模型和 frozen CLIP 输出特征的维度保持不变,我们可以直接在它们之间进行特征蒸馏,无需进行特征投影。然而,这种监督要求 fine-tune 特征保持与预训练特征相同,这限制了 fine-tune 特征学习视频知识的能力。

另一种可能的方法(如图 (b) 所示)是应用一个投影器,将 fine-tune 特征从学生空间映射到教师空间。这可以放宽对 fine-tune 特征的约束,以便更好地拟合视频数据。然而,在这种条件下,蒸馏 loss 对 fine-tune 特征的约束可能过于宽松,从而限制了其泛化能力。因此,我们需要在上述两种方法之间找到一个折中方案,考虑到两个学习目标。 

受到 ResNet 残差设计的启发,我们提出了一个改进的残差网络,用于在进行蒸馏时平衡两个学习目标。这种设计背后的直觉是允许 fine-tune 特征有效地接受 frozen clip 的监督,同时也保持对视频特征的有效学习。如图 (c) 所示,我们在特征上应用一个改进的残差网络,通过两层 MLP 投影器和恒等映射来转换其表示。

▲ 残差特征映射


1. 由于转换中存在恒等映射,泛化目标 可以直接指导 的泛化学习,这与图(a)类似。但不同的是,给定投影项 ,我们不强制 相同,这使得 更灵活地拟合视频数据。
2.  是平衡两个目标学习中的重要因素。如果我们将它设置为一个较小的数值,学习到的 嵌入空间将在很大程度上受到教师模型的约束,否则 可能会过度拟合视频数据,损害泛化能力。在实验中,我们发现将 设置为相对较小的数值(例如,0.1)比大数值时能带来更好的性能。这一现象表明,预训练的 CLIP 已经具有强大的表示能力,因此我们只需要稍微调整它,以便从图像转移到视频。
3. 为确保 从预训练状态开始学习,我们将第二个全连接层 的参数初始化为零。因此,在微调开始时, 仅包含 ,并逐渐得到更新。
总的损失函数由两个部分组成:交叉墒 loss 和蒸馏 loss:

▲ 损失函数构成


实验结果

我们总的在两个实验设置下进行实验:base-to-novel 和 cross-dataset。 

Base-to-novel 是将每个数据集的类别分成两个不重叠的部分,完成在训练集类别上进行 16-shot 的训练后,在测试集上进行测试。实验数据集总共包含 K-400,HMDB-51,UCF-101 和 SSv2。

Cross-dataset 是在 K-400 数据集上进行训练,然后在 HMDB-51,UCF-101 和 K-600 上进行测试。

下表为模型在 base-to-novel 和 cross-dataset 两个场景下的实验精度,FROSTER 均达到了最佳。


▲ Base-to-novel 场景



▲ Cross-dataset 场景


同时,FROSTER 还可以与不同的模型结构结合到一起,都能有效地提升实验结果。


▲ FROSTER与不同模型结构结合


▲ 不同蒸馏方式的影响

▲ 可视化对比:我们的模型能够更多的关注到和动作类别有关的区域



总结

本文针对开集动作识别任务提出了一种的新的模型结构,用来同时实现视频特征和泛化性的学习。我们在两种场景下都达到了最优的识别性能。开集动作识别是一个较新的领域,目前还有很多可以探究的问题,希望社区的同行们多多关注!

参考文献

[1] Mengmeng Wang, Jiazheng Xing, and Yong Liu. Actionclip: A new paradigm for video action recognition. Arxiv e-prints, 2021.

[2] Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, and Mu Li. Aim: Adapting image models for efficient video action recognition. Arxiv e-prints, 2023.

[3] Junting Pan, Ziyi Lin, Xiatian Zhu, Jing Shao, and Hongsheng Li. St-adapter: Parameter-efficient image-to-video transfer learning. In NeurIPS, 2022.



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Meta提出全新文档级嵌入框架,利用LLM来增强信息检索能力可作为窗户和墙壁的钙钛矿太阳能电池全面开放开源!港大发布OpenGraph:探索图基础大模型CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构杀疯了!全面超越Llama3的强悍开源模型,仅9B,1000k上下文;GPT-4级别模型1年降价1万倍※※※2024【花样女神节】活动合辑※※※CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样有不烦车子的自动停启功能的吗?2024 BMW X52024,哪个包会是LV的断货王?ICML 2024 | 提升收敛速度!人大提出基于镜像下降的贝叶斯小样本分类ICLR 2024 杰出论文!涨点神器!Meta提出:ViT需要Registers即插即用,快速适配!港大FlashST:简单通用的智慧交通时空预测模型 | ICML 2024用MoE横扫99个子任务!浙大等提出全新通用机器人策略GeRMICLR 2024 | AnomalyCLIP:零样本异常检测新范式ICML 2024 | 超越LoRA!港科大提出FourierFT:新型傅立叶微调!训练参数大幅减少CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架ICML 2024 | 川大提出外部引导的深度聚类新范式,大幅提升CLIP图像聚类性能AAAI 2024 北大提出BEV-MAE:高效的LiDAR感知模型预训练策略CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet联邦援助金将尽 全美学校为教师大规模裁员做准备《天路从我家门前过》&《领悟》Learn English with a Short StoryCVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力春季观鹤:2024 科州想去搞副业的老师们 | 你以为教师活少钱多无压力?前方有坑,美女优先ICLR 2024 | 跨领域准确进行零样本异常检测,浙大等提出AnomalyCLIPCVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型ICLR 2024 Oral | 应对随时间变化的分布偏移,西安大略大学等提出学习时序轨迹方法我兒子今年(2024)進了MIT大语言模型何时需要检索?UCLA提出全新自监督选择性检索策略检测一切!Grounding DINO 1.5:最强开集目标检测模型CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型ISSTA 2024 | 北大提出CoderUJB,面向代码大模型的可执行多任务代码评估基准揭示真实能力与局限靠婚姻捞钱的女人和男人波士顿动力抛弃液压机器人Atlas,推出全新电动化机器人,动作超灵活CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT我为什么认为美国不应该介入任何战争单模型斩获「蛋白质突变预测」榜一!西湖大学提出基于结构词表方法 | ICLR 2024 Spotlight
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。