AAAI 2023 Oral | 如何识别未知标签?多模态知识迁移框架实现新SOTA
机器之心专栏
作者:腾讯优图实验室
在多标签分类系统中,经常遇到大量在训练集中未曾出现的标签,如何准确地识别这些标签是非常重要也极富挑战性的问题。为此,腾讯优图实验室联合清华大学和深圳大学,提出了一种基于多模态知识迁移的框架 MKT,利用图文预训练模型强大的图文匹配能力,保留图像分类中关键的视觉一致性信息,实现多标签场景的 Open Vocabulary 分类。本工作已入选 AAAI 2023 Oral。
论文链接:https://arxiv.org/abs/2207.01887 代码链接:https://github.com/sunanhe/MKT
研究者提出了一种基于多模态知识迁移的 Open Vocabulary 多标签识别框架 MKT,利用图文预训练模型中的多模态语义信息,进行未知标签的识别。这是业界首个研究 Open Vocabulary 多标签分类任务的工作。 MKT 框架主要包括图像编码器,和图文预训练模型的图像和文本编码器。研究者采用知识蒸馏来保证图像和文本 Embedding 的一致性,并引入提示学习机制来迭代更新标签 Embedding。为进一步增强特征表示能力,研究者提出了双流特征提取模块,同时捕获局部和全局特征。 MKT 在 NUS-WIDE 和 Open Images 公开数据集上显著超过了以往的 ML-ZSL 方法,在 Open Vocabulary 多标签分类任务上达到 SOTA。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章