浙大滨江院Om中心发布首个大规模图文配对遥感数据集,让通用基础模型也能服务遥感领域
写在前面
2021 年年底,OpenAI 发布了 CLIP,利用带噪的图像-文本配对数据预训练的视觉语言模型,展示了前所未有的图像-文本关联能力,在各种下游任务中取得了惊人的结果。虽然取得了很大的进展,但是这类通用视觉语言基础模型并不能在一些特定域的数据集表现良好,比如遥感数据、医学数据。因此,一个关键的挑战是如何利用现有的通用大规模预训练视觉语言模型,来执行特定于域的迁移,以完成与域相关的下游任务。
在本文中,作者提出了一个新的框架来弥合了通用基础模型和领域特定下游任务之间的差距。此外,作者提出了遥感领域最大的图像-文本配对数据集 RS5M,其中包含 500 万张带有英文描述的遥感图像。该数据集由两方面构成:1)过滤公开的大规模图像-文本配对数据集;2)用预训练的大模型对大规模遥感数据集生成图像描述。
此外,作者还在 RS5M 数据集上尝试了几种参数高效微调方法(PEFT)来实现领域基础模型。实验结果表明,本文提出的数据集在遥感图文相关的下游任务上是有效的,其中在零样本分类任务上将准确率提高了 8%~16%,在遥感视觉语言检索和遥感语义定位任务上也都取得了不错的效果。
论文链接:
代码链接:
简介
之前有工作(比如 FETA)提出了用于专家任务的基础模型,他们使用 LoRA 直接对通用基础模型进行调优,将之用于公共汽车手册和销售目录手册的检索任务,但 GFM→DFM→DTM 结构和 DFM 的重要性并未得到广泛讨论。尽管训练 DFM 所需的数据量可以比训练 GFM 的少很多,但数据量仍然是能否得到一个优质 DFM 的基础。
如上图所示,RS5M 数据集由两部分组成。在第一个部分中,作者收集了 11 个公开可用的图像-文本配对数据集 (PUB11),并使用遥感关键词对它们进行过滤。然后,作者利用 url 和其他工具比如 fastdup 对数据进行去重。接下来,作者使用 pre-trained VLM 和遥感图像检测器来去除非 RS 图像。在第二个部分中,作者利用 BLIP2 为 3 个只有分类级标签的大规模遥感数据集 (RS3) 生成描述文本。
3.1 过滤大规模图像-文本对数据集
尽管遥感图像和通用图像存在域差异,但使用在具有通用目标的图像上预训练的 VLM 对遥感图像生成文本描述已是有用的,如上图所示。因此,作者使用 Huggingface 版本的 BLIP2 模型来生成文本描述。处理的数据集包括 BigEarthNet、FMoW 和 MillionAID。具体来说作者使用了 FMoW (727,144 张图像) 和 BigEarthNet (344,385 张图像) 的训练集,MillionAID 的测试集 (990,848 张图像),RS3 子集共有 2,062,377 张图像。
作者为每张图像生成 20 个候选文本描述,并使用 CLIP ViT-H/14 对它们进行排名。然后,使用 CLIP Resnet50x64 对前 10 个结果重新排序,并保留前 5 个文本描述。对于 BigEarthNet 和 FMoW,类别名称被编入生成提示。对于 MillionAID,需要在没有提示的情况下生成描述。作者采样了 10,000 个描述并人工对其进行评估,排名靠前的文本描述有着令人满意的水平。在上图提供的示例中,诸如机场、河流、农田、桥梁、街道、海湾和环形交叉路口等都是出现在图像中的目标。
旋转不变特征在遥感领域至关重要,因为卫星或无人机捕获的地面目标通常保持其形状,大小和颜色,例如河流,森林和耕地。但是,拍摄角度的变化可能导致地面目标旋转。因此,作者希望能够获得一些文本描述,使得无论拍摄角度如何变化,描述始终能够准确地形容图像。为了实现这一点,作者设计了一个旋转不变标准来获得高质量的文本。
上图显示了在图像标题中出现的关键词的频率统计。短语“航拍图”在标题中占主导地位,这说明了 RS5M数据集中有大量航拍视角的遥感图像。中间的图显示了从 RS5M 标题中提取的词云。所有的特殊字符和数字以及大部分介词都被移除了。标题中经常出现的词包括“卫星”、“田野”、“建筑”、“道路”和“农场”等。右图为对数尺度下的描述文本的长度分布,分布呈长尾分布,平均描述语句的长度为 40 个单词。
作者使用 CLIP 的视觉编码器 (CLIP-ConvNext-XXL) 从 PUB11 和 RS3 这两个子集中提取图像特征,再使用 PCA 将特征可视化。作者从 PUB11 和 RS3 中平均采样了 1000 张图像,上图(左)显示了 PUB11 和 RS3 的域差异,这个差异可能是由于 PUB11 中有大量的航拍图像,而 RS3 基本全是卫星图像。
上图(中)显示了 PUB11 中 11 个数据集的 2200 个样本的 PCA 可视化。有趣的是,11 个不同数据集的数据之间没有观察到显著的域差异。上图(右)显示 BigEarthNet 和其他两个 RS3 中的数据集之间 (每个数据集采样 500 个样本) 存在明显差异,这可能是由于 BigEarthNet 与其他两个数据集的分辨率差异较大(BigEarthNet 图像的分辨率都是 120x120 像素)。
实验
作者选择 CLIP ViT-B32 模型作为 GFM,并采用 4 种不同的参数高效微调 (PEFT) 方法作为 DFM: Pfeiffer Adapter、LoRA Adapter、Prefix-tuning Adapter 和 UniPELT Adapter。由于本文中的遥感下游任务只需要图像和文本的特征,因此不需要 DTM。然后,对于 RS3 子集,作者随机选择 rank 1 的文本描述或旋转不变的文本描述。
作者从 3 个视觉语言任务:零样本分类 (ZSC)、视觉语言检索 (图像到文本和文本到图像,VLR) 和语义定位 (SeLo) 评估了由 RS5M 数据集调优的 DFM 的领域泛化性。作者选择了完整的 AID、RESISC45 和 EuroSAT 数据集进行 ZSC 任务,RSICD 和 RSITMD 数据集进行 VLR 任务,AIR-SLT 数据集用于 SeLo 任务。作者使用 top-1 准确率来评估 ZSC 任务,使用 recall@1/5/10/mean_recall 来评估 VLR 任务,使用 Rsu, Ras, Rda, Rmi 来评估 SeLo 任务。
考虑到很难仅用 5M 数据就从头开始训练 Stable Diffusion 模型,作者提出了一个由 1% 的 RS5M 数据微调的 Stable Diffusion 模型,称之为 RS-SD。如上图所示,使用包含“satellite”的提示语句时,vanilla SD 倾向于生成不真实的或偏气象卫星图像风格的图像,而 RS-SD 可以生成更真实、更贴合遥感下游任务的遥感图像。
图上抽样出来的例子显示 RS-SD 对“积雪覆盖的土地”、“有雪的建筑”和“周围的田野”等不常见的描述的理解明显优于 SD。总的来说,RS-SD 在定性和定量生成 RS 图像方面优于普通 SD(见附录)。RS-SD 模型能够生成更真实的 RS 图像,更好地匹配提示描述,无论图像是卫星还是航拍视角。
RS5M 数据集由 PUB11 和 RS3 两部分组成。鉴于 PUB11 主要包含航拍图像,而 RS3 仅包含卫星图像,作者对他们进行了独立的分析。这种方法使我们能够分析每个子集的贡献,特别是在理解用大量航拍图像训练模型对基于卫星图像的下游任务的潜在影响这方面。为了便于调查,作者尝试了带有 Pfeiffer 和 UniPELT 适配器的 CLIP 模型,分别选择 RSITMD、EuroSAT 和 AIR-SLT 数据集来评估 VLR、ZSC 和 SeLo 任务。
表 3 说明了在不同任务中使用不同子集训练的模型的性能。对于 ZSC 任务,PUB11 子集对结果有相当大的正面影响,可能是由于来自互联网的大量的和多样化的语料。有趣的是,在 RS5M 上训练的模型比那些只在 PUB11 或 RS3 上训练的模型表现更好。在 SeLo 任务中,PUB11 子集的贡献是积极的,大部分使用该子集训练的多个 DFM 都比使用 RS5M 训练的有更好的表现。此外,RS3 子集在图像到文本检索任务中具有明显的优势(比 RS5M 高 5% 的 recall@1)。这一优势可能与 RS3 域内卫星图像丰富有关。
5.3.2 PUB11中噪声水平的影响
表 5 表明了增加模型大小并不一定保证性能的提高。2.5B 参数的 ViT-bigG-14 模型在 SeLo 和 ZSC 任务中表现不如 ViT-H-14 模型。对于 VLR 任务,最大的模型在平均召回率方面表现最好,比其他模型高出 1% - 10%。令人惊讶的是,RS5M 微调的 ViT-B-32 模型,包含 152M 参数,在 ZSC 任务中表现出色,甚至超过了 ViT-H-14 和 ViT-bigG-14,后者的参数数量分别是前者的 7 倍和 17 倍。
5.3.5 损失函数
作者在本文中引入了一个新的框架 (GFM→DFM→DTM),并构建了首个大规模的遥感图像-文本配对数据集 RS5M。作者尝试了 4 种用 RS5M 训练的 PEFT 方法来实现 DFM,该框架在 ZSC、VLR 和 SeLo 等任务中被证明是有效的。然而,大多数 PEFT 方法并没有考虑到图像和文本模态之间的相互作用,因为它们最初是为 LLM 设计的。这就需要在今后的工作中创建更复杂的 DFM。
此外,虽然本文使用了 VLM 模型对生成的描述文本进行排序,但未来将应该尝试使用更复杂的选择标准,例如将标题分解为短语并将其 ground 到图像细节,从而实现图像与描述之间的细粒度对齐。另一个值得改进的点与作者在数据集制作 pipeline 中对 CLIP 模型的依赖有关,这可能会使得我们的数据集包含 CLIP 中固有的偏见。
最后,作者认为设计更先进的 DFM,并与 RS5M 配合,探索如何将遥感视觉语言模型扩展到其他遥感相关的下游任务是至关重要的。这些任务包括变化检测、目标检测、场景分类、语义分割、RSVQA、RS 域适应以及 UAVs 和卫星图像的匹配等。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者