Redian新闻
>
阿大提出:视听分割合成新数据集和声音图像分割新网络

阿大提出:视听分割合成新数据集和声音图像分割新网络

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像分割和Transformer】交流群

本文针对声音图像分割问题(audio-visual segmentation[AVS])提出了一种更高效合成数据集VPO以及一个像素级对比学习训练策略来更有地验证AVS问题并且有效地提升声音图像关联. 单位: 阿德莱德大学,萨里大学.

A Closer Look at Audio-Visual Semantic Segmentation

文章链接:https://arxiv.org/abs/2304.02970

视听分割任务(audio-visual segmentation[AVS])主要是把声音信号和图像进行像素级别的匹配。成功的视听学习需要两个基本组成部分:1)具有高质量像素级多类标签的无偏数据集,2)能够有效地将音频信息与其相应的视觉对象链接起来的模型。然而,当前的方法仅部分解决了这两个要求。我们通过验证发现, 现有的模型并没有效地学习视觉和声音信号的关联性。例如下图的一个例子,尽管声音的信号发生了改变, 但是模型的预测始终没有改变。基于这一现象, 我们怀疑1) 数据集合潜藏的一种规律(特定物体在特定场景永远是发生源)影响了模型的泛化性。2) 模型更倾向于建立视频中运动物体于发生物体的关联。此外, 视听分割问题需要大量有标注数据进行模型训练, 考虑到标注师需要在标注的同时监听音频来进行选择性标注, 因此其标注的时间成本会较大。针对以上问题, 通过实验我们发现, 我们可以根据图像的视觉对象的语义类别来匹配图像 (COCO)和音频来获得音视频数据 (VGGSound)利用现有的数据集来构建AVS数据集, 并且这种离散的声音视觉配对可以把物体的移动信息排除在外。除此之外, 我们再次利用这种声音图像配对的方法来为监督对比学习提供更丰富的正集和负集从而提升表征的表现和模型性能。

主要贡献

  • A new strategy to build cost-effective and relatively unbiased semantic segmentation benchmarks, called Visual Post-production (VPO). The VPO benchmark pairs image (from COCO) and audio (from VGGSound) based on the semantic classes of the visual objects of the images. We propose two new VPO benchmarks based on this strategy: the single sound source (VPO-SS) and multiple sound sources (VPO-MS).

  • An extension of the benchmark AVSBench-Single called AVSBench-Single+, which restores the original image resolution and represents semantic segmentation masks with multi-class annotations.

  • A new AVS method trained with the new objective function CAVP that randomly matches audio and visual pairs to form rich ``positive'' and ``negative'' contrastive pairs to better constrain the learning of the audio-visual embeddings.

视听分割合成数据集 Visual Post-production (VPO)

我们提出一种更丰富以及更高效的合成数据集VPO来更有效地验证视觉和听觉的对应关系。相较于之前的数据集,VPO可以在最低的收集成本上获得大量优质segmentation ground-truth以及更为复杂的场景。

实验方法 - Contrastive Audio-Visual Pairing (CAVP)

以前为视听定位设计的对比学习方法受到两个问题的挑战:

1)确认偏差,因为发声对象是通过伪标签自动定义的,2)假阳性检测率很高,因为正负关系的建模没有以像素方式明确考虑。我们通过用语义分割数据集中提供的像素级多类注释替换自动伪标签来解决第一个问题。为了解决第二点,我们基于VPO合成的基本思想,利用初始训练集以及一个视听随机分配的混洗集来形成包含不同正负对的丰富对比集以实现监督对比学习。

实验结果

验主要对比模型在AVSBench-Object, VPO以及AVSBench-Semantic在 mIoU, FDR和F1上的表现。实验结果表明,我们的方法在现有的视听分割数据集上明显优于现有的网络并且包含更少的参数。    

点击进入—>【目标检测和Transformer】交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2023 | 神经网络超体?新国立LV lab提出全新网络克隆技术ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型华春莹推特发言散想CVPR 2023 | 多模态新任务和新数据集!NTU提出广义引用分割问题GRESACL 2023 | 从平面图像中理解空间语义:视觉空间位置描述成功率近100%!公司老板10分钟被AI骗走430万,"我在视频中还确认了面孔和声音..."港中文李教授:基于遥感图像的地理空间图像分类识别|收获一作论文与导师推荐信!第七届【西影·春光】青年电影展丨媒体嘉宾招募:寻找观点与和声比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023Jennifer Connelly. Etoile (Alternative title: Ballet, 1989).龚政文:视听格局的变革与湖南广电的实践探索减少聚集和流动、戴好口罩.....哈尔滨最新发布中科大提出:LLMs的个性化综述,详述大模型与个性化的挑战与机遇LLaMA都在用的开源数据集惨遭下架:包含近20万本书,对标OpenAI数据集分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像ICCV 2023 | 金连文团队提出:从数据角度重新审视场景文字识别苹果、俄勒冈州立提出AutoFocusFormer: 摆脱传统栅格,采用自适应下采样的图像分割宁波大学提出:基于物理的仅使用自然图像的高效全投影仪补偿YouKu-mPLUG最大中文视频数据集和Benchmark,助力多模态大型模型发展人类数据告急,微软OpenAI开始用AI喂AI,Altman放话:未来所有数据都将变成合成数据|GGView「邀请函」一年级国际学生迎新网络研讨会【提示】聚焦网络谣言、网络暴力等网络乱象,上海警方多措并举维护清朗有序网络环境大陆货在俄市场开挂母亲节说别离CVPR 2023 医学图像分割论文大盘点ICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOP刘知远团队提出:如何通过扩大高质量指导性对话数据集,来提高模型的性能和效率PANet、DANet、FastFCN、OneFormer…你都掌握了吗?一文总结图像分割必备经典模型(三)医学图像分割、MRI、病变检测……“AI+医疗”近期有哪些值得读的顶会论文?8/19 轻奢品质小团 黄石公园6日游:盐湖城接送+黄石湖自驾小艇+大提顿国家公园漂流+大提顿山缆车 9/16止隔周六出发YA6人类数据告急,微软OpenAI开始用AI喂AI,奥特曼放话:未来所有数据都将变成合成数据AutoFocusFormer:摆脱传统栅格,采用自适应下采样的图像分割what is A snakes underbelly?被裁员工回归,Meta重建元宇宙!发布逼真图像数据集,全球巡回组装AR眼镜
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。