Redian新闻
>
浙大拿下最佳论文奖!中国团队收获三项大奖!ACM MM 2023奖项出炉!

浙大拿下最佳论文奖!中国团队收获三项大奖!ACM MM 2023奖项出炉!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【视觉和Transformer】交流群

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文,强烈推荐!

转载自:新智元 | 编辑:LRS

【新智元导读】ACM MM 2023上中国团队获三项大奖,多媒体领域再获新突破。


近日,2023 ACM MultiMedia会议落下帷幕,中国大陆团队在这次国际会议上收获满满。


其中,浙江大学团队、南京航空航天大学团队和清华大学团队的成果在3072篇投稿的论文(录用902篇,录用率为29.3%)中脱颖而出,分别获得最佳论文奖(Best Paper Award)、荣誉提名奖(Honorable Mention Award)和创新创意奖(Brave New Idea Award)!


ACM 国际多媒体会议(ACM International Conference on Multimedia)是计算机科学领域中多媒体领域的首屈一指的国际会议。



会议专注于推进许多媒体的研究和应用,其研讨范围涵盖了多个新兴领域,包括但不限于触觉、视频、VR/AR、音频、语音、音乐、传感器和社交数据等。


荣誉提名奖


论文链接:https://dl.acm.org/doi/10.1145/3581783.3611872


该论文针对传统动作检测方法无法得到精确时序边界的问题,提出了一种具有普适性和易用性的定位优化框架,将定位细化过程与传统动作检测方法进行解耦,在每个时间点生成多尺度的定位细化信息,并且提出一种偏移聚焦策略,以由粗到精的方式逐步增强模型的检测效果。


该方法不仅可与任意动作检测模型无缝集成,而且能在保持较低计算开销的情况下显著提升动作边界定位的精度。


创新创意奖


论文链接:https://arxiv.org/abs/2308.05920


人类的手是「非语言交流」的主要手段,可以在各种情况下传达复杂的语义。


由于个体对手部运动的高度敏感性,手部运动中的即使是微小的错误也会显著影响用户体验;而真实场景下的应用往往包括多个人物的不同手部手部形状,如何在不同人物间保持手部动作的复杂语义是很重要的。



这篇论文主要解决的问题是在不同人物的手部模型间对运动语义进行迁移,提出了一种新的基于解剖结构的语义矩阵(ASM)对手部动作的语义进行编码。


ASM对手掌和其他关节相对于相应关节的局部帧的位置进行量化,从而实现手部运动的精确重定向。



随后通过采用基于解剖结构的语义重建网络(ASRN)获得从源ASM到目标手关节旋转的映射函数。


研究人员在Mixamo和InterHand2.6M数据集上使用半监督学习策略训练ASRN,在域内和跨域手部运动重定向任务中对模型进行评估:定性和定量的结果表明,文中提出的ASRN相比其他sota模型也具有显著优越性。


最佳论文奖


论文链接:https://arxiv.org/abs/2309.09709


任务背景与挑战


众所周知,由跨模态信息引导的视频分割已经在很多应用领域大展身手,尤其是用点击、外接框、笔画线以及文字来做引导的任务和模型。


这些引导模态有一个共同的特点,就是需要人去进行交互,并提供人为的判断和指示。


与上面这些模态不同,音频是一种特殊的模态,其特殊之处在于,音频常常是与视频共生的,日常生活中的很多视频大多是同时伴随着声音和视觉画面。


并且,许多心理学和大脑认知研究表明,视觉和听觉是人类感知世界最重要的两种感官。


因此,使用音频来引导视频的分割往往能更好地还原当时的场景。



尽管音频引导的视频分割任务非常重要,但是现有的对于这个领域的研究仍然是不充分的,主要是因为,与常见的文本引导的任务相比,音频引导的视频分割存在以下两个难点:


1. 音频的语义模糊性。由于一些物体的声音比较相似,比如猫叫声和小孩的哭声,当声音相似的两个物体同时出现在画面中时,可能难以根据这个声音来确定具体指代的目标物体。


2. 建立音频与像素级预测的关联。此任务要求将像素级的信息与音频在时间和空间维度上进行一一对应。


解决方案与模型设计


为了解决上述难点,论文中提出了一种基于组合依赖和音频查询的视频分割框架(CATR)。



1. 解耦的音视频交互编码器


在音视频编码阶段,以前的方法只考虑了视频的时序特征,以及音频与视频的交互特征,这样的做法是非常粗粒度的,不利于音频特征与视频特征的深度交互。

因此,论文中提出了一种更细粒度的音视频特征融合的模块,该模块充分刻画了多种场景的需求。


当发声物体从远处进入画面时,属于「先闻其声」,此时会利用该声音来辅助后续的物体分割。


当视频画面中的物体没有发出声音时,属于「不见其声」,此时会加强当前视频帧中的物体与静音片段的联系,避免模型错误地分割出不发声物体。


总体来说,该模块将音频特征和视频特征分别从时间维度和空间维度进行多种组合化的交互,通过堆叠这个模块,可以在节约内存的基础上对音视频进行更细粒度的交互。


2. 组模块门控机制


现有的方法通常仅采用最后一个编码器块的输出特征作为解码器的输入,由于每个编码器块的输出特征都包含了不同程度的多模态交互信息。


因此,论文中设计了门控机制,充分利用每个编码器块抽取的视频特征,这样的做法可以平衡多个编码器块中交互特征的贡献。


3. 基于音频查询的解码器


以前的方法在有效捕获像素级细节和为跨模态推理提供约束信息方面存在不足,时常造成错误地定位与分割目标物体。


因此,论文中提出了基于音频查询的解码模块,该模块在解码阶段引入了音频的约束。


具体来说,论文设计了一组可学习的查询头,并使用动态解码核为每个查询头生成相应的分割掩码,最后从多个查询头中匹配出最佳的分割结果。总体来说,论文设计的基于音频查询的解码器通过将音频信号纳入解码过程来增强物体识别,从而更准确地定位到目标分割对象。

 

实验结果


该模型在三个主流的数据集上进行了充分的定性和定量的实验,并达到了最佳性能。


其中,模型在多源音频的数据集上提升最为显著(在Jaccard index指标上提升了4.9个点,在F-score指标上提升了7.5个点)。


这是因为多源音频数据集中包含了多个种类的音频,音频种类越多,根据音频去定位发声物体就更困难,而CATR中提出的基于音频查询的解码器可以更好地引入音频约束信息,从而准确地定位到多个发声物体。



该模型的卓越性能使得用音频引导视频分割为实际应用落地展现了更多的可能,包括在实时监控录像中提供监察反馈、在增强现实的应用中提供更生动的体验感等。

 

主要作者介绍


李可欣,本文第一作者。浙江大学2022级在读博士生,导师为肖俊教授。主要研究方向为跨媒体视频理解和交互式视频分割。


 


杨宗鑫,本文通讯作者。浙江大学计算机学院博士后研究员。主要研究方向为视频理解、视觉内容生成、三维视觉等。



杨易教授,浙江大学求是讲席教授、博士生导师。主要研究领域为人工智能、计算机视觉、多媒体大数据分析、自然语言处理等。



肖俊教授,浙江大学教授、博士生导师。主要研究领域为视觉内容分析与理解,包括视觉注意力机制、图像描述、视觉问答、视觉场景图等。



参考资料:
https://www.acmmm2023.org/
CVPR / ICCV 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

计算机视觉和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国际重奢卷疯了?!𝘼𝙦𝙪𝙖𝙨𝙘𝙪𝙩𝙪𝙢(雅格狮丹)90%白鸭绒羽绒服,保暖防泼水,1折开抢!【哈佛/耶鲁/斯坦福录取专访】早申普林失利,但重写的主文书助我最终收获三所大藤东大团队获IEEE最佳系统论文奖!奖项申报开启|2023年度评选三大奖项等你申报,年度最受欢迎的产品经理工具等你提名SAM拿下ICCV 2023最佳论文荣誉提名奖!这些CV论文仍是顶流!Cell Research年度杰出论文奖出炉,兰雨、汤富酬、周鹏辉、宋春青等人论文获奖顶会CoRL 2023获奖论文出炉!华人团队获最佳论文、最佳系统论文!古希腊之冠重磅!2023年全球10大最佳城市名单出炉!澳洲上榜这两个!第一居然是她!中国没有城市上榜...ICCV 2023 中国遥遥领先!华人拿下最佳论文和最佳学生论文!SAM和ControlNet开启CV新纪元!ICCV 2023最佳论文候选!谷歌提出Zip-NeRF:照片转视频,像航拍一样丝滑!ControlNet、「分割一切」等热门论文获奖,ICCV 2023论文奖项公布兵败如山倒系列:我惨败于新东方,知乎和抖音!直播预告 | SemEval 2023最佳论文:针对命名实体识别的统一检索增强方法海信空调拿下两项大奖;第四范式将于香港联交所主板上市|绿研院日报嫌Python慢,这个AI分析器帮你检测、建议优化,获OSDI最佳论文《星穹铁道》喜获苹果谷歌年度游戏大奖,莉莉丝鹰角获谷歌单项大奖纪源资本斩获投中2022-2023年度投资人榜单三项大奖戳破气泡的正确方法RecSys 2023最佳短文奖:推荐系统中的可解释用户留存优化框架华人团队获最佳论文、最佳系统论文,CoRL获奖论文出炉第17届亚洲电影大奖入围名单公布 | 35部电影竞逐16项大奖浙大拿下唯一最佳论文奖,中国团队喜获三项大奖!ACM MultiMedia 2023奖项揭幕ICCV2023奖项出炉!斯坦福ControlNet和多伦多大学分别获得最佳论文!Segment Anything最佳提名【齐风猎作品】开花的狗尾巴草“最高荣誉”!中国团队获国际大奖!缺德舅的Hoemstyle Flour Tortillas 还能怎么吃,试试这个,简单易做,太好吃了(视频+图文)世界首个!中国团队主导!半导体材料大突破CVPR 2023最佳论文作者李弘扬:端到端自动驾驶的前景与挑战2023全球最佳国家出炉!加拿大冲到第二!中国进入前20!室温超导有续集?中国团队再次证明LK-99可能存在迈斯纳效应,论文刚刚上传ICCV 2023 最佳论文候选!北大提出UniDexGrasp++:基于几何感知课程和迭代通用-专家策略学习的灵巧手抓取算法大幅提升用户行为表征通用性,蚂蚁新模型获CIKM 2023最佳应用论文奖ICLR 2024论文审稿结果出炉!7000+高产论文创新纪录,扩散模型占比最高双11特惠|国际重奢疯了?!𝘼𝙦𝙪𝙖𝙨𝙘𝙪𝙩𝙪𝙢(雅格狮丹)90%白鸭绒羽绒服,保暖防泼水,1折开抢!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。