Redian新闻
>
顶刊TPAMI 2024!计算机学会像人脑一样“听话”了!清华苑克鑫/胡晓林团队实现混合语音分离技术突破!

顶刊TPAMI 2024!计算机学会像人脑一样“听话”了!清华苑克鑫/胡晓林团队实现混合语音分离技术突破!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和扩散模型】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

转载自:brainnew


我们的大脑在处理声音信息时有一个特长:可以将注意力集中在感兴趣的对话或声音上,忽略其它无关的声音或者噪音。我们每天都在不知不觉地运用这种特长,在通勤的地铁上、嘈杂的餐厅里,广播声、音乐声、多人同时说话的声音,都不会妨碍你与同伴进行交流。早在70多年前,神经科学家就注意到大脑的这种神奇能力,并将其称为“鸡尾酒会效应”。


尽管我们可以轻松地在混合的声音中识别特定的目标声音,计算机要做到这一点却非常困难。在人工智能(AI)领域,要设计出与人类一样强大的语音分离系统是巨大挑战。


日前,来自清华大学的神经科学家和计算机科学家联手,基于哺乳动物丘脑和皮层整合多模态感觉信息的工作原理,构建了一款新的脑启发AI模型(CTCNet),实现了混合语音分离技术突破,让计算机进一步学会像人脑一样“听话”。这一创新性学科交叉研究成果于2024年4月5日线上发表于人工智能、模式识别和计算机视觉领域的顶级国际期刊Transactions on Pattern Analysis and Machine Intelligence(TPAMI)


文章题图


▲在两人同时说话的场景中,红框指示了计算机的目标人物,试图从混合语音中将其语音分离出来,迄今为止的其他方法仍无法使计算机有效分离两个人的声音,尤其是在我们看来非常简单的、对话内容单调的场景中(视频2)。使用了CTCNet的计算机系统成功地只“听到”红框中的目标声音(视频来源:研究团队提供)


该研究的负责人之一、神经科学家、清华大学生物医学工程学院的苑克鑫教授指出:新模型的语音分离性能大幅领先于现有方法,不仅为计算机感知信息处理提供了新的脑启发范例,而且在智能助手、自动驾驶等领域有潜力发挥重要作用。”


研究者介绍,现有的多模态语音分离方法大多只是模拟了哺乳动物的皮层通路,即从较低功能区域(例如初级视觉、听觉皮层区)到较高功能区域(例如高级视觉、听觉皮层区),然而实际上,听觉、视觉的信息整合中,以丘脑为代表的皮层下结构发挥了不可忽视的重要作用。


苑克鑫教授团队长期聚焦于脑的听觉处理机制,近年来的一系列工作逐渐揭示了高级听觉丘脑的联接、功能与工作机制。高级听觉丘脑作为处理听觉信息的关键中枢节点,具有听觉、视觉双模态的特性。其腹内侧在介导听觉、视觉刺激触发的危险感知中发挥关键作用(Neuron 2023;J. Neurosci. 2024;Featured Articles);其背侧既接收来自听觉皮层第5层的投射,也接收来自视觉皮层第5层的投射,且在整体上形成了皮层-丘脑-皮层(Cortico-thalamo-cortical,CTC)循环联接架构(Cereb. Cortex 2018a,2018b,2019)。这些工作提示,高级听觉丘脑可能通过特殊的联接模式整合听觉、视觉信息从而增强听觉感知。


在背侧高级听觉丘脑联接特点的启发下,苑克鑫团队与清华大学计算机系胡晓林团队合作提出了一种皮层-丘脑-皮层神经网络(CTCNet)来执行音频-视觉语音分离任务。


▲高级听觉丘脑-皮层联接模式启发视觉辅助的语音分离模型(CTCNet)

(图片来源:研究团队提供)


CTCNet模型包括三个模块——听觉子网络、视觉子网络和听-视融合子网络,分别模拟了听觉皮层、视觉皮层和背侧高级听觉丘脑。其基本工作原理为:首先,听觉信息(语音)和视觉信息(唇部运动)以自下而上的方式分别在独立的听觉和视觉子网络中处理;然后,经过处理的听觉和视觉信息通过自上而下的连接在听-视融合子网络中进行多时间分辨率尺度的融合;最后,融合后的信息被回传至听觉和视觉子网络。上述过程会重复数次,最终输出至听觉子网络。


在三个语音分离基准数据集上的测试结果显示,在参数极少的情况下,CTCNet能在视觉信息(唇部运动)的辅助下,高度准确地将混合在一起的语音分离开来


研究团队总结说,语音分离模型CTCNet是基于高级听觉丘脑的视、听融合能力及其皮层-丘脑-皮层循环联接架构构建的脑启发AI模型。通过多次融合和循环处理听觉和视觉信息,使AI能够更好地实现“鸡尾酒会效应”。


胡晓林团队硕士生李凯为该论文第一作者,苑克鑫团队博士后谢凤华和胡晓林团队博士生陈航为该论文第二和第三作者,苑克鑫和胡晓林为该论文共同通讯作者,他们均为清华大学麦戈文脑研究院、清华大学脑与智能实验室和清华大学类脑研究中心兼职研究员。该研究得到了国家自然科学基金、科技部经费的大力支持。

原文链接:doi: 10.1109/TPAMI.2024.3384034


参考文献

[1] Kai Li et al., An audio-visual speech separation model inspired by Cortico-Thalamo-Cortical circuits. Transactions on Pattern Analysis and Machine Intelligence (2024) doi: 10.1109/TPAMI.2024.3384034

    何恺明在MIT授课的课件PPT下载

    在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

    CVPR 2024 论文和代码下载

    在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


    Mamba和扩散模型交流群成立

    扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


    一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

    ▲扫码或加微信号: CVer5555,进交流群


    CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


    扫码加入星球学习


    ▲点击上方卡片,关注CVer公众号

    整理不易,请点赞和在看

    微信扫码关注该文公众号作者

    戳这里提交新闻线索和高质量文章给我们。
    相关阅读
    德州边境再现混乱,大量移民冲破铁丝网撞开卫兵顶刊TPAMI 2024!白翔团队:将CLIP模型转换为端到端文本识别器顶刊IJCV 2024!通过提问学习基于知识的新物体识别陣前換將 兵家大忌 金廈海域 對撞危機【一週軍事雜談 】2024.02.202024 CSRankings全球计算机科学专业排名更新!另眼看古典学①︱“与柏拉图对话”还是“与柏拉图学者对话”?纪念:迟到的正义终究到来了 ——2022加拿大自由卡车车队运动二周年志别再说国产大模型技术突破要靠 Llama 3 开源了曝谷歌Python团队全员被裁;清华系团队“国产Sora”:视频突破16秒;“社恐”周鸿祎:喊话贾跃亭、雷军送自己车|AI周报2024 turbotax 最全最强攻略玉树临盆掀起第四次胰岛素治疗革命!清华校友自研次抛MEMS胰岛素微泵模组,实现0.01U微丸剂量药物供给清华大学团队NSR综述:混合神经网络(ANN+SNN→HNN)推动类脑计算中科曙光智能计算产品事业部胡晓东:大模型时代的AI全栈软件能力应用实践 | GenAICon 2024【往期】什么?ANU去年竟然有这么多重磅学术突破?15天无效包退!清华博士团队研发的“洗发水”,轻松解决头油头屑!squid代理http和https方式上网的操作记录申请吸引力增强?英伟达和佐治亚理工学院推出「AI超级计算机中心」,真“遥遥领先”了!顶刊IJCV 2024!基于概率表征的半监督对比学习框架又有大熊猫要来美国了?然网友担心还会像之前一样对待大熊猫……三月的书影音分享巧解「数据稀缺」问题!清华开源GPD:用扩散模型生成神经网络参数|ICLR 2024国产Sora来了!清华团队打造,背后公司已融资数亿元俄軍攻下阿夫迪夫卡 終結頓涅次克10年苦難【邱世卿合訂本】2024.02.19查尔斯抗癌路走得不顺?团队实时更新葬礼计划,英媒集体沉默...当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律顶刊TPAMI 2024!北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法捷克特雷津纳粹集中营(Terezin),翻开历史2024 QS排名发布!计算机MIT霸榜,清华11,北大15一梯队实在太难!二梯队/次热门国际学校怎么样?别想了!医学顶刊TMI 2024!首个研究医疗AI算法公平性的眼科图像分类数据集《中国湖》连载计算机MIT霸榜,清华11,北大15;特斯拉四连跌;李佳琦开设首家线下店铺……AI底层逻辑(2):人工智能会变得像人一样吗?※※※※※※ 2024【新春对对碰】活动大合辑※※※※※※CS专业选校重要参考!CSRankings全球计算机科学排名(2024更新版)CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型《太阳的笑容》&《可怜父母心》一心为人不为己2024 CSRankings全美计算机科学排名发布!CMU霸榜,MIT跌出前5
    logo
    联系我们隐私协议©2024 redian.news
    Redian新闻
    Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。