顶刊TPAMI 2024！计算机学会像人脑一样“听话”了！清华苑克鑫/胡晓林团队实现混合语音分离技术突破！

2024-04-18 05:04

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和扩散模型】微信交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：brainnew

我们的大脑在处理声音信息时有一个特长：可以将注意力集中在感兴趣的对话或声音上，忽略其它无关的声音或者噪音。我们每天都在不知不觉地运用这种特长，在通勤的地铁上、嘈杂的餐厅里，广播声、音乐声、多人同时说话的声音，都不会妨碍你与同伴进行交流。早在70多年前，神经科学家就注意到大脑的这种神奇能力，并将其称为“鸡尾酒会效应”。

尽管我们可以轻松地在混合的声音中识别特定的目标声音，计算机要做到这一点却非常困难。在人工智能（AI）领域，要设计出与人类一样强大的语音分离系统是巨大挑战。

日前，来自清华大学的神经科学家和计算机科学家联手，基于哺乳动物丘脑和皮层整合多模态感觉信息的工作原理，构建了一款新的脑启发AI模型（CTCNet），实现了混合语音分离技术突破，让计算机进一步学会像人脑一样“听话”。这一创新性学科交叉研究成果于2024年4月5日线上发表于人工智能、模式识别和计算机视觉领域的顶级国际期刊Transactions on Pattern Analysis and Machine Intelligence（TPAMI）。

文章题图

▲在两人同时说话的场景中，红框指示了计算机的目标人物，试图从混合语音中将其语音分离出来，迄今为止的其他方法仍无法使计算机有效分离两个人的声音，尤其是在我们看来非常简单的、对话内容单调的场景中（视频2）。使用了CTCNet的计算机系统成功地只“听到”红框中的目标声音（视频来源：研究团队提供）

该研究的负责人之一、神经科学家、清华大学生物医学工程学院的苑克鑫教授指出：“新模型的语音分离性能大幅领先于现有方法，不仅为计算机感知信息处理提供了新的脑启发范例，而且在智能助手、自动驾驶等领域有潜力发挥重要作用。”

研究者介绍，现有的多模态语音分离方法大多只是模拟了哺乳动物的皮层通路，即从较低功能区域（例如初级视觉、听觉皮层区）到较高功能区域（例如高级视觉、听觉皮层区），然而实际上，听觉、视觉的信息整合中，以丘脑为代表的皮层下结构发挥了不可忽视的重要作用。

苑克鑫教授团队长期聚焦于脑的听觉处理机制，近年来的一系列工作逐渐揭示了高级听觉丘脑的联接、功能与工作机制。高级听觉丘脑作为处理听觉信息的关键中枢节点，具有听觉、视觉双模态的特性。其腹内侧在介导听觉、视觉刺激触发的危险感知中发挥关键作用（Neuron 2023；J. Neurosci. 2024；Featured Articles）；其背侧既接收来自听觉皮层第5层的投射，也接收来自视觉皮层第5层的投射，且在整体上形成了皮层-丘脑-皮层（Cortico-thalamo-cortical，CTC）循环联接架构（Cereb. Cortex 2018a，2018b，2019）。这些工作提示，高级听觉丘脑可能通过特殊的联接模式整合听觉、视觉信息从而增强听觉感知。

在背侧高级听觉丘脑联接特点的启发下，苑克鑫团队与清华大学计算机系胡晓林团队合作提出了一种皮层-丘脑-皮层神经网络（CTCNet）来执行音频-视觉语音分离任务。

▲高级听觉丘脑-皮层联接模式启发视觉辅助的语音分离模型（CTCNet）

（图片来源：研究团队提供）

CTCNet模型包括三个模块——听觉子网络、视觉子网络和听-视融合子网络，分别模拟了听觉皮层、视觉皮层和背侧高级听觉丘脑。其基本工作原理为：首先，听觉信息（语音）和视觉信息（唇部运动）以自下而上的方式分别在独立的听觉和视觉子网络中处理；然后，经过处理的听觉和视觉信息通过自上而下的连接在听-视融合子网络中进行多时间分辨率尺度的融合；最后，融合后的信息被回传至听觉和视觉子网络。上述过程会重复数次，最终输出至听觉子网络。

在三个语音分离基准数据集上的测试结果显示，在参数极少的情况下，CTCNet能在视觉信息（唇部运动）的辅助下，高度准确地将混合在一起的语音分离开来。

研究团队总结说，语音分离模型CTCNet是基于高级听觉丘脑的视、听融合能力及其皮层-丘脑-皮层循环联接架构构建的脑启发AI模型。通过多次融合和循环处理听觉和视觉信息，使AI能够更好地实现“鸡尾酒会效应”。

胡晓林团队硕士生李凯为该论文第一作者，苑克鑫团队博士后谢凤华和胡晓林团队博士生陈航为该论文第二和第三作者，苑克鑫和胡晓林为该论文共同通讯作者，他们均为清华大学麦戈文脑研究院、清华大学脑与智能实验室和清华大学类脑研究中心兼职研究员。该研究得到了国家自然科学基金、科技部经费的大力支持。

原文链接：doi: 10.1109/TPAMI.2024.3384034

参考文献

[1] Kai Li et al., An audio-visual speech separation model inspired by Cortico-Thalamo-Cortical circuits. Transactions on Pattern Analysis and Machine Intelligence (2024) doi: 10.1109/TPAMI.2024.3384034

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba和扩散模型交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer5555，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章