端到端音视频说话人日志网络,一作解读INTERSPEECH 2022论文
SH Symposium Series on Speech (SH SSS 2022)
SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。
来自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。
分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。
Tittle
端到端音视频说话人日志网络
Time
2022年11月8日 19:00 - 19:45
Author
何茂奎:中国科学技术大学语音及语言信息处理国家工程研究中心博士生,主要研究方向为纯音频及音视频说话人日志。合作文章曾发表于INTERSPEECH、ICASSP等语音领域会议。
Abstract
本文提出了一种基于端到端神经网络的音视频说话人日志方法。该音视频模型采用音频特征(例如 FBANK)、多说话人唇型(ROI)和多说话人 i-vector向量作为多模态输入。同时输出多个说话人的帧级语音/非语音概率。通过精心设计的端到端结构,所提出的方法可以很好处理重叠语音问题,并通过多模态信息准确地区分语音和非语音。i-vector是解决由视觉模态错误(例如唇部遮挡或检测不可靠)引起的音视频同步问题的关键点。该音视频模型对视觉模态缺失同样具有鲁棒性。我们在MISP数据集上进行了评估,所提出的方法在的开发/测试集上实现了10.1%/9.5%的分类错误率 (DER),而纯音频和纯视频系统的 DER 分别为27.9%/29.0%和14.6%/13.1%。
题 目 Tittle
中文:端到端音视频说话人日志网络
英文:End-to-End Audio-Visual Neural Speaker Diarization
收录会议 source title
INTERSPEECH 2022
作 者 Authors
何茂奎,杜俊,李锦辉
论文地址 Url
https://www.isca-speech.org/archive/pdfs/interspeech_2022/he22c_interspeech.pdf
论文代码 Code
https://mispchallenge.github.io/mispchallenge2022
Program Overview
Joining
活动奖品
11月8日在直播间,为大家准备3件 SpeechHome 主题T恤,观看直播互动即可抽取。
扫码添加小管家进讨论群
👇👇👇
Call For Papers
Contact us
永久福利 直投简历
简历投递:[email protected]
VjoinU 内推助力,leader直收简历
微信扫码关注该文公众号作者