Redian新闻
>
端到端音视频说话人日志网络,一作解读INTERSPEECH 2022论文

端到端音视频说话人日志网络,一作解读INTERSPEECH 2022论文

公众号新闻

SH Symposium Series on Speech (SH SSS 2022) 

SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。 

自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。



分享的论文成果来自国内外顶级会议收录的优秀文章、前沿学术报告。



主题

Tittle

端到端音视频说话人日志网络


时间

Time

2022年11月8日 19:00 - 19:45


嘉宾

Author

何茂奎:中国科学技术大学语音及语言信息处理国家工程研究中心博士生,主要研究方向为纯音频及音视频说话人日志。合作文章曾发表于INTERSPEECH、ICASSP等语音领域会议。


概述

Abstract

本文提出了一种基于端到端神经网络的音视频说话人日志方法。该音视频模型采用音频特征(例如 FBANK)、多说话人唇型(ROI)和多说话人 i-vector向量作为多模态输入。同时输出多个说话人的帧级语音/非语音概率。通过精心设计的端到端结构,所提出的方法可以很好处理重叠语音问题,并通过多模态信息准确地区分语音和非语音。i-vector是解决由视觉模态错误(例如唇部遮挡或检测不可靠)引起的音视频同步问题的关键点。该音视频模型对视觉模态缺失同样具有鲁棒性。我们在MISP数据集上进行了评估,所提出的方法在的开发/测试集上实现了10.1%/9.5%的分类错误率 (DER),而纯音频和纯视频系统的 DER 分别为27.9%/29.0%和14.6%/13.1%。


题 目 Tittle


中文:端到端音视频说话人日志网络

英文:End-to-End Audio-Visual Neural Speaker Diarization



收录会议 source title


INTERSPEECH 2022



作 者 Authors


何茂奎,杜俊,李锦辉



论文地址 Url


https://www.isca-speech.org/archive/pdfs/interspeech_2022/he22c_interspeech.pdf



论文代码 Code


https://mispchallenge.github.io/mispchallenge2022


议程

Program Overview

时间
主题
嘉宾
19:00-19:30端到端音视频说话人日志网络何茂奎
19:30-19:45Q&A


参与方式

Joining

直播将通过语音之家微信视频号进行直播
手机端、PC端可同步观看

活动奖品

11月8日在直播间,为大家准备3件 SpeechHome 主题T恤观看直播互动即可抽取


扫码添加小管家进讨论群

👇👇👇



投稿

Call For Papers

在语音领域,您的文章内容具有技术创意性重要性论文解读清晰均可投稿!


投稿方式

Contact us

投稿邮箱
[email protected]
联系人微信



“阅读原文”了解《Kaldi语音识别理论与实践》详细内容及报名通道


永久福利 直投简历

简历投递:[email protected]

VjoinU 内推助力,leader直收简历

扫码关注我们
助力AI语音开发者的社区

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Razer Nommo 2.0 Stereo Gaming Speakers (No RGB)大一统视角理解扩散模型Understanding Diffusion Models: A Unified PerspectiveChina’s Local Governments Are Spending Millions on the MetaverseAfter a Blistering Summer, China Braces for a Frigid Winter丧尽天良!澳洲teenager肇事后逃逸!致12岁男孩身亡!只因要拍抖音视频?我的移民经历:看心理医生(上)(附上《爱在深秋》歌)国信医药获近亿元B+轮融资,加速端到端的细胞基因治疗(CGT)头部CRO平台建设如何通过切片实现网络端到端隔离?遥寄哀思:送别99岁的义乌爸爸[电脑] Intel + Intel + Intel: Arc 750 Limited Edition + 13700KF 开箱将通信带宽降低至十万分之一,NeurIPS 2022论文提出新一代协作感知方法G-Research:ICML 2022论文推荐AMD Composable Kernel: 定制化算子融合,大幅提升AI端到端性能由你投票选出的NeurIPS 2022论文直播分享拍了拍你官宣!小米13系列周日见/《三体》动画明天开播/苹果iCloud将支持端到端加密ECCV 2022 Oral | ​Language Matters:面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法清华CodeGeeX项目原作解读:大规模多语言代码生成模型Can China Keep Its Special Education Teachers?COLING'22 Best Paper | 苏大提出:又快又准的端到端跨语义角色标注作为基于词的图解析美股SPAC|太阳能发电厂开发商EEW Eco Energy 以 6.5 亿美元与SPAC​ ClimateRock合并AI的未来不是大模型,也不是端到端:Meta向我们证明了这一点Logitech G920 Driving Force Racing Wheel - Xbox & PC Version说话影响大脑发育,你和孩子说话的方式,比说话的内容更重要!7 Papers & Radios | ECCV 2022最佳论文;Transformer在试错中自主改进UniMatch项目原作解读:统一光流、立体匹配和深度估计三个任务Twitter端到端加密将使用Signal开源协议Kubernetes 1.24发布,支持网络策略状态、上下文日志记录和子资源日本人的和栗情结随地吐痰与老海归In 2022, Students Are Struggling to Cope. So Are Their Teachers.ECCV 2022 ScanRefer Challenge冠军方法!山大&美团联合提出端到端“火腿”网络, 性能首次突破40%!初创新型完整工业要有企业规则China Vows to Strengthen Intellectual Rights ProtectionLogitech Z506 Surround Sound Home Theater Speaker System
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。