清华可穿戴智能喉登Nature子刊,实测准确率90%+,网友:@李雪健老师
丰色 发自 凹非寺
量子位 | 公众号 QbitAI
将一块仅硬币大小的圆片,贴在喉咙处,嗓子有问题的人就可以重获新“声”了。
这是清华大学发表在Nature子刊上的最新研究成果,一个用石墨烯材料做成的可穿戴喉咙。
△ Nature Machine Intelligence(自然·机器智能)
它可以准确识别到佩戴者喉咙处的细微振动以及模糊的话语,然后将之合成为正常的语音,平均识别准确率高达99.05%。
据称,这款设备在噪音非常大的地方也好使。
如此一来,那些不能正常发声的人,包括喉切除患者、临时嗓子发炎者、长时间讲课的老师、在嘈杂环境工作但需要交流的人等,都有救了。
当然,还有不少人直接cue起了李雪健老师。
清华可穿戴智能喉,患者实测准确率91%
要说帮喉咙有问题的人解决交流问题,科学家早就在研究了。
不过此前的一些方案由于带有一系列外设或者多通道电极,通常具有侵入性且不够便携。
要解决这俩问题,需要感应器足够灵敏且小巧,在外部就能使用。
还需要足够贴合皮肤。
因为理论上,喉部的振动反映的是声带以及相关肌肉群的运动。
一些声带发声有障碍的人,可能会训练食管发声,因此,需要柔性传感器来保持对皮肤的贴合从而照顾到这一部位。
好在,有这么一种东西可以满足这些需要。
它就是用柔性激光直写(laser-scribed)石墨烯(LSG)制成的机械传感器,专门用于身体表面。
不过,由于不确定这种设备对低频肌肉运动和传递到皮肤表面的声音振动是否敏感,作者团队对它的蜂窝状微观结构进行了优化。
最终,它可以做到在>1000次的弯曲测试后仍表现出均匀稳定的灵敏度,准确识别出频率范围在100–20kHz之间的振动信息。
由于LSG薄膜具有导电性和导热性,这种设备也可以通过热声效应产生声音。在声音发射稳定性的实验中,作者证明它可以做到连续三小时都保持稳定。
下面是这款可穿戴智能喉的工作流程:
首先,设备将收集到的振动信息编码为标准脉冲编码调制(PCM)信号。
然后通过快速傅里叶变换(FFT)生成相应的频谱图。
接着通过模型进行外部处理和识别,将检测到的多模态信号转换为相应的语音。
最后通过热声效应驱动设备发声,帮助佩戴者完成交流。
实验表明,这款设备对音素、音调以及单词的识别准确率平均达到了99.05%。
下图则显示了设备在不同强度(dB)噪音下的识别精度。
可以看到,它在环境噪声超过60dB的情况下,也能保持识别能力,抗噪能力远远优于麦克风。
“Talk is cheap”,作者也进行了实战测试。
他们找来一位完成了喉切除(非全切)手术的志愿者,检测六个日常短句的识别情况。
从频谱图可以看出,可穿戴智能喉可以感知患者喉咙的发声振动。
不过由于发声器官不完整,患者有时会在说话时吞咽声音。不过微调模型仍然能够从信号中提取足够的信息,将识别准确率做到81.25%。
接着,他们又对用到的单个AlexNet模型进行了优化(Alex Net+ReliefF+SVM),最终实现了91%的识别精度。
总的来说,由于制造工艺可行、灵敏度高、性能稳定、抗噪能力强以及集成了发声能力,作者认为,这款可穿戴喉咙可以成为下一代语音识别和交互系统的理想工具。
而网友们也脑洞大开:
有让加个音色调节的过滤器,变成可穿戴变声器的;
也有说来个实时翻译,就让人直接拥有说多种语言的能力的。
你觉得还有哪些妙用?
论文地址:
https://www.nature.com/articles/s42256-023-00616-6
参考链接:
https://weibo.com/1231317854/MwsEvkugi?refer_flag=1001030103_
— 完 —
「中国AIGC产业峰会」启动
邀您共襄盛举
「中国AIGC产业峰会」即将在今年3月举办,峰会将邀请AIGC产业相关领域的专家学者,共同探讨生成新世界的过去、现在和未来。
峰会上还将发布《中国AIGC产业全景报告暨AIGC 50》,全面立体描绘我国当前AIGC产业的竞争力图谱。点击链接或下方图片查看大会详情:
点这里👇关注我,记得标星哦~
微信扫码关注该文公众号作者