全新AI,能通过声音反推长相?! 你的声音会出卖你的脸,细思恐极...
微信的规则进行了调整
希望大家看完故事多点“在看”,喜欢的话也点个分享和赞
这样事儿君的推送才能继续出现在你的订阅列表里
才能继续跟大家分享每个开怀大笑或拍案惊奇的好故事啦~
她可能是个面容清秀、身材瘦小的年轻女孩,他也可能是个四十出头、脸长肩宽的中年男人。
猜准年纪和性别,对大部分人来说不难,声音特质已经透露出这些信息。
但猜对具体的容貌却非常困难,人们只能回想脑海里有类似声音的人,把他们的脸贴上去。
AI告诉我们:答案不对,有特定声音的人,会有特定的长相。最近,麻省理工大学的科学家开发出一款AI,它能通过几秒钟的音频,还原出说话者的容貌,相似度非常高。
科学家创造它的目的,是想知道人类能在多大程度上,通过一个人的声音推断出他的长相。
人类说话靠的是振动声带,它是位于喉部的左右对称的两瓣肉。声带的长度和宽度是影响我们音调高或低的主要原因,因为男性的声带较女性更宽,所以音调更低。
声带振动后,声音在我们的胸腔里嗡嗡作响,大部分从喉咙里传出去。
电脑能捕捉到这些细微的声音差别,继而画出说话者的面部特征。
这就是AI工作的原理。
Speech2Face会把视频中人脸的特征摘出来,制作出一张标准的正面照,这个照片基本等同对方的真人脸。
同时,它还会把声音从声波转成声谱图,然后传给人声编码器,找出其中的声音特征。
在大量视频的训练下,它只需要听3秒或6秒的音频,就能画出人脸。
比如,放美国情景喜剧《神烦警探》中男二霍尔特讲笑话的音频片段,Speech2Face会画出下方右侧的图。
其他测试对象还有白人老太太、非裔男子、拉美女孩和白人男性,
科学家解释说,是因为AI在数百万视频中找到同一类人群相似的外形特征。比如非裔女性常是高挑眉,老年人永远头发稀疏,印裔男子喜欢留胡子,非洲男性戴顶小帽子。
在性别、种族特征符合后,这些边缘的外貌特征也会被画出来。
“我们使用的训练数据来自油管上的教育视频合集,不能代表全世界的人。” 他们在论文里写道,“因此,就像其他机器学习模型一样,我们的模型也受到数据分布不均的影响。”
这种刻板印象也和语言有关,当亚裔男性说英语时,Speech2Face以为他是白人男性,当他说中文时,种族又对了。
麻省理工的科学家们还做了一个“卡通转换系统”,让Speech2Face听到音频后绘制出说话者的卡通图,准确率也挺高的。
“那些不愿露脸的油管博主现在肯定在瑟瑟发抖。”
“我们的方法不能从声音中复原一个人的真实身份(即他们脸部的确切图像),因为我们的模型是捕捉多人共有的视觉特征,只能生产大众化的平庸面孔,不能制作特定长相。我们的AI图像不能反映出真人的实际相貌。”
话是这么说,可从对比图上看,AI的结果已经很接近真人照了。
过去几年,爱尔兰、西班牙、日本和美国都在研究如何用音频构建人脸,其中走得最远的是卡内基梅隆大学的丽塔·辛格(Rita Singh)。
她先是比较了人耳无法察觉的发音上的特征,然后把报警电话分割为几毫秒的小片段,用AI梳理它们寻找信息点。
靠着微弱的信息,丽塔不光能知道报假警的人大致长什么样,还能知道他所处的环境,比如房间的大小,是否有窗户,以及墙壁用什么材料制成。
最后,丽塔不仅解决了恶作剧电话,还解决了儿童性骚扰案件。
用声音绘制人脸,这个技术看来是无法避免的,只能希望它以后都用在正道上吧……
https://www.fastcompany.com/90357561/this-ai-guesses-human-faces-based-only-on-their-voices
https://speech2face.github.io/supplemental/index.html
https://www.youtube.com/watch?v=aKYlSIs3UDY
--------------------
各位小伙伴们
微信公众号规则又进行了调整
事儿君也不得不跟大家求个三连
希望大家多多点击“在看”
喜欢的话也点个分享和赞
这样事儿君的推送才能继续出现在你的订阅列表
与大家继续分享每个开怀大笑或拍案惊奇的好故事
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章