Redian新闻
>
苹果决定删掉一个单词

苹果决定删掉一个单词

其他

“Hey Siri”要成为历史了。


今年 6 月,iOS 17 发布开发者版本,其中一个很有意思的改动是“Hey Siri”将没有“Hey”了——用户仅需说“Siri”就能唤醒语音助手。


但就是这么一个简单的变化,却愁坏一大堆程序员。从去年年末消息放出到现在将近半年,iOS 依然没有正式更新该功能。拿走一个“Hey”,对语音助手来说有多难?


为什么不要“Hey”了?


对着智能音箱或语音助手喊“Hey Siri”和“小爱同学”,这都叫做“唤醒词”,目的是让智能音箱知道你要开始对它说话下达指令了——这就像过年回家,你奶喊你:嘿,狗剩~赶紧把院里的鸡喂了去!


如下图所示,语音助手的工作分为四个模块,像人一样,它也需要先听到语音、理解语音、才能做出反应并通过语音反馈给用户。


语音助手的工作模块|作者提供


其中“唤醒质量”是衡量语音助手好坏的重要指标,业内一般通过两个标准来衡量。第一项是识别的准确率,比如一共说 1 万次唤醒词,能成功识别出多少次。在实际用户数据下,这需要能达到 99% 左右。第二项是误唤醒率,在持续语音输入的环境下,24 小时内误唤醒的次数。这个指标跟具体播放的内容有关,但一般一天内要少于 2-3 次。


目前业内公司采取用特定的唤醒词来触发语音助手的方案,比如苹果语音助手 Siri 的唤醒词为“Hey Siri”,小米的是“小爱同学”,阿里的是“天猫精灵”,百度的是“小度小度”,亚马逊 Alexa 的是“Alexa”、“Amazon”、“Computer”、“Echo”、“Ziggy”(是的这五个都是它的唤醒词)。


Computer是Alexa的唤醒词|Giphy


唤醒词音节越多越复杂,唤醒成功率就会越高,误唤醒率就会越低。但是,在实际使用当中,更短的唤醒词更受用户的喜爱,特别在用户急于发出指令时。


像三星语音助手的唤醒词是“Hi Bixby”(大致发音为:嗨 碧克斯碧),由 5 个音节构成,但是大量的用户在使用中会减少一个音节,发音为“嗨 碧克斯”或者“嗨 碧斯碧”。


2018 年,微软就将旗下语音助手 Cortana 的唤醒词由“Hey Cortana”改为“Cortana”,现在轮到 Siri。“Hey Siri”由三个音节构成,“Siri”由两个音节构成。虽然只是少一个音节,但也是语音助手升级的必经之路。


那之前“Hey”这么一下为了啥?


可是越短的唤醒词,越容易跟其他词混淆,与“Siri”具有类似发音的词汇很多,比如 Syria(英文:叙利亚)、Sirie(英文:人名),Sire(英文:陛下),容易产生误唤醒。为了提升唤醒的准确性,音节最好丰富一点。


其实哪怕是丰富些的“Hey Siri”,也有很多用户抱怨在说“History”(英文:历史)时,会误唤醒出 Siri。


此外在噪音较大,或者手机离说话人较远的情况下,“Siri”的第一个音素,即发音类似于“斯”的部分(见图 1 绿框),声音频率较高——频率高的声音衰减快,容易与环境噪音混淆。这意味着在用户开车,听广播,看电视或者远距离呼叫 Siri 时,Siri 可能更难唤醒。


Hey Siri 音频及其频谱图|作者提供


而“Hey”是包含一个较大能量的低频发音,可以将比较短而且能量小的其他音素(主要指 Si 和 Ri 这两个)与噪音区分开来。


你是省事了,Siri 可费了劲


关于发音相近的词导致的误唤醒问题。一种方案是使用对比学习(contrastive leaning)等方法,刻意消除易混淆词语的误唤醒。其原理类似于,单独拎出来“History”和“Syrian”等音频,告诉唤醒模型,这些发音是错的!


但这种方法必须在事前由人来找出容易混淆的单词,有一定局限。


另外一种解决误唤醒的方案是通过语音识别以及语义信息的分析,综合判断用户的发音是否意图在唤醒手机语音助手。例如“Hey Siri”发音虽然与“History”相近,但是用户在说出“Hey Siri”之后的内容,大概率与说出“History”之后的内容有很大差异。


通过核对唤醒词之后的语音,可以让语音助手在一些聊天场景中“保持冷静”,比如当你和朋友聊天刚好提到 Siri,但并不是为了唤醒它时。


你可以试下唤醒一屋子的语音助手|Giphy


使用声纹识别技术也可以提高唤醒的准确性。类似于指纹识别通过每个人的指纹区分用户,声纹识别也可以通过用户发音特征的不同,实现对用户的区分,让语音助手只对机主的声音作出反馈,并忽略掉其他人的语音指令。


在开启 Siri 的时候,需要说五段话,就是在完成声纹识别注册这一步。


此外,对开发者而言,去掉“Hey”,还要死掉不少脑细胞。比如有的用户在闲暇时会说“Good morning Siri”,或是在使用完语音助手之后说“Goodbye Siri”;有时用户唤醒语音助手好几次没成功时,还会说“Come on siri”,这种时候要不要唤醒?


从产品经理的角度考虑,最优方案当然是听懂用户的所有意图,比如“Goodbye Siri”意味着不需要唤醒,而“Good morning Siri”意味着用户想要沟通。但由于语音唤醒模型比较简单,功能没那么强,一直运行也比较耗电,所以大部分产品会选择一刀切——要么都唤醒,要么都不唤醒,但这又破坏了用户体验。


根据目前放出的 iOS17 开发者版本来看,苹果暂时不支持“Good morning Siri”,“Come on Siri”等情况下的唤醒。


ChatGPT 会取代语音助手么?


微软 CEO 萨蒂亚·纳德拉曾直言不讳语音助手的“愚蠢”:“无论是 Cortana、Alexa、Google Assistant 还是 Siri,这些语音助手笨得像块石头。”


与最新最热的生成式聊天 AI 相比,语音助手似乎是上个时代的产物,它们只能回答简单直接的指令,从数据库选一些已有的东西来语音播报,还常常出错;而 GPT 们可以生成小说,讲一个世界上曾经没有的笑话,应付人类各种的语焉不详,跟你谈笑风生。


甚至成为你的朋友|Giphy


实际上,语音助手使用的也是深度学习模型,只是数据量和计算需求没有 ChatGPT 这类大语言模型大。短期来看,大语音模型可以替代语音助手工作模块中语义理解的功能。对语义理解模块之前的语音唤醒和语音识别影响有限。但是更好的语义理解,也能在一定程度上修复前面两个模块带来的错误。


目前亚马逊已表示要用大语言模型给旗下语音助手 Alexa 做升级,阿里也宣布未来所有产品都将接入“通义千问”大模型,其中也包括天猫精灵。


可能在一段时间之后,手机中的语音助手还可以借助 ChatGPT 综合分析用户的历史信息,并结合用户所处的场景,更准确地了解用户的意图,那样就可以做到无需唤醒词的人机自然对话了。


 一个AI 

我听到你意念叫我了。


作者:魏浩然

编辑:睿悦


本文来自果壳,未经授权不得转载.

如有需要请联系[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
人民日报整理:100个常用英语单词词缀,助你背单词无压力![干货] 国外媒体引用别家照片时,会标注这个单词好学生心态,是怎么毁掉一个人的?有意思周报|全球最贵冰淇淋,一口吃掉一个冰柜;哪敢吃啊?餐馆推出大王具足虫超限定拉面这是一篇涉及敏感,可能会被删掉的投资文章“自杀式自律”,是怎样毁掉一个人的?“央视删掉华晨宇节目”完整真相:他的风评为什么越来越差?阅读遇到生词要停下来一个一个查吗?教你两个查单词的小tips任何壮丽景致,都可以用这一个单词表示!外媒报道苹果头盔,这一单词应该如何理解?“漱口”的英语可不是wash mouth,用一个单词就能搞定房子、违约和裁员:一个单身女租户的遭遇“BRICS”是哪几个单词拼成的?美元即将贬值诺大的王宫,为何没啥家具?马斯克买下抖音 并删掉脑残笑声和背景音乐?辟谣了,也买不起无人区捡了个单身小姐姐晚上只能住一个房车里孩子学英语要不要背单词?怎么背?这4种方法让孩子高效记忆单词川普“入狱大头照”,拜登用四个单词评价,太搞笑!毁掉一个家的,不是贫穷,不是吵闹,而是不会“逼”孩子……弟弟为救哥哥身陷缅北后,一个单亲母亲的自白民工三首控制狂父母,如何毁掉一个孩子?人民日报紧急提醒!快删掉手机里的这些图!有人已经损失了14万!为了留学,这位博士生差点卖掉一个肾What they forgot to teach you at school __笔记节选为学琴15岁前没上过学,每月烧掉一个爱马仕,最终录取美国第一音乐学院,值得吗?上海街头看到这个单词,顿时觉得英语白学了…只需说一个单词,在麦当劳就能得到加量甜筒!快来薅羊毛吧2023年美国宜居最佳10城上瘾性行为,是如何毁掉一个人的?单词需不需要背?这4种方法让孩子告别无效背单词一位妈妈的深度反思:毁掉一个孩子的内驱力,到底有多简单?北大学生PUA女友致死案:删掉的聊天记录恢复了,简直变态免费领丨单词课程《小学单词全记牢》80集教学视频~小学阶段必背单词,提炼总结!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。