Redian新闻
>
苹果决定删掉一个单词

苹果决定删掉一个单词

其他

“Hey Siri”要成为历史了。


今年 6 月,iOS 17 发布开发者版本,其中一个很有意思的改动是“Hey Siri”将没有“Hey”了——用户仅需说“Siri”就能唤醒语音助手。


但就是这么一个简单的变化,却愁坏一大堆程序员。从去年年末消息放出到现在将近半年,iOS 依然没有正式更新该功能。拿走一个“Hey”,对语音助手来说有多难?


为什么不要“Hey”了?


对着智能音箱或语音助手喊“Hey Siri”和“小爱同学”,这都叫做“唤醒词”,目的是让智能音箱知道你要开始对它说话下达指令了——这就像过年回家,你奶喊你:嘿,狗剩~赶紧把院里的鸡喂了去!


如下图所示,语音助手的工作分为四个模块,像人一样,它也需要先听到语音、理解语音、才能做出反应并通过语音反馈给用户。


语音助手的工作模块|作者提供


其中“唤醒质量”是衡量语音助手好坏的重要指标,业内一般通过两个标准来衡量。第一项是识别的准确率,比如一共说 1 万次唤醒词,能成功识别出多少次。在实际用户数据下,这需要能达到 99% 左右。第二项是误唤醒率,在持续语音输入的环境下,24 小时内误唤醒的次数。这个指标跟具体播放的内容有关,但一般一天内要少于 2-3 次。


目前业内公司采取用特定的唤醒词来触发语音助手的方案,比如苹果语音助手 Siri 的唤醒词为“Hey Siri”,小米的是“小爱同学”,阿里的是“天猫精灵”,百度的是“小度小度”,亚马逊 Alexa 的是“Alexa”、“Amazon”、“Computer”、“Echo”、“Ziggy”(是的这五个都是它的唤醒词)。


Computer是Alexa的唤醒词|Giphy


唤醒词音节越多越复杂,唤醒成功率就会越高,误唤醒率就会越低。但是,在实际使用当中,更短的唤醒词更受用户的喜爱,特别在用户急于发出指令时。


像三星语音助手的唤醒词是“Hi Bixby”(大致发音为:嗨 碧克斯碧),由 5 个音节构成,但是大量的用户在使用中会减少一个音节,发音为“嗨 碧克斯”或者“嗨 碧斯碧”。


2018 年,微软就将旗下语音助手 Cortana 的唤醒词由“Hey Cortana”改为“Cortana”,现在轮到 Siri。“Hey Siri”由三个音节构成,“Siri”由两个音节构成。虽然只是少一个音节,但也是语音助手升级的必经之路。


那之前“Hey”这么一下为了啥?


可是越短的唤醒词,越容易跟其他词混淆,与“Siri”具有类似发音的词汇很多,比如 Syria(英文:叙利亚)、Sirie(英文:人名),Sire(英文:陛下),容易产生误唤醒。为了提升唤醒的准确性,音节最好丰富一点。


其实哪怕是丰富些的“Hey Siri”,也有很多用户抱怨在说“History”(英文:历史)时,会误唤醒出 Siri。


此外在噪音较大,或者手机离说话人较远的情况下,“Siri”的第一个音素,即发音类似于“斯”的部分(见图 1 绿框),声音频率较高——频率高的声音衰减快,容易与环境噪音混淆。这意味着在用户开车,听广播,看电视或者远距离呼叫 Siri 时,Siri 可能更难唤醒。


Hey Siri 音频及其频谱图|作者提供


而“Hey”是包含一个较大能量的低频发音,可以将比较短而且能量小的其他音素(主要指 Si 和 Ri 这两个)与噪音区分开来。


你是省事了,Siri 可费了劲


关于发音相近的词导致的误唤醒问题。一种方案是使用对比学习(contrastive leaning)等方法,刻意消除易混淆词语的误唤醒。其原理类似于,单独拎出来“History”和“Syrian”等音频,告诉唤醒模型,这些发音是错的!


但这种方法必须在事前由人来找出容易混淆的单词,有一定局限。


另外一种解决误唤醒的方案是通过语音识别以及语义信息的分析,综合判断用户的发音是否意图在唤醒手机语音助手。例如“Hey Siri”发音虽然与“History”相近,但是用户在说出“Hey Siri”之后的内容,大概率与说出“History”之后的内容有很大差异。


通过核对唤醒词之后的语音,可以让语音助手在一些聊天场景中“保持冷静”,比如当你和朋友聊天刚好提到 Siri,但并不是为了唤醒它时。


你可以试下唤醒一屋子的语音助手|Giphy


使用声纹识别技术也可以提高唤醒的准确性。类似于指纹识别通过每个人的指纹区分用户,声纹识别也可以通过用户发音特征的不同,实现对用户的区分,让语音助手只对机主的声音作出反馈,并忽略掉其他人的语音指令。


在开启 Siri 的时候,需要说五段话,就是在完成声纹识别注册这一步。


此外,对开发者而言,去掉“Hey”,还要死掉不少脑细胞。比如有的用户在闲暇时会说“Good morning Siri”,或是在使用完语音助手之后说“Goodbye Siri”;有时用户唤醒语音助手好几次没成功时,还会说“Come on siri”,这种时候要不要唤醒?


从产品经理的角度考虑,最优方案当然是听懂用户的所有意图,比如“Goodbye Siri”意味着不需要唤醒,而“Good morning Siri”意味着用户想要沟通。但由于语音唤醒模型比较简单,功能没那么强,一直运行也比较耗电,所以大部分产品会选择一刀切——要么都唤醒,要么都不唤醒,但这又破坏了用户体验。


根据目前放出的 iOS17 开发者版本来看,苹果暂时不支持“Good morning Siri”,“Come on Siri”等情况下的唤醒。


ChatGPT 会取代语音助手么?


微软 CEO 萨蒂亚·纳德拉曾直言不讳语音助手的“愚蠢”:“无论是 Cortana、Alexa、Google Assistant 还是 Siri,这些语音助手笨得像块石头。”


与最新最热的生成式聊天 AI 相比,语音助手似乎是上个时代的产物,它们只能回答简单直接的指令,从数据库选一些已有的东西来语音播报,还常常出错;而 GPT 们可以生成小说,讲一个世界上曾经没有的笑话,应付人类各种的语焉不详,跟你谈笑风生。


甚至成为你的朋友|Giphy


实际上,语音助手使用的也是深度学习模型,只是数据量和计算需求没有 ChatGPT 这类大语言模型大。短期来看,大语音模型可以替代语音助手工作模块中语义理解的功能。对语义理解模块之前的语音唤醒和语音识别影响有限。但是更好的语义理解,也能在一定程度上修复前面两个模块带来的错误。


目前亚马逊已表示要用大语言模型给旗下语音助手 Alexa 做升级,阿里也宣布未来所有产品都将接入“通义千问”大模型,其中也包括天猫精灵。


可能在一段时间之后,手机中的语音助手还可以借助 ChatGPT 综合分析用户的历史信息,并结合用户所处的场景,更准确地了解用户的意图,那样就可以做到无需唤醒词的人机自然对话了。


 一个AI 

我听到你意念叫我了。


作者:魏浩然

编辑:睿悦


本文来自果壳,未经授权不得转载.

如有需要请联系[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“BRICS”是哪几个单词拼成的?川普“入狱大头照”,拜登用四个单词评价,太搞笑![干货] 国外媒体引用别家照片时,会标注这个单词人民日报紧急提醒!快删掉手机里的这些图!有人已经损失了14万!2023年美国宜居最佳10城北大学生PUA女友致死案:删掉的聊天记录恢复了,简直变态控制狂父母,如何毁掉一个孩子?无人区捡了个单身小姐姐晚上只能住一个房车里为学琴15岁前没上过学,每月烧掉一个爱马仕,最终录取美国第一音乐学院,值得吗?马斯克买下抖音 并删掉脑残笑声和背景音乐?辟谣了,也买不起上瘾性行为,是如何毁掉一个人的?民工三首一位妈妈的深度反思:毁掉一个孩子的内驱力,到底有多简单?“漱口”的英语可不是wash mouth,用一个单词就能搞定只需说一个单词,在麦当劳就能得到加量甜筒!快来薅羊毛吧毁掉一个家的,不是贫穷,不是吵闹,而是不会“逼”孩子……为了留学,这位博士生差点卖掉一个肾有意思周报|全球最贵冰淇淋,一口吃掉一个冰柜;哪敢吃啊?餐馆推出大王具足虫超限定拉面孩子学英语要不要背单词?怎么背?这4种方法让孩子高效记忆单词美元即将贬值What they forgot to teach you at school __笔记节选外媒报道苹果头盔,这一单词应该如何理解?阅读遇到生词要停下来一个一个查吗?教你两个查单词的小tips人民日报整理:100个常用英语单词词缀,助你背单词无压力!免费领丨单词课程《小学单词全记牢》80集教学视频~小学阶段必背单词,提炼总结!诺大的王宫,为何没啥家具?这是一篇涉及敏感,可能会被删掉的投资文章上海街头看到这个单词,顿时觉得英语白学了…弟弟为救哥哥身陷缅北后,一个单亲母亲的自白“央视删掉华晨宇节目”完整真相:他的风评为什么越来越差?“自杀式自律”,是怎样毁掉一个人的?房子、违约和裁员:一个单身女租户的遭遇好学生心态,是怎么毁掉一个人的?单词需不需要背?这4种方法让孩子告别无效背单词任何壮丽景致,都可以用这一个单词表示!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。