Redian新闻
>
AI朗读,你做个人吧!

AI朗读,你做个人吧!

职场

最近,番茄小说的AI语音朗读因为几条魔性的BUG语音上了热搜。


任何一个人,没看过下面这个视频我都会伤心的,ok?


(点击视频收获今日快乐)


这段视频印证了我一直以来的一个猜想——


所有标榜“自动”的功能背后,都有一个藏着的活人在替机器负重前行。




这世间一定有那么一个人,白天躲在 ATM 机里往外扔钱,晚上在番茄小说里在线给人读故事。


而且读出来的英语还是正宗的天↘津→口↗音↘。



从“SSSSS”和“啊啊啊啊啊”那两段听来,这位神秘相声演员的肺活量也很是不错。



而且还能结合小说上下文,精准表达文本情绪,生动地演绎出了“失去语言组织能力的粉丝”见到“哥哥”时,


从激动到上天到激动得想死的跌宕心情,从《大悲咒》的氛围里一路“啊”到了《釜山行》的片场。



这种真·魔音灌耳的朗读方式,“精准”还原了作者大大的意图,不愧是天花板般的存在!


经此一役,我终于也能说出那句经典的霸总台词:


AI朗读,你成功地吸引了西二旗首席霸总(我)的注意!





难道,AI语音除了要在小度、小爱、高德导航上猛刷存在之外,现在还要开始内卷有声小说圈了么?


果然,在这个世界里, AI才是卷王之王。


后来,我看到了番茄小说的回应:



看来这段AI朗读语音BUG背后的程序员大概率是被抓了几个祭天,剩下的兄弟们火速搞了迭代。


真是把我的快乐源泉扼杀在了摇篮里。


(点击查看修复后的AI朗读)


不仅性感的超长气泡音没有了,被送去恶补英语课后,成熟大叔音也成了正宗的、标准的、英国的,伦~敦~音~,一点唐山味儿都没有的那种。





没有了快乐源泉,语音朗读又一次回到了让听众难辨究竟是人还是机器的时代。


好奇如我不禁想问——AI语音朗读做个人有多难呢?


我问了问几个同行,大概就比电脑通过图灵测试要简单一半吧。


他们表示,要让AI朗读同真人朗读一样真假难辨,最基础的是训练AI的发音准确性和韵律自然度上。


在此基础上,还要表达出与文本剧匹配的丰富情感。


至于怎么做到?是对大量语气助词和副语言,如叹息、大笑、哭腔等一系列的精细控制。


尤其是面对现在越来越脑洞大开的网文,AI简直就是一个无辜的孩子,实在无法预料多才多艺的作者们笔下会写出什么样的名场面——


甚至无法预料作者笔下的语言是中文、英文、希腊文甚至精灵文……


所以!语言的壁垒让AI语音朗读BUG总有源源不断的“酷(b)爱(u)乐(g)”出现。




就拿英文读音这事儿来说,这些年我在听书功能里听到的奇葩英语数不胜数,只是有 Chinglish 口音的,已经算是口语水平不错的 AI 了。


还有干脆读不出来的、能读但是读字母的、能读英语读不了日语的、能把英语读得像俄语的......


那场面,就是让我的程序员兄弟听了也会半夜笑醒。


这些语音包,有的一听就是没上过英语课,缺少外语数据训练。


结果一上阵碰上作者拽外语,AI 就运用自己的已有经验,产出了各种奇葩的解决方式。


导致文里一有洋词儿,语音包就开始“八仙过海展奇才”。


(点击音频再次收获快乐)




至于解决方案,自然是让聪明的AI“掌握”一门外语咯。


过了语言这道硬件关,AI要想做个人,还需要音色


常见的 AI 朗读声音,男的像康辉、女的像 siri,如果不是赛博朋克主题文,很难靠这种音色代入剧情。


这些所谓的AI语音朗读让不论男频、女频,还是悬疑、言情,听起来都像NPC在读任务简介。


而且小说里什么最多?对话!


我的另一位冤种兄弟表示,他十年网文,从来不去听AI朗读,为什么?


因为很多作者写文时都会隐去对话中的发言者,不重复太多的“说”、“问”、“道”,靠对话内容让读者明白对话发生的对象。


但经常是 AI 一朗读,平铺直叙、平静如水、一马平川——所有角色都是同一个声音,多听几章什么激烈的宫斗权谋早就没了。


只剩下一个机器人在不知哪朝的宫殿里和你玩单口相声。


网文小说跟影视剧比起来,最大的优势其实在于读者自身的想象力。


脑补,是读小说最爽的事儿。但没有情感的语音,会打断读者大脑施法。


想象一下,兄弟!大男主集满经验、拉足血条、手持上古神器、马上要刀BOSS了。


结果在 AI 朗读的稳定输出下,情绪稳定,像是地图导航,一下就把我从屠仙灭神的异界大陆拽回了西三旗桥,再比博燃的打斗描写都白瞎。






什么?你问我解决方案,这就涉及到如何教会AI理解上下文了(对就是你九年义务教育学的那个)。


如果让我的程序员兄弟说得专业一点,这叫做:文本转换音频,情感最难还原。


中文是一门不那么简单的语言,到目前为止逼疯了不知多少国际友人。


一大堆“特殊情况特殊记”,同一句话,重音不同,表达的意思千差万别。


就算是土生土长在中华大地上的活人演员,也经常在电视剧里出现台词不行、重音不准的情况。


这就是为什么异地恋一定要打电话或勤视频,打字聊天很容易吵架,因为语气、停顿、重音、语速这些文字以外的东西,也可以传递情感。


但这对 AI 来说就有点超纲,首先要能够理解文本含义,区分出不同的角色和情绪。


加上对情绪和语气、停顿、重音间的逻辑判断,才能呈现出一个“像人”的 AI 语音。





就拿最难表达的“笑”来举例,同样是笑,不同的笑法,传递的信息也不一样。


就像大男主手刃仇敌后的笑,和霸道总裁们带着三分凉薄四分讥讽的笑,能一样么?!


为了实现这种区别,AI语音必须要进行十分细致的精细化建模。


比如出了BUG的番茄就曾公开过,他们为笑声准备了多达7种细致的声音模型,适用于不同情境下的不同语意表达。


AI在开始朗读前要自己先预习一遍,通读全文后结合上下文的高频关键词,判断笑声的情绪,再从狂炫酷霸拽炸天的声音库中提取出对应感情的笑声。


这样一来,不论是主角的“哈哈哈”,还是反派的“桀桀桀”,AI都能把它成功还原出来。




这就是让AI语音朗读能够像个人样的精髓啦!




网文小说已经有二十多年的历史,我这一代人可以说是看着网文长大的,它也在跟着我成长。


实不相瞒,从学生时代到成为社畜,从在 mp4 里导 txt 到用智能手机当阅读器,网文承包了我成长过程中相当一部分的青春时光。


什么升级打怪捡宝贝、戒指里面有老头,都是哥年少的珍贵回忆。


在我的头发为互联网行业的发展而脱落前,就早已为了神界仙界的大事小情掉过一拨了。


尽管吐槽了一堆,但在睡前、开车等不方便、没时间读小说的时候,听书,已经成为了我的选择。


虽然有时候睡到一半会被 AI 的朗读 bug 活活笑醒。





谁都知道真人朗读的效果最好,但网文作者普遍比我们搞互联网的还能肝,码出来的文浩如烟海。


每一本书,都可能有自己的读者,想要选择听书的方式来获取内容。


这一点,只有 AI 能够实现。


不断完善技术,不断修补漏洞,尽可能多的把纸面上的情感还原到音频之中,才对得起“大大们”和“太太们”的心血。


遇到bug固然让人头秃、搞笑,但这也是技术成熟的必经之路。




以我多年听读的功力告诉你,目前为止市面上做得最好的平台已经基本上可以做到让人真假难辨。


行业里,番茄小说曾经做过一次测试实验,让人们来分辨听到的究竟是真人还是AI。


实验结果表明,「在盲听的情况下,92%的用户并不能分别出AI语音朗读是合成的还是真人录音」


而我在写这个稿子的时候还查到了这个:《番茄小说概念音色抢鲜听》,从字面意思理解,“概念音色”应该是个未来时。


但从这里展示的几个例子看,AI 对文本的理解、角色的识别,已经很“像个人了”,甚至还有方言……


我点进去试听了一下,别说,还真是那个味儿!






- END -



本文系“西二旗生活指北”原创

转载请标明出处


监制:景岁

脚本:景岁 大孟妮

排版:Ann

微博:西二旗生活指北

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
中国案例 | 孩子们,救救大人吧40岁上清华,健美比赛秀肌肉,这群素人妈妈简直是超人吧!开源朗读者:Brave vs. Google Chrome:哪个浏览器更适合你? | Linux 中国“你就做个人,做个正常人”A股大奇迹日!后市怎么走? 十多家公私募最新解读,已经加仓了!太热了,随便做个饭,随机开个奖能做个普通人,就已经是中等偏上的人生试卷了从《梦华录》到《金瓯缺》,从张学友到郑智化:好想做个武将或侠客焦虑的女人这个夏天 做个「网球女孩」吧你做的蛋糕面包,为啥总是翻车塌成饼?除了露营,想和你做的事还有这 — 么 — 多 —允许自己做个废物​基民注意了:基金公司喊你做这事,不然可能没法买卖基金习近平和普京,谁玩了谁?开源朗读者:马上改用 Firefox 的 5 个理由 | Linux 中国做个真男人助娃大量识字,丝滑自主阅读,这类书是第一名!开源朗读者:我是如何帮助妈妈从 Windows 切换至 Linux 的 | Linux 中国粢饭团 +2菜1汤 = 周末简单午餐“妈妈有了别的孩子,她不爱我了”:看完这篇文章,我劝你做一个合理自私的人开源朗读者:Linux 太难了?你需要知道这 5 点 | Linux 中国砸大几千块买丑手,这届年轻人做个心仪的美甲有多难陈奕迅,做个人吧蚂蚁开源朗读者:在虚拟机中运行 Linux 的十大优点 | Linux 中国开源朗读者:我为什么从 Mac 转到 Linux | Linux 中国晨读|美联储加息的通俗版解读,京东拼多多B站等中概股遭美股预摘牌开源朗读者:开源新手指南 | Linux 中国给南极做个“核磁共振”,看看冰盖下面是什么样的【讲给孩子听的新闻】要不然,我也转型去做个“情感博主”吧【人生百态】- 我所知道人贩子们莫言:中年以后,有个圈子,找点乐子,做个傻子Linux 中国开通播客频道:“开源朗读者”和“硬核观察” | Linux 中国美国各类中小学生数学竞赛知多少?这些功课帮你做好啦!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。