AI朗读，你做个人吧！

职场

2022-05-13 13:05

最近，番茄小说的AI语音朗读因为几条魔性的BUG语音上了热搜。

任何一个人，没看过下面这个视频我都会伤心的，ok？

（点击视频收获今日快乐）

这段视频印证了我一直以来的一个猜想——

所有标榜“自动”的功能背后，都有一个藏着的活人在替机器负重前行。

这世间一定有那么一个人，白天躲在 ATM 机里往外扔钱，晚上在番茄小说里在线给人读故事。

而且读出来的英语还是正宗的天↘津→口↗音↘。

从“SSSSS”和“啊啊啊啊啊”那两段听来，这位神秘相声演员的肺活量也很是不错。

而且还能结合小说上下文，精准表达文本情绪，生动地演绎出了“失去语言组织能力的粉丝”见到“哥哥”时，

从激动到上天到激动得想死的跌宕心情，从《大悲咒》的氛围里一路“啊”到了《釜山行》的片场。

这种真·魔音灌耳的朗读方式，“精准”还原了作者大大的意图，不愧是天花板般的存在！

经此一役，我终于也能说出那句经典的霸总台词：

AI朗读，你成功地吸引了西二旗首席霸总（我）的注意！

难道，AI语音除了要在小度、小爱、高德导航上猛刷存在之外，现在还要开始内卷有声小说圈了么？

果然，在这个世界里， AI才是卷王之王。

后来，我看到了番茄小说的回应：

看来这段AI朗读语音BUG背后的程序员大概率是被抓了几个祭天，剩下的兄弟们火速搞了迭代。

真是把我的快乐源泉扼杀在了摇篮里。

（点击查看修复后的AI朗读）

不仅性感的超长气泡音没有了，被送去恶补英语课后，成熟大叔音也成了正宗的、标准的、英国的，伦~敦~音~，一点唐山味儿都没有的那种。

没有了快乐源泉，语音朗读又一次回到了让听众难辨究竟是人还是机器的时代。

好奇如我不禁想问——AI语音朗读做个人有多难呢？

我问了问几个同行，大概就比电脑通过图灵测试要简单一半吧。

他们表示，要让AI朗读同真人朗读一样真假难辨，最基础的是训练AI的发音准确性和韵律自然度上。

在此基础上，还要表达出与文本剧匹配的丰富情感。

至于怎么做到？是对大量语气助词和副语言，如叹息、大笑、哭腔等一系列的精细控制。

尤其是面对现在越来越脑洞大开的网文，AI简直就是一个无辜的孩子，实在无法预料多才多艺的作者们笔下会写出什么样的名场面——

甚至无法预料作者笔下的语言是中文、英文、希腊文甚至精灵文……

所以！语言的壁垒让AI语音朗读BUG总有源源不断的“酷（b）爱（u）乐（g）”出现。

就拿英文读音这事儿来说，这些年我在听书功能里听到的奇葩英语数不胜数，只是有 Chinglish 口音的，已经算是口语水平不错的 AI 了。

还有干脆读不出来的、能读但是读字母的、能读英语读不了日语的、能把英语读得像俄语的......

那场面，就是让我的程序员兄弟听了也会半夜笑醒。

这些语音包，有的一听就是没上过英语课，缺少外语数据训练。

结果一上阵碰上作者拽外语，AI 就运用自己的已有经验，产出了各种奇葩的解决方式。

导致文里一有洋词儿，语音包就开始“八仙过海展奇才”。

（点击音频再次收获快乐）

至于解决方案，自然是让聪明的AI“掌握”一门外语咯。

过了语言这道硬件关，AI要想做个人，还需要音色。

常见的 AI 朗读声音，男的像康辉、女的像 siri，如果不是赛博朋克主题文，很难靠这种音色代入剧情。

这些所谓的AI语音朗读让不论男频、女频，还是悬疑、言情，听起来都像NPC在读任务简介。

而且小说里什么最多？对话！

我的另一位冤种兄弟表示，他十年网文，从来不去听AI朗读，为什么？

因为很多作者写文时都会隐去对话中的发言者，不重复太多的“说”、“问”、“道”，靠对话内容让读者明白对话发生的对象。

但经常是 AI 一朗读，平铺直叙、平静如水、一马平川——所有角色都是同一个声音，多听几章什么激烈的宫斗权谋早就没了。

只剩下一个机器人在不知哪朝的宫殿里和你玩单口相声。

网文小说跟影视剧比起来，最大的优势其实在于读者自身的想象力。

脑补，是读小说最爽的事儿。但没有情感的语音，会打断读者大脑施法。

想象一下，兄弟！大男主集满经验、拉足血条、手持上古神器、马上要刀BOSS了。

结果在 AI 朗读的稳定输出下，情绪稳定，像是地图导航，一下就把我从屠仙灭神的异界大陆拽回了西三旗桥，再比博燃的打斗描写都白瞎。

什么？你问我解决方案，这就涉及到如何教会AI理解上下文了（对就是你九年义务教育学的那个）。

如果让我的程序员兄弟说得专业一点，这叫做：文本转换音频，情感最难还原。

中文是一门不那么简单的语言，到目前为止逼疯了不知多少国际友人。

一大堆“特殊情况特殊记”，同一句话，重音不同，表达的意思千差万别。

就算是土生土长在中华大地上的活人演员，也经常在电视剧里出现台词不行、重音不准的情况。

这就是为什么异地恋一定要打电话或勤视频，打字聊天很容易吵架，因为语气、停顿、重音、语速这些文字以外的东西，也可以传递情感。

但这对 AI 来说就有点超纲，首先要能够理解文本含义，区分出不同的角色和情绪。

加上对情绪和语气、停顿、重音间的逻辑判断，才能呈现出一个“像人”的 AI 语音。

就拿最难表达的“笑”来举例，同样是笑，不同的笑法，传递的信息也不一样。

就像大男主手刃仇敌后的笑，和霸道总裁们带着三分凉薄四分讥讽的笑，能一样么？！

为了实现这种区别，AI语音必须要进行十分细致的精细化建模。

比如出了BUG的番茄就曾公开过，他们为笑声准备了多达7种细致的声音模型，适用于不同情境下的不同语意表达。

AI在开始朗读前要自己先预习一遍，通读全文后结合上下文的高频关键词，判断笑声的情绪，再从狂炫酷霸拽炸天的声音库中提取出对应感情的笑声。

这样一来，不论是主角的“哈哈哈”，还是反派的“桀桀桀”，AI都能把它成功还原出来。

这就是让AI语音朗读能够像个人样的精髓啦！

网文小说已经有二十多年的历史，我这一代人可以说是看着网文长大的，它也在跟着我成长。

实不相瞒，从学生时代到成为社畜，从在 mp4 里导 txt 到用智能手机当阅读器，网文承包了我成长过程中相当一部分的青春时光。

什么升级打怪捡宝贝、戒指里面有老头，都是哥年少的珍贵回忆。

在我的头发为互联网行业的发展而脱落前，就早已为了神界仙界的大事小情掉过一拨了。

尽管吐槽了一堆，但在睡前、开车等不方便、没时间读小说的时候，听书，已经成为了我的选择。

虽然有时候睡到一半会被 AI 的朗读 bug 活活笑醒。

谁都知道真人朗读的效果最好，但网文作者普遍比我们搞互联网的还能肝，码出来的文浩如烟海。

每一本书，都可能有自己的读者，想要选择听书的方式来获取内容。

这一点，只有 AI 能够实现。

不断完善技术，不断修补漏洞，尽可能多的把纸面上的情感还原到音频之中，才对得起“大大们”和“太太们”的心血。

遇到bug固然让人头秃、搞笑，但这也是技术成熟的必经之路。

以我多年听读的功力告诉你，目前为止市面上做得最好的平台已经基本上可以做到让人真假难辨。

行业里，番茄小说曾经做过一次测试实验，让人们来分辨听到的究竟是真人还是AI。

实验结果表明，「在盲听的情况下，92%的用户并不能分别出AI语音朗读是合成的还是真人录音」。

而我在写这个稿子的时候还查到了这个：《番茄小说概念音色抢鲜听》，从字面意思理解，“概念音色”应该是个未来时。

但从这里展示的几个例子看，AI 对文本的理解、角色的识别，已经很“像个人了”，甚至还有方言……

我点进去试听了一下，别说，还真是那个味儿！

- END -

本文系“西二旗生活指北”原创

转载请标明出处

监制：景岁

脚本：景岁大孟妮

排版：Ann

微博：西二旗生活指北

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章