霉霉说地道中文的视频火了，背后这个 AI 工具强大到可怕

科技

2023-10-28 04:10

作为国际巨星，「霉霉」在中国有不少粉丝，粉丝都知道「霉霉」不会讲篇幅很长的中文，想听她说中文那像盼过年似的。

让「霉霉」随时讲中文？AI 帮「霉粉」们实现了。

下面这个视频里的「霉霉」用自己的音色和语气，自然流畅地用中文接受采访，就连口型都是中文口型。

有「霉粉」表示看完这个视频一时分不清真假。

翻译和配音演员要失业了

实际上，这段视频原本是「霉霉」全程使用英文参与一个访谈节目。她之所以可以讲出自然流畅的中文，是因为一款名为 HeyGen 的一键翻译视频 AI。

这个功能可以一键把视频的语音内容翻译为其它语言，同时保持口型完美符合相应语言的发音。

目前，HeyGen 网站允许用户上传不超过 5 分钟、大小不超过 500MB 的视频文件生成翻译视频，支持 mp4、quicktime 和 webm 格式。

HeyGen 免费试用申请🔗 https://app.heygen.com/login?sid=no\_sid

HeyGen 网站

AI 先获取了「霉霉」说的英文内容翻译成中文，再模拟「霉霉」的音色，接着替换掉「霉霉」的口型，最后合成一个以假乱真的视频，实现了让「霉霉」说中文的效果。

AI 霉霉的视频创作者是 Gorden Sun，据他说，生成 AI 霉霉的视频仅用了 40 秒。

以前，我们想听一个外国人说中文，需要内容校对，专人翻译和选人配音三个步骤，最后得到的是有点儿违和的翻译腔语音，体验并不好。

那么不同母语的人说任意其它语言，可以吗？

当然可以。

只要你想，你可以用 HeyGen 的一键翻译视频功能让苹果 CEO 库克讲印地语，音色、口型和抑扬顿挫难辨真假，几乎让人觉得库克本人就会讲印地语。

AI 一出马，苹果公司的印度身份藏不住了

这项技术的商业前景想像力充足，可用于译制国外大片和影音资料、转播新闻、直播发布会和直播带货等等。

AI 语音大爆发

今年 1 月份，微软发布了一款人工智能工具 VALL-E，具有上下文学习的能力，只需一个人 3 秒的特定音频作基础，即可模仿这个人的声音开始长篇大论，复制出这个人的音色、环境混响、情绪和语气。

VALL-E

到了今年秋天，AI 语音更进一步，iPhone上的「个人声音」功能支持用户把 iPhone 放在约 1.5 米远的地方录制约一个小时的音频，接下来用户就可以使用「另一个自己的声音」和他人交流。

可以预见，未来苹果生态中许多功能会和「个人声音」功能产生联动，例如 Vision Pro 的虚拟形象等。

国内企业也在发力 AI 语音功能，百度地图推出了 AI 向导，由文心一言提供大模型服务，集行程助理、本地向导、聚会达人、办事专家、城市导游、专属陪练和专属向导为一体，已经大大超越了传统语音导航的体验。

网易推出了 Hi Echo 英语口语教练小程序，口语水平极高，知识面极广，发音无限拟真，交流几乎无场地和时间限制，像人类一样有智慧，还不需要高额学费，让曾从事 K12 教育行业的我为英语教师捏了一把汗。

左：百度地图 AI 向导。右：网易 Hi Echo 英语口语教练

AI 声音有了「灵魂」

谈到 AI，绕不过去的就是 ChatGPT。

前不久，ChatGPT 上线了语音功能，和以前一些 AI 机械声不同，它的声音拟真到了令人毛骨悚然的地步。

图片来自：莱森LysonOber（bilibili）

它说话时，会加上一些组织语言的「emm」再说话，出现短暂停顿和轻微的呼吸声，更会结合语境进行语气处理，让语言有自然流露的情感和态度立场。

它甚至有口音，有口齿音，有卷平舌和鼻音边音瑕疵，有重音，会调节不同字词句的语速。

你还可以告诉它，「假设你是一个渣男，用渣男的语气和方式哄正在生气的女朋友开心」。

前一秒还是「正经人」的 AI 立即换成渣男气泡音，叫女朋友宝贝，哄女朋友喝水，还给女朋友画饼带她出去吃好吃的。

只要我们给 AI 一个人设，它接下来的应答都会匹配合适的声音，真实感几乎以假乱真。

它不是「花瓶」

如果 AI 止步于此，倒也不会令人多么惊奇，如果它有了智慧呢？

对于不少人来说，在职场重大场合如何敬酒讲话是个大难题，不过这完全难不倒 AI。

有人测试过，让 AI 在有 5 个领导的场合下敬酒说话，AI 是这样回答的：

「王总，您的远见卓识引领着我们不断前进，李副总，您的勤奋和聪明才智是我们的宝贵财富，张经理，您的创新和决策能力推动着团队的进步，刘主任，您的细心和责任感保障着我们的品质，陈处长，您的领导和支持是我们取得成功的关键，再座的各位领导，感谢你们的辛勤付出和无私奉献，为了我们共同的未来干杯。」

这番回答通过细微地用词不同暗示了各位领导的地位，也点明了各位领导的团队贡献，除非有领导故意穿小鞋，否则挑不出什么大毛病。

即使拟人声音、角色扮演和智慧应答融为一体，可是还是有人会说和真人还有差距，往往我们忽略了一点：

在评判 AI 和真人差距时，我们总会以能想象的人类最高水准作为及格线去评判 AI，可具体到现实世界的一个个普通人，我们真能在仅仅几秒的思考后，每次都情绪稳定、字正腔圆、语音声调恰当、表意近乎完美地去说出一番话吗？

扪心自问，毫无准备的情况下至少我做不到，至于正在看这篇文章的你，内心应该有个答案。

客观来说，AI 在某些方面已超过绝大多数普通人类，只是我们不承认而已。

在享受 AI 语音为我们带来便利的同时，不少人也开始担心一些问题。

真假难辨

几年前为防范诈骗，很多人在收到文字转账或借款消息时，往往会打一个电话确定对方是不是本人，现在这个方法渐渐失灵了。

随着算力和算法的进步，现在仅需秒级音频即可无限拟真，复制一个人的声音这件事变得越来越简单，衍生了诸多问题。

今年 10月，TikTok 上「AI 奥巴马」用着奥巴马的人类思维方式、脸和声音，驳斥着有关他的阴谋论。

2017 年百度 AI 曾生成的奥巴马. 图片来自：百度 AI（微博）

这个 AI 奥巴马的声音是使用一款名为 ElevenLabs 公司开发的工具生成的，该公司去年年底推出了免费的人工智能文本转语音工具，能够在几秒钟内生成逼真的音频。

颇具黑色幽默的是，ElevenLabs 公司还有一款 AI 检测工具，能够识别 AI 内容，似乎和 PC 时代的杀毒软件有异曲同工之妙。

ElevenLabs 网站

《纽约时报》进行了一番测试，ElevenLabs 的 AI 检测工具可以成功识别 TikTok 帐户中的 AI 音频，但如果 AI 音频中添加了音乐或者音频文件有一定程度失真时，检测就失败了。

由此可见检测工具道高一尺，AI 技高一丈。

在日益复杂的互联网生态中，类似这样由 AI 生成的视频内容越来越多，拟真度也越来越高。

AI 应答、AI 人脸和 AI 图像犹如女娲一样捏出了「新人类」，现在出现的极度成熟的 AI 声音则给「新人类」注入灵魂。

华语 AI 顶流孙燕姿

一方面，我们享受着 AI 孙燕姿、AI 霉霉、AI 向导、AI 英语教师等带来的便利。另一方面，如何防范 AI 使用者扭曲内容本意或造假内容变得越来越困难。

利弊几何，不如请「霉粉」们来说一说，你们是想要一个说着英文的真人「霉霉」，还是想要一个说着中文的「AI 霉霉」？

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章