成立不足两年，融资8000 万美元，晋升独角兽行列，这款 AI 语音克隆应用到底有多强？

2024-01-26 02:01

又一个只有很少的员工，创造出 10 亿美元独角兽企业的故事诞生了。

这两天，ElevenLabs 紧随着自己融资 8000 万的新闻，在 X 上接连发了一则招聘启事和一条宣传片，以将自己的团队规模，从 40 人扩大到 100 人。

原版视频是英语，我们用 ElevenLabs 做了一个中文版，全程耗时 5 分钟：

产品本身不是什么新出的产品，ElevenLabs成立于 2022 年，像是文字转语音和语音克隆功能也是 2023 年出的。这次伴随融资新闻和宣传片的传播，让这家公司彻底被大众所熟知。

用ElevenLabs做了个李云龙的 Demo，大家感受下：

“You're the fucking political commissar, with eyes like a cow's balls,

who the fuck snitched on me?”

产品页面目前看起来简洁且清晰，全都集中在左上角：

开头的视频号我们就是直接用视频多语言翻译（Dubbing）这个功能做的。

具体步骤比把大象装冰箱都要简单：

1、粘贴你想翻译的视频的链接（甚至都不用下载）；

2、选择源语言和目标语言，并点击 Create。

然后……等待大概 3 分钟左右，Done。

这时候生成的视频，就已经可以使用了，但也可以进一步编辑。

在编辑页面可以重新选择说话人的声音，通过多条音轨，每句话是由谁说的都可以自己设定。

能通过设置三个选项对声音进行微调：

1、Stability 代表稳定性，这个参数的高低，会影响语音语调的变化。过高会有些死板，过低会不够稳定。

2、Similarity 代表着相似程度，越高就越像源声音，但过高也会出现一些莫名其妙、并不存在的声音。

3、Style 代表语音的风格，与上传的音频相比，数值越高风格越夸张。设置成 0 会提高生成速度。

在这个产品里，只有这三个参数是通过数据调节。

目前体验下来，这款产品在中文上的表现，基本上跟现实里外国人说中文的感觉一模一样，这种差异在赛博世界也难以避免。

而且还会有一些非常诡异的 BUG，比如说驴（lv）会读成路（lu）。

不过，刚才我们使用的语音克隆，都是即时语音克隆模式，当付费到Creator级别（每月 22 美元）以后，可以解锁专业声音克隆模式（Professional Voice Cloning）。

在这种模式下，光看这些需求，一股名为“专业”的感觉就扑面而来：

1、提交声音后需要等待 4 周才能使用克隆的声音

2、尽量使用专业录音设备进行录制；

3、录音时建议使用防喷罩；

4、在经过声学处理的房间里进行录制；

5、需要录制至少 30 分钟，最好 3 个小时的声音素材等。

Google 网页翻译

我提交了 30 分钟的我自己的声音素材，当然也并没有他说的哪些专业设备，就是想看看 4 周以后看看会有什么更厉害的效果。到时候再给大家汇报。

目前ElevenLabs支持 29 种语言，除了中文都还可以。国内目前也已经有了一些类似的产品，但还没听说有哪一款特别爆火。如果有哪些很好用，也希望各位推荐安利一波。

先不说任何商用的场景，就只说整活上，这种克隆语音的加入可以说能完全改变 B 站鬼畜区的格局了。简单做了个小鬼畜：

欢迎加入这个星球，见证硅基时代发展↓

点个“在看”，再走吧👀

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq