又一个只有很少的员工,创造出 10 亿美元独角兽企业的故事诞生了。这两天,ElevenLabs 紧随着自己融资 8000 万的新闻,在 X 上接连发了一则招聘启事和一条宣传片,以将自己的团队规模,从 40 人扩大到 100 人。原版视频是英语,我们用 ElevenLabs 做了一个中文版,全程耗时 5 分钟:产品本身不是什么新出的产品,ElevenLabs成立于 2022 年,像是文字转语音和语音克隆功能也是 2023 年出的。这次伴随融资新闻和宣传片的传播,让这家公司彻底被大众所熟知。用ElevenLabs做了个李云龙的 Demo,大家感受下:“You're the fucking political commissar, with eyes like a cow's balls,
who the fuck snitched on me?”开头的视频号我们就是直接用视频多语言翻译(Dubbing)这个功能做的。1、粘贴你想翻译的视频的链接(甚至都不用下载);
这时候生成的视频,就已经可以使用了,但也可以进一步编辑。在编辑页面可以重新选择说话人的声音,通过多条音轨,每句话是由谁说的都可以自己设定。1、Stability 代表稳定性,这个参数的高低,会影响语音语调的变化。过高会有些死板,过低会不够稳定。
2、Similarity 代表着相似程度,越高就越像源声音,但过高也会出现一些莫名其妙、并不存在的声音。
3、Style 代表语音的风格,与上传的音频相比,数值越高风格越夸张。设置成 0 会提高生成速度。目前体验下来,这款产品在中文上的表现,基本上跟现实里外国人说中文的感觉一模一样,这种差异在赛博世界也难以避免。而且还会有一些非常诡异的 BUG,比如说驴(lv)会读成路(lu)。不过,刚才我们使用的语音克隆,都是即时语音克隆模式,当付费到Creator级别(每月 22 美元)以后,可以解锁专业声音克隆模式(Professional Voice Cloning)。在这种模式下,光看这些需求,一股名为“专业”的感觉就扑面而来:1、 提交声音后需要等待 4 周才能使用克隆的声音
2、尽量使用专业录音设备进行录制;
3、录音时建议使用防喷罩;
4、在经过声学处理的房间里进行录制;
5、需要录制至少 30 分钟,最好 3 个小时的声音素材等。
我提交了 30 分钟的我自己的声音素材,当然也并没有他说的哪些专业设备,就是想看看 4 周以后看看会有什么更厉害的效果。到时候再给大家汇报。目前ElevenLabs支持 29 种语言,除了中文都还可以。国内目前也已经有了一些类似的产品,但还没听说有哪一款特别爆火。如果有哪些很好用,也希望各位推荐安利一波。先不说任何商用的场景,就只说整活上,这种克隆语音的加入可以说能完全改变 B 站鬼畜区的格局了。简单做了个小鬼畜:
点个“在看”,再走吧👀