AI声音克隆又进化了,已开源!
大家好,我是 Jack。
一觉醒来,AI 语音合成技术又进化了,只需要上传 10 秒的音频,AI 就能完美模仿你的声音。
这是原声:
这是克隆的声音:
你能听出来区别吗?
甚至 AI 还能模仿抑扬顿挫的韵律,这是原声:
这是韵律:
这是模仿韵律克隆的声音:
Mega-TTS 2 是今年 7 月份发布的最新论文:
不过遗憾的是,这个算法还没开源。那目前已经开源的 VITS 技术能做到什么程度呢?
新发布的这期视频,为你揭晓答案:
https://www.bilibili.com/video/BV1K94y1k7Bw/
我训练一个自己的声音模型,可以根据输入文本,生成对应的合成音。
至于效果,大家看看视频感受一下就知道了。
一键训练启动包,我也提供给了大家,无需自己配置环境,拿来即用。大家可以使用我二次开发的 webui 训练声音模型,简单写了几百行代码,这是部分内容:
def train_btn(dataset_path, dataset_name, continue_train, max_epochs, whisper_model_size, batch_size):
output_log = ""
lang2token = {
'zh': "[ZH]",
'ja': "[JA]",
}
if not torch.cuda.is_available():
yield "抱歉无法训练,未检测到GPU"
if not os.path.exists(dataset_path):
yield "{} 输入错误,目录不存在,请检查。".format(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))
else:
wav_names = os.listdir(dataset_path)
for wav_name in wav_names:
if wav_name[-4:] != ".wav":
return "{} 音频文件必须是wav格式的,该目录下存在非wav后缀的文件,请检查。".format(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))
wav_paths = glob.glob(os.path.join(dataset_path, "*.wav"))
for idx, wav_path in enumerate(wav_paths):
rename_wav_path = os.path.join(dataset_path, "{}_{}.wav.tmp".format(dataset_name, idx + 1))
shutil.move(wav_path, rename_wav_path)
wav_paths = glob.glob(os.path.join(dataset_path, "*.wav.tmp"))
for wav_path in wav_paths:
shutil.move(wav_path, wav_path[:-4])
output_log = "{} 【已完成】音频文件命名修改\n".format(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))
yield output_log
raw_audio_dir = "raw_audio"
denoise_audio_dir = "denoised_audio"
raw_audio_filelist = glob.glob(os.path.join(raw_audio_dir, "*.wav"))
raw_audio_filelist = sorted(raw_audio_filelist, key = lambda x: int(x.split("_")[-1].split(".")[0]))
with open(os.path.join("configs", "finetune_speaker.json"), 'r', encoding = 'utf-8') as f:
hps = json.load(f)
target_sr = hps['data']['sampling_rate']
for file in raw_audio_filelist:
if file.endswith(".wav"):
os.system(f"demucs --two-stems=vocals {file}")
output_log += "{} 【已完成】文件({})音频分离处理\n".format(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()), file.split("\\")[-1])
yield output_log
根据文本生成音频,text to speech,简称 tts,该项技术也是 AI 唱歌那期视频的声色迁移算法 so-vits-svc 和实时变声 rvc 的基础技术。
视频中,一步一步详细介绍了如何训练 vits 模型。
详细的内容,大家看视频吧~
https://www.bilibili.com/video/BV1K94y1k7Bw/
教程制作不易,在此求个免费的赞啦!!!
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章