AI声音克隆又进化了，已开源！

科技

2023-08-11 08:08

大家好，我是 Jack。

一觉醒来，AI 语音合成技术又进化了，只需要上传 10 秒的音频，AI 就能完美模仿你的声音。

这是原声：

这是克隆的声音：

你能听出来区别吗？

甚至 AI 还能模仿抑扬顿挫的韵律，这是原声：

这是韵律：

这是模仿韵律克隆的声音:

Mega-TTS 2 是今年 7 月份发布的最新论文：

不过遗憾的是，这个算法还没开源。那目前已经开源的 VITS 技术能做到什么程度呢？

新发布的这期视频，为你揭晓答案：

https://www.bilibili.com/video/BV1K94y1k7Bw/

我训练一个自己的声音模型，可以根据输入文本，生成对应的合成音。

至于效果，大家看看视频感受一下就知道了。

一键训练启动包，我也提供给了大家，无需自己配置环境，拿来即用。大家可以使用我二次开发的 webui 训练声音模型，简单写了几百行代码，这是部分内容：

def train_btn(dataset_path, dataset_name, continue_train, max_epochs, whisper_model_size, batch_size):
    output_log = ""
    lang2token = {
        'zh': "[ZH]",
        'ja': "[JA]",
    }
    if not torch.cuda.is_available():
        yield "抱歉无法训练，未检测到GPU"
    if not os.path.exists(dataset_path):
        yield "{} 输入错误，目录不存在，请检查。".format(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))
    else:
        wav_names = os.listdir(dataset_path)
        for wav_name in wav_names:
            if wav_name[-4:] != ".wav":
                return "{} 音频文件必须是wav格式的，该目录下存在非wav后缀的文件，请检查。".format(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))
        wav_paths = glob.glob(os.path.join(dataset_path, "*.wav"))
        for idx, wav_path in enumerate(wav_paths):
            rename_wav_path = os.path.join(dataset_path, "{}_{}.wav.tmp".format(dataset_name, idx + 1))
            shutil.move(wav_path, rename_wav_path)
        wav_paths = glob.glob(os.path.join(dataset_path, "*.wav.tmp"))
        for wav_path in wav_paths:
            shutil.move(wav_path, wav_path[:-4])
        output_log = "{} 【已完成】音频文件命名修改\n".format(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))
        yield output_log


        raw_audio_dir = "raw_audio"
        denoise_audio_dir = "denoised_audio"
        raw_audio_filelist = glob.glob(os.path.join(raw_audio_dir, "*.wav"))
        raw_audio_filelist = sorted(raw_audio_filelist, key = lambda x: int(x.split("_")[-1].split(".")[0]))

        with open(os.path.join("configs", "finetune_speaker.json"), 'r', encoding = 'utf-8') as f:
            hps = json.load(f)
        target_sr = hps['data']['sampling_rate']
        for file in raw_audio_filelist:
            if file.endswith(".wav"):
                os.system(f"demucs --two-stems=vocals {file}")
                output_log += "{} 【已完成】文件({})音频分离处理\n".format(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()), file.split("\\")[-1])
                yield output_log

根据文本生成音频，text to speech，简称 tts，该项技术也是 AI 唱歌那期视频的声色迁移算法 so-vits-svc 和实时变声 rvc 的基础技术。

视频中，一步一步详细介绍了如何训练 vits 模型。

详细的内容，大家看视频吧～

https://www.bilibili.com/video/BV1K94y1k7Bw/

教程制作不易，在此求个免费的赞啦！！！

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章