Redian新闻
>
AI声音克隆又进化了,已开源!

AI声音克隆又进化了,已开源!

科技

大家好,我是 Jack。

一觉醒来,AI 语音合成技术又进化了,只需要上传 10 秒的音频,AI 就能完美模仿你的声音。

这是原声:

这是克隆的声音:

你能听出来区别吗?

甚至 AI 还能模仿抑扬顿挫的韵律,这是原声:

这是韵律:

这是模仿韵律克隆的声音:

Mega-TTS 2 是今年 7 月份发布的最新论文:

不过遗憾的是,这个算法还没开源。那目前已经开源的 VITS 技术能做到什么程度呢?

新发布的这期视频,为你揭晓答案:

https://www.bilibili.com/video/BV1K94y1k7Bw/

我训练一个自己的声音模型,可以根据输入文本,生成对应的合成音。

至于效果,大家看看视频感受一下就知道了。

一键训练启动包,我也提供给了大家,无需自己配置环境,拿来即用。大家可以使用我二次开发的 webui 训练声音模型,简单写了几百行代码,这是部分内容:

def train_btn(dataset_path, dataset_name, continue_train, max_epochs, whisper_model_size, batch_size):
    output_log = ""
    lang2token = {
        'zh'"[ZH]",
        'ja'"[JA]",
    }
    if not torch.cuda.is_available():
        yield "抱歉无法训练,未检测到GPU"
    if not os.path.exists(dataset_path):
        yield "{} 输入错误,目录不存在,请检查。".format(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))
    else:
        wav_names = os.listdir(dataset_path)
        for wav_name in wav_names:
            if wav_name[-4:] != ".wav":
                return "{} 音频文件必须是wav格式的,该目录下存在非wav后缀的文件,请检查。".format(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))
        wav_paths = glob.glob(os.path.join(dataset_path, "*.wav"))
        for idx, wav_path in enumerate(wav_paths):
            rename_wav_path = os.path.join(dataset_path, "{}_{}.wav.tmp".format(dataset_name, idx + 1))
            shutil.move(wav_path, rename_wav_path)
        wav_paths = glob.glob(os.path.join(dataset_path, "*.wav.tmp"))
        for wav_path in wav_paths:
            shutil.move(wav_path, wav_path[:-4])
        output_log = "{} 【已完成】音频文件命名修改\n".format(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))
        yield output_log


        raw_audio_dir = "raw_audio"
        denoise_audio_dir = "denoised_audio"
        raw_audio_filelist = glob.glob(os.path.join(raw_audio_dir, "*.wav"))
        raw_audio_filelist = sorted(raw_audio_filelist, key = lambda x: int(x.split("_")[-1].split(".")[0]))

        with open(os.path.join("configs""finetune_speaker.json"), 'r', encoding = 'utf-8') as f:
            hps = json.load(f)
        target_sr = hps['data']['sampling_rate']
        for file in raw_audio_filelist:
            if file.endswith(".wav"):
                os.system(f"demucs --two-stems=vocals {file}")
                output_log += "{} 【已完成】文件({})音频分离处理\n".format(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()), file.split("\\")[-1])
                yield output_log

根据文本生成音频,text to speech,简称 tts,该项技术也是 AI 唱歌那期视频的声色迁移算法 so-vits-svc 和实时变声 rvc 的基础技术。

视频中,一步一步详细介绍了如何训练 vits 模型。

详细的内容,大家看视频吧~

https://www.bilibili.com/video/BV1K94y1k7Bw/

教程制作不易,在此求个免费的赞啦!!!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
腾讯低代码神器开源!拖拽开发,爽的飞起~重磅!清华ChatGLM2开源!中文榜居首,碾压GPT-4!Augie —— 利用自己声音的AI克隆制作视频OpenAI收购“我的世界开源版”,GPT-5要在虚拟世界中进化了?肝就完了!518 页完整版 PDF 开源!美国宪法是为了制约民主选举结果火星乐园第三部《灰界》第二十五章 黑丝之谜让营销踩上风火轮的生成式AI,在这场AI创新大赛中又进化了为了变成你喜欢的样子,西瓜进化了4000年阿里大模型又开源!能读图会识物,基于通义千问7B打造,可商用AI 又进化了,羊驼再度进化成鲸鱼!深入了解新冠病毒进化系列之四:新冠病毒进化的首要推动力——传播性(transmissibility)迪拜喷泉灯光秀落地百余场景、扛过双11,蚂蚁TuGraph流式图计算引擎正式开源!Meta推出“AI翻译官”!能翻译和转录近百种语言,已开源现在的孩子,不是叛逆,不是不听话,而是进化了LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源视频版Midjourney又进化了:一句话生成视频,谷歌注资,网友大呼好莱坞已死!吸血的蚊子进化了?落地百余场景、扛过双 11,蚂蚁 TuGraph 流式图计算引擎正式开源!逃得过死亡,逃不过丈母娘比快更快,极速版 IDE 框架 CodeBlitz 开源!中国医疗队在坦桑尼亚记实 (五)最强“GPT-4平替”开源!Meta推出免费商用的Llama 2,联手微软掀全球AI狂欢度小满“轩辕70B”金融大模型开源!登顶两大权威测评榜单,所有用户均可下载诈骗套路大赏!最新AI智能诈骗,克隆声音真假难辨:安省男子被骗$8000!AI版Office定价昂贵,微软“劈腿”Meta推大模型,免费且开源!清华第二代60亿参数ChatGLM2开源!中文榜居首,碾压GPT-4,推理提速42%AI又进化了,一键生成PPT太爽了!硬核观察 #1046 红帽认为 RHEL 克隆品是对开源公司的“真正威胁”定眼一看!人类这是进化了~8大道华人发出怒吼!“联邦政府必须拿出资金,也必须让我们的声音更大,如此我们的声音才能被听到,我们也必须继续这场战斗!”智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手AI进化太快了,新项目已开源!字节 | 大模型BuboGPT:引入视觉定位,实现细粒度多模态,已开源
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。