微软MIT出品,AI自动朗读古腾堡6万本电子书,还能用自己声音定制化
新智元报道
新智元报道
【新智元导读】微软MIT等机构用AI将古腾堡计划的电子书转录为语音书,免费向公众开放,还公开了制作流程。而且用户还可以用自己的声音来进行配音。
世界上最大的电子书库正被AI转录为有声书,免费向所有人开放!
这个项目由微软,谷歌和古腾堡计划共同发起,有望将古腾堡计划包含的接近6万本电子书库,利用AI文本转语音技术,全部转化为有声读物。
任何用户都可以通过以下5个平台,免费获取到生成的语音书。
https://podcasts.apple.com/au/podcast/the-project-gutenberg-open-audiobook-collection/id1680867884
古腾堡计划是全球最大的开源电子书库,目前书库中包含超过70000本已经进入共有领域的电子书。
古腾堡计划于1971年发起。当时Hart是美國伊利诺伊大学的学生,他获得了学校材料研究实验室中Xerox Sigma V大型计算机的使用权限。
这台计算机是阿帕网(全球互联网的鼻祖)的15个节点之一。Hart认为有朝一日大部分民众会接触计算机,因而他决定将书籍电子化,供人们自由阅读。
很长时间之内,古腾堡计划的电子书是由志愿者进行手工录入而成。
其中主要是西方文化传统中的文学作品,比如小说、诗歌、小故事、戏剧,除此之外,书库也收录食谱、书目以及期刊。另外还包括一些非文本内容,比如音频文件、乐谱文件等。
收录中主要是英文作品,但也有相当数量的德语、法语、意大利语、西班牙语、荷兰语、芬兰语以及中文等语言的著作。
大部分的书以纯文本的格式发布,主要使用ASCII字符集,而中文书籍几乎全部都是以Big5(大五码)纯文本格式发布。志愿者提交时也可能会采用其他格式,最常见的是HTML。
而将电子书转录为有声书的计划,则是通过微软的文本转语音AI完成的。为此,微软和谷歌的研究人员还专门写了一篇论文介绍转化的整个过程。
https://arxiv.org/pdf/2309.03926.pdf
在这个项目中,研究人员结合了机器学习、自动文本选择(哪些文本可以大声朗读,哪些不可以)和自然语音合成系统的突破。
首先,研究人员开发了一种算法,可以理解基于HTML的电子书的结构,并区分主要文本和不重要的元素,如脚注、页码或表格。
这个解析之后,是文本到语音的实际转换(文本到语音,TTS)的过程。在这个项目中,使用了谷歌的WaveNet, 英伟达的Tacotron和微软的FastSpeech,来产生自然的和人类相似的语音输出。
此外,为了研究团队开发了一个能够区分叙述者和对话的系统,甚至可以区分单个角色和情绪,并相应地调整生成的声音。
团队目前为止上线了5000多本有声读物,总计约三万五千小时的有声内容。
而且团队还提供了一个演示应用程序,允许用户创建自己的有声读物。用户只需要几秒钟的示例音频,就可以用自己的声音大声朗读集合中的书籍。
主要技术细节
自动化处理HTML格式的电子书
但是由于HTML格式构成非常多样化,解析这些文件是一个非常复杂的工作。
而且古腾堡计划并未使用标准化的HTML文件,电子书包含大量与音频阅读器无关的文本,包括序言、目录、表格、插图、文本页码、脚注、抄写员笔记和其他奇怪的内容。
为了创建高质量的电子书数据集,研究团队首先结合使用自动化(HTML组件的TF-IDF统计)和手工制作的 HTML功能两种方法来对每本电子书的HTML文档对象模型 (DOM) 树进行特征化处理。
这让研究团队对古腾堡计划HTML文件的整个集合进行聚类和可视化,并使得研究团队找到几大组通用结构的文件。
研究团队使用这些HTML文件集群构建了一个基于规则的HTML标准化工具,将最大的电子书类别转换为可以自动解析的标准表征格式。
这种解析过程使研究团队能够创建一个可以快速、确定地解析大量书籍的系统。使得研究团队能将注意力集中在读取后可以生成高质量录音的文件任务上来。
下图显示了该聚类过程的结果,表明古腾堡计划收藏中自然出现了几个结构相似的电子书集群。完成解析之后,研究团队可以提取纯文本流以提供给文本转语音算法。
生成高质量语音
对于大部分书籍,研究团队使用清晰、中性的神经文本到语音的声音。但在研究团队的演示程序中,研究团队还为用户提供自定义语音、速度、音调和语调的能力。
为了克隆用户的声音,研究团队利用零样本学习的文本到语音方法,高效地从有限的录音中传输语音特征。这就使得用户可以使用很少量的录音资料,就能快速创建一本用他们自己的声音朗读出来的有声书。
为了创建情感化的文本朗读,研究团队使用了一个自动的朗读者情感推断系统,根据上下文动态地改变朗读声音和语调。
这使得有多个角色和情感对话的段落表现的效果更加生动。
研究团队首先将文本分段为叙述和对话,并确定每个对话中的说话角色。
然后,研究团队使用自监督的方式预测每个对话的情感基调。最后,使用多风格和基于上下文的文本到语音模型,为叙述者和角色对话分配不同的声音和情感。
Demo
用户可以从研究团队的5000本书籍中选择一本书。接着,他们可以从大量现有的中性和情感感知语音中选择他们想要用于录制的语音,或者使用他们自己的语音来录制。
如果用户想用自己的声音创建定制的有声书,只需要说几句话,就能快速训练一个定制的语音配置文件。
用户将能够实时听到他们有声书的预览,并在提交一个读整本书的任务之前添加一个可选的定制题词。
一旦流程完成,研究团队会通过电子邮件发送一个链接给用户,让他们下载他们定制的有声书。
微信扫码关注该文公众号作者