Redian新闻
>
微软MIT出品,AI自动朗读古腾堡6万本电子书,还能用自己声音定制化

微软MIT出品,AI自动朗读古腾堡6万本电子书,还能用自己声音定制化

公众号新闻



  新智元报道  

编辑:润
【新智元导读】微软MIT等机构用AI将古腾堡计划的电子书转录为语音书,免费向公众开放,还公开了制作流程。而且用户还可以用自己的声音来进行配音。

世界上最大的电子书库正被AI转录为有声书,免费向所有人开放!

这个项目由微软,谷歌和古腾堡计划共同发起,有望将古腾堡计划包含的接近6万本电子书库,利用AI文本转语音技术,全部转化为有声读物。

任何用户都可以通过以下5个平台,免费获取到生成的语音书。

https://podcasts.apple.com/au/podcast/the-project-gutenberg-open-audiobook-collection/id1680867884

古腾堡计划是全球最大的开源电子书库,目前书库中包含超过70000本已经进入共有领域的电子书。

古腾堡计划于1971年发起。当时Hart是美國伊利诺伊大学的学生,他获得了学校材料研究实验室中Xerox Sigma V大型计算机的使用权限。

这台计算机是阿帕网(全球互联网的鼻祖)的15个节点之一。Hart认为有朝一日大部分民众会接触计算机,因而他决定将书籍电子化,供人们自由阅读。

很长时间之内,古腾堡计划的电子书是由志愿者进行手工录入而成。

其中主要是西方文化传统中的文学作品,比如小说、诗歌、小故事、戏剧,除此之外,书库也收录食谱、书目以及期刊。另外还包括一些非文本内容,比如音频文件、乐谱文件等。

收录中主要是英文作品,但也有相当数量的德语、法语、意大利语、西班牙语、荷兰语、芬兰语以及中文等语言的著作。

大部分的书以纯文本的格式发布,主要使用ASCII字符集,而中文书籍几乎全部都是以Big5(大五码)纯文本格式发布。志愿者提交时也可能会采用其他格式,最常见的是HTML。

而将电子书转录为有声书的计划,则是通过微软的文本转语音AI完成的。为此,微软和谷歌的研究人员还专门写了一篇论文介绍转化的整个过程。

https://arxiv.org/pdf/2309.03926.pdf

在这个项目中,研究人员结合了机器学习、自动文本选择(哪些文本可以大声朗读,哪些不可以)和自然语音合成系统的突破。

首先,研究人员开发了一种算法,可以理解基于HTML的电子书的结构,并区分主要文本和不重要的元素,如脚注、页码或表格。

这个解析之后,是文本到语音的实际转换(文本到语音,TTS)的过程。在这个项目中,使用了谷歌的WaveNet, 英伟达的Tacotron和微软的FastSpeech,来产生自然的和人类相似的语音输出。

此外,为了研究团队开发了一个能够区分叙述者和对话的系统,甚至可以区分单个角色和情绪,并相应地调整生成的声音。

团队目前为止上线了5000多本有声读物,总计约三万五千小时的有声内容。

而且团队还提供了一个演示应用程序,允许用户创建自己的有声读物。用户只需要几秒钟的示例音频,就可以用自己的声音大声朗读集合中的书籍。

主要技术细节

自动化处理HTML格式的电子书

研究团队的一切工作都始于古腾堡计划提供的数千本免费电子书。这些电子书以多种不同的格式呈现出来,团队的工作重点是去自动解析的HTML格式的电子书。

但是由于HTML格式构成非常多样化,解析这些文件是一个非常复杂的工作。

而且古腾堡计划并未使用标准化的HTML文件,电子书包含大量与音频阅读器无关的文本,包括序言、目录、表格、插图、文本页码、脚注、抄写员笔记和其他奇怪的内容。

为了创建高质量的电子书数据集,研究团队首先结合使用自动化(HTML组件的TF-IDF统计)和手工制作的 HTML功能两种方法来对每本电子书的HTML文档对象模型 (DOM) 树进行特征化处理。

这让研究团队对古腾堡计划HTML文件的整个集合进行聚类和可视化,并使得研究团队找到几大组通用结构的文件。

研究团队使用这些HTML文件集群构建了一个基于规则的HTML标准化工具,将最大的电子书类别转换为可以自动解析的标准表征格式。

这种解析过程使研究团队能够创建一个可以快速、确定地解析大量书籍的系统。使得研究团队将注意力集中在读取后可以生成高质量录音的文件任务上来

下图显示了该聚类过程的结果,表明古腾堡计划收藏中自然出现了几个结构相似的电子书集群。完成解析之后,研究团队可以提取纯文本流以提供给文本转语音算法。

生成高质量语音

不同的有声书需要不同的朗读风格来演绎。非小说作品适合使用清晰、中性的声音,而有对话的小说作品则从情感化的朗读中得到更好地诠释。

对于大部分书籍,研究团队使用清晰、中性的神经文本到语音的声音。但在研究团队的演示程序中,研究团队还为用户提供自定义语音、速度、音调和语调的能力。

为了克隆用户的声音,研究团队利用零样本学习的文本到语音方法,高效地从有限的录音中传输语音特征。这就使得用户可以使用很少量的录音资料,就能快速创建一本用他们自己的声音朗读出来的有声书。

为了创建情感化的文本朗读,研究团队使用了一个自动的朗读者情感推断系统,根据上下文动态地改变朗读声音和语调。

这使得有多个角色和情感对话的段落表现的效果更加生动。

研究团队首先将文本分段为叙述和对话,并确定每个对话中的说话角色。

然后,研究团队使用自监督的方式预测每个对话的情感基调。最后,使用多风格和基于上下文的文本到语音模型,为叙述者和角色对话分配不同的声音和情感。

Demo

研究团队计划上线一个Demo应用,允许会议参与者使用研究团队的系统创建他们自己的定制有声书。

用户可以从研究团队的5000本书籍中选择一本书。接着,他们可以从大量现有的中性和情感感知语音中选择他们想要用于录制的语音,或者使用他们自己的语音来录制。

如果用户想用自己的声音创建定制的有声书,只需要说几句话,就能快速训练一个定制的语音配置文件。

用户将能够实时听到他们有声书的预览,并在提交一个读整本书的任务之前添加一个可选的定制题词。

一旦流程完成,研究团队会通过电子邮件发送一个链接给用户,让他们下载他们定制的有声书。

参考资料:
https://marhamilresearch4.blob.core.windows.net/gutenberg-public/Website/index.html#Listen




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《天凉好个秋》&《江南烟雨路》视觉新任务!ReVersion:图像生成中的Relation定制化用声音向老师表达爱!中国教育报喊你朗读那些年老师教过的课文 | 为你而读限时领丨10部儿童必读名著改编电影,一定要陪孩子看看!附音视频和电子书,赶紧带走吧~车云一体化数字孪生再跨步!数据「精准反哺」整车定制化开发双重国籍的退休生活5133 血壮山河之武汉会战 信罗战役 6学习让文字变成声音,教孩子朗读课文的技巧AMD发布AI芯片挑战英伟达,微软Meta表态“捧场”为企业提供定制化的数字解决方案,「熙凰集团」完成B轮融资|36氪首发恭喜客人一家四口成功办理日本电子签!日本电子签证如何办理?【动脉严选新品鉴第35期】吉因加:适合早期肿瘤患者的千元级定制化MRD检测Hugging Face获 2.35亿美元D轮融资 | OpenAI推出定制化微调功能 | 英伟达财报逆天 | 那个男人回归X[资源] 漫画学英语!小白学英语必备《看图学英语》电子书,1-3册+配套音频Augie —— 利用自己声音的AI克隆制作视频收藏!来听最好听的声音朗读最美的中秋诗词[资源] 宝藏词汇搭配书!《keywords for fluency》电子书,初中高三册全适用ReVersion|图像生成中的 Relation 定制化为企业提供定制化的数字解决方案,「熙凰集团」完成B轮融资|早起看早期读古尔纳的小说,就像“贴着玻璃看这个世界发生的事情”用声音向祖国表白!中国教育报喊你朗读课文中的大美中国OMG,6万本科生!在全美规模最大的学校读书是怎样一种体验?吹尽黄沙不见金(七十四):暗示LLaMA都在用的开源数据集惨遭下架:包含近20万本书,对标OpenAI数据集参加AMC8竞赛的同学快来领取!这些网站和电子书,助你拿金奖!他刚在我们去的冰川失踪去世了我们为何要阅读古尔纳的小说​?17 万本盗版书,是「ChatGPT 们」变聪明的秘密恭喜客人成功办理日本电子签!日本电子签证如何办理?微前沿 | 强可控视频生成;定制化样本检索器;用脑电重建视觉感知;大模型鲁棒性评测涉窒息风险,26万本儿童读物全美召回英伟达H100所获利润高达1000%!亚太将主导全球汽车传感器;微软Meta均在挑战OpenAI地位 | AIoT情报AI角色扮演再进化,清华提出CharacterGLM,支持AI角色高度定制化让孩子阅读“四大名著”没有障碍,轻松阅读古典文学!张忠谋,一个为芯片创造“谷腾堡时刻”的人
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。