Web ML 库 Transformers.js 提供文本转语音功能

2023-12-02 02:12

作者 | Agazi Mekonnen

译者 | 平川

策划 | Tina

JavaScript 库 Transformers.js 提供了类似 Python Transformers 库的功能，设计用于在 Web 浏览器中直接运行 Transformer 模型，而不再需要外部服务器参与处理。在最新的 2.7 版本中，Transformers.js 引入了增强功能，其中包括文本转语音（TTS）支持。这次升级响应了用户的诸多需求，扩展了库的应用场景。

文本转语音（TTS）包括从文本创建听起来比较自然的语音，并提供了多种口语语言和 speaker。目前，Transformers.js 只通过 Xenova/speecht5_tts 提供 TTS 支持，而 Xenova/speecht5_tts 基于微软提供的带有 ONNX 权重的 SpeechT5。未来更新计划中包括增加对 bark 和 MMS 的支持。

开发人员可以通过 @xenova/transformers 中的管道函数来使用文本转语音功能，包括指定“文本转语音”任务和要使用的模型（'Xenova/ speecht5_ts '），并使用选项{quantized: false}。此外，其中还包含提供 speaker embeddings 的文件链接。

将 TTS 模型应用于给定的文本后，它就会输出音频数组和采样率。该数组表示合成语音，可以进一步处理或直接在浏览器中播放。

Transformers.js 适用于各种用例，包括风格转换、图像绘制、图像着色和超分辨率。它的多功能性和定期更新使其成为开发人员探索机器学习和 Web 开发结合点的宝贵资产，并使其成为 Web 机器学习领域的可靠工具。

按照设计，Transformers.js 在功能上等同于 Hugging Face 的 Python 库 transformers，也就是说，你可以使用非常近似的 API 运行相同的预训练模型。

Transformers.js 支持许多任务和模型，涉及自然语言处理、视觉、音频、表格数据、多模态应用和强化学习。该库涵盖了从文本分类和摘要到图像分割和对象检测的各种任务，这使其成为各种机器学习应用程序的通用工具。

Transformers.js 提供了广泛的模型支持，包括 BERT、GPT-2、T5 和 Vision Transformer（ViT）等架构，确保用户可以针对特定的任务选择正确的模型。

对于 Transformers.js 的发布，社区持积极态度。在今年早些时候发起的 Reddit 帖子中，用户 Intrepid-Air6525 表示：我决定用它来代替 openai 的嵌入模型。速度非常快。我实际使用的 LLM 是 webLLM ，因为我不想消耗太多的 CPU 处理。

用户 1EvilSexyGenius 对 Hugging Face 的市场定位以及关于实际应用的讨论发表了看法：

[...] 借助 Transformers.js 及他们提供的其他优秀的库，很显然， [Hugging Face] 正在努力实现语言模型的民主化，并将它们带给大众。与每天发布的所有模型相比，这样的帖子会让这个社区受益匪浅。

感兴趣的读者可以从 Hugging Face Transformers.js 官方网站及其 GitHub 库中获得更多信息。

原文链接：

https://www.infoq.com/news/2023/11/transformersjs-ml-for-web/

声明：本文由 InfoQ 翻译，未经许可禁止转载。

今日好文推荐

亚马逊 CTO 20 年架构经验之道：俭约架构师的七大黄金法则！

全球首款开源实时操作系统！开发了 20 多年、部署在超 120 亿台设备上的 ThreadX 正式开源

联手 OpenAI 最强竞对展开生成式 AI 反击战：亚马逊云科技将 S3 写入速度提升 10 倍、推出全新三层技术栈

Docker 的诅咒：曾以为它是终极解法，最后却是“罪大恶极”？

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章