Redian新闻
>
Web ML 库 Transformers.js 提供文本转语音功能

Web ML 库 Transformers.js 提供文本转语音功能

科技

作者 | Agazi Mekonnen
译者 | 平川
策划 | Tina

JavaScript 库 Transformers.js 提供了类似 Python Transformers 库的功能,设计用于在 Web 浏览器中直接运行 Transformer 模型,而不再需要外部服务器参与处理。在最新的 2.7 版本中,Transformers.js 引入了增强功能,其中包括文本转语音(TTS)支持。这次升级响应了用户的诸多需求,扩展了库的应用场景。

文本转语音(TTS)包括从文本创建听起来比较自然的语音,并提供了多种口语语言和 speaker。目前,Transformers.js 只通过 Xenova/speecht5_tts 提供 TTS 支持,而 Xenova/speecht5_tts 基于微软提供的带有 ONNX 权重的 SpeechT5。未来更新计划中包括增加对 bark 和 MMS 的支持。

开发人员可以通过 @xenova/transformers 中的管道函数来使用文本转语音功能,包括指定“文本转语音”任务和要使用的模型('Xenova/ speecht5_ts '),并使用选项{quantized: false}。此外,其中还包含提供 speaker embeddings 的文件链接。

将 TTS 模型应用于给定的文本后,它就会输出音频数组和采样率。该数组表示合成语音,可以进一步处理或直接在浏览器中播放。

Transformers.js 适用于各种用例,包括风格转换、图像绘制、图像着色和超分辨率。它的多功能性和定期更新使其成为开发人员探索机器学习和 Web 开发结合点的宝贵资产,并使其成为 Web 机器学习领域的可靠工具。

按照设计,Transformers.js 在功能上等同于 Hugging Face 的 Python 库 transformers,也就是说,你可以使用非常近似的 API 运行相同的预训练模型。

Transformers.js 支持许多任务和模型,涉及自然语言处理、视觉、音频、表格数据、多模态应用和强化学习。该库涵盖了从文本分类和摘要到图像分割和对象检测的各种任务,这使其成为各种机器学习应用程序的通用工具。

Transformers.js 提供了广泛的模型支持,包括 BERT、GPT-2、T5 和 Vision Transformer(ViT)等架构,确保用户可以针对特定的任务选择正确的模型。

对于 Transformers.js 的发布,社区持积极态度。在今年早些时候发起的 Reddit 帖子中,用户 Intrepid-Air6525 表示:我决定用它来代替 openai 的嵌入模型。速度非常快。我实际使用的 LLM 是 webLLM ,因为我不想消耗太多的 CPU 处理。

用户 1EvilSexyGenius 对 Hugging Face 的市场定位以及关于实际应用的讨论发表了看法:

[...] 借助 Transformers.js 及他们提供的其他优秀的库,很显然, [Hugging Face] 正在努力实现语言模型的民主化,并将它们带给大众。与每天发布的所有模型相比,这样的帖子会让这个社区受益匪浅。

感兴趣的读者可以从 Hugging Face Transformers.js 官方网站及其 GitHub 库中获得更多信息。

原文链接:

https://www.infoq.com/news/2023/11/transformersjs-ml-for-web/

声明:本文由 InfoQ 翻译,未经许可禁止转载。

今日好文推荐

亚马逊 CTO 20 年架构经验之道:俭约架构师的七大黄金法则!

全球首款开源实时操作系统!开发了 20 多年、部署在超 120 亿台设备上的 ThreadX 正式开源

联手 OpenAI 最强竞对展开生成式 AI 反击战:亚马逊云科技将 S3 写入速度提升 10 倍、推出全新三层技术栈

Docker 的诅咒:曾以为它是终极解法,最后却是“罪大恶极”?

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
传统卷积已经彻底输给Transformer了吗?Transformer王者归来!无需修改任何模块,时序预测全面领先NeurIPS 2023 | MixFormerV2:基于Transformer的高效跟踪器Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化重新审视Transformer:倒置更有效,真实世界预测的新SOTA出现了探寻西西里与马耳他的历史脚印(6)Transformer变革3D建模!MeshGPT来了!效果惊动专业建模师。。。当你使用Transformer时,张小斐告诉你:适合我们的才是最好的!6020 血壮山河之随枣会战 南昌之战 13屠榜顶会!Transformer中文视频教程发布Transformer一作来卷多模态!学术图表也能看懂,100毫秒极速响应|免费试玩卷积网络又行了?DeepMind推翻Transformer最强传说,LeCun怒赞Transformer是唯一选择吗?无Attention和MLP的语言模型反而更强了中国有哪些好,哪些不好?百度谷歌成为AI黄埔军校,Transformer八子融资超8.7亿刀!「AI行业全景报告」总结GenAI大爆发NeurIPS 2023 | MCUFormer: 可在内存有限微控制器上部署的Vison Transformer模型起底PC新机皇:高通4nm芯片,Arm架构Windows系统,内置Transformer加速,还配了5G和WiFi7屠榜CVPR!Transformer视频教程发布ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化设计DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑如何降低视觉Transformer计算成本?时间冗余方法让人大吃一惊世界各国的产假比较NeurIPS 2023 | 结合脉冲神经网络和Transformer的纯加法TransformerLLM里的Transformer还可以这么用?南开&山大&北理工团队开发trRosettaRNA:利用Transformer网络自动预测RNA 3D结构探寻西西里与马耳他的历史脚印(5)当下一代Transformer遇上ViT:Vision RetNet已来!我在Performer中发现了Transformer-VQ的踪迹PyTorch最新工具mm来了!3D可视化矩阵乘法、Transformer注意力!ICCV 2023 | 浙大&阿里提出:基于Transformer的可泛化人体表征来了!Meta对Transformer架构下手了:新注意力机制更懂推理Transformer变革3D建模,MeshGPT生成效果惊动专业建模师,网友:革命性ideaYann LeCun点赞!Meta对Transformer架构下手了:新注意力机制更懂推理
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。