Redian新闻
>
OpenAI 推出语音引擎,只需15秒样本,即能重建任何人的声音

OpenAI 推出语音引擎,只需15秒样本,即能重建任何人的声音

科技

夕小瑶科技说 原创
作者 | 付奶茶
OpenAI 又带来了一项超酷的进展!周五推出了一项名为 Voice Engine 的语音引擎,仅凭一段15秒的声音样本,便能够精准模仿出那个人的声音。

Voice Engine 的独特之处在于,它能通过简单的文本输入和短短音频样本,创造出非常接近原始说话者的自然声音。这意味着无论你让它读什么语言的文字,都能以那个人独有的声音风格朗读,效果既逼真又充满感情。

总而言之,OpenAI 通过这项新技术展示了人工智能复制人声的惊人可能性,接下来让我们一起看下吧~

Voice Engine 两年前已开始研发

事实上,OpenAI 早在 2022 年末便启动了 Voice Engine 的开发,并已利用此技术为其文本到语音 API、ChatGPT Voice 以及朗读功能装配了预设声音。

在技术成功开发后,OpenAI 并未立即向市场全面推广,而是选择与一小群早期测试者“小心翼翼”地合作,共同探索其应用可能性和潜在风险。

在与 TechCrunch 的采访中,OpenAI 产品团队成员 Jeff Harris 透露,该模型是在“已获授权和公开可用数据的结合”上进行训练的。该技术将仅限于大约 10 名开发者使用,获准访问的组织包括教育技术企业 Age of Learning、视觉叙事平台 HeyGen、前沿健康软件制造商 Dimagi、AI 通信应用开发者 Livox 以及医疗健康系统 Lifespan。

OpenAI在官网展示出了一些已经开始应用的例子:

1. 生成更自然、富有情感的声音

通过自然、富有情感的声音,比预设的声音更能代表更广泛的说话者,为非读者和儿童提供阅读帮助,致力于儿童学业的教育技术公司Age of Learning使用这其生成预先编写好的配音内容。此外,语音引擎和GPT-4创建实时、个性化的响应来与学生互动。

原预设录音:

生成的自然语音:

2. 翻译视频和播客等内容

为了让创作者和企业以其独有的声音接触到全球更多的听众,HeyGen,— 一家专注于AI视觉叙事的平台,成为了此技术的早期采用者。他们为从产品营销到销售展示的广泛内容制作定制化、仿真的头像。借助Voice Engine技术将视频内容翻译成多种语言,以此拓宽其全球受众的范围。这项技术的一大特色是在翻译过程中能够保留演讲者原有的口音特征,例如,使用一位法国演讲者的声音样本进行英语翻译时,生成的语音将保留有法国口音,为翻译增添了更多的真实感和个性化色彩。

原录音:

翻译的语音: 

3. 改善偏远地区的基本服务

OpenAI 强调自身的存在是希望为全球社区带来福祉,因此正在和当地合力为社区卫生工作提供各类基础服务,例如向哺乳期母亲提供专业咨询。为了促进这些工作者技能的提升,采用Voice Engine擎和GPT-4技术,以工作者的母语提供互动式反馈。

原录音:

翻译的语音: 

4.支持言语障碍人士提供帮助

为非言语人群提供支持,例如开发针对语言障碍者的治疗应用,以及为有特殊学习需求的人提供教育辅助。Livox是一款采用人工智能的替代及增强通信(AAC)应用,能够赋能残障人士进行沟通。通过利用先进的语音引擎,Livox能为用户提供独一无二、非机械化的声音,涵盖多种语言。这使得用户能够选择最能体现其个性的声音,并且对于那些使用多种语言的用户,保持在各种语言中声音的一致性。

原录音:

生成的语音:

5. 帮助患者恢复他们的声音

针对那些受到突发性或退行性语言障碍影响的人群,OpenAI与Norman Prince 神经科学研究所合作,正在研究AI在临床设置中的应用。他们最近启动了一个试点项目,为那些因癌症或神经病理学问题而遭受语言障碍的患者提供Voice Engine服务。这项技术的一个显著优点是它仅需很短的音频样本即可运作。因此,医生Fatima Mirza、Rohaid Ali和Konstantina Svokos得以使用一位年轻患者之前为学校项目录制的视频音频,成功恢复了她因血管性脑瘤而失去的流畅语言能力。

原录音:

生成的语音:

潜在风险与安全措施

想一想,如果有人只用几段录音就能复刻出你的声音,这听起来是不是虽然酷炫,但也挺骇人听闻?

技术在进步,我们能做的事情越来越神奇,比如让失声的人再次“说话”,或者让你听到一个从未学过外语的朋友用流利的法语或日语跟你聊天。

但是伴之而来的,也会有人用你的声音去骗你家人的钱,或者在网上放一个假的你说话的录音,甚至随着这些生物特征能用AI生成,先是人脸、声音那这样高速发展的双刃剑技术进入我们的世界,会不会带来失控呢?

而且Voice Engine的出生刚好撞到枪口!

上个月,联邦通信委员会(FCC)因收到使用乔·拜登总统 AI 克隆声音的骚扰电话而禁止使用 AI 生成的语音电话,全国拉响了警铃。

“这是一个敏感的领域,处理得当极为重要,”OpenAI 产品经理 Jeff Harris 在采访中指出,公司内部也承认,生成人类声音的技术确实携带着严重的风险。

Open AI 正在探索为合成声音添加水印或其他控制措施的方法,以防止技术被用来模仿政治人物或其他公众人物的声音。

OpenAI 希望引发有关合成声音负责任使用的对话,以及社会如何适应这些新兴技能的讨论。根据这些对话和小规模测试的结果,OpenAI 将做出更明智的决策,以确定是否以及如何在更大范围内部署这项技术。

而现阶段,由于技术目前只面向合作伙伴的使用,OpenAI要求使用者们遵循一项使用政策,该政策禁止未经同意或合法权利冒充他人或组织,要求合作伙伴从原始说话者处获得明确和知情的同意,并禁止开发者构建允许个人用户创建自己声音的工具。

合作伙伴还必须向其听众清楚地披露他们听到的声音是由 AI 生成的。此外,还实施了一系列安全跟踪措施,包括水印技术,以追踪任何由 Voice Engine 生成的音频的来源,以及主动监控其使用方式。

小结

在这个令人兴奋的科技进展背后,我们不禁要问自己:

我们真的准备好迎接这样的未来了吗?

OpenAI 的 Voice Engine人工智能拟人的无限可能,让我们得以用新的方式“听见”世界。

但是,正如我们所见,这项技术也带来了不小的挑战和道德考验。随着这样的技术越来越成熟,我们必须更加认真地考虑如何平衡创新和安全。我们该如何确保技术的发展能够促进人类福祉,而不是成为操控和欺诈的工具?

欢迎大家在评论区和我们一起讨论~

参考资料

 [1]https://www.theverge.com/2024/3/29/24115701/openai-voice-generation-ai-model
 [2]https://www.theverge.com/23864878/ai-voice-clones-podcastle-elevenlabs-personal-voice
 [3]https://www.nytimes.com/2024/03/29/technology/openai-voice-engine.html

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
意外之喜,与最佳留学生异地相聚国产大模型:今天起,我们100万tokens只需1元!人工智能复制名人的声音惹争议"黑寡妇"斯嘉丽·约翰逊表示,OpenAI盗用了她的声音,制作了名为“Sky”的ChatGPT AI新声音!德林国际财报:毛绒玩具仍然是增长引擎,占集团总收入的51.1%没有太多钱退休?美国这些小镇只需10万美元就可安贫退休逾12年纽约餐馆注意!只需1000多美元!店面可扩大许多!3月起开放申请浓人,nèng死淡人OpenAI 或将推搜索引擎,挑战谷歌;李飞飞 AI公司获融资,主打「空间智能」;嫦娥六号发射成功,开启月球之旅 | 极客早知道OpenAI藏了1年多的技术正式公开!15秒素材克隆声音,HeyGen也在用Kimi推出付费方案?月之暗面:小范围灰度测试;OpenAI回应ChatGPT声音像斯嘉丽丨AIGC日报AI搜索引擎来了!谷歌放大招,发布最强AI模型,语音功能正面刚OpenAI《藏品故事》 华荣堂制3D重建范式变革!最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建只需10美元就能喂饱四口之家,Costco这5种产品值得买!3D重建范式变革!最新模型MVDiffusion++:刷新视图合成和3D重建SOTA!以搜索为引擎,阿里妈妈首推BEST方法论引领商家简单增长太可怕了!Tyler Perry 在见证 OpenAI 的 Sora 后,搁置了价值8亿美元的扩展计划7034 血壮山河之枣宜会战 “扑朔迷离”南瓜店 11hé bàng?hé bèng?芭芭拉跟安姬拉纽约水费涨疯了!15年最大涨幅!涨幅创纪!录公听会28日举行!你的声音很重要,快来参与!玻色量子发布量子计算“超强大脑”;OceanBase 4.3推出列式存储引擎,可实现秒级实时分析丨AIGC日报看啊,还是这个人纪念康德:人不是任何人的工具,而是自身的目的只需10分钟!我国科学家实现这一材料批量制备15 秒音频即可“复制”原声!但OpenAI 担心新语音模型被滥用而限制发行OpenAI releases real5 款好用的 AI 知识搜索引擎,揭开智能搜索新篇章丨AI 情报局特朗普跻身全球富豪400强;诺和诺德减肥药成本5美元竟卖1000美元;OpenAI语音克隆:只需15秒音频样本|一周国际财经2024脑机接口行业研究报告:踩燃产业化突围引擎,临床应用大有可为巴菲特称芒格拍桌子让他买比亚迪/ ​OpenAI下周或发布ChatGPT搜索引擎,挑战谷歌丨36氪出海·要闻回顾我的家不必讨好任何人,130㎡干净利落,即使每天擦地都是幸福的【居住榜样】这款轻量级 Java 表达式引擎,真不错!AI早知道|Anthropic推出Claude移动端App;OpenAI或将发布 ChatGPT 版搜索引擎Kimi爆火!网站一度宕机,“只需10分钟,接近任何领域初级专家水平”,公司:启动200万字长文本内测OpenAI发布Voice Engine,15秒克隆任何语音,霉霉说中文就靠它
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。