Redian新闻
>
英伟达投资的这家 AI 公司,要帮你做「未来的 PPT」

英伟达投资的这家 AI 公司,要帮你做「未来的 PPT」

科技


我最喜欢就是那些你根本没听过,就像什么法国的混凝土公司,他们有 1500 人员工,完全不在乎 AI,只是想把工作做得更好。Synthesia 就是那个合适他们的工具。
Synthesia CEO Victor Riparbelli 在一次接受采访时说道。
他说描述的的确是不少 AI 创业公司想要的完美顾客 —— 有钱、有规模、有稳定需求,而他的公司 Synthesia 也真有不少这样的客户。
Synthesia 的愿景很好理解,就是要做出最「拟真」的生成式 AI 数字人(AI Avatar),但其商业化定位就有点「曲折」。
在成立后的前三年里,Synthesia 都在搭建配音对嘴型类 AI 工具,跟去年让泰勒·斯威夫特「讲中文」的 HeyGen 有点类似。
他们的产品挺不错,也带来了挺好的收益,但也让创始团队发现这很难做大,「我们就只能卡在做一家特效服务公司。很难想象能怎样创造更大影响力」。
Synthesia 意识到,他们要服务的不是那些视频内容创作者,而是完全没有任何条件和内部资源去做视频,但又有需要的企业。
到了现在,这家成立于 2017 年,获得英伟达投资的英国 AI 公司,去年 6 月估值已达到 10 亿美元,10 月已经拥有超过 5 万个企业用户,甚至连「财富 100」里的公司都有 47% 是它的付费企业用户。
近日,Synthesia 发布了新一代数字人技术 Expressive Avatars,主打可能生成相对更能表达情绪的数字人。

会做 PPT 就能做视频
当我打开 Synthesia 的视频编辑界面时,不禁感叹「这不就是 PPT 吗?」
这让我想起 Riparbelli 说过,他们的客户是那些「想做内容,但完全不知道要怎样起步去做的人。他们不知道怎样用摄影机,也没法获得内部预算支持」。
在这认知基础上,Synthesia 选择了打工人其中一个最熟悉(也憎恨)的软件 PPT 来做交互参考也真够贴心。
在一套模版下有很多不同情景「页」选择
左边每页都都代表一个场景,可以非常 PPT 地去修改场景中的文字、背景、配乐等设计,然后可以在内置的数字人库里选择合适的数字人角色(暂时只有两个数字人角色支持 Expressive Avatars 模式)和声音。
甚至,连视频的「台词」,也安排在一般 PPT 用来写备注的页面正下方,的确相当「直觉」。
如此同时,写下的台词也会成为视频的「时间轴」,用户可以直接插入演绎上的指令,譬如停顿、 用「标记(Marker)」增加动效,或者为特定单词指定发音(Diction)。
在正式生成影片前,用户可在软件中快速播放预览,快速过一次台词、背景音乐和其他视觉元素是否满意。为了保持足够高效,「数字演员」则会保持静止,只有在正式生成后才会「动起来」。
正式生成影片后,用户也还是可以随时编辑影片,重新生成,甚至也可以邀请伙伴加入一起编辑。
和前几代的数字人服务相比,Expressive Avatars 会在讲台词时同时「理解」台词蕴含的情绪,尝试以一种合适的情绪来「表演」。

我们生成的测试视频,数字人虽然表情多,但仍然可看出不自然
为了做到这个效果,Synthesia 实时生成中会涉及两种模型:1. 大语言模型帮助数字人理解脚本所意指的情绪;2. 深度扩散模型则负责根据理解生成影像。
不过,现在 Synthesia 的模型在理解该用什么情绪来表演上还是有限制。在 MIT Review 记者用它来朗读自己的文章时,数字人就以一种很欢快的方式演出了一句反讽评论。
Riparbelli 在线上沟通会上表示,公司在今年下半年还会推出另一个重要更新,将数字人生成推向更拟人的效果。
自发「严苛」,才能服务大公司
大公司愿意花钱,但也极度保守。
Synthesia 在交互上的简单直接,正好与其合规和审核机制的不断叠加相反。
Synthesia 的原则很「基本」 —— 在未获得明确同意前,不会生成任何人的数字化身 —— 这也是现在大部分网上 deepfake 做不到的。
训练数据方面,Synthesia 从 2020 年开始就聘请职业演员来创造高质量的人像数据,并创造了 225 个数字人角色供给用户选择。
为了训练出这代新的模型,Synthesia 去年请了大概 1000 名职业演员来提供数据。
之前,Synthesia 和演员的合作模式是该演员数字人角色每次被调用,前者都会向对应演员支付版权费用。现在,双方的合作改成了「限时一笔买卖」,单次支付费用来使用其肖像三年,三年后双方再商讨是否续约。
MIT Review 记者 Melissa Heikkilä 在 Synthesia 体验录制创造 AI 数字人
如果续约,Synthesia 会和演员重新签约,并录制新的数据,删除旧的;如果不续约,数据会直接被删除。
Synthesia 声称自己并不会出售这些数据,但表示会在一些学术研究项目上有部分展示。
对于更大的合作企业客户而言,Synthesia 也支持企业派人来订造专门的数字人角色。
大客户有独占服务,也得走更复杂的签约流程:和销售团队沟通,签好法规上的协议,进行安全审计 —— 以 Synthesia 的销售团队的话来说,类似于「银行业的流程」。
在生成内容上,Synthesia 也在构建一个越来越成熟的审核机制。
普通用户生成的内容只能是基于事实,而企业用户则可以生成包含有「意见」的内容。一切可疑或真假难辨的内容,都会直接被转到人工审核,而政治新闻类内容则一律不支持。
MIT Review 记者在测试文本时用到了政治新闻相关内容,结果被拒绝了
当然,生成后也都要走审核。其内部审核人员从最开始的 3 人已经增加到 30 人,占了整个团队人数 10%。此外,公司也专门聘请了一位工程师搭建基于 AI 的审核系统。
创始人 Riparbelli 开玩笑说,如果能放开这些审核机制那就是非常强有力的「增长策略」:
我们觉得,将这些技术推向社会最好的方式还是一开始「过度严格」点。
所幸在于,对于企业而言,这种限制带来的麻烦也不会太多。
现在,大部分企业用户都是用 Synthesia 的数字人来做内部培训视频,或者是市场营销介绍视频,「敏感信息」没那么刚需。
这些企业在寻找的,是在为未来和年轻员工和消费者沟通的方式。鉴于现在年轻人都习惯了从视频获取信息,所以到未来,「无聊」的入职说明、培训文档、年终汇报都可以采用数字人视频演绎的形式:
我们现在所做的更像是 PPT,而不是好莱坞的活。



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
黄仁勋、英伟达、GTC、机器人,给我带来的几个震撼……百花迎春礼赞中华《惦记》&《祝你祝你》黄仁勋亲述未来会将英伟达变成一个怎样的怪兽?投资英伟达百倍回报的历程英伟达盯上的芯片市场,台湾公司已经杀红眼MTK和Intel联手,投资RISC-V芯片新贵!再战英伟达?Bill Stewart:50年的成功投资,总结对长期投资的思考英伟达GTC解读,看懂未来3年AI格局!|预告AI播客工具2年超百万用户,吴恩达投了3轮纽大学员春招投递100+岗位,成功斩获知名人工智能计算公司英伟达的软件工程师offer!宇宙人(1489期)聂海胜出席中国航天大会;文心一言数学能力与Claude-3并列第一;英伟达黄仁勋称人形机器人未来将成主流投资英伟达的人已经辞职躺平了!普通人如何投资AI独角兽公司?OpenAI有望在今年夏季推出GPT-5;英伟达推出更强GPU芯片;马斯克宣布正式开源Grok-1|AIGC周观察第三十七期内部回报率才是价值投资的试金石!信璞归江最新交流回顾25年投资路中国将失去一个最大的机会?关于未来,英伟达GTC24告诉了人们什么?京妞又造假了!婶可忍, 叔不可忍?(真相截图)贾跃亭57页造车PPT发布!周鸿祎吐槽老贾PPT造车···Sam Altman 投资的这个社交应用,怎么成了硅谷的新宠【行业日报】摩根大通成立体育投资团队!英伟达新芯片预计将于今年上市中产投资的三大难题,找一家公司就够了?因提供错误信息,ChatGPT在奥地利遭投诉;英伟达黄仁勋称AI不会完全取代人类工作丨AIGC日报这几位前 OpenAI 员工,想打造「机器人界的 ChatGPT」女主播卖车送福利;假提豪车;普利司通的忧伤;医美直播凉凉漫漫投资路,一起修炼投资的“术法道心”黄仁勋如何看待未来?来自英伟达风险投资的启示 |【经纬低调研究】万字全文!英伟达投资交流会:机器人的ChatGPT时刻指日可待,Blackwell不只是芯片还是系统对话深势科技张林峰:北大90后独角兽公司,要做微观世界的Sora?Chiplet初创公司,19页PPT融了4000万美元英伟达收购两家AI创企,要让AI芯片变得更便宜!古希腊掌管夏令营的神:有人帮你看娃,有人帮你鸡娃~从房产投资的角度来对比解析美国几大省税投资工具一家AI芯片公司浮出水面,英伟达迎来新挑战者英伟达B200打破摩尔定律!老黄顺便公开GPT-4的秘密
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。