Redian新闻
>
文本和图片之后,AIGC的下个前沿将是视频生成

文本和图片之后,AIGC的下个前沿将是视频生成

公众号新闻

3月21日消息,生成式人工智能(AIGC)在文本和图片生成方面已经取得了显著进展。几个月来,Dall-E、ChatGPT以及Stable Diffusion等服务创作了各种各样的文字和图片内容。现在,初创公司Runway AI正进入AIGC的下一个前沿领域——AI生成视频。

当地时间周一,总部位于纽约的Runway宣布推出名为Gen 2的系统,该系统可以根据少量用户提示生成简短视频。用户可以输入他们想要看到的视频描述,例如“一只猫行走在雨中”,Runway的系统将据此生成大约3秒钟的视频片段。此外,用户也可以上传图片作为系统参考或提示。

Runway是专注于制作AI电影和剪辑工具的公司,该公司宣布,现在并非所有人都能体验Gen 2,但用户可以提交申请。人们可以在Discord频道上注册并等待,该公司计划每周都增加更多测试用户。

不过,这次有限的发布代表了实验室外文本转视频生成的最成功案例。谷歌和Meta去年都展示了他们自己的文本转视频努力,利用AI生成了泰迪熊洗碗和在湖上泛舟等视频,但这两家公司都没有宣布将相关技术推进到研究阶段以外的计划。

自2018年以来,Runway始终致力于研发AI工具,并于去年年底筹集了5000万美元资金。这家初创公司帮助创建了原始版本的Stable Diffusion,这是一种文本转图像AI模型,自推出以后大受欢迎,并由Stability AI公司进一步开发。

Runway联合创始人兼首席执行官克里斯·瓦伦苏拉(Cris Valenzuela)上周对Gen 2进行了现场演示,比如生成“无人机拍摄的沙漠景观”。在几分钟内,Gen 2生成了只有几秒钟长的视频,尽管画面显得有点扭曲,但不可否认的是,视频非常像是无人机在沙漠上拍摄的片段。地平线上可以看到蓝天和白云,视频画面右下角的太阳刚刚升起(也可能是落下),其光线突出了下面的棕色沙丘。

Gen 2还根据提示生成了其他几个视频:一段眼球的特写视频看起来很清晰,非常像人类眼睛;但一段徒步旅行者穿过丛林的视频显示,它在生成逼真的腿部和行走动作方面可能仍然存在问题。瓦伦苏拉说,这个模型还没有完全“弄清楚”如何准确地描述物体的运动。

虽然更长的提示可能会帮助生成更详细的图像,比如Dall-E或Stable Diffusion,但瓦伦苏拉说,Gen 2越简单越好。他认为Gen 2为艺术家、设计师和电影制作人提供了新的工具,可以帮助他们完成创作过程,并让这些工具的价格比过去更实惠,也更容易获得。

Gen 2建立在Runway现有的、名为Gen 1的AI模型基础之上,Runway于2月份开始在Discord上测试该模型。瓦伦苏拉表示,Gen 1目前拥有数千名用户。这种AI模型要求用户上传一段视频作为输入源,然后利用这段视频(以及文本提示或图片)来生成新的、无声的3秒视频。例如,你可以上传一张猫追逐玩具的照片,并附上文字“可爱的钩编风格”,Gen 1就会生成一段钩编猫追逐玩具的视频。

用Gen 2 AI模型生成的视频也是无声的,但瓦伦苏拉称,该公司正在研究音频生成技术,希望最终能创造出一种既能产生图像又能产生声音的系统。

Gen 2的首次亮相表明,初创公司在AIGC领域取得的进展非常快。AIGC可以吸收用户输入并生成文本或图像等新内容,其中Stable Diffusion、Open的图像生成模型Dall-E和聊天机器人ChatGPT等系统,近几个月来已经公开发布并受到欢迎。

但与此同时,它们的扩散也引发了法律和伦理方面的担忧。数字取证专家、加州大学伯克利分校教授哈尼·法里德(Hany Farid)看了几段由Gen 2生成的视频,称它们看起来“非常酷”,但他补充说,用这种技术制作的视频迟早将被滥用。他断言:“有些人会试图用这种技术做坏事。”

Runway正在使用AI和人类控制相结合的方式来防止用户使用Gen 2生成包含色情、暴力内容或侵犯版权的视频,但这种方法并非总是有效。

与AI行业的其他领域一样,文本转视频技术正在快速发展。虽然Gen 2目前的图像质量看起来有点模糊、不太稳定,很容易让人发现破绽,但瓦伦苏拉预计它会很快改善。他说:“这套系统还处于早期阶段。随着时间的推移,它会变得越来越好。”(小小)



更多互联网行业爆料,以及职场资讯,职业技能经验分享

关注我,给你好看

内容来源于网络,如有侵权,请联系删除。

【回复“健康指南”,Get《程序员健康指南》电子书】

回复“1024”,Get 程序猿求职面试葵花宝典电子书】


微信又改版啦,如果不星标,很容易错过我们的推送!还请各位小伙伴动动您那将要升职的小手,点击右上角将将西二旗猿圈儿“设为星标”,及时接收每篇推送~

如果您能在觉得信息对周围的朋友有帮助的前提下,分享给他们也了解下,那就是对晚上还在加班的小编最大的鼓励了。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
人社部等六部门《工作场所女职工特殊劳动保护制度(参考文本)》《消除工作场所性骚扰制度(参考文本)》靶向血管紧张素原,有望成为心血管疾病治疗的下一个前沿“视频领域的Midjourney”!AI视频生成新秀Gen-2内测作品流出,网友直呼太逼真ChatGPT之后,下个AIGC杀手级应用已近在眼前看似一个个小雪堆的麻叶绣线菊百奥泰之后,东曜药业终止HER2 ADC的三期临床NUWA系列再添新成员——超长视频生成模型NUWA-XL谷歌Bard遭自家员工差评/ 英伟达发布视频生成模型/ 波士顿动力机器狗整活…今日更多新鲜事在此谷歌抢先手发布视频生成类AIGC,网友:可以定制电影了看电视连续剧《向风而行》首个3D人像视频生成模型来了:仅需1张2D人像,眨眼、口型都能改变 | ICLR 2023MLNLP前沿综述分享第五期 | 胡琳梅@北京理工大学:知识增强的预训练语言模型前沿研究进展AIGC的浪潮下,文本生成发展得怎么样了?【线下活动】波清创投局1 与TSVC夏淳探讨天使投资和AIGC的前沿边界用镜头和追逐光的眼:摄影2022年美元、芯片之后,美国祭出最新经济武器图文并茂|AIGC的浪潮下,文本生成发展得怎么样了?被chatGPT惊到了?另一个前沿科技了解一下Runway:AI Native Tools工厂,视频生成领域的字节跳动[可恶]华人色狼以招聘为名迷奸数名中国女留学生!拍摄数千段视频和图片供“变态们”欣赏...除夕夜大瓜!宋祖英润美国了!杜琪峰:年轻导演有两样东西非常必要,一是视野,二是热情文字、图片一键生成逼真音效,作者亲自揭秘音频AIGC模型40篇英语短文,14天轻松搞定高考3500词,含文本和音频!开源模型、单卡训练,带你了解爆火的文本指导音频生成技术AudioLDM神奇而浪漫,这些图片告诉你人类可以怎么玩气球 I宝藏图片全球首发,国产开源「文本-视频生成」模型!免费在线体验,一键实现视频生成自由澳华人移民中介迷奸多名女性,3年拍摄数千段视频和图片!以工作为诱饵给女性下药,办公室就在CBD!疑似有罕见恋物癖!采编式AIGC视频生产流程编排实践AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?老中们确实应该注重提高生育数量AIGC教程:如何使用Stable Diffusion生成风格化游戏物品和图标自研芯片之后,AWS省了多少钱?重磅|华人色狼以招聘为名迷奸数名中国女留学生!拍摄数千段视频和图片供“变态们”欣赏...人渣!华人老板专挑中国女留学生下手,以工作为诱饵给女性下药迷奸,3年拍摄数千段视频和图片!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。