Redian新闻
>
爱诗科技王长虎:全球用户量最大的国产AI视频生成产品,是怎么炼成的?丨GenAICon 2024

爱诗科技王长虎:全球用户量最大的国产AI视频生成产品,是怎么炼成的?丨GenAICon 2024

科技

“Sora是今年春节我收到的最好的礼物。”
2024中国生成式AI大会于4月18-19日在北京举行,在大会第一天的主会场开幕式上,爱诗科技创始人兼CEO王长虎博士以《AI视频生成——用像素构建星辰大海》为题发表演讲。
王长虎深耕计算机视觉与AI领域20年,曾任微软亚洲研究院主管研究员,2017年初加入字节跳动,而后担任字节跳动AI Lab总监,从0到1支撑了抖音、TikTok等国民级视频产品的建设与发展。2023年4月,他创办AI视频大模型创企爱诗科技。
爱诗科技在今年1月上线的海外版产品PixVerse,是当前全球用户量最大的国产AI视频生成产品,国内版(爱诗视频大模型)也在今年3月上线内测。上线88天,PixVerse达成了一千万次视频生成量的里程碑。
今年2月,Sora横空出世,点燃了大众对视频生成的热情,也为深耕该领域的从业者带来了前所未有的机遇和挑战。在技术层面上,Sora验证了DiT架构在视频生成中的Scaling Law(规模定律),并证实了这个方向的可行性。在王长虎看来,追赶Sora的窗口期在一年前,也就是爱诗科技成立的2023年。
过去一年,视频大模型经历着量变到质变。王长虎认为,中国在短视频领域领先全球,同时短视频也是最贴近用户的内容形态。目前视频生成技术还没有到ChatGPT时刻,他称自己有一支在全球AI视频领域最能打硬仗、打胜仗的团队,希望最大程度降低视频创作门槛,实现技术普惠。
以下为王长虎的演讲实录:
过去这一年,视频生成领域进展迅速,从无人问津到众所周知。今天借这个机会,希望能跟大家聊一聊过去一年我的一些体会和浅见。

大家应该非常熟悉这个视频了。今年大年初七凌晨,Sora横空出世,进一步激发了大众对AI视频生成的热情。很多评论、解读铺天盖地而来,很多大V、大佬们也纷纷发言,包括马斯克、周鸿祎以及各种媒体。
大年初七一大早,我被微信吵醒了,很多投资人、朋友、家人、同事纷纷发来问候,好像又碰到那句话:“元芳你怎么看?”
当时最令我开心的是这条,我们公司一位优秀的候选人第一时间给我发信息,说“我要加入你们”,因为视频生成这件事“太大了、太重要了,时不我待”。

这是一张当时在国外互联网上广为流传图片——一众视频生成模型膜拜“新王”Sora。看到这张图后,我的心情很复杂。

我们的产品叫PixVerse,很荣幸“跪”在了第一排,跟Runway、Pika、SVD等当时最好的视频生成产品放到一起,也是这张图里面唯一一家中国公司。
但另一方面,我们前面有一个巨人,还需要进一步超越它。
有人问我,Sora出现之后你会不会焦虑?中美之间的视频大模型差距会不会越来越大?爱诗作为创业公司,接下来路怎么走?
在我看来,Sora的出现是2024年春节期间我收到的最好的礼物

01.
Sora验证了DiT架构,
追赶Sora的窗口期在一年前


我们是在去年整个视频生成行业还非常冷的时候,加入这个赛道的,并且在Sora出来之前,产品实测效果已经走到全球视频生成第一梯队
这就像一个人在戈壁徒步,已经走在最前面,需要继续探索的时候,突然看到前面有一些脚印,那时候的感觉一定是非常开心。
一方面,这验证了这个方向大概率是对的;另一方面,前面还有一个人能让你继续超越。因此,强大的对手是沙漠中的水源。
对于Sora的解读非常多,我就不详细展开了。在我看来,Sora最大的贡献就是验证了DiT(Diffusion Transformer)在视频生成中的Scaling Law(规模定律)
在基础计算量的时候,AI生成的视频惨不忍睹,随着计算量加倍至32倍,生成视频几乎可以以假乱真,这更坚定了我们做视频生成的信心。

毋庸置疑,Sora的出现推动了整个行业的进步和发展。但是很遗憾,至今为止我也没有机会试一下Sora,我们想在座的绝大多数人都没有试过。
当前,Sora只是一场“卖家秀”,也特别期待有一天我们可以看到更多的“买家秀”。Sora出来之后,我们可以看到很多大厂、初创公司都去做视频生成了,要超越Sora。
有人问我,超越、追赶Sora的最佳窗口期是多长时间?
在我看来,追赶Sora的窗口期是在过去这一年,是在视频生成行业很冷的那一年,是在Sora出来之前,整个业界对这个方向还不那么认可的一年

02.
视频生成去年不被看好,
仍带领抖音AI视频团队All in


回到一年前,我们可以看一下这个行业有多冷。
一年前的今天,OpenAI、Anthropic分别获得了100亿美金、10亿美金的融资,国内的很多大语言模型创企也纷纷拿到第一桶金数亿美金,更大的一笔钱还在融资计划中。
再看视频大模型。一年前,做视频大模型的公司,一只手都可以数得出来。国外Runway已经成立五年,拿到2亿美元融资;Pika刚刚出现,拿到2000万美金;爱诗拿到数百万美元融资。
视频大模型和大语言模型相比,就像蚂蚁和大象一样。

去年上半年,我们聊了一些投资人。一位行业大佬第一时间打钱,成为了我们的天使领投,但更多投资人对这个方向可能看的还不是很清楚,也不是很认可。我们得到一些非常现实的建议,有人说大模型在中国没前途,还不如回家上班,或者建议尽快变现。
当时确实有非常多的选择,是继续创业还是回家?如果创业选择哪个赛道?是先做文生图,还是先做文生视频?
那时候,视频生成没有什么开源模型,需要从头去建设,且生成质量惨不忍睹。而AI图片生成产品Midjourney已经走出来了,每个月有数千万美元MRR(月度经常性收入),有开源模型,所以很多创业公司都去做文生图。
如果选择视频生成,是做大模型还是做应用层?当时很多朋友找到我,说可以一起做游戏、电商、广告,能够很快变现。
但是在我看来,视频是最重要、也是离用户最近的一类内容。过去若干年,我们可以看到抖音、TikTok这样的短视频产品,已经成为全球最重要、用户量最大的国民级产品,无论是下载量还是使用时长。

我们都知道抖音、TikTok是中国团队做出来的,服务于全球。很有幸我和我的核心伙伴们从2017年开始,从0到1支撑了抖音、TikTok这些产品背后的视频AI。所以在AI视频生成领域,我们是全球最能打硬仗、打胜仗的团队,于是决定是All in AI视频生成

03.
给初创公司取个浪漫的名字,
想用AI做最高级的内容


去年这个时候,在Sora出来之前,引用张一鸣的说法,这是一种“务实的浪漫”。我们没有选择最容易的事情,而是选择当时可能非主流、非共识,但我们认为是正确的事情。做视频大模型是有生命力的,是面向未来的

我们公司也取了一个有点浪漫的名字——爱诗,“爱”是AI的意思,“诗”是可以流芳千古的、最高级的内容,“爱诗”的意思是用AI做最高级的内容。
去年4月份我们公司成立,7月份开始训练大模型,经过大约几个月的时间,技术上已经成为全球第一梯队。今年1月份我们的产品PixVerse在海外上线,发展很快速。Sora出来之前,我们在年前已经拿到了数亿元的第二轮融资。
这是去年8月,我们第一次训练好的一个完整模型生成的视频,时间很短,动作也很小,但是对我们来说是一大步。

有人问我,大语言模型跟视频大模型区别在什么地方?
在我看来,语言和视觉是两类完全不同的内容,语言是在人类出现之后才出现的,是人类文明的结晶,它已经对信息做了高度抽象和概括;而视觉在人类出现之前,山在那里、水在那里,它是更原始的东西。
当大模型出现之后,人们对大模型的期待是模拟人脑,是新的硅基生命,是人内部的东西。而视频生成大模型出现之后,人们的期待是什么?是对世界进行模拟、建模。
视频生成本质上是理解这个世界,然后做影像呈现,这种呈现经历了从记录到生成的演进过程,这里我们列举了三个影像记录历史中很重要的时刻。

在三万多年前,人类已经在岩壁上去呈现自己看过的一些群狮奔跑的画面;1826年,法国的摄影先驱制作了第一张可以长期展现的照片;1872年,人类历史上第一个视频出现了,它源于两个美国人关于马飞奔过程中蹄子是否同时腾空的探讨。从视觉的呈现到视频的生成看起来很远,事实上离我们很近。
小时候过年,我的父亲总会给我做各种各样的灯,其中有一种灯叫“走马灯”。我们要点燃蜡烛,蜡烛推动热气上升,带动轴轮的转动,轴轮上面会绑上一些剪纸,烛光通过剪纸映射到最外边一层的屏上,走马灯就呈现了这样动态的效果。右边的连环画是我很快乐的童年记忆,也是一种原始的“视频生成”。
当抖音、快手这样的短视频产品逐渐成为主流,越来越频繁影响我们的生活的时候,我们可以看到视频生成技术也逐渐出现了。

最早期阶段是检索生成,即视频里的每一个片段都是从海量数据中检索而来,不是纯粹生成的,通过自动或者人工方式拼接在一起,现在在短视频平台里面也可以看到这样的视频。

第二阶段是部分生成,我们在玩抖音、TikTok的时候会看到里面有很多特效,其中有一个特效“控雨”,用户录制视频的时候用手掌可以控制雨让它停掉,并且有一些微动。这类视频总是有一个原始的视频,在这个基础上做一些局部生成,包括特效里面的美颜、动漫风、换个狗头、加个猫耳朵都是这样。
最后是我们现在提到的真正意义上的视频生成,是凭空生成的。
视频生成技术可以追溯到十年前,GAN(生成对抗网络)的出现开始。之后的若干年,局部生成领域大放异彩,虽然有很多通用生成、文生视频的技术出现,但是效果也很差。
直到Diffusion扩散模型的成功,2023年出现了非常多的文生视频的技术、产品,有谷歌的VideoPoet、英伟达的Video LDM、Runway的GEN-2,还有Pika以及我们的PixVerse。
但是2024年Sora出现,表明过去这一年无论是数据量、计算量还是参数量都有非常大的提升。

这里我选了几个模型,2023年7月份发布的AnimateDiff、2023年12月发布的VideoPoet以及2024年2月发布的Sora,其中关于Sora参数都是道听途说,有可能不准,也有可能比较保守。我们看到一年之内,这些参数都有巨大的提升,这也带来了视频生成产品的提升。

04.
上线88天生成1000万次,
PixVerse已解决多镜头一致性问题


我们在去年11月份初发布了PixVerse测试版,今年1月份正式发布了Web UI的版本,提供了文生视频、图生视频以及我们首创的Character to Video,用户只要上传一张照片就可以成为视频的主角,可以解决多镜头的一致性问题
最后一张视频大家能看出是谁吗?这是我们开发出这个模型之后生成的第一个视频,我自拍一下输进去,让它生成一个我在跑步的视频,“他”的身材比我好多了。生成后我第一时间发到我们健身群里面,告诉大家我的“健身效果显著”。

现在已经有很多的创作者用PixVerse替代摄像机、演员、布景来创作大片。中间一张图是一个俄罗斯用户在今年1月份创作的一个AI科幻片Last Mission,每个镜头都是PixVerse做的,这也是在海内外有广泛影响的影片。
很多国内用户也在用我们的产品。前段时间我们受邀到一个省级电视台去交流,惊讶地发现有很多编导已经在用PixVerse做AI视频。他们也很惊讶这个产品团队居然就在在国内。
下面这个视频是国内一个导演“闲人一坤”,利用PixVerse创作出来的中式奇幻片《山海奇镜之劈波斩浪》,也是国内播放量最大、影响力最大的AI视频之一。《山海奇镜之劈波斩浪》已经被快手平台采购,据悉将在5月上线。

PixVerse发布之后,我们跟创作者交流过程中,也遇到很多感人的瞬间。
这是国内一个54岁的老大哥给我们发的一封邮件,他想申请加入我们的创作者计划,说他前些天戴着老花镜花了一整天时间,用PixVerse和剪映做成第一条AI片子。他说,使用PixVerse的过程中让他享受了创作的愉悦,并且跟我们分享了一些他的故事。这是意料之外的感动。我们看到自己的产品不仅有导演、专业创作者用起来,普通用户也能受益。

还有一位乌克兰导演,因为宏观经济原因失业了。他用了PixVerse觉得非常棒,想为我们社区发展助力。他当时创作了第一个关于香水的广告大片,在海外很火,很多商家看到了,付费让他帮忙创作广告,之后他又创作了一系列啤酒、钻石等广告,获得了收入。这里面每个镜头都是通过PixVerse做出来的。

前几天我发了一个朋友圈,纪念我们一千万次视频生成。我想每一个视频背后都可能有一个故事,但这也只是我们的一小步,希望未来能够服务于更多的用户。

现在视频生成技术还没有到ChatGPT时刻,还在快速发展过程中。但是我们已经欣喜地看到专业创作者们,在应用我们产品来替代镜头、演员、场景来生成大片,逐渐地去改变原有的视频生产创作工作流,我们也期待未来有更多的行业,游戏、动漫、教育、影视等受益于视频生成技术的发展。
当然,我们也希望能够在最大程度上降低使用的门槛,不仅创作者们能够用起来,每天玩抖音、玩TikTok的普通消费者们也能够用我们的产品,轻松地使用AI视频生成产品将创意转变为现实。我们希望能够做到技术普惠。
我们的产品名字叫PixVerse,Pix(Pixel)代表像素,Verse(Universe)代表宇宙。AI视频生成,就是“用像素构建星辰大海”。
以上是王长虎演讲内容的完整整理。
(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Diffusion4D:首个4D视频生成扩散模型!数分钟内实现4D内容生成,超81K的4D数据集已开源!业委会13年创收600多万,一个“别人家的小区”是怎样炼成的?2024 Chinese New Year's DinnerRunway 全新 Gen-3 视频生成模型获网友盛赞:比 Sora 更好解码如何缔造奇瑞势能:以创新破卷,为全球用户开发好产品亚马逊云科技王晓野:八成CEO认为生成式AI在18个月内颠覆所有行业丨中国AIGC产业峰会李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 20242024 多伦多国际车展(I)印尼行记(上):全世界最散装的国家是怎样练成的?OpenAI的算力是怎样炼成的?焱融科技张文涛:将大模型训练效率提升40%!详解多云架构下高效存储策略丨GenAICon 2024极睿科技武彬:我用AIGC工具,帮商家1个月多卖了两三千万丨GenAICon 2024拥有289年历史的宝珀,在品牌文化传承与创新上是怎么做的?丨2024华丽志论坛系列报道全世界最“纯”的第三代半导体,是怎样炼成的?美国“加密太祖”特朗普,是怎样炼成的?劝君莫惜花前醉 2024.03.02熵泱——第三十一章晚点独家丨蚂蚁投资视频生成模型公司爱诗科技;奈雪投资人加入茶颜悦色华洋纵横谈:红帽子铁粉是怎样炼成的谷歌7大模型22项AI大招轰炸:70秒视频生成、Gemini安卓合体、200万tokens上下文万兴科技朱伟:Sora至今没有商业化,视频模型成熟需要周期丨GenAICon 2024阿里通义实验室薄列峰:从兵马俑跳“科目三”到照片唱歌,四大框架让AI生成的人物活起来丨GenAICon 2024阿尔特曼称GPT-5提升超想象;库克在中国首谈生成式AI;字节推出视频生成新模型丨AIGC大事日报2024 Toronto International Auto Show ( I )美股基本面 - 2024_03_01 * 晚报 * 收盘:标普与纳指再创新高 标普500指数首次收在5100点之上。周五美国W对话戴康:“金融不倒翁”是怎么炼成的?包揽十年新财富的秘诀是什么?外企春招丨GenScript金斯瑞2024春招补录开启,全球化生物科技集团,行业巨头,多样福利,适合留学生新大陆 (1)老便宜了!字节跳动豆包大模型开始营业,一元钱能买125万Tokens,月活用户量达2600万美国行记(中):世界第一资本主义强国是怎样炼成的?全球首个小型精细化手术机器人平台,昂泰微精完成产品型检!【长篇小说】县委副书记(058)港股IPO招股异常火爆,唯一盈利的「AIGC第一股」是怎么炼成的?“超市教父”胖东来,是怎么炼成的?阿里云李鹏:进一步压榨云上GPU资源,将大模型训推效率最大化丨GenAICon 2024突发!Fed 今年(2024)不会降息。花街预测自然世界历播报安谋科技杨磊:抢占端侧大模型部署制高点,NPU将为端侧提供关键动力丨GenAICon 2024DeepMusic刘晓光:深度解读AIGC音乐创作技术原理,明年实现一键生成自唱歌曲丨GenAICon 2024VAST宋亚宸:3D生成迈入秒级时代,今年将做到Midjourney V5/V6水平丨GenAICon 2024
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。