VAST宋亚宸:3D生成迈入秒级时代,今年将做到Midjourney V5/V6水平丨GenAICon 2024公众号新闻2024-05-24 10:053D创作门槛和成本太高,需要大众化3D内容平台。2024中国生成式AI大会于4月18-19日在北京举行,在大会第二天的主会场AIGC应用专场上,VAST创始人兼CEO宋亚宸以《大模型Tripo驱动3D生成迈入秒级时代》为主题发表演讲。从文字、图片到视频、3D,信息载体不断升级,宋亚宸谈道,3D的体验质量、信息密度不断提升且更具互动性。他认为目前3D生成已经达到类似Midjourney V3的效果,今年9月将达到类V4效果,年底达到类V5/V6效果,实现真正可用,甚至通过图灵测试。VAST是3D生成模型领域的第一梯队玩家,已打造全球最大的几个3D生成开源社区,并与Stability共同开源了全球最大、0.5秒图生3D模型TripoSR。其创始人兼CEO宋亚宸也是首位在计算机图形学顶会SIGGRAPH上发表主舞台主题演讲的中国创业者。据宋亚宸分享,VAST的3D大模型Tripo上线百余天内生成了超过200万个3D模型。为了应对3D生成创作成本和门槛过高的挑战,VAST将3D内容平台和大众级创作者平台结合。当前这家创企已拥有超过200家B端客户,并基于其平台开发出原生AI爆款小游戏,一周突破10万用户。以下为宋亚宸的演讲实录:AIGC会使游戏的创作门槛和成本无限降低,这就是我们做的事情。我们是做3D大模型的公司,产品核心就是将用户输入的文字或者图片快速生成3D模型。3D模型可以在游戏、动画、影视、元宇宙、3D打印等行业中直接使用,其本身带有Mesh、贴图、材质,你可以进入传统管线二次编辑,进行驱动、渲染等。3D模型还可以拥有带骨骼、带动作等格式,出现很多种有意思的使用方式。那么,我们为什么要做3D这件事?文字、图片、视频、3D中,3D是非常特殊的品类,从文字、图片、视频到3D是信息载体不断升维的过程,3D也被认为是最终的信息载体,其信息密度、体验质量都在不断提升,同时拥有双向互动性。因此,我们相信世界正在进入一个3D新时代。01.3D生成迎新拐点,今年做到Midjourney V5/V6水平为什么现在做3D生成这件事情?OpenAI的GPT-3刚发布时,关注的人并不多,在其基础上做的应用、开发也相对较少,仅有如Replika等少数几个应用,大家对它的认知比较少,使其很难进行商业化。直到2022年11月份,ChatGPT的发布成为了一个非常大的拐点,我们称其为用户的Aha Moment(顿悟时刻)。这一产品对整个行业、逐步进行商业化、用户量提升都有很大的影响。Midjourney也类似,2022年7月份V3推出时,用户量并不多,也没有收费功能,知道Midjourney的人寥寥无几。直到半年以后,Midjourney于2022年11月份推出V4,我们认为这诞生了文生图的下一个拐点,在这个拐点上有了非常大的提升,其产品的用户量、收费方式、商业化等都得到了满足。再来看3D,我们现在看到的3D生成,类似于Midjourney V3的水平,但已经可以在一些场景使用起来了。预计到今年9、10月份,3D生成可以达到Midjourney V4的水平;今年年底可以达到类似于Midjourney V5的水平,通过图灵测试,并带来一次非常大的商业变革。从3D生成的演进过程来看,除了像我们这样的创业公司,谷歌、英伟达、OpenAI、Meta、Adobe等海外企业都已进入到3D生成这个领域。在学术上,我们从布局3D原生路线、2D优化路线、多视角生成、编辑动态场景到人物生成,在CVPR、ICLR等国际顶会上都发表了大量论文,并开源了相应技术。全世界最大的几个3D生成开源社区都是由我们做的,比如与Stability AI共同开源了全世界最大、效果最好的图生 3D大模型TripoSR,我们还开源了全世界最大的3D算法框架Threestudio、超火爆的单图生3D算法Wonder3D,以及TGS、CSD等开源项目。我们预计2024年年底会把3D生成做到Midjourney V5甚至V6的水平,达到下一个爆发时刻。3D的核心在于可交互、可体验,甚至带一些游戏性。所以我们会同步做3D动态的内容生成,包括骨骼的自动绑定、动作生成,这已经在我们产品里上线。同时,我们认为在明年或许会实现,每一个人都有能力去生成无限个属于自己的3D内容,不管是游戏、XR体验,还是任何的3D内容,这也是我们对整体3D内容生成趋势的判断。02.3D创作门槛和成本太高,需要大众化3D内容平台我们刚刚讲了很多AI 3D技术,但我更希望和大家分享我们是怎么把AI 3D玩起来的。我们认为AI 3D是在拓展人类能力的边界。我随便在门口拉个人进来,让他给我发一个Twitter,可能只需要5秒钟。我说你再给我发一个TikTok,他做一下剪辑,可能2分钟就能搞定。如果我让他做个游戏,他可能会说:“好,给我3年时间、1000个人、2亿美金,我给你做个游戏。”这是很正常的。3D为什么这么特殊?是因为其创作门槛和成本太高,它没有诞生出一个属于自己的内容平台,同时也没有实现内容的爆发。我为什么这么说?比如我刚刚举的例子,文字有微博、贴吧作为内容平台,图片有Instagram、小红书作为内容平台,视频有TikTok、抖音、快手、YouTube,音乐有Spotify,甚至声音都有喜马拉雅,但是3D缺少大众的内容平台。核心就是生成门槛和成本太高了。如果有一天我跟你说,发个小红书需要给我10万块钱、拍个TikTok需要3年,那你可能就不会发布内容了。因此,核心点在于3D内容成本高,如果需要1亿美金,我就得赚1亿美金回来,自然使得其内容非常少。但如果有一天,3D内容的成本被降到无限接近于0,是不是每个人都可以低成本创作3D内容?这样一来,创作3D内容不再是为了赚钱,而是像发小红书一样,宣泄自己的情感、表达自己的想法、炫耀自己的创意,这可能是未来每个人制作3D内容、做虚拟世界、探索各种各样虚拟玩法最核心的诉求,不需要再考虑怎么赚钱。3D创作者也会发生变化,不再是游戏大厂里面的建模师、动画师,可能是我们在座的每一位,所以我们在拓展人类的边界。今天在大会上,我们在讲文生文、文生图、文生视频、文生音乐、文生声音等各种各样的生成方式,我今天也学习到了很多。但是我们看到人用键盘打字、用手机摄像头拍照、P图、拍视频、加滤镜等本身都是非常容易的事情,AI只是一个工具。在所有的内容品类中,除了3D,AI提供的都是Alternative(可被选择的),只有3D提供的是从0到1的过程,它拓展了人类的能力边界。我们做3D生成就是希望降低用户创作的门槛和成本。并且,我们认为成本下降后,当3D出现自己的“手机摄像头”时,就意味着3D出现了类似于“抖音”和“快手”的机会。因此,我们希望做一个属于自己的3D内容平台、自己的大众级别创作者工具。当大家不断使用这些创作者工具和内容平台时,我们就会有更多数据,从而形成数据飞轮,让更好的技术带来更好的产品体验、更多的用户带来更多的数据。当然,我们面向的用户更为关键,同赛道的一些其他玩家对于拿AI 3D做什么,大家的答案可能各不相同。对于我们而言,我们可以给好莱坞、横店、宝莱坞的导演、摄影师提供“手机摄像头”。但是“手机摄像头”给大家带来的可能是移动互联网时代的“收钱吧到账500块”。例如用“每刻报销”节省时间报销,省下来的时间你可以去拍小红书、拍TikTok,或者创作自己想要做的视频和图片内容。这件事情可能对于我们来说更关键。虽然,我们也有很多游戏、动画、影视的应用,但长期来说,我们希望服务的是在座的、看直播的每一位,让每个人都有办法去创作3D内容。03.生成3D模型超200万,AI原生小游戏一周突破十万用户给大家讲一下我们产品上线的情况。今年年初,我们上线了3D大模型Tripo,百天内生成超过150万个模型,现在已经生成200万个模型。这是什么概念?上个月在硅谷参加GTC,我们与全世界一些全球顶级的模型交易平台交流,这些平台积累了十几年,每个平台沉淀的模型大概有190万~200万个。而我们在短短三四个月就已经超过他们了,这就是AIGC的力量。看数据其实很难有感观,但确实看到社区中有很多很有意思的东西。一些KOL、合作伙伴、有意思的创作者会和Magnific等AI工具结合形成完整的工具流,然后将其放到《堡垒之夜》的UGC平台、Roblox等场景中,展示给其他的创作者。欢迎大家关注我们的Twitter账号@tripoai。在与游戏公司的合作方面,除腾讯、网易这样的游戏大厂,我们也会和5-10个人的游戏工作室合作。因为我们的出现,这些游戏公司不再烦恼没有足够的资金去招一线的美术团队、招十几个3D美术专家,现在他们只需要使用我们的3D生成能力,就可以快速完成角色设计、场景设计、关卡生成等工作,实现降本增效,打通其游戏的资产管线。同时,很有意思的一点在于,它会出现一些原生AI玩法。例如TripoGO小游戏,开发者仅用了不到一个月的时间开发,其玩法是你生成一个3D模型,我生成一个3D模型,然后互相打,谁打赢了就可以拿到对面的Prompt(提示词)。比如你是“胡桃夹子抽雪茄”,我是“路易十四开法拉利”,我把你打赢之后,我就变成了“胡桃夹子抽着雪茄开法拉利”。虽然这个小游戏的玩法并不复杂,但是第一天就拥有1万多个用户,一个礼拜之内突破了10万用户,这就是AI原生玩法的力量。还有更多的展示,包括动画生成、场景生成等。很多年轻开发者动手能力非常强,基于我们的3D生成能力做了很多自动化工具,比如ComfyUI的节点、各个引擎的插件等等。他们也会开发自己的Web App小游戏,并展现出来。同时,我们还有苹果Vision Pro的应用,本质上就是你在虚拟世界里面,可以通过声音、文字、图片生成3D模型,生成后将它摆到任何地方,然后让它跳舞、跟你合照等。所谓的“言出法随”就是这样,每个人都变成了3D的“神笔马良”。我们的Slogan是为世界进文明,为人类造幸福。我们的官方网站tripo3d.ai现在可以免费注册,同时可以使用我们的开放平台。以上是宋亚宸演讲内容的完整整理。(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章