VAST宋亚宸：3D生成迈入秒级时代，今年将做到Midjourney V5/V6水平丨GenAICon 2024

2024-05-24 10:05

3D创作门槛和成本太高，需要大众化3D内容平台。

2024中国生成式AI大会于4月18-19日在北京举行，在大会第二天的主会场AIGC应用专场上，VAST创始人兼CEO宋亚宸以《大模型Tripo驱动3D生成迈入秒级时代》为主题发表演讲。

从文字、图片到视频、3D，信息载体不断升级，宋亚宸谈道，3D的体验质量、信息密度不断提升且更具互动性。他认为目前3D生成已经达到类似Midjourney V3的效果，今年9月将达到类V4效果，年底达到类V5/V6效果，实现真正可用，甚至通过图灵测试。

VAST是3D生成模型领域的第一梯队玩家，已打造全球最大的几个3D生成开源社区，并与Stability共同开源了全球最大、0.5秒图生3D模型TripoSR。其创始人兼CEO宋亚宸也是首位在计算机图形学顶会SIGGRAPH上发表主舞台主题演讲的中国创业者。

据宋亚宸分享，VAST的3D大模型Tripo上线百余天内生成了超过200万个3D模型。为了应对3D生成创作成本和门槛过高的挑战，VAST将3D内容平台和大众级创作者平台结合。当前这家创企已拥有超过200家B端客户，并基于其平台开发出原生AI爆款小游戏，一周突破10万用户。

以下为宋亚宸的演讲实录：

AIGC会使游戏的创作门槛和成本无限降低，这就是我们做的事情。

我们是做3D大模型的公司，产品核心就是将用户输入的文字或者图片快速生成3D模型。3D模型可以在游戏、动画、影视、元宇宙、3D打印等行业中直接使用，其本身带有Mesh、贴图、材质，你可以进入传统管线二次编辑，进行驱动、渲染等。3D模型还可以拥有带骨骼、带动作等格式，出现很多种有意思的使用方式。

那么，我们为什么要做3D这件事？

文字、图片、视频、3D中，3D是非常特殊的品类，从文字、图片、视频到3D是信息载体不断升维的过程，3D也被认为是最终的信息载体，其信息密度、体验质量都在不断提升，同时拥有双向互动性。

因此，我们相信世界正在进入一个3D新时代。

01.

3D生成迎新拐点，
今年做到Midjourney V5/V6水平

为什么现在做3D生成这件事情？OpenAI的GPT-3刚发布时，关注的人并不多，在其基础上做的应用、开发也相对较少，仅有如Replika等少数几个应用，大家对它的认知比较少，使其很难进行商业化。

直到2022年11月份，ChatGPT的发布成为了一个非常大的拐点，我们称其为用户的Aha Moment（顿悟时刻）。这一产品对整个行业、逐步进行商业化、用户量提升都有很大的影响。

Midjourney也类似，2022年7月份V3推出时，用户量并不多，也没有收费功能，知道Midjourney的人寥寥无几。直到半年以后，Midjourney于2022年11月份推出V4，我们认为这诞生了文生图的下一个拐点，在这个拐点上有了非常大的提升，其产品的用户量、收费方式、商业化等都得到了满足。

再来看3D，我们现在看到的3D生成，类似于Midjourney V3的水平，但已经可以在一些场景使用起来了。

预计到今年9、10月份，3D生成可以达到Midjourney V4的水平；今年年底可以达到类似于Midjourney V5的水平，通过图灵测试，并带来一次非常大的商业变革。

从3D生成的演进过程来看，除了像我们这样的创业公司，谷歌、英伟达、OpenAI、Meta、Adobe等海外企业都已进入到3D生成这个领域。

在学术上，我们从布局3D原生路线、2D优化路线、多视角生成、编辑动态场景到人物生成，在CVPR、ICLR等国际顶会上都发表了大量论文，并开源了相应技术。

全世界最大的几个3D生成开源社区都是由我们做的，比如与Stability AI共同开源了全世界最大、效果最好的图生 3D大模型TripoSR，我们还开源了全世界最大的3D算法框架Threestudio、超火爆的单图生3D算法Wonder3D，以及TGS、CSD等开源项目。

我们预计2024年年底会把3D生成做到Midjourney V5甚至V6的水平，达到下一个爆发时刻。

3D的核心在于可交互、可体验，甚至带一些游戏性。所以我们会同步做3D动态的内容生成，包括骨骼的自动绑定、动作生成，这已经在我们产品里上线。

同时，我们认为在明年或许会实现，每一个人都有能力去生成无限个属于自己的3D内容，不管是游戏、XR体验，还是任何的3D内容，这也是我们对整体3D内容生成趋势的判断。

02.

3D创作门槛和成本太高，
需要大众化3D内容平台

我们刚刚讲了很多AI 3D技术，但我更希望和大家分享我们是怎么把AI 3D玩起来的。

我们认为AI 3D是在拓展人类能力的边界。我随便在门口拉个人进来，让他给我发一个Twitter，可能只需要5秒钟。我说你再给我发一个TikTok，他做一下剪辑，可能2分钟就能搞定。如果我让他做个游戏，他可能会说：“好，给我3年时间、1000个人、2亿美金，我给你做个游戏。”这是很正常的。

3D为什么这么特殊？是因为其创作门槛和成本太高，它没有诞生出一个属于自己的内容平台，同时也没有实现内容的爆发。

我为什么这么说？比如我刚刚举的例子，文字有微博、贴吧作为内容平台，图片有Instagram、小红书作为内容平台，视频有TikTok、抖音、快手、YouTube，音乐有Spotify，甚至声音都有喜马拉雅，但是3D缺少大众的内容平台。核心就是生成门槛和成本太高了。

如果有一天我跟你说，发个小红书需要给我10万块钱、拍个TikTok需要3年，那你可能就不会发布内容了。因此，核心点在于3D内容成本高，如果需要1亿美金，我就得赚1亿美金回来，自然使得其内容非常少。

但如果有一天，3D内容的成本被降到无限接近于0，是不是每个人都可以低成本创作3D内容？这样一来，创作3D内容不再是为了赚钱，而是像发小红书一样，宣泄自己的情感、表达自己的想法、炫耀自己的创意，这可能是未来每个人制作3D内容、做虚拟世界、探索各种各样虚拟玩法最核心的诉求，不需要再考虑怎么赚钱。

3D创作者也会发生变化，不再是游戏大厂里面的建模师、动画师，可能是我们在座的每一位，所以我们在拓展人类的边界。

今天在大会上，我们在讲文生文、文生图、文生视频、文生音乐、文生声音等各种各样的生成方式，我今天也学习到了很多。但是我们看到人用键盘打字、用手机摄像头拍照、P图、拍视频、加滤镜等本身都是非常容易的事情，AI只是一个工具。

在所有的内容品类中，除了3D，AI提供的都是Alternative（可被选择的），只有3D提供的是从0到1的过程，它拓展了人类的能力边界。

我们做3D生成就是希望降低用户创作的门槛和成本。并且，我们认为成本下降后，当3D出现自己的“手机摄像头”时，就意味着3D出现了类似于“抖音”和“快手”的机会。

因此，我们希望做一个属于自己的3D内容平台、自己的大众级别创作者工具。当大家不断使用这些创作者工具和内容平台时，我们就会有更多数据，从而形成数据飞轮，让更好的技术带来更好的产品体验、更多的用户带来更多的数据。

当然，我们面向的用户更为关键，同赛道的一些其他玩家对于拿AI 3D做什么，大家的答案可能各不相同。

对于我们而言，我们可以给好莱坞、横店、宝莱坞的导演、摄影师提供“手机摄像头”。但是“手机摄像头”给大家带来的可能是移动互联网时代的“收钱吧到账500块”。例如用“每刻报销”节省时间报销，省下来的时间你可以去拍小红书、拍TikTok，或者创作自己想要做的视频和图片内容。这件事情可能对于我们来说更关键。

虽然，我们也有很多游戏、动画、影视的应用，但长期来说，我们希望服务的是在座的、看直播的每一位，让每个人都有办法去创作3D内容。

03.

生成3D模型超200万，
AI原生小游戏一周突破十万用户

给大家讲一下我们产品上线的情况。

今年年初，我们上线了3D大模型Tripo，百天内生成超过150万个模型，现在已经生成200万个模型。

这是什么概念？上个月在硅谷参加GTC，我们与全世界一些全球顶级的模型交易平台交流，这些平台积累了十几年，每个平台沉淀的模型大概有190万~200万个。而我们在短短三四个月就已经超过他们了，这就是AIGC的力量。

看数据其实很难有感观，但确实看到社区中有很多很有意思的东西。一些KOL、合作伙伴、有意思的创作者会和Magnific等AI工具结合形成完整的工具流，然后将其放到《堡垒之夜》的UGC平台、Roblox等场景中，展示给其他的创作者。欢迎大家关注我们的Twitter账号@tripoai。

在与游戏公司的合作方面，除腾讯、网易这样的游戏大厂，我们也会和5-10个人的游戏工作室合作。因为我们的出现，这些游戏公司不再烦恼没有足够的资金去招一线的美术团队、招十几个3D美术专家，现在他们只需要使用我们的3D生成能力，就可以快速完成角色设计、场景设计、关卡生成等工作，实现降本增效，打通其游戏的资产管线。

同时，很有意思的一点在于，它会出现一些原生AI玩法。

例如TripoGO小游戏，开发者仅用了不到一个月的时间开发，其玩法是你生成一个3D模型，我生成一个3D模型，然后互相打，谁打赢了就可以拿到对面的Prompt（提示词）。比如你是“胡桃夹子抽雪茄”，我是“路易十四开法拉利”，我把你打赢之后，我就变成了“胡桃夹子抽着雪茄开法拉利”。

虽然这个小游戏的玩法并不复杂，但是第一天就拥有1万多个用户，一个礼拜之内突破了10万用户，这就是AI原生玩法的力量。

还有更多的展示，包括动画生成、场景生成等。很多年轻开发者动手能力非常强，基于我们的3D生成能力做了很多自动化工具，比如ComfyUI的节点、各个引擎的插件等等。他们也会开发自己的Web App小游戏，并展现出来。

同时，我们还有苹果Vision Pro的应用，本质上就是你在虚拟世界里面，可以通过声音、文字、图片生成3D模型，生成后将它摆到任何地方，然后让它跳舞、跟你合照等。所谓的“言出法随”就是这样，每个人都变成了3D的“神笔马良”。

我们的Slogan是为世界进文明，为人类造幸福。我们的官方网站tripo3d.ai现在可以免费注册，同时可以使用我们的开放平台。

以上是宋亚宸演讲内容的完整整理。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章