专访梅涛：多名科大校友支持创业，年底前做出超越Stable Diffusion的底层视觉模型

2023-06-14 04:06

机器之心报道

作者：姜菁玲

人工智能热潮正快速点燃AI科学家的创业热情。继原京东高级副总裁周伯文离职创业后，京东另一AI大牛梅涛同样在近日宣布创业。

今年春节前，梅涛告别京东集团副总裁一职，决心投身大模型创业。一个月后，HiDream.ai成立，公司方向确定为生成式视觉多模态基础模型与应用。

梅涛毕业于中国科学技术大学，是加拿大工程院外籍院士、IEEE/IAPR/CAAI Fellow。多年来，梅涛主要在计算机视觉和多媒体领域建树，是多媒体领域获得国际最佳论文奖最多的华人学者。目前，梅涛博士还是中国科学技术大学和香港中文大学（深圳）的兼职教授和博士生导师。

由多位中科大校友组成的投资方评价梅涛，“是一个足够有野心，且有CEO才能的人”。

正式创业前，梅涛与周伯文、何晓冬三人是京东AI部门的牵头人物，负责了京东拍照购、多模态内容审核与生成、多模态数字人、智能机械臂等技术的研发。更早之前，梅涛在微软亚洲研究院工作了12年，支持了微软图像、视频搜索与摘要、Office图文混排等AIGC项目。

从能力板块上看，与许多AI科学家只拥有技术的极致长板不同，在微软与京东这两家世界五百强的职业经历一定程度上为他补充了产品与市场视角。

至今，HiDream.ai已经成立三个月。机器之心在位于北京中关村苏州街上的HiDream.ai办公室看到的Demo显示，HiDream.ai的模型不仅能够支持文生图，还能支持文生视频、图生视频以及文生3D内容。

其中，文生图产品支持输入Prompt生成图片，还能够对任意图片中的想要修改的部分进一步编辑。比如要求修改所生成图片的背景、主体等。

输入“小熊拉琴”，文生视频产品能够生成相应的短视频或者动图。

输入“冰激凌”，文生3D产品能够实时生成具有高度真实感冰激凌的3D原型。

红杉美国所发布的《Generative AI: A Creative New World》一文中提到，世界范围内，文生图片、视频、3D领域的技术成熟度远远低于文生文。在大语言模型训练中面临的数据紧缺、商业边界不清晰等问题在生成式视觉模型上更为紧张。

随着全球大模型生态的二八效应逐步加剧，追随者的成本快速增长。梅涛团队的初步目标是年底前在基础模型上超越Stable Diffusion最新版本，而在产品上则要赶超MidJourney。

以下为机器之心与梅涛的对话：

年底前超越Stable Diffusion

机器之心：HiDream.ai的整体目标是什么？

梅涛：我们希望构建一个全球领先的视觉多模态基础模型，可以用一个基础模型实现不同模态之间的生成转换，支持文字到图片、文字到视频、图片到视频、文字到3D等不同应用。我们的整体构想是模型层和应用层一起发力。

机器之心：目前许多AI科学家选择在大语言模型方向创业，你在多模态视觉底层模型投入的理由是什么？

梅涛：从大的角度看，我认为人与人的交流天然就是多模态的形式，而不仅仅只是一个文字和语言的模块。

我们现在讲语言模型，其实忽略了一点，语言模型本身就应该是多模态的，而并非仅是像目前ChatGPT所实现的——仅仅是文字的交流。视觉信息其实占据了我们人类每天所产生和接受的信息量的80%以上，因此视觉是非常重要的一种模态。

其次，我是技术出身，因此创业一定是根据自身的特长。多年以来，我们在视觉领域做得非常深入，因此有足够的竞争力和全球视野。

虽然我们拿到算力资源开始训练不到8周，但是我们短期的目标是在今年年底前，在基础模型领域超越Stable Diffusion，在文生图产品上赶超MidJourney，我们相信自己可以做得更好。

机器之心：“更好”会体现在哪些方面？

梅涛：现在大语言模型基本已经固化在GPT的架构上，只是大家用不一样的训练数据和训练技巧。并且GPT架构的天花板也很高，许多模型的参数量已经接近万亿级别。

但是目前的视觉基础模型却还有很大的进步空间。以被应用较多的Diffussion模型来看，它的天花板比较低，参数量只有十几亿到二十几亿。

所以我们就在想能不能做出一个比Diffusion框架更好更智能的底层模型，使得现在的视觉多模态基础模型可以从类似GPT-2的时代，向3.0甚至4.0时代进步。GPT-2的时候，参数量是几十亿，GPT-3进入了百亿。

那今天的视觉（类）模型还处于2.0时代，有没有哪家公司能做到百亿参数，使得模型在提升自己能力的同时甚至可以出现智能涌现。

机器之心：要做到这个目标，目前有哪些限制性问题需要解决？

梅涛：首先是数据问题。市场上高质量的图文配对以及用于视频理解训练的数据非常稀缺。

我们在冷启动的情况下，目前大概有60亿参数的训练数据。我们希望将来产品上线后，数据能形成一个飞轮反哺到模型，这样我们就可以实现算法和数据的双轮驱动。

其次是模型容量问题。当下就算我们给Diffussion模型投喂更多的数据，因为模型容量小、天花板低，它可能也记不住这么多的视觉信息。也就是说，即使我们拥有百亿级的数据，放到现有的模型里去训练，可能也只能得出10-20亿左右的参数。

所以我们会去增加一些强有力的补丁，比如说记忆增强。只有一个系统模型的容量大了，记忆力增强了，相当于我们人脑的神经元多了，这个时候你就能记住更多的信息和知识。

机器之心：算力问题您怎么考虑？

梅涛：我不觉得算力是一个问题。

首先，对于我们来说，并不需要像大语言模型那样需要上千甚至上万张卡。按照要将参数做到百亿这个目标去算，我们预计只需要几百张A100，这对我们来说不构成困难。

其次，根据摩尔定律，在不远的将来，算力成本将会成倍降低，同时运算能力会指数增长，因此算力将不再是稀缺资源。

机器之心：你们的技术优势是什么？

梅涛：我们有三大技术优势。

首先是我们在视觉信号的编码方面有独到的方法。视觉信号与文字信号不一样，文字的tokenization相对简单，因为每个单词就是一个token，并且它的语义也是相对固定的；但是从一张照片或一段视频中去做tokenization，则是一个很难的问题。如果用像素作为token，则意味着爆炸式的计算量，同时像素之间的相关性也很差。

而我们采用的方法是构建一个能够处理更高维度像素之间的视觉相关性的Transformer编码器（Contextual Vision Transformer），这样的好处是不仅能够显著增强视觉自注意力的学习能力，并且可以扩大视觉编码器的感受野，使得我们学习到的视觉token具备更强的表达能力。

其次是模型方面的创新，我们会通过训练一个单独的记忆模块，让现有模型的记忆力得到增强，能够接受和学习更多的视觉信息。

最后，我们希望能将现在的Diffusion框架在模型的深度和宽度两个维度做得更深，通过一些工程上的精细化调整，使得我们的模型规模能上一个量级，将来可以实现更精细化的和可控的视觉内容生成。

当然，在模型本身的理论创新方面，我自己的博士生们也在努力攻关，希望在原创模型上能有所突破。

用文生图来证明底层模型

机器之心：现在基于底层模型，你们有文生图、文生视频、文生3D内容三个具体应用，三个应用的研发节奏是怎样的？

梅涛：整体上，我们希望做一个通用的生产力工具，之后变成一个生产力平台，最终形成一个社区，大家在社区中去共享共创。工具化验证后，希望可以做成一个相对通用的产品线，不仅服务游戏和营销等相关领域，更多其他行业的客户可以通过调用API接口，或者定制模型来服务。

目前，我们是一边做模型，一边做文生图产品。文生图产品将会直接面向市场，我们正在与一些大行业客户旗下的设计师共同合作打磨产品，预计在7月底正式上线，年底前将实现规模化的实施。另外，文生视频我们会同步做，不过可能会在年底前推出。文生3D内容相对优先级较后，我们保持探索。

机器之心：为什么文生图产品的优先级是最高的？

梅涛：原因有三点。

第一，文生图是做好文生视频和3D的基础，如果没有好的文字到图像的模型，那我们也很难做好文字到视频和3D，因此文生图是基础。

第二，我们希望用文生图的产品来验证自己的底层模型能力和商业化路径，也可以在效果上很快就能做得比现有模型好。

第三，先做文生图，也是因为文生视频和文生3D在技术和市场上仍然处于早期，需要一定的时间去探索。

机器之心：你如何理解这三者的市场空间？

梅涛：文生图的市场空间其实很大。参考MidJourney只有11个人的团队，已经做到超过1个亿美金的收入了。

在文生图的商业化上，我们目前希望切入产品设计和营销这两个价值链中最重要也是最普遍的环节。在产品设计上，我们希望首先面向专业设计师群体，通过可控、可交互的图片生成服务，帮助他们更好地实现创意，提升生产力，让设计师形成较好的使用和付费习惯，之后再不断外延到UGC用户。

全球有9000万设计师，中国有2000万，设计师所面临的痛点主要在于没有足够多的创意，以及验证创意的成本太高。我们希望这个工具可以帮助设计师提升个人的竞争力，可以帮助他们快速产生更多更好的创意，并加速生产流程。

而文生视频的市场空间会比文生图赛道更大，它可能会颠覆目前短视频的玩法。参考目前用户对短视频内容的大量消费情况，当PGC验证过后，文生视频工具在UGC领域的需求会是颠覆性的爆发。同时，文生视频目前还没有一家可以做到像素级丝滑（没有任何抖动）的生成，可提升空间很大，当然技术壁垒也是非常的高。

文生3D在游戏和AR/VR领域的想象空间则非常大。我们在做游戏领域的客户访谈时发现，客户最大的需求在3D内容创建。我们团队本身在3D方向拥有很多学术积累，虽然目前整体技术还很不成熟，但是值得探索。

机器之心：那么文生图将会是你们第一个面世的产品。从去年到现在，许多大厂和小厂都在文生图赛道上做了尝试。此刻切入这个市场，你们的优势是什么？

梅涛：目前文生图赛道确实很卷，市场竞争非常激烈。我们看到虽然很多公司做得还不错，但仍然有人脸、手指、景深、可控性等很多技术问题没有解决。

从技术上讲，市场上的众多文生图产品，相当于一桌满汉全席，各家有不同的搭配方法。我们清晰地知道这些是怎么搭配的，因此我们知道怎么去更好地去把这一桌菜做搭配。

从结果上看，我们模型迭代的速度很快，不到6个礼拜就从0到1研发并迭代了一个相对稳定的模型，其他团队可能需要几倍的时间。别人可能需要训练十次才能拿到一个比较满意的结果，而我们只需要两三次。

市场方面，我们是面向全球市场。而且文生图只是我们基于底层视觉模型来打样的一个产品，对于其他的文生图公司，我们本质上也并非竞争关系，未来他们也能够选择调用我们的基础模型来做微调（finetuning）训练或直接使用我们的API接口服务。

ChatGPT的出现加速了我的创业进程

机器之心：你此前的职业路径都在大厂。创业这件事，在你的预期之中吗？

梅涛：在。我之前的职业生涯实际上是在有意识的为创业做准备。在微软期间，我主要在技术方向上磨练，之后去到京东，所做的工作离产品和市场更近了，帮我补充了技术之外的视角，是一段非常好的经历。

但没有预料到的是ChatGPT的爆火，为生成式AI带来了爆炸式的热度，这加速了我的创业计划。但即使没有这件事，我仍然会创业，早晚的事。创业这件事，在我看来，一辈子注定要做一次；如果不做，我会后悔。

另外，我创业的一个重大原因是大厂的节奏相对比较慢，而我做事特别快，我认为创业公司在节奏上会快很多。因为在这个赛道上我们已经比国外落后了9个月甚至1年，所以我认为应该用更快的加速度去追赶、甚至超越它，而不是说按部就班地去做。

我现在经常拿着背包，时刻准备着出差。有时我不知道明天会在哪个城市，感觉创业的生活有点像我们现在所做的Decoding，每天都在解锁未知的事情，很辛苦但也很充实！

机器之心：你认为这次的人工智能创业潮与以往的有什么区别？

梅涛：这次人工智能创业的门槛非常之高。在模型层，需要你有高密度的算法科学家，其次还需要有足够的算力，足够的数据。以往的判别式AI公司（如人脸识别），虽然有头部公司，但是小公司跟随起来不是特别费劲，但是现在完全不同。

机器之心：公开资料显示，你已经完成了来自阿尔法公社、中喝大种子一号基金参与的种子轮融资，近期还将完成第二轮融资。目前公司在人才和资金方面的进展如何？

梅涛：公司已经运营了接近三个月的时间，目前我们的办公场所，还有早期的人才和算力已经基本到位。

资金方面，我们正在采用小步快跑的模式快速迭代，种子轮只是起步资金，今年年底前预计会分两轮完成数千万美金额度的天使轮融资。下一轮资金将用来扩张团队、购买算力资源以及商业化探索。目前团队共有十一人，预期在年底前会扩张到二十至三十人左右。我希望构建一个小规模的精干团队。

机器之心：听下来年底对你们来说是一个比较重要的节点。那接下来的半年，你们会着重解决哪些问题？

梅涛：第一个是模型方面，我能否将它做到百亿级，模型效果在参加评测时能否对标甚至略超过目前的模型；其次，在文生图产品上，我们的效果能不能超过目前世界上最好的公司；第三，我们内心完整的商业模式能否得到初步验证，比如我们能否服务好行业中的小B客户以及我们的用户到底喜不喜欢我们的种子产品，这对我来说是很重要的指标。我未来的半年主要就是把这三件事做好。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章