专访生数科技唐家渝：清华系团队拿到上亿融资，用Transformer来做多模态大模型

2023-06-19 03:06

机器之心报道

作者：姜菁玲、杨德泽

随着GPT4的出现，多模态大模型的发展方向逐渐成为共识。近日，一支由清华人工智能研究院副院长朱军教授带领的新团队悄悄完成了近亿级天使轮融资。

机器之心了解到，这家多模态大模型创业公司名为生数科技，公司正式成立于2023年3月，由瑞莱智慧RealAI、蚂蚁和百度风投联合孵化，前瑞莱智慧副总裁唐家渝出任首席执行官。本轮融资由蚂蚁集团领投，BV百度风投、卓源资本跟投，投后估值达1亿美金。

生数科技拥有“明星”技术团队。目前其核心成员来自清华大学人工智能研究院，该团队长期致力于贝叶斯机器学习的基础理论和高效算法研究，是目前在扩散概率模型领域发表论文成果最多的国内团队，并培养出了多名生成式AI领域重要的研究者。

2017年，该团队发布贝叶斯概率机器学习平台“珠算”，这是国际上最早的面向深度概率模型的编程库之一，支持包括GAN、VAE、Flow等深度生成式模型在内的各种概率建模。

去年1月，团队提出了一种新颖的无训练推理框架Analytic-DPM，在无需额外训练的情况下，直接估计得到最优方差，大大加速了采样效率，相较传统模型DDPM加速了近20倍。该成果被评选为ICLR 2022杰出论文，同时被OpenAI应用于DALL·E 2模型处理策略中。

去年6月，团队又提出了采样算法DPM-Solver，只用10到15步就能获得高质量的采样，该成果入选NeurIPS 2022 Oral，至今仍作为全球最快图像生成算法被Stable Diffusion等大量开源项目所采用。

生数科技目前的创业方向为多模态通用大模型和应用产品的研发。机器之心获得的Demo显示，生数科技目前的模型支持图像生成、3D内容生成以及视频生成任务，未来，该大模型将实现文本、图像、3D模型、语音、视频等任意模态间的转化与融合。

3D内容生成（Prompt: a DSLR photo of a blue jay standing on a large basket of rainbow macarons）

图像生成

修改视频中画面元素（Prompt: a Swarovski crystal swan is swimming in a river）

注：最左原视频、中间生数效果、最右Runway效果

生数科技CEO唐家渝对机器之心表示，当前所训练的大模型在图像生成上的落地成熟度较高，生成效果已经超过Stable Diffusion最新版基础模型，预计将于年内赶超Midjourny。相较其他图像生成公司，公司打造中的产品主要将在可控性和美观性上实现突围。在3D内容生成方面，公司研发了业内首个基于三视图自动生成3D内容的技术，以及无需任何3D训练数据的文生3D内容技术，效果方面可以做到细节精细化，能够接近产业级应用。

以下是机器之心与生数科技CEO唐家渝的对话：

用Transformer架构做多模态大模型

机器之心：生数科技由瑞莱智慧孵化，为什么在这个时候选择分拆出来，单独去做一个多模态大模型公司？

唐家渝：其实早在2013年，在清华实验室阶段，我们的创始团队成员就开始了深度生成式模型相关的研究工作，涉及生成式模型理论基础、高效学习和推理算法，以及音乐生成、人脸合成等多个方向。

近两年，扩散模型作为生成式模型新方法开始流行，我们的几位创始成员也是很早就参与了这波浪潮，可以说是国内最早一批开展扩散概率模型基础理论和算法研究的队伍。

去年10月份，我们在ChatGPT还没有推出的时候，就意识到生成式模型在应用层方面的潜力，我们认为AI可以在文本、图像、视频和3D内容的生成上做得很好，并且在商业上的想象空间非常大。

另外从学术研究进展看，在多模态大模型领域，我们跟美国并没有形成明显的代差，全球范围内来看多模态大模型的研究仍处于起步阶段，技术成熟度还不高。这一点不同于目前火热的语言模型，国外已经领先我们一个时代。

所以，相比于在在语言模型上“卷”，我们觉得多模态更是国内团队抢占大模型赛道的一个重要机会，同时我们也有足够的技术自信相信我们能够在全球领先。

至于分拆运营主要有两方面的考虑，一是从业务的角度，瑞莱智慧的业务方向聚焦于安全可控的人工智能解决方案，例如提升AI技术及应用的安全性、可靠性等，服务于B端客户，生数则是聚焦在多模态大模型和应用开发，主要涉及C端产品，业务定位上有不同；二是大模型创业前期对资源投入需求是巨大的，独立分拆运营更加合适。

机器之心：目前有不少公司在做多模态大模型，你们在技术上有什么区别和优势？

唐家渝：整体来看，目前业内做图像生成大模型的思路是一样的，都是基于扩散模型。我们的创新之处在于修改了底层的主网络，首个把Transformer用在Diffusion Model技术里面实现多模态。

Transformer架构的优势在于能够将所有数据都表示成序列，所以可以接受任意模态的输入。并且Transformer的架构能够充分享受到大语言模型领域带来的进展，在模型架构和工程优化上都有更高的潜力。

2023年1月，我们推出并开源了国内首个基于Transformer的多模态扩散大模型UniDiffuser，采用了基于Transformer的网络架构U-ViT，在开源的大规模图文数据集LAION-5B上训练了一个9.5亿参数量的模型，实现基于一个底层模型能够高质量地完成多种生成任务。

简单来讲，除了单向的文生图，还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能，能够实现图文模态之间的任意转化，大幅提升文图内容的生产效率，也进一步提升了生成式模型的应用想象力。

我们已经攻克了Transformer模型如何编码图文数据的问题，并且走通了神经网络的学习方式。从最终模型能力上来说，我们在年初的版本里已经发现，相比于Stable Diffusion模型，在同样的生成效果下，我们训练的轮次要少很多。

在开源平台上，已经有许多人在关注我们放出的框架。虽然目前我们没有把训练代码公布，但是大家应该能够了解到，Transformer这个架构是可以做到这些事情的。所以，这个模型的潜力是巨大的。

机器之心：大模型要拥有多模态能力，不一定要做底层的通用多模态大模型。做一个打通多模态的底层通用模型的必要性是什么？

唐家渝：真正的智能一定是通用多模态的，以人为例，人类与世界的交互过程中，虽然通过眼睛、耳朵、嘴巴、四肢等不同器官来获取和表达信息，但只用一个大脑来进行中转思考。声音、视觉、动作这些多模态信息同时输入和输出，人类才能够将一个事物或者概念认识和表达得足够准确。

所以，构建一套通用架构对图像、视频、语音等不同模态进行统一的建模是发展多模态，甚至是发展通用人工智能的关键。

从模型的能力上看，基于一个底层模型将不同模态信息进行打通和融合，它学习到的信息和知识一定是更多和更准确的，也更有可能涌现出更丰富的感知与生成能力。

不过这其中的门槛是极高的。虽然现在有很多大模型宣称拥有多模态能力，但实际上是多个单模态或跨模态模型的“排列组合”，将不同模型能力进行模块化的集成，而非在底层上将多种模态进行打通和融合。

这种模式下，相当于执行不同的模态生成任务就调用对应的模型接口，中间会存在信息损失，而且一旦引入更多的模态任务，需要训练承载不同跨模态的多个模型，从成本经济的角度也不是最优解。

机器之心：你强调生数的大模型是从0-1自研的，自研与否的区别在哪里？

唐家渝：简单来说从时间投入上能看出差别。

如果不是从底层开始训，操作上就是基于开源的模型，加一些数据、使用一些调参技巧，做一些Fine-tune的工作，或者安装一些“插件”，就可以了，整个过程相对来说还是比较容易的。

虽然说基于开源模型能保证快速出成果，但目前来看，开源模型的能力天花板仍不高。

而如果是从0到1自研的话需要踩的坑就会有很多，只有真正懂得底层技术原理，才能尽可能地避坑，使得自研模型能够在吸纳开源社区精华的同时，从底层更快更有效地优化模型最终表现。

目前来说，我们觉得针对底层核心算法的持续突破能力还是最重要的壁垒之一。虽然单纯使用开源模型也能让一个团队处于技术大潮中的前沿，但是你不是浪尖上那一朵的话，在目前快速发展的浪潮中就存在较大被拍倒的可能。

机器之心：目前来看，视觉类大模型创业公司数量和受关注程度都不如语言类大模型，你是怎么看的？

唐家渝：我认为主要是两个方面的原因，一是语言模型确实本身就有比较多的成熟应用场景，比如知识问答、写作助手、陪伴型机器人、智能客服等，对于普通公众而言，是生活中已经比较常见的场景，所以ChatGPT出来后能广泛引起关注。

另外就是现在语言类大模型开源的成果比较多，大家比较容易去做一些事情。但像目前的多模态或者跨模态模型领域，主要的开源工作就是Stable Diffusion，但是它本身天花板并不高，所以基于它衍生的空间就还不够大。

产品将从可控性与美学性方面突围

机器之心：你们目前的模型支持图像生成、3D内容生成以及视频生成任务，目前开发的成熟度分别是怎么样的？

唐家渝：图像生成方面，我们目前的生成效果已经超过了Stable Diffusion最新版基础模型的效果，预计在年内赶超Midjourney到时候的最新版本，目前应用类产品也在研发阶段，很快会推出。

3D内容生成方面，我们已经实现了文生3D和图生3D的能力。前者在无需任何3D训练数据的前提下，基于文本生成3D内容，与Shap-E（OpenAI）、DreamFusion（Google）、Magic3D（NVIDIA）等主流模型相比，我们在纹理、颜色等细节表现方面有非常显著的优势。另外我们也初步实现了基于三视图自动生成3D模型，能切实提升许多场景下传统3D建模的效率。

视频生成方面，我们已经实现基于文字的视频自动化编辑，根据给定的文本描述替换视频中的部分画面元素，例如改变物体颜色、人物着装、面容妆发、环境季节等。同时支持视频风格迁移，根据给定的文字描述或参考图，将原始视频转换为指定的不同风格。文字生成视频的能力我们其实也已经具备，但还不够成熟，目前整个业界的文成视频效果离落地都还较远。

在研发节奏上，我们预计9月会推出产业级大模型的1.0版本。产品上，我们将在下个月推出图像生成的内测版本，3D生成产品也会同步推进中。

机器之心：图像生成预计是你们第一个推出的产品。相比于市场上其他的图像生成产品，你们的差异化是在什么？

唐家渝：我们主要围绕可控性和美学性两方面做优化。

可控性指的是模型能够精确把握用户意图，比如当用户输入描述词后，能精准按照用户所想进行输出，或者用户想对画面的某个细节做精细化修改的时候，模型能准确地理解到并实现。

虽然现在市场上已经有众多的图像生成产品，但效果普遍存在很大的不确定性，无法保证输出的结果就是用户想要的。用户想要生成一张理想的图，需要不断修改描述词和反复尝试，而且我们也能看到，很多模型普遍对手之类的细节处理容易出现问题。

不单单是图像生成，包括3D生成也存在很大的不可控性，比如在纹理精细度、分辨率以及几何结构的准确性方面，距离真正商用还有很大的差距。

所以，可控生成能力将是实现成熟商业化的重要前提。可控生成本质上又是技术问题，比如从底层如何让模型更好地去理解用户语义，也就是用户的输入意图，从交互上如何支持利用圈选位置等易用的方式去修改细节等。

我们引入了很多技术方法去做优化和提升，也会刻意出一些“奇怪”的题目去做测试，例如输入“一只马站在桌子上”，以此为基准去核对所生成的画面是否准确等等。我们希望通过对可控性的不断改进，未来的人机交互能够做到让用户仿佛与专业设计师沟通一样的简单、明确，AI能够快速理解用户设计意图和任何修改意见。

美学性是图像生成的另一大重要标准。一张生成的图像无法做到美观，便基本无法使用，而且这个美观往往是有严格要求的，需要符合不同场景下的专业美学要求。很多时候，普通人看起来一张很不错的插图，但往往在专业艺术家、设计师眼中它是不可用的。或者同样的一组Prompt，两幅生成的图像，可能其中一幅你会觉得是普通摄影爱好者拍的，另一幅就是摄影家拍的，其中就是光线、构图等美学性方面的差异。

随着AIGC被应用到产品设计、游戏制作等专业化领域，其中对内容质量要求、美学要求都会更加严格。我们目前跟Midjourney的差距就主要在美学性和观赏度上。

技术方面来讲，在美学性方面的提升，首先需要我们去告诉计算机什么是美的，让它能够理解给它输入的东西是美的。其次，计算机需要学习美的特征。我们需要形式化的将这些美的特征去描述出来，然后让大模型能学习到也能生成出来，这其中的难点就比较大。我们已经有了很多理论上不错的实现思路，其中一些也已经被验证出确实是有效的了。

机器之心：在文生图的商业化上，可控性缺失是重要的限制因素。如何理解现在的可控性水平与客户的实际需求水平之间的差距？

唐家渝：ControlNet技术的出现可能大概解决了10%-20%的可控性问题，使得生成画作在姿态、风格以及构图上可以实现一定程度的控制。

但是这个程度还远远不够，比如我需要生成一张广告图，图中模特的动作我已经可以实现控制，但是更关键是需要实现对模特衣服的尺寸、袖口的紧贴度、模特所处的特定背景等等画面中各个细节的控制，后者才是我们在真实设计场景中会面临到的大部分需求，但是目前的技术在这些细节控制的精准度和易用性方面做得还是不够理想。

机器之心：文生图整体上来说已经到了一个可以商业化的技术程度了，你认为现在市场竞争的激烈程度如何？

唐家渝：总的来说，是在一个玩家比较多的阶段。不过我们觉得，现在除了Midjourney商业化跑得比较明确、口碑也很好以外，其他产品都属于不温不火的状态，因为整体可控性都做得不太好。

从用户角度来看，Midjourney的美学效果是有明显优势的，那就没有明显的动力再去用其他家。所以实质上，虽然文生图赛道很拥挤，但真正参与到竞争局势里的玩家非常少。

不过国内用户目前使用Midjourney并不是特别方便，且生成的可控性也做得不好，所以对国内厂商而言的确还是有机会的，但核心还是得效果有非常明显的优势。

机器之心：3D生成和文生视频如今离商业化还有多远？限制因素又是什么？

唐家渝：3D生成方面我们已经能看到一些明确的市场需求，比如游戏制作中的3D资产的自动化生成等，但从行业整体水平看，目前3D生成效果距离商用的工业级水平还有些差距，从我们自己的效果进度看，在一些纹理细节的处理上还需要进一步优化。

文生视频还远没有到可商用的地步，核心还是效果不行。文生视频的难点在于，首先需要对文本理解准确，其次要生成连续性的作品。

目前来看，对复杂场景的理解和表现的实现难度是很大的，比如说我想生成一个街景，的确能生成一段有趣的画面，但是可能你勉强才能看得出来画面中的每个物体都是什么，甚至可能生成的人、车都是严重扭曲的，另外在时长控制、画面清晰度、连贯性方面也还有很大不足。

业内现在Runway团队走得比较快，但效果距离真正商用的话也有很大距离，从公司层面看文生视频更像他们战略角度的布局。

核心团队成员来自清华人工智能研究院

机器之心：目前在大模型创业方面，人才、算力、数据可能是困扰大家的问题。生数科技在这些方面的准备如何？

唐家渝：首先，我们在人才上有足够的优势。团队核心技术人员在生成式AI领域都有足够的学术积累。另外依托于清华大学人工智能研究院，可以持续性地得到人才输入，虽然并不一定所有的人才都会流向我们，但是对我们是一个很好的人才补充渠道。同时，我们也依托多种渠道吸纳了行业中的大模型研究与训练的人才，并持续有与新的优秀候选人接触。

其次，算力方面我认为未来不会是一个持续性的问题。首先我们并不需要像语言模型那样使用上千甚至上万张卡。其次我们的一些股东在机器方面给到了我们很多支持，目前在接触的一些投资机构也有可以帮助提供算力资源的。

数据方面，除了公开数据外，我们也在通过各种合规渠道去拿一些专有数据，并且团队内部采用了一些比较好的方法去造可用的数据，目前看这些数据的利用效果都很好。

之后我们希望面向C端产品设计、用户增长方面可以吸纳更多的专业人才，增强我们团队的复合性。

机器之心：你们跟瑞莱智慧之间的关系是什么？

唐家渝：我们是瑞莱智慧孵化的公司，未来瑞莱智慧也是我们业务的合作伙伴。瑞莱智慧可以基于我们的大模型能力，在它所服务的B端和G端的业务场景中做垂直化场景的封装，提供行业性的整体解决方案。

机器之心：生数科技天使轮的资方都是瑞莱智慧的老股东，你们的融资进程和计划大概是怎样的？

唐家渝：我们是在今年二月份开启的天使轮融资，基本没有到市场上融资。在决定分拆的过程中，多家老股东就表示了足够的兴趣，所以整轮融资很快就敲定了。预计下个月我们会开启新一轮融资。

机器之心：你们接下来的重点任务是什么？

唐家渝：首先是推出我们产业级的多模态大模型，目前正在快速迭代阶段。

另外就是应用级产品的开发，刚才提到的图像生成产品，我们会通过发布并快速迭代的方式，将美观性和可控性在年内尽快做到业内第一。3D和视频生成的产品也在推进过程中。

当然还有一块很重要的工作就是招人，打个小广告，现在我们的算法、产品、工程多个岗位都在招人，如果有同样对多模态方向感兴趣、对AIGC赛道有热情的小伙伴，只要你有一技特别长，都欢迎加入我们这个复合背景的学习型团队！

简历投递：[email protected]

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章