Stable Diffusion背后的故事：独辟蹊径，开源和社区驱动的AI独角兽 | 创始人专访

2022-10-21 19:10

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 智源社区

今日，AI文生图模型Stable Diffusion背后的公司Stability AI宣布获得了1.01亿美元超额融资，此轮融资后，Stability AI 估值已到达 10 亿美元，成为新晋独角兽。领投公司为以支持开源著称的Coatue、Lightspeed以及O'Shaughnessy Ventures。

其资金将用于开发图、文、视频、音频和3D等多模态开源模型。除了Stable Diffusion外，音乐生成算法和工具Dance Diffusion也已经曝光。算力（公司目前在AWS上租用4000台A100）和人才（计划从100增加到300）都是烧钱大户。

据悉，目前Stability AI团队共计103人，有1名博士，明年计划资助超过100位博士。该公司领导团队国际化氛围明显，最近还有来自日本的David Ha和法国的Daniel Jefferies等社区名人加入，分别担任战略负责人和首席信息官。公司发言人表示，未来商业模式类似红帽和MongoDB，开源版本免费，通过商业版本来盈利。而有熟悉公司商业计划书的人士说，更长远的计划是成为一个控股公司，支持多个开源项目的商业化。

AI领域的文生图竞赛已经打响。正如State of AI报告中所说，「文生图扩散模型的狂潮催生了新的 AI 创企。Stability AI和Midjourney几乎是横空出世，而他们开发的文生图模型却可以和成熟的AI实验室比肩。」

号称最强文本生成图片的模型Stable Diffusion诞生于今年8月。其核心技术来源于AI视频剪辑技术创业公司Runway的Patrick Esser，以及慕尼黑大学机器视觉学习组的Robin Romabach。该项目的技术基础主要来自于这两位开发者之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型（Latent Diffusion Model）研究。

相比较于DALL-E等大模型，Stable Diffusion让用户使用消费级的显卡便能够迅速实现文生图。Stable Diffusion 完全免费开源，所有代码均在 GitHub 上公开，任何人都可以拷贝使用。在用户层面，它无疑是十分成功的。目前，Stable Diffusion已经有超过20万开发者下载和获得授权，各渠道累计日活用户超过1000万。而面向消费者的DreamStudio则已获得了超过150万用户，已生成超过1.7亿图片。与此同时，它的惊艳艺术风格、以及图像涉及的版权、法律等问题也引发了诸多争议。

Stable Diffusion模型第一个版本训练耗资60万美元，而提供资金支持正是Stability AI。该公司成立于2020年，最初资金都来自创始人兼CEO Emad Mostaque。Emad印度生人，自小在英国长大，2005年毕业于牛津，有数学和计算机硕士学位，后一直在金融界担任对冲基金分析师。2019年，他曾创立Symmitree，旨在为生活在贫困社区的人们降低智能手机和互联网接入成本。2020年新冠开始后，他又致力于创建新冠数据集。他2020年创办Stability AI的动机，一是自己对AI的痴迷，一是开源AI社区缺乏“组织”。他被投资者评价为「才华横溢、且使命驱动的思想家」，同时其丰富的商业经验让他在产品运营与落地方面另辟蹊径。

Emad Mostaque，Stability AI创始人兼CEO

除了Stable Diffusion，Stability AI雄心勃勃的计划下面还聚集了EleutherAI和LAION等知名开源项目，以及生物模型OpenBioML、音频生成Harmonai、人类偏好学习Carperai、新冠研究Caiac和多模态DeepFloyd等更多项目。

业界普遍认为，Stability AI的迅速崛起给OpenAI造成了不小压力，John Carmack（AGI初创公司Keen Technologies创始人，前Oculus CTO）表示「Stable Diffusion是一个开源炸弹。OpenAI虽然资金充裕，但从商业化以及产品化的角度很难与其匹敌。」

在AI研究员兼知名YouTube博主Yannic Kilcher（后简称主持人）近期的访谈中，创始人兼CEO Emad Mostaque谈及了Stability AI创立的初衷、使命和终极目标。一直以来Emad致力于为研究者消除计算和资金的限制。他相信，图像才是杀手级的应用。图像生成模型可以迅速创造，并引导人们迅速消费。

『Stability AI：基于使命驱动的开源AI』

主持人：Emad非常富有，他想好好利用自己的财富。前一阵子，他通过一项名为「Stability AI」的计划资助了Stable Diffusion模型。Stability AI的目标是在学术和产业界之外打造第三极。OpenAI创立之初的愿景，是希望把人工智能带给大众，将技术民主化。而现在Emad真地在这样做了。

Emad：我们正处于人工智能的繁荣期，一切似乎都要腾飞，而未来更要释放人们的创造力。我之所以成立“Stability AI”这一组织，是为独立研究者和学术研究者消除障碍，来建立类似Eleuther AI, LAION（大规模人工智能开放网络）等的新模式。（EleutherAI 成立于 2020 年 7 月，主要发起人是一批号称自学成才的黑客，自成立以来，其研究团队首先开源了基于 GPT-3 的、包含 60 亿参数的 NLP 模型 GPT-J，2021 年 3 月又发布类 GPT 的27 亿参数模型 GPT-Neo，成长迅速；LAION则代表大规模人工智能开放网络，非营利组织，目标是向公众提供人工智能、数据集和代码。）

由于计算和资金方面的限制，每个人基本上有三个选择。进入学术界；跳到科技大厂，在企业里为产品团队卖命；自己创业开公司。真正经营自己的创业公司是很辛苦的，而且也不是大多数学者或研究人员该做的事。

如今，我们看到80％的研究资金正在流入下一代AI，并且真的有潜力改善人类的生活。所以这就是Stability AI要致力于的问题，即解决计算和资金问题，并把研究者聚集在一起。事实上，到8月8日上线时，我们已经近乎成功地实现了这一点。

主持人：你提到解决计算和资金问题，对于Stability AI来说，流入这个组织的资金来源是什么？这些钱又是怎么花的？

Emad：最初主要是我自己的资金。因为我是对冲基金经理出身，积累了一定的资金。2020年到2021年，我领导了在斯坦福启动的针对新冠的集体增强智能倡议行动，我们整理了新冠数据集，并借此触达世界范围内有关新冠的信息，并取得了世卫组织、世教科文组织和世界银行的支持。我因此跟很多人建立了联系，我把他们拉到一起，并自己注入了资金。在亚马逊的帮助下，我们已经构建起了一个包含 12,100 个计算节点的开源集群。它有可能成为第十位最快的公共超级计算机，而Eleuther AI, LAION都在这个基础上建立了有史以来最酷的模型，这些模型将以各种各样的形态发布。

这是到目前为止，我们作为一个社区所做的事情。而下一个阶段则更加令人兴奋: 我们正在与国家和机构合作，以期将其提升到一个新的水平，这意味着更多的计算资金资源，以及，更重要的，组织与协调，以释放智慧和创造力。这个社区对各个国家、社区，乃至全人类都是开放的。

主持人：当你说到，Stability AI的目标是国家，具体指什么？它可以与CERN或者国际空间站这样现有的组织相比吗？

（欧洲核子研究中心CERN成立于1954年9月29日，总部位于瑞士日内瓦西北部郊区的法瑞边境上，享有治外法权。欧洲核子研究中心拥有世界上最大的粒子物理学实验室，也是万维网的发源地。CERN目前有23个成员国。以色列是第一个也是目前唯一一个非欧洲成员国。）

Emad：我想强调的是合作。我们已经是联合国的合作伙伴，并且正在做国家层面的合作，比如建立国家层面的模型和数据集等等。我们启动的时候有点像CERN，后来的发展类似LAION，把真正有才华的研究者聚集在一起。团队的责任是让他们获得所需的资源。我们下一个阶段的目标是更加机构化，同时营造社区氛围。

主持人：社区氛围，这是一个很好的关键词。这些来自Eleuther AI，或者LAION的研究者们，他们积极主动地站出来想要做事情。然而，当社区变得更加公开，拥有更多的资金，计算等资源，有大量的人和想法涌入时，你将如何选择呢？谁能获得你的资源，以及能用它做什么？

Emad：目前我可以算是GPU之王（掌握大量计算资源），所以由我来决定推进哪些项目。但这样不可持续。因此我们设立特定的程序，通过这些程序可以迅速为小型研究提供资助。而我们考虑的重点是什么样的项目很酷，真正对人类有用。Stability AI本身是一种商业化形式，我们是一个盈利实体，但有一个基础使命，即在保持研发和学术独立性的同时，如何将其产品化，使其触达10亿用户？这一点上又和扩散模型息息相关。

『什么是Stable Diffusion？』

主持人：什么是Stable Diffusion？

Emad：Stable Diffusion是最新的扩散模型。在生成图像方面，它在所生成图像的质量、速度和成本上都取得了巨大突破。Stable Diffusion能够在消费级显卡上实现DALL-E 2级别的图像生成，生成效率却提高了30倍。我们联系了各种组织团体，包括LDM（Latent Diffusion Models，潜扩散模型）的作者。我会组织扩散模型社区内的知名人士，共同讨论如何建立一个高效的，可以扩展到10亿用户的模型。因此，我们在8月8日和9日正式发布，开源代码以及在云端和其他地方的运行说明也即将公布。

看下这张生成的在苏黎世街道上的特斯拉跑车图像，这是在「LAION 5B」（https://laion.ai/blog/laion-5b/）跨模态数据库的基础上生成的一个图像模型。以这种250TB的数据为例，我们可以通过扩散模型将其压缩到2GB字节。也就是说，当这个生成系统发布的时候，每个人都能玩转它。我们非常想向世人展示这种创新。我不知道Eleuther AI宣布了没有，但众所周知，GPT-Neo 和 GPT-NeoX，GPT-J 已经被开发者下载了2500万次。

Stable Diffusion生成的「苏黎世街头的特斯拉」

这充分说明我们可以催化生态系统的发展。有时候那些大型的AI公司，他们有一种家长式的本能，拒绝公布图像生成的代码。以扩散模型为例，我们也可以保持不开源。但是明明它的生成效率是DALL-E的30倍，为什么不让成百万人，数亿人用上这项技术呢？我们需要做些改进来使这项技术真正可用，在我看来，无论是1750亿参数的语言模型，还是5400亿个参数的模型，都不能真正适用于绝大多数需求。

主持人：你提到了开源、闭源、家长式作风等因素。我同意，但是不是也应该考虑公关和法律方面？比如说，如果DALL-E 2对每个人都开放，假如你输入了某个提示，却产生了非常可怕的东西，这是一种严重的负面影响。人们可能就会说这些模型显然不适合发布之类的。那么如果有人来找你，说你的模型产生了可怕的输出，你会对这些人说什么？

Emad：我会说人类才是可怕的。技术无好坏，但使用的方式却分善恶。实际上，对于这种特殊的产出，绝大多数人都会没有什么感知。比如，社交媒体和巨头们一直告诉我们要不断消费。下到三岁孩童，上至90岁的老人都生活这个消费模型之中。当人们心理健康时，好的事情总是远远超过任何负面的事情。现实中，人们会慢慢习惯这些模型。

现实情况会出现一些偏差。比如，你不能在DALL-E 2中使用乌克兰这个词，因为它是政治词语。如果你输入相扑运动员，因为有预提示和多样性过滤器后处理，某些关键词又会随机添加到问题中，结果最后你得出一位亚洲女星，因为系统随机添加了民族性，而对此你无能为力。如果你想在印度创建一个更适合当地文化的本地化版本，这是不可能的。因为你压根无法访问这个模型，而且他们也没有能力微调。反对派还会说运行AI过于昂贵，但实际上他们不相信AI, 因为他们认为人类才知道得更多。我认为这是错的。其实更多时候「变得奇怪和讨厌」的是人不是AI。我认为像DALL-E 2这样对人类有积极作用的技术，应该被广泛应用，只有这样，才能扩大它们积极的一面，并遏制它们的负面用途。

『不走寻常路，图像才是杀手级应用』

主持人：是什么让你始终不走寻常路？以OpenAI、DeepMind等这些公司为例，OpenAI一开始的初衷是「希望AI民主化」，但现在仿佛变成「快掏钱吧」。你是如何面对盈利压力的？

Emad：OpenAI的创始人之一已经离开了。他们私下里也说我们正在做的东西是他在OpenAI成立时就想做的，只是那时时机不对。2019年，马斯克因为战略分歧退出了OpenAI，整个公司的结构随之发生变化，焦点也变了，他们变得更加重视产品，尽管实际上并没有侧重在产品研发。虽然现有这些模型很强大能做很多事，却还没有技术扩散曲线。

这里涉及到一个问题: 什么是杀手级应用？是像现在的大规模语言模型吗？不可否认，他们已经解决掉了85%到90%的问题，现在甚至达到95%。但问题是这些模型又大又笨重。

所以，我认为图像才是杀手级的应用。图像模型可以迅速创造，并引导人们迅速消费。它们的竞争对手是Snapchat或TikTok，在那里你可以创建像Pokémon GO这样火爆的游戏。但同时，它们也能被以足够低的成本，又好又快地整合到许多不同的领域。

最后，我们采用一种与各国政府和机构合作的模式，以便在每个国家建立AI社区，在这个过程中我们抓住了文化的多样性。同时，我们以社区为中心，以盈利为导向，建立了一个良好的商业模式。目前我们已经签订了许多合作订单，与大多数赔钱的大公司相比，我们的盈利能力毋庸置疑。毫无疑问，我们是在正确的时间成立的正确的公司。理想化的情况是，这将成为一件更独立的、更去中心化的事情。这个开放的持续贡献的社区，我希望在未来一年内能够做到这一点。

『为Stability AI工作是什么体验？』

主持人：之前你说到对于Stability AI 的员工，你不仅给他们硬件和运营方面的补助，还为他们提供兼职或全职的岗位，能说说为Stability AI工作是什么体验吗？

Emad：是的，不同人需要不同。我们的员工来自各种不同的背景，一些人需要堪比谷歌或微软的工作岗位。因此我们会支付有竞争力的工资和高额奖金。而且在我们的合同中，没有IP相关的条款，任何开发人员都可以开放工作的源代码。我们也规定，当app和模型推广运行时，所有参与开发的开发者都有收入分成，即使他们之后不在Stability AI 工作了也是如此。实际上，10%的收入会被注入到这个分红池，其中一半分给模型和数据集的创造者，另一半作为一个公共奖励池，对于包括Stability AI 的员工或其他相关人员开放，这部分奖励一般会被授予最有趣的研究。这样，工作重心就变成了开源最有趣的研究，而不是重点在于商业化项目。

这里商业化项目主要指的就是开放API接口，而非商业化项目则占了收入的5%以下。我们也提供奖学金，通过github里的赞助商赞助了一大批程序员的项目。我们致力于为他们提供最舒适的研究环境。

明年我们打算资助100个人工智能方向的博士，希望构建一个社区，可以帮助我们协调全球学术研究。我们也提供像心理健康支持、论文作者等其他方面的帮助。这些都是为了使人们能够持续不断做有意义的事情。我们希望能够在开放的基础上真正建立并改变现有的激励结构，通过提供补助金，奖学金，博士经费资助，兼职或全职工作，或是招募社区成员，目的是解放研究者，让他们从各种奖金池中获得支持。我们还有慈善机构，这也是我们博士经费的来源。

主持人：有兴趣加入社区，并想做贡献的人，应该如何找到你？

Emad：我们有Stability AI的官网（https://stability.ai/），在更新中。可以加入Eleuther AI、LAION、DreamStudio等各类社区。基于社区贡献，你会得到资金支持，地位提升以及其他各种方面的奖励。

如果你想加入Stability AI，我们有很多岗位开放给优秀的程序员。如果你希望博士研究得到资助，我们将在几个月后宣布博士生资助计划。我认为，通过这个真正灵活的超级计算集群，我们一定会有所作为。这是一个大集群。它可用于最酷的研究，也可能对人类产生影响，我认为这一点超级令人兴奋。

主持人：你在寻找的贡献者是什么样类型的人？

Emad：我们正在寻找那些相信开源AI的人。就像我们带来的这项技术，既能让人类变得更好，也可以赚取利润。当然后者是次要的。参与其中的个人还是公司，必须是能与社区融合的人，可以与来自不同背景的人很好地合作，怀着一个普世的好奇心，并且想推动行业的边界。我认为我们最大的突破来自于非传统的背景。EleutherAI的创始人们，他们都不是计算机的背景，但仍然成就斐然。

我们不希望看到的是被高度企业化的人，他们的思维方式往往固定在一种方式，总想着如何赚快钱。在我们这里，你当然可以赚到钱。但是我们的发展正处在一个关键点上，这项技术可以最大限度地发挥人类的潜力，或者企业集中控制的方式，在这二者之间要做出选择。

参考链接：https://www.youtube.com/watch?v=YQ2QtKcK2dA

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章