13亿美元！！！Databricks巨资收购大模型初创公司MosaicML！！！

2023-06-27 02:06

本文首发微信公众号：飞总聊IT

Databricks官宣，自己花了13亿美元，买了一家叫做MosaicML的大语言模型初创公司。

大语言模型真的是越来越重要，所以Databricks也坐不住了。毕竟自己号称是Data+AI的公司。这两年Data风风火火的搞了Lakehouse，AI连毛都没见到。

遇到大模型横空出世，Databricks自己做不出来，也就只能买买买了。反正Databricks不缺钱。最近的一次融资之后估值到了380亿美元，拿出13亿美元，那就是easy得很了。

MosaicML是OpenAI的竞争对手，做的事情就是建立一个平台，帮助企业训练大语言模型，然后部署大语言模型和相关的工具。

根据公开的信息，MosaicML上一轮的融资的估值，只有2.22亿美元。而它融资只融资了6400万美元左右。

我们知道，GPT-4这种模型，训练费用就几百几千万美元的，MosaicML这么一点融资，做大模型，只够洒洒水的，训练大语言模型的一根毛估计问题不大，训练个GPT-4什么的，考虑一下人工成本，那就不好说了。

但是不管怎么样，以6倍估值的溢价被收购，也是值了。当然，这要看和谁比，毕竟微软给OpenAI投资了100亿，OpenAI的估值有400亿，和Databricks差不多。

从这个角度来说，MosaicML显然也是Databricks更好的选择，毕竟OpenAI买不起。

那么这个MosaicML和OpenAI以及Bard之类的有什么区别呢？按照我查到的说法，主要有两点。

首先，MoSaicML的模型是开源的。它的MPT-7B开源模型，目前为止有300多万的下载，也是一个比较流行的开源大模型。

其次，也是最重要的，MosaicML的商业模式，或者说它们聚焦的点，是帮助每个企业，用自己的数据来训练自己的私有大模型。

这个做法，和OpenAI先用公域数据训练一个baseline model，然后通过finetune的方式来引入企业的专有知识，是不一样的。

飞总拍脑袋想了一下，最大的好处，其实就是“干净”。举个例子，如果我们想构建一个以中国法律为体系的专有大语言模型，那么OpenAI的模型拿过来finetune就很麻烦了。

因为OpenAI本身就用了很多带有美国法律的语料预先训练的。这个时候用中国法律的语料不管你怎么样去做finetune，最后出来的大模型，一定都会有问题。

我们可以看到的一个互联网上具体的例子是文心一格画图的时候，输入一只爱国的猫，最后画出来的猫带着美国国旗。后来百度修复这个bug的“办法”是把相关的关键词，比如爱国，猫，之类的直接在输入端禁止了。

百度为什么非要这样去修复呢？因为语料训练本身出了问题，导致这个大模型无法应对冲突的语料。

所以，一个企业如果想要训练出自己的专有大模型的话，语料的纯净很重要。不然的话，一旦基础模型和自己的专有数据之间有矛盾，那大模型就不知道怎么办了，仅仅通过finetune显然无法修复这样的问题。

这就是为什么很多人认为开源的和专有的大模型很有前途。当然，是不是真的有前途，还取决于模型到底是不是真的够智能，够聪明。而后者从目前来看，还很难打败GPT-4。

但是不管怎么样，MosaicML也算是一个非常有特色的创业公司，选择了有特色的创业方向。

Databricks的CEO表示两家公司都有相同的vision，相同的开源理念，相同的客户价值观等等。

Databricks还表示收购完成以后，整个MosaicML的团队都会加入Databricks。

不得不说，在大语言模型这件事情上，Databricks下手确实比竞争对手Snowflake快的多，狠的多。

从短期看，Databricks踩到了风口上，就可以趁着大语言模型的疯狂，再涨一波估值了。打败Snowflake指日可待啊。

长期的未来就取决于MosaicML和Databricks两家能不能够拿出业绩来了。

最后，再宣传一下飞总的ChatGPT朋友圈。飞总的朋友圈聚焦在大模型的技术和商业上，欢迎志同道合的人一起加入学习研究。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq