Redian新闻
>
OpenAI 和谷歌最怕的,是一张"开源笑脸" |【经纬低调分享】

OpenAI 和谷歌最怕的,是一张"开源笑脸" |【经纬低调分享】

公众号新闻

在最近泄露的一份文件中,一位谷歌内部的研究人员表达了“我们没有护城河,OpenAI 也没有”的观点。这位研究人员认为,在这场激烈的 AI 竞赛中,虽然谷歌与 OpenAI 在你追我赶,但真正的赢家未必会在这两家中产生,因为有股第三方力量正在崛起。

这个力量就是开源社区,它才是谷歌和 OpenAI 最大的敌人。今天这篇文章主要介绍开源社区中的一家AI初创公司——Hugging Face。该公司成立于2016年,以自然语言处理(NLP)技术为核心。它在开源社区中提供了大量高质量的开源模型与工具,极大地降低了AI的技术门槛。

几年间,Hugging Face连获 5 轮融资,目前估值已经飙到 20 亿美元,Github 上的星标数量已经超过了 9.8w,稳居热门资源库之列。

一家提供「平台社区」的「开源」公司,又是如何盈利的呢?Hugging Face 选择了「开源带动商业」,这一商业化发展路径,并在 2021 年开始提供付费功能,包括付费制会员、数据托管、AI解决方案服务等。目前,1000 多家公司已经成为了 Hugging Face 的付费客户,主要是大型企业,包括英特尔、高通、辉瑞、彭博社和 eBay。

今天这篇文章,介绍了Hugging Face是如何在开源界脱颖而出的? 它的逆袭之路是怎样的呢?以及它的发展模式和盈利模式是怎样的?以下,Enjoy:

 

本文经授权转载自公众号「极客公园」(ID:geekpark)

作者 | 美漪
编辑 | 靖宇


「我们没有护城河,OpenAI 也没有。」

在最近泄露的一份文件中,一位谷歌内部的研究人员表达了这样的观点。这位研究人员认为,在这场激烈的 AI 竞赛中,虽然谷歌与 OpenAI 在你追我赶,但真正的赢家未必会在这两家中产生,因为有股第三方力量正在崛起。

这个力量就是「开源社区」,它才是谷歌和 OpenAI 最大的敌人。

而开源社区的顶流,当属 Hugging Face 了。作为一个 AI 领域的 Github,它提供了大量高质量的开源模型与工具,将研发成果最大程度地惠及社区,极大地降低了 AI 的技术门槛,推进了 AI 的「民主化」进程。

它的创始人之一,Clément 还曾公开表示:「在 NLP 或者机器学习领域,最坏的情况,就是要与整个科学界和开源界竞争。因此,我们不再试图竞争,转而选择为开源界和科学界赋能。」

Hugging Face 创立于 2016 年,几年间连获 5 轮融资,目前估值已经飙到 20 亿美元,Github 上的星标数量已经超过了 9.8w,稳居热门资源库之列。

那么这家公司是做什么的?是如何逆袭成为开源界的「顶流」的? 它的发展模式又是怎样的呢?


1

NLP 开启逆袭之路

Hugging Face 是一家以自然语言处理 (NLP) 技术为核心的 AI 初创公司。

它是由法国连续创业者 Clément Delangue(曾创办笔记平台 VideoNot.es,媒体监测平台 mention 以及被 Google 收购的移动开发平台 Moodstocks 等项目)和 Thomas Wolf、Julien Chaumond 一起创办的,于 2016 年成立,总部设在美国纽约。


其中的两位创始人 Clément Delangue 和 Thomas Wolf 都是自然语言处理领域的专家。在不断推进 Hugging Face 的发展的过程中,他们被视为当代 NLP 领域的先锋。

他们创办 Hugging Face 的初衷,是为年轻人带来一个「娱乐型」的「开放领域聊天机器人」,就像科幻电影《Her》里面的 AI 那样,可以跟人聊天气、朋友、爱情和体育比赛等各种话题。大家可以在无聊的时候跟它聊八卦、问它问题、让它生成一些有趣的图片之类的事情。

也正因如此,Hugging Face 的名字来源于一个张开双手的可爱笑脸 emoji。


2017 年 3 月 9 号,Hugging Face App 在 iOS App Store 正式推出,就得到了不少关注,还拿到了包括 SV Angel、NBA 球星杜兰特等投资人在内的 120 万美元的天使投资。

为了训练这个聊天机器人的自然语言处理(NLP)能力,Hugging Face 构建了一个资源库来容纳各种机器学习模型和各种类型的数据库,包括帮助训练聊天机器人检测文本消息情绪、生成连贯的响应、理解不同对话主题等。

同时,Hugging Face 团队在 GitHub 上将此库的免费部分开源,目的是从用户共创中获得开发灵感。

到了 2018 年,Hugging Face 仍然不温不火,便开始免费在线分享应用程序的底层代码。这一举动立即收到了谷歌、微软等业内知名科技公司的研究人员的积极响应,他们开始将这些代码用于 AI 应用程序,这个笑脸 emoji 也开始被广大 AI 开发者们所熟知。

恰巧同年,谷歌推出基于双向 Transformer 的大规模预训练语言模型 BERT,开启了 AI 模型的「内卷时代」。

在这样的大环境下,Hugging Face 做起了提供 AI 模型的服务,随之迎来了自己的「黄金时代」。

它先是开源了 PyTorch-BERT;随即,又整合了它先前贡献的 NLP 领域的预训练模型,发布了 Transformers 库。

Transformers 库提供了数以千计的预训练模型,支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。借助 Transformers 库,开发者可以便捷地使用 BERT、GPT、XLNet、T5 、DistilBERT 等 NLP 大模型,来完成文本分类、文本总结、文本生成、信息抽取、自动 QA 等 AI 任务,节省大量的时间和计算资源。

简而言之,Transformers 库提供直接可用的模型,无需企业再度开发;因此,众多企业开始借助 Transformers 库,将模型应用到产品开发和工作流程中。

Transformers 库也因此迅速地流行起来,成为了 GitHub 史上增长最快的 AI 项目。

Hugging Face 在 Github 上的 Star 曲线,图片来自于 Lux Capital

Hugging Face 的创始人之一 Clément Delangue 也不禁感慨,「我们发布东西时没有考虑太多,而社区的爆炸式增长甚至让我们感到惊讶。」

面对如此多的开发者,Hugging Face 顺理成章地建立了自己的社区,Hugging Face Hub;同时,调整产品战略,不再局限于自然语言处理,而是将机器学习的不同领域进行融合,探索创建新的用例,着手构建一套完整的开源产品矩阵。

截至 2023 年 4 月,Hugging Face 共享了 16,6894 个训练模型,2,6900 个数据集,涵盖 NLP、语音、生物学、时间序列、计算机视觉、强化学习等领域,搭建了完整的 AI 开发生态。

这大大降低了相关研究与应用的门槛,让 Hugging Face 成为 AI 社区最具影响力的技术供应商。

目前,这些模型已经服务了数万家企业进行资源开发,帮助科研人员和相关从业人员更好地构建模型、更好地参与到产品和工作流程中,其中不乏 Meta、亚马逊、微软、谷歌等知名 AI 团队。

使用 Hugging Face 的公司和产品|Hugging Face

在资本市场,Hugging Face 也同样备受青睐。

在 2022 年 5 月,团队完成了由 Lux Capital 领投的 1 亿美元 C 轮融资,估值狂飙到 20 亿美元。

面对资本的追捧,Hugging Face 的创始人表现的极其冷静,表示拒绝了多个「有意义的收购邀约」,并且不会像 GitHub 那样出售自己的业务。关于 Hugging Face 的未来,它的创始人还有一些有趣的想法:「我们希望成为第一家以表情符号上市的公司,而不是三个字母的股票代码。


2

AI 大模型的 Github

凭借开源获得了万众瞩目的 Hugging Face,也格外注重社区的建设,而刚刚诞生不久的 Hugging Face Hub,现在俨然已经成为 AI 开发者的大本营。

Hugging Face Hub 是一个探索、实验、合作,并建立机器学习技术的中心场所。在这里任何人都可以分享和探索模型、数据集等,大家轻松合作,共同构建机器学习模型,Hugging Face Hub 也因此被称做「机器学习之家」。

它是 Hugging Face 坚持「开源」的产物,也是它的核心。正如官网的宣传语所述:AI 社区,建设未来。

Hugging Face 的开发者页面|Hugging Face

Hugging Face 的创始人曾公开表示「Hugging Face 的目标是通过工具和开发者社区,让更多的人使用自然语言处理工具,达成他们的创新目标,让自然语言处理技术更容易使用和访问。

他还补充说,「没有任何一家公司,包括科技巨头,能够独自『解决 AI 问题』,而我们实现这一目标的唯一途径,是通过以社区为中心的方式,分享知识和资源。」

因此,公司致力于在 Hugging Face Hub 上建立最大的模型、数据集、演示和指标的开源集合,以使每个人都能利用机器学习进行探索、实验、合作和构建技术,从而实现 AI「民主化」的目标。

目前,Hugging Face Hub 提供超过 12 万个模型(Models)、2 万个数据集(Datasets) 和 5 万个演示应用程序(Spaces),而且所有这些都是开源、公开、免费的。

Hugging Face 提供的 API 托管业务|Hugging Face

Hugging Face Hub 对所有机器学习模型开放,并得到 Transformers 、 Flair、Asteroid、ESPnet、Pyannote 等自然语言处理库的支持,其中,最核心的自然语言处理库是 Transformers 库。

Transformers 库支持 PyTorch、TensorFlow 和 JAX 之间的框架互操作性,这确保了在模型生命周期的每个阶段使用不同框架的灵活性。而且,通过 Inference API(推理 API),用户可以直接使用 Hugging Face 开发的模型与数据集,进行推理、迁移学习,这让Transformers 框架在性能与易用性上达到业界领先水平,彻底改变了深度学习在 NLP 领域的发展模式。

Hugging Face Hub 堪称是 AI 界的「Github」|Hugging Face

此外,该平台还提供了一些实用工具,如模型版本控制、测试集成、共享和协作等,可以帮助开发人员更好地管理和共享模型和数据集。

因此,在 Hugging Face Hub,任何开发者或者工程团队都可以通过接口,使用数千个模型的推理 API,轻松下载和训练最先进的预训练模型,完成不同模式的常见任务,例如自然语言处理、计算机视觉、音频、多模态等,在几分钟内构建自己的机器学习驱动的应用程序,省去了从头开始训练模型,所需的大量时间和资源。

在此基础上,他们还可以在自己的账号下创建自己的仓库,用于存储和分享已经训练好的模型、数据集和脚本,同时与强大的社区分享交流,轻松协作完成 ML 工作流程。

简而言之,Hugging Face Hub 为研究者提供了一个平台,去展示那些他们想要分享的模型,测试他人的模型,以此来深入研究这些模型的内部架构,共同促进 ML 的发展。而此前,AI 对前端开发者来说似乎遥不可及,毕竟到目前为止,只有少数代码生成的 AI 系统向公众免费开放。

也正因如此,Hugging Face 决定在社区提供开源模型和 API 来改变这种状况,主动承担起 AI 科研走向应用的这个过程中复杂、细碎的工作,使得任何 AI 从业者都可以便捷地使用这些研究模型和资源。用 Hugging Face 自己的话来讲,他们所做的事情,就是要架起 AI 科研和应用之间的桥梁。

除了提供便利,Hugging Face 还积极采取措施强化 Hub 的安全性,确保用户的代码、模型和数据是安全的,让用户放心使用。

例如,在模型库配备模型卡,以告知用户每个模型的限制和偏见,从而促进这些模型被负责任地使用和开发;在数据集设置访问控制功能,允许组织和个人可以出于许可和隐私考虑,创建私人数据集,并且可以自行处理其他用户的访问请求。

还值得一提的是,为了进一步使自然语言处理技术「民主化」,Hugging face Hub 上还开设了 NLP 课程——Hugging Face course。

该课程将使用 Hugging Face 生态系统中的数据库(Hugging Face Transformers、Hugging Face Datasets、Hugging Face Tokenizers 和 Hugging Face Accelerate),讲解自然语言处理 (NLP) 的有关知识。它是完全免费的,甚至没有广告。

Hugging Face 将自然语言处理课程直接免费上传到视频网站|YouTube

简而言之,Hugging Face Hub 就像是机器学习领域的 GitHub。一个由社区开发者驱动的平台,提供大量资源,让开发人员可以在机器学习(ML)模型、数据集和 ML 应用程序上,不断探索、创新和互相协作,通过分享知识和资源以加速和推进 AI 发展。


3

「开源」带动「商业」

那么问题来了,一家提供「平台社区」的「开源」公司,又是如何盈利的呢?

首先,「开源」就是一个正确的决定。

Hugging Face 凭借开源项目 Transformers,积累了巨大的影响力,聚集了广大开发者构建了庞大的社区 Hugging Face Hub,也赢得了客户与投资者的信任,这使得它的商业化转型水到渠成。

他们优先考虑的是应用,而不是变现。他们看到了 Transformer 模型在 NLP 之外的应用方式,看到了成为 GitHub 的机会,这不仅是面向 NLP,而且会延伸到机器学习的每个领域。

而且,纵观过去十年,市场上初创公司的创业历程,会发现开源模式的商业可行性得到过有力的印证。像 MongoDB、Elastic、Confluent 等,都是收入增长最快的开源公司,它们都实现了盈收,并且还在市场中存活了下来。

Hugging Face 的创始人之一,Clément 也因此坚信,「初创公司可以通过某种方式为开放的社区赋能,此种方法产生的价值,比通过搭建一个专有工具,产生的价值高出上千倍。」

甚至公开表示,「考虑到开源机器学习的价值和它的主流地位,其使用量就是递延收入。机器学习会成为技术开发的默认方式,而且 Hugging Face 会成为这方面的头号平台,并创造出数十亿美元的收入。」

因此,Hugging Face 选择了「开源带动商业」,这一商业化发展路径,并在 2021 年开始提供付费功能。

Hugging Face 的收费项目|Hugging Face

目前,Hugging Face 的盈利业务主要有三类:

  • 付费制会员:提供更加优质的服务和社区体验,来获得收益;
  • 数据托管:根据不同参数需求,提供不同的按小时收费托管服务;
  • AI 解决方案服务:目前的主打产品,围绕 NLP、Vision 等方向为客户提供定制化解决方案,以获得技术服务费用。

值得一提的是,从 2020 年开始,Hugging Face 就开始做面向企业的定制自然语言模型,并推出了包括 AutoTrain、Inference API & Infinity、Private Hub、Expert Support 等,针对不同开发者类型的个性化产品。

目前,1000 多家公司已经成为了 Hugging Face 的付费客户,主要是大型企业,包括英特尔、高通、辉瑞、彭博社和 eBay。

2021 年,Hugging Face 已经实现收入 1 千万美元,从数据上来看,Hugging Face 这套的「开源带动商业」的策略是成功的。

这也印证了 Hugging Face 的 CEO,Clément 所说的,「公司不需要从创造的价值中获取 100% 的红利,只需将其中 1% 的价值变现,但即便只是 1%,也足够让你成为一家高市值的公司。

简而言之,Hugging Face 凭借开源社区积累影响力,而后逐步向 SaaS 产品和企业服务拓展。这种渐进式的转型,让 Hugging Face 在开源和商业化之间,取得了良好的平衡,也是其能取得成功的重要原因。这种发展策略也让 Hugging Face 成为了 AI 界独树一帜的存在,并为其他 AI 初创公司树立榜样。

但是,开源生态也有它自己的软肋,因为商业化的发展很可能会伤害到自然生长的社区环境。对此,Hugging Face 的做法是加强对技术的管控,维护自己的开源生态;同时,向科研领域深挖。

机器学习技术仍然还处于早期发展阶段,开源社区的潜力是巨大的。在未来 5 到 10 年,我们一定还会看到更多开源机器学习公司的崛起。Hugging Face 的 CEO Clément 说道。

也许你还想看:

经纬2022年终盘点:乐观者前行,follow the white rabbit

经纬张颖:2023,不只克服困难而是习惯困难 

经纬徐传陞:做VC这么多年,人们总在问我同一个问题 
ChatGPT之父Sam Altman:大型AI企业,将诞生于哪些领域?

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
「电子果蝇」惊动马斯克!背后是13万神经元全脑图谱,可在电脑上运行 |【经纬低调分享】收购推特往事:马斯克永远处于闯关状态 |【经纬低调分享】移民生活(13)王老师的人生路“皮衣刀客”黄仁勋:从夜市少年到“硅谷战神” |【经纬低调分享】5088 血壮山河之武汉会战 黄广战役 20伟大的创新想法,究竟是如何产生的? |【经纬低调分享】从「无情」到「有情」,大模型的感知系统越来越靠近人类丨【经纬低调分享】《奥本海默》观影指南:原子弹之父真正的恐惧是什么? |【经纬低调分享】今年,是人形机器人的“iPhone时刻”吗? | 【经纬低调研究】经纬张颖:AI的远与近 |【经纬低调分享】痛苦和康复之路苹果首次:iPhone15或将带着8年专利强势出击!|【经纬低调分享】左旋星完成数千万元PreA+轮融资 |【经纬低调新闻】最强沟通法则:将聆听刻入DNA,用反馈激发团队潜力 |【经纬低调分享】GitHub Copilot:6人小团队如何开发出风靡全球的程序员神器? |【经纬低调分享】预售"秒光"、门票"炒高"、热度"爆表"…起底"演唱会经济"资本局!Isaacson新书《马斯克传》:马斯克不是超人,而是扮成了超人 |【经纬低调分享】逢中必反,咋的?黄仁勋深夜带来“亿点点”震撼,英伟达发布“世界上最快的内存”GH200超级芯片 |【经纬低调分享】海辰储能完成超45亿元C轮融资 |【经纬低调新闻】更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了 |【经纬低调分享】黄仁勋是如何管理万亿英伟达的 |【经纬低调分享】打造“铁腕管理”:对人性的洞悉程度有多深,企业治理水平就有多高 |【经纬低调分享】一家咖啡店的监控,引爆目标监测的元伦理探讨 |【经纬低调分享】扎克伯格给了马斯克一记重拳:推特杀手终于来了 |【经纬低调分享】NASA抢着寄合同,这家公司如何正确将火箭“抡进”太空? |【经纬低调分享】微软公布路线图,称 10 年内将制造出量子超级计算机 |【经纬低调分享】距离地球150万公里的望远镜到底拍到了什么? |【经纬低调分享】凯撒:最伟大的古罗马战将和政治超级名星,古罗马共和国的终结者《今日简史》赫拉利:稳定已是奢侈品,50岁算年轻丨【经纬低调分享】OpenAI 真有钱啊,7年经验硕士码农前四年平均年薪170万美元从科研走向商业:科学家如何平衡创新与生存?|【经纬低调分享】AlphaDev突破十年算法瓶颈登上Nature,GPT-4紧随其后两步破解 |【经纬低调出品】硅谷钢铁侠「马斯克」,如何在商业游戏中逆风翻盘?|【经纬低调分享】教练型领导力,如何让员工绩效翻倍?丨【经纬低调分享】科技狂人入局“长寿”领域:五年投一亿美元,只为逆转衰老 |【经纬低调分享】
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。