AI大神贾扬清离职阿里首次受访:创业为什么不做大模型(上)| 硅谷徐老师
本期人物:
硅谷徐老师,硅谷连续创业者、高管、人工智能和云服务投资人、斯坦福商学院客座讲师,「科技早知道」主播 |推特:@H0wieXu| 微信公众号:硅谷云| AI博客:howiexu.substack.com
贾扬清,主流 AI 框架 Caffe 的创始人、TensorFlow 的作者之一、PyTorch 1.0 的共同创始人,曾任阿里巴巴集团副总裁、阿里硅谷研究院负责人
编者按:
当下火热的大模型创业,与贾扬清无关。
上周刚从阿里正式离职创业的,全球最有影响力的 AI 科学家之一贾扬清,吸引了无数媒体报道。从Facebook (现 Meta) 到阿里巴巴,贾扬清和他的团队已经做出了多个口碑产品,从 Caffe、PyTorch、TensorFlow,到阿里云大数据和 AI Paas 产品。
在官宣离开阿里之后,贾扬清的去向也一度引起热议。在不少媒体报道中,他是因为时下大模型的热潮而选择创业。但贾扬清本人在本期节目中正式回应,ChatGPT 并非是推动自己创业的主要原因。
如果做大模型不是创业的主要动力,那么什么才是呢? 本期节目,硅谷大佬系列节目再度启动,硅谷徐老师邀请他的好友在离职阿里后第二天进行一场及时而真诚的对话。AI框架大神贾扬清在第一时间分享了他关于这几年来关于职场成长、平衡技术和客户需求、离职阿里的动力、以及如今创业方向的深度思考。
完整音频
▲文字有删减和整理,欢迎在小宇宙、喜马拉雅、Apple Podcasts、Spotify等各大音频平台收听完整音频
重新出发,创业的契机是什么?
硅谷徐老师:阿里本周发布大模型计划。这个时间点从阿里出来进行创业,有哪些考虑?
贾扬清:出来创业有点像回到读研的时候,也像在 Facebook (现Meta)从零到一做平台(AI Infrastructure)的时候,让我非常兴奋。小公司的决策和迭代都比较快。我在大厂工作时,也怀念以前能够熬夜写代码的日子。
AI 领域如今出现新东西的速度越来越快,新东西的数量也越来越多。我在 AI 领域是从研究开始,走到技术,走到产品,再走到商业,对于如何帮助企业跟上快速迭代的 AI 科技,既感到十分兴奋,也相信这是一个千载难逢的机会,所以最终选择出来自己创业。
回想 2015 年我还在谷歌的时候,就曾因为自己没有带团队和做业务的经验,而没有选择出来创业。今天其实是一个水到渠成的时间,当时的梦想也好,执念也罢,现在都值得一做。
▲图片来源:阿里云峰会 2023
硅谷徐老师:GPT热潮、大模型热潮,与你当下的创业相关吗?如何评价当下的大模型热潮?
贾扬清:我这个时点出来创业,并非因为 ChatGPT。不过如果有人想做大模型方向的创业,可以先想想是做模型,还是做 Infra(平台与基础建设)。
在 AI 领域,模型的保鲜期(shelf life)基本上是一年左右。以 2012 年 AlexNet 为例,6 个月到一年之后就会出现效果接近的模型,基本都是如此。
关于基础大模型,最近的发展势头很猛。像最近 Facebook(现 Meta)的 LLaMA、伯克利的 Vicuna、斯坦福的 Alpaca、Databricks 的 Dolly,都在展示一个可能性,就是基于开源与公开数据集,我们已经可以训练出非常高质量的模型。虽不及 GPT 3 以及现在各家大厂通用模型那么普遍适用,但对于多模态、信息的理解程度,这些模型的表现已经非常不错,相信开源会发展地越来越快。
我自己的判断是开源主导的模式会成为主流,如何更好地部署模型,是否有更弹性的、更稳定的、更低成本的部署模式,是更明确的用户需求。
▲图片来源:Google Search
关于大模型的几个假设
硅谷徐老师:你的假设之一是,参考过去十年的历史变迁,未来开源的大模型会赶上 OpenAI 以及大厂做的模型。
贾扬清:对。第二个假设是大模型上能够催生的应用,还有很多值得挖掘的可能性。实际应用中,产品的形态不会是纯问答模式。更有可能是作为一种更加智能的个人助理、会议助理,应用的交互形态很重要。
可能是因为 ChatGPT 这几个月太有热度,大家都非常关注聊天机器人这种产品形态。各个大厂为了展示自己的技术实力,首先对标的场景就是聊天机器人。但是聊天机器人并非应用形态的全部。如何帮助开发者在各类应用模式与交互模式中,更容易地使用这些语言模型,这需要有平台作支撑,这可能是主要需求之一。
我相信,在企业服务领域,需要针对于企业不同的使用形态,比如数据安全,设计针对性的平台。数据领域出现了 Snowflake、Databricks,在应用上云领域出现了 HashiCorp, AI 这个领域也会出现类似的平台型企业,而这个企业不一定是云服务商。
▲图片来源:HashiCorp
硅谷徐老师:HashiCorp 能够走出来,是因为提出了多云的概念。未来并不是只有三五个大模型的大厂,比如只有 OpenAI 或者 Google。全球两百强、两千强的企业,可能都会有自己做模型的需求,这是你的判断吗?
贾扬清:是的。如果模型的门槛非常高,即使用户有需求,但最终也会放弃,所以模型门槛会降低,而且会越降越低。今天就像 2012 年 AlexNet 在计算机视觉领域刚出现的时候,大家都非常惊艳,也非常害怕错失机会(Fear of Missing Out,FOMO)。但是半年之后、一年之后,这个门槛会降低,尤其是基于开源的大模型,微调(Fine Tune) 的难度会降低,届时就需要企业自己管理这些模型。
另外,今天社会也需要新的平台服务。站在云服务商的角度,我觉得云的基本业务模式并没有发生太大变化,将以前客户需要自己在 ADC(Application Delivery Controller)上部署的模式,变成可以弹性地利用云的供应链。但是今天的云服务商很难再往上一步,很难走到一个完全以应用为中心或者以平台为中心的商业模式,AWS 也会遇到类似的情况。
今天的云服务商,在供应链方面做得非常的好,但是在构建平台方面,还有很大的进步空间。云的商业模式要成立,一个基础假设是用户用的越多,公司的营收和利润就更好,业务的天然属性导致厂商很难帮助用户实现降本增效。对于一个更加独立的小厂来说,它能和用户站得更近,迭代得更快。这也是在 AI 迅速迭代的当下,大家所需要的一个平台。
要实现这样一个平台,其实并不容易。要结合对算法的理解,对应用的理解,以及对像云原生基础架构这样的底层(Infrastructure)的理解,这是一个诸多学科交叉汇总的领域。这个领域有机遇,但也有门槛。我们团队做过技术,也做过业务,这可能是从云方向出来的创业者最有竞争力的一点。
▲图片来源:Google Search
接下来创业,将聚焦哪些方向?
硅谷徐老师:我可以想象,你接下来自己做的初创公司多多少少会跟这个方面有关。之前有新闻提到你出来是做大模型,但其实并不是。你接下来的创业方向会是什么?
贾扬清:我们目前也处在相对早期的阶段,目前还没有太多可以跟大家分享的具体内容,但可以分享一些思路。
我们会关注如何帮助用户更好地去搭建 AI 应用。今天如果大家想做实验,其实不需要太多的平台,买几个 GPU,然后在 GitHub 下载代码,跑一跑,看看效果就可以。但是从实验室到应用的这一部分,有很多麻烦的地方需要处理。
以前团队在支撑达摩院各式各样的 AI 应用时,会遇到这样一个问题 - 达摩院科学家如果选择买两台 GPU,搭建 Flask 的 Python 服务,就可能会出现用户需求比较少,导致之后的API调用量不高,形成资源浪费;如果 API 调用量很高,又只有两台 GPU,又会出现无法及时支撑业务和用户需求的情况。有没有一个多快好省的方式,能让研究者们像达摩院的科学家们一样,不需要担心模型部署背后的弹性问题、服务的稳定性?有没有那么一个平台,可以解决 AI 应用的诸多痛点?
我们也会关注一些指标。第一个指标是开发者效率。如果开发者可以从 GitHub,从自己的代码库,一分钟拉起一个服务,那开发者就不需要担心这个服务的弹性。第二个指标是核心系统性能指标。在有限的资源里面,能够帮助用户拉起来多少数量的服务,以及多少体量的服务。应用中供给与需求的不平衡是最需要解决的问题,这也是我们团队创业要解决的问题。希望 3 个月之后、半年之后,我们团队可以给大家展示更多东西。
至于基础大模型,因为创业成本还是很高,而且开源领域会有很多基础大模型跑出来,企业将来的核心需求也并非在此,所以不会是我们团队的创业方向。
▲图片来源:Google Search
硅谷徐老师:2014 年,谷歌发表了一篇论文,提到技术负债(Technical Debt)在 AI 领域的占比。管线布局也好,服务也好,有一堆模型以外的事情要处理。这个问题大家一直在说,也一直有初创公司在试图解决这个问题,但实际情况没有好转。
贾扬清:AI 发展很快,导致各种各样的计算需求、计算模态都在发生变化。我也经常半开玩笑地说,再也不想聊框架了。AI 框架这一块也变迁得非常快。对于这个问题,我自己经历了三个阶段,梦想的阶段,彷徨的阶段,和接受的阶段。
在梦想的阶段,我非常羡慕数据库和大数据有一个标准叫 SQL, SELECT、JOIN、FILTER 都是标准的 SQL 操作。SQL 在 1974 年出现的时候,是一个划时代发明,设计者非常优秀,在数据领域的使用模式也比较清晰。
AI 领域没有那么幸运,AI 从业者其实也梦想能有这样一个标准,2017年、2018 年、我们在 Facebook (现 Meta)做了开放神经网络的标准 Onnx。一定程度上也是希望,假如最后所有的模型都生产出来 Onnx 的标准模型,后端各种硬件厂商、平台厂商拿着这个 Onnx 模型就可以去部署了,那将是一个多么美妙的事情, Alex 有可能会成为 AI 领域的 SQL。
Alex 很好地支持了软硬件协同设计,因为以前要对接各式复杂的框架,如果一个硬件厂商想让计算机视觉领域的应用实现更好的对接,那它就可以参考这个领域的 Onnx 模型,用户需要学的东西变得更少,软硬件协同设计变得更好。
今天,微软仍在努力推动 Onnx 和 ONNXRuntime,但 Onnx 有局限性,今天的 AI 仍未进入完全标准的阶段。今天的 AI 更像应用,而不像数据库。AI 更像应用的原因是,像微服务这种写应用的指导,基本上没有一个像 SQL 这样的统一标准,AI 离应用很近时,云原生、Kubernetes 、容器等技术变得更适用时,如何把 AI 特殊的地方,比如异构计算、模型切分之后的分布式推理等等能力,和应用的云原生框架技术结合起来,帮助用户解决弹性、稳定性、免运维等等问题,然后寻找增量价值?
我觉得,这个就是我之前有梦想过,彷徨过,然后今天接受的过程。
现状是,大家基本上都还在解点状的问题,整个软件站分层也分的比较多,有上层分布式训练的框架,有下层像 AI 编译器以及软硬件协同设计的框架。但今天 AI 最需要的是一个能够把各种组件结合在一起的,无论是数据库、容器,还是异构的 GPU 机器,包括可能出来的新异构硬件上能够运行的软件栈,如何把这些东西有机地结合起来,是非常重要的。
▲图片来源:Google Research
硅谷徐老师:做了这么多年框架, 你对 PyTorch 有怎样的感悟,可以和我们分享一下吗?
贾扬清:Pytorch 非常强烈地体现出「用户为王」的结论。怀满怀尊敬地说一句话,用户永远都是又懒又笨的。但是这是恰恰我们就说是给用户提供价值的点。
之前大家经常会争论 TensorFlow 跟 PyTorch 的优劣,客观评价, TensorFlow 在系统上做的非常漂亮,原生分布式计算。PyTorch,尤其是在 PyTorch 1. 0 之前,后端代码写得非常糟糕。但是 PyTorch 的好处是什么呢?从用户的角度看, 要学 TensorFlow ,还得专门再学一套语言。Pytorch 则用得挺舒服,于是用户觉得,跑得慢点就慢点。现在为止 Pytorch 都不是最快的框架,但是比起让用户浪费一堆时间,Pytorch 宁可多花点机器成本,达到用户的效率、体感的提升,这会带来更大的价值。
这几年, TensorFlow 的确成为了一个大家不那么喜欢的框架,大家会瞻仰它,但是不用它。PyTorch 则被用的更多。
▲图片来源:Google Trends
Weekly Top 10 Generative AI Highlights and Insights 4.2.2023:
https://open.substack.com/pub/howiexu/p/weekly-top-10-generative-ai-highlights-025
欢迎在小宇宙、喜马拉雅、Apple Podcasts、Spotify等各大音频平台收听完整音频
微信扫码关注该文公众号作者