Redian新闻
>
对话李志飞:大模型的关键在于如何把大模型用起来|年度AI对话

对话李志飞:大模型的关键在于如何把大模型用起来|年度AI对话

公众号新闻

李志飞告诉我们为什么对大模型的想法发生了变化。


杨俊

编辑石亚琼、杨轩

来源数字时氪(ID:digital36kr)

封面来源企业授权
掌握了人工智能就掌握了新时代的生产力密码。
在ChatGPT爆火的当下,大模型火遍全球,中国产业也激发了对人工智能应用的新热情。因此,这个时间点,36氪数字时氪团队正式启动《年度AI对话》专栏,希望与国内在大模型领域有着深度研究的专业人士进行热点话题的探讨,通过一系列报道,还原AI新的技术能力与应用潜力。
本期我们邀请到了出门问问CEO李志飞。 
李志飞是懂行的。作为出门问问的创始人,也是前Google总部科学家,自然语言处理及人工智能专家,他既懂语音交互和软硬件的结合,同时也看得懂论文,早在2020年,他就联络过几个城市的政府,想拿到资助大模型科研的基金。 
在这轮ChatGPT热潮中,他经历过半夜睡不着,要爬起来查看“昨晚硅谷又发生了什么AI大事?”他也热情地表示过要“All-in”AI大模型。他甚至算过很清楚的帐,为什么大模型的入场资金门槛在5000万美元。
但现在,他的想法又发生了变化:大模型的关键在于如何把大模型用起来。
4月20日,出门问问在北京举办主题为“AGI·降临”的2023 AIGC战略发布会。出门问问宣布内测探索大模型“序列猴子”,并提出CoPilot将无处不在。
而发布会前几周的采访中,李志飞详细而坦诚地对36氪解释了几轮想法变化的关键逻辑,也分享了他对这轮AI技术进步的判断和洞察。 
希望他的思考,能对业内各位有所启发。
以下内容为采访原文,经数字时氪编辑整理:

复盘出门问问做大模型始末,当下垂直化的大模型更有机会 

在此前的一些采访中,李志飞就对大模型饱含热情,要All in大模型。经过几个月之后,李志飞产生了一些观念上的改变。这次他和我们聊了聊,他对当下大模型领域的看法以及他想怎么做大模型。 
数字时氪:最初出门问问在大模型上有什么探索,又遇到了哪些问题?
李志飞: 2020年8月份的时候,我们就找了几十个工程师,开始训练6个亿的模型,我们在这期间一直在做数据、做训练。但是到21年4-5月份的时候,就做不下去了。原因是几个方面。
第一我们的模型能力确实没有那么强,现在大家都知道,模型达到一定的规模,才有各种各样的比较神奇的能力。当时我最关心的是模型可以举一反三,做多任务,比如训练中没有涉及到这个任务,但测试的时候我给出的2个例子,模型就能完成这种任务。这是最让人觉得神奇的地方,其实这就是模型的通用能力。但是当时我们的模型能力比较弱,所以也在想能不能花更多钱买更多算力去做更大的模型,但疫情确实延缓了我们的进程。 
当时我们做了七、八个月以后,我觉得这就是一个科研工作,没有商业化的空间。当时主要是不知道能不能做出来,要做出来就需要花更多的算力,花更多的钱。另外即便做出来了,也不知道反响如何。因为OpenAI做出来的GPT-3也没有在大众中形成很强的认知。 
但在去年9月份的时候,我看到了Jasper。因为当时Midjourney等AI产品火起来了,AI受到大量关注。有人开始讨论Jasper的表现。因此,我才觉得这个是可实现的,而且我看到了它的产品。因为之前我也在思考,这种产品能做什么。最初好像海外也没有开发出更大的功能,最多可以帮人写文案。但是直到看到它的产品的那一刻我明白了原来还可以这样做。它的商业模式是建立在美国人需要写邮件这个场景上。如果我在中国也做同样的东西,商业化前景不一定会很好,因为中国没有邮件的习惯。而且Jasper的创始人在营销方面很有研究。所以综合来看,去年 9 月份我再一次警醒,我们不想简单的调用OpenAI的接口,所以我又开始专注于大模型。 
首先在技术上是没问题的,GPT-3就证明了其在文案上面的能力。其次,我觉得Jasper证明了把 GPT-3包装成产品是可行的,而且商业化路径也能跑通,所以去年9月份,我们下定决心继续做大模型。 
虽然我觉得GPT-3在2020年6月份出现的时候,确实不太一样,证明了通用的能力,但是我没能想到发展的这么快,ChatGPT出现的时候已经比GPT-3提升了几个数量级。这是完全没有想到的。 
数字时氪:最近行业变化对出门问问决策有什么影响? 
李志飞:最开始我们想的是先学OpenAI,做通用大模型,因为当时觉得开源不太可能且国内做通用大模型的不会很多,这是我刚从美国回来的判断。
但2个星期以后,一切都变了。很多BAT级别的CEO以及中小企业,科技人才都要出来做大模型,并且开源在一个月后也出来了。这种情况下,国内的供给要比我想的多很多,做大模型的门槛变低了,但是做类似OpenAI研发的通用大模型的门槛却变高了。所以我放弃了想单独成立公司做大模型这件事情。 
还有一个因素是我觉得中国其实不可能有适合OpenAI式的公司的土壤,因为我跟很多VC聊,大家永远在问怎么竞争,怎么商业化、怎么把钱赚回来?我觉得在这样的情况下基本上是很难的。 
我也意识到了中国的互联网巨头在这上面一定很激进。大模型的创业者如果还在单独研究怎么做大模型,一定会在进度上变得非常被动。而且如果只做大模型又没有应用场景,又没有积累。我觉得接下来很稀缺的能力就是怎么能把模型、产品跟商业化形成闭环,以前我可能觉得可以2年以后再思考这个问题,但现在竞争这么白热化,我觉得现在就要开始琢磨谁能第一个跑出来,还是要有很强的先发优势的。所以我现在是主要带着出门问问的一些人在做这方面的事。
数字时氪:目前没有很多钱进来,你现在准备做什么? 
李志飞:首先就是市场上没有真正太多做大模型的人,我也面试了一些素质非常好的人,他们对大模型是完全无感的。我们是有一批钻研大模型的人,因为从2020 年的时候我们就天天在琢磨,所以对我们来说就是把更多的力量做投入。 
数字时氪:做大模型需要多少钱?饭桌上的5000万美金成本是怎么算出来?现在5000万美元还够不够? 
李志飞:这个东西不是随便瞎掰的,因为在吃饭之前的半个月我就在美国跟很多朋友聊过。如果中国要做一个和ChatGPT差不多的大模型,可能门票就是 5000 万美金,这里面2000 万美金买算力,2000 万美金买人才,1000 万美金做数据,基本上在12—16个月时间理可以从0到1做出一个大模型,基本上就是这个过程。 
我通过过去几个月跟别人聊过以后,我自己觉得不是很靠谱。我觉得现在5000万美金也可以做,1000万美金也可以做,有很多不同的做法可以做大模型。因为当时从0开始做一个175亿参数规模的大模型,而且能力是和ChatGPT一样广泛、通用的大模型,确实是需要5000万美金。 
但现在,很多开源都出来了,比如Meta的开源模型LLaMA,这改变了我最初的判断,另一方面因为大公司之间的竞争,我觉得Google在开源这件事上一定会跟进的。我就觉得开源之后有了很多做大模型的机会。 
但同时我也觉得在类似电商、教育、医疗、娱乐等近期比较火热的垂直领域做大模型的竞争肯定会非常激烈,因为这就是中国特色。我去年去过两次美国,我的强烈感觉是中国创业的竞争程度是美国的 10 倍。因为中国的创业者可能是美国的两倍,但是中国的客单价可能是美国的1/ 5,所以最后就是10倍的关系。
之前我跟硅谷的一个华人团队的投资者聊天。聊完之后他说:“李志飞,你到底怎么了?我们聊了一个多小时,你聊的所有的东西都是竞争啊。”就真的是这样。 
数字时氪:接下来的方向是垂直领域的应用么? 
李志飞:一方面, 我们自己就是做创作者的工具,同时,我也会找一些合作伙伴在垂直方向上进行合作,现在最核心的是要搞清楚垂直基础的大模型到底要具备什么样的基本素质。只有具备了最基本的素质,才能在垂直方向上做的更好。 
在做垂直化的路上,所有人都要琢磨到底需要什么样的底座,很显然如果能达到GPT3.5的能力,再基于自己的数据去做一些垂直化的工具,我觉得基本上应该是可以落地的。 
数字时氪:你觉得核心竞争力是什么? 
李志飞:我觉得这个东西说的有点“玄”,但是我越来越觉得基于信念驱动的竞争才是唯一能跑下去的。我觉得最近我在缓解自己的压力或者焦虑感,因为确实很多人都觉得这是我人生最大的机会,但反过来,我又觉得太卷了,我抓不住。所以对我来说我对这方面是真的有信念。我觉得这一波AI会彻底改变每一个行业。 
所以从这些方面看,第一,未来5到10年,行业会发生巨大变化,这是非常确定性的;对我自己来说,我是中国里第一批比较早进入这个赛道的。 

所以我觉得需要在这里边继续努力,第一不要放弃,第二不要因为觉得跟不上就躲避。对我来讲,首先这里面机会很大,其次我自己一定有优势,最后我真的是 All in。 

数字时氪:你觉得当下的数据还够不够?AI提升的效率会不会变慢? 

李志飞:我是比较乐观的,首先还是有大量的数据的,即便是文本也还有很多数据都没有用好,另外除了文本,还有很多音频、视频的数据,另外,到后面 AI 自己是可以产生数据的。就比如我们两个不停的讨论,其实就能提升我们对这个事情的认知,那 AI 很快就会有这种能力,其实现在就已经有了。比如你问ChatGPT一个问题,他给你一个答案,你回复他:你真的确信吗?我觉得你这里边有错误,机器就会自己反思,重新生成一个新的答案。之后可以用prompt的方式生产新的数据。所以我觉得数据在未来肯定不是太大的问题,而且只会加速数据的产生。 

数字时氪:在这次大模型研发中,你更重要的角色是什么?你怎么看待CEO和首席科学家的职责? 
李志飞:我觉得我就是CEO+首席科学家的角色。因为我会比较抽象的思考很多东西,但是工程师一般忙于日常的工作,很难去思考一些东西。但我自己真的会看很多论文,所以我会更多地从方法论上去和他们讨论这件事到底该怎么做。 

对于CEO和首席科学家的工作内容,我觉得在企业发展的各个阶段是不一样的,比如最开始需要把这个模型做出来的时候,我觉得更大的责任在首席科学家这里。但是到后面需要商业化的时候,我觉得CEO要有更多事情可以做。 

其实到现在没有很多钱投入到这一波大模型的创业中 

算力、算法、数据一直被看做大模型领域分水岭,而当我们采访到李志飞的时候,他却给出了一个比较独特的想法。这也让我们看到了一个技术乐观主义者的真实写照以及为什么他会说出All in 大模型。
数字时氪:你觉得“钱”还是重要的么? 
李志飞:钱肯定是重要的,但我觉得现在如果有大模型领域的创业者出来,一定是要因为你自己决定要做这个东西,不管遇到什么困难我都要做,我觉得这种可能更加靠谱一点。 
数字时氪:你怎么看待当下大模型领域里的投资? 
李志飞:虽然赛道看起来很火热,但是赛道里真正的获得投资的并不多。 
我觉得其实中国的创业者跟投资者确实都缺坚定的信念。而美国的创业者或者投资都不太受外界的影响,他们对未来有一个基本的判断,无论输赢都无怨无悔。 
这是我觉得中国的创业环境还存在和美国不一样的地方。但另外一方面我确实深刻意识到中国创投界已经很强了。现在中国 VC 的聪明程度、努力程度、对事情的判断,对机会的把握都比十年前强太多了。 
现在大模型赛道的融资情况也反映了中国很大的一个问题,就是技术大突变的时候,反而没有很多钱投入到这波浪潮里。我觉得这从长远来看会是很大的影响。 
数字时氪:为什么至今还没有中国版的“Midjourney”?
李志飞:因为可能最初很多人都对这件事情做出了误判。当时我们会觉得互联网巨头、一大批创业者会涌入这个赛道,导致赛道特别“卷”。另外一方面,大家都没想好该怎么商业化,该如何利用这方面的工具赚钱。 
但是现在我觉得当时如果能做出来一个中文版的“Midjourney”会是一个很好的机会。即便是从先拿到更多的用户数据的角度来说,这件事也值得做,值得投资。但是可能因为疫情等原因,错过了最佳时间,现在肯定是没机会了。 
数字时氪:你觉得接下来大模型领域会出现“抢人”么? 

李志飞:我的感觉是行业还没有那么卷,目前没有很多钱进来,或者做大模型的企业还没有真正开始招人,这是我的感觉。 

新的AI浪潮中国式创新的机会 

数字时氪:当GPT 5发布的时候,你觉得中国跟美国的差距能有多大? 
李志飞:第一,取决于投入,第二,现在有这么多聪明人来做这件事,方法论会不会革新?因为虽然OpenAI是第一个做出来的,但它的重心不是优化成本,它是在通过资源的叠加,探索AI的天花板。而现在这么多聪明人进来,大家都会寻找更有效率,更具性价比的方式。如果中国有弯道超车的机会,就看有没有新的方法论出来。 
数字时氪:对中国大模型公司有什么影响? 
李志飞:现在有一点我没太看懂,因为大模型没什么商业模式,除非最后唯一的可能性就是把它变成一个 ToC 的流量入口,采取其他的方式变现。但这几乎也是巨头才能做。所以我不明白为什么所有人都只盯着Chat这件事。即便大厂做的很多动作也让我觉得真没有什么想象力。我感觉可能是没办法,大家都在想先把东西做出来再说。 
数字时氪:对ToB 领域的应用和对中国公司会有变化么? 
李志飞:有,比如我们做的大模型,一方面我们会自己用,另一方面也会想找一些垂直领域的企业合作。不是每一个公司都是自己做AI的,而且这一代的AI投入一定比上一代更大。所以很多企业还需要依赖于第三方的服务。所以我认为在ToB方面是有很大机会的。
数字时氪:对中国产业的影响是什么? 
李志飞:我觉得中国和美国在AI上的创业热情是不一样的。 
中国是单一人口最大的国家。中国在供应链上有优势、在SaaS上有优势,可以做很精细的用户体验。 
美国的创业者/公司在利用工具层面时比中国要更加先进,比如美国协作工具的增长就是因为自由办公比例的增长。 
从宏观的角度来说,大模型一定会提升至少 30% 的效率,如果需求没有增长30%,那就一定会有 30% 的人失业, 
数字时氪:你觉得AI会让很多人失业么? 
李志飞:我觉得不能说失业,因为任何一波技术革命都会带来新的东西。比如汽车出现,马车夫肯定都失业了,但是汽车带来了一个全新的社会。我觉得今天的这种 AI 非常强,智能的 AI 出现又会带来一个新的社会。我觉得我还是比较乐观的。从乐观的一面来看可能是整体需求拓展为 2 倍—3 倍,但是有一些工种肯定会消失掉。所以我觉得应该加强对人在AI知识上的培训。 

36氪旗下官方公众号

👇🏻 真诚推荐你关注 👇🏻


来个“分享、点赞、在看”👇

对话李志飞

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
智源黄铁军:大模型智能涌现令人兴奋,没有绝对壁垒,成败关键在生态李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始花百万读双语校,孩子却被教成了“文盲”…顺义妈急了:原来学好英语的关键在于中文?杜绝“打拳”的“维特效应”,关键在于让责权利对等!大厂的大模型是诸神之战,京东的战场是产业AI|年度AI对话李志飞劝各位冷静点:通用大模型创业不一定适合所有人,包括大佬们稻盛和夫:事情成败的关键,就在于愿望强烈的程度解决问题的关键,从来都不在于方法对话 i 人事王景飞:不善用大模型,不与时俱进,终将被淘汰OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流为卡特总统祈祷拜登能否连任的关键在于特朗普李志飞退回出门问问,“拖家带口”能做好大模型吗?李志飞带着大模型「序列猴子」来了:能力自测略低于GPT3.544岁黄海波罕见露面,退居幕后教演员,妻子靠《狂飙》赚钱养家Suma推出全场景终端,从“造起来”到“用起来”巴厘岛情侣案的关键并不在于印尼方的调查结果华为为什么有这么多优秀干部?关键在于这7点!对话中国大模型的最早推行者黄铁军:全球可能只需要三个大模型生态谷根孕婴创始人李志恒:大船进入浅水区,母婴品牌与终端向好发展三策略甲小姐对话李志飞:聊聊这场疯狂的AI大模型炼丹大会 | 甲子光年承初心,致未来|《财经》年度对话2023与它的25岁动态丨李志飞退回出门问问,“拖家带口”能做好大模型吗?澳洲下个月将新增一个公共假期?! 总理亲自发话: 真有这个可能性, 关键在于这群女人…股权投资失败,关键在于投后管理与退出时机不用很费力,A-level生物也能拿好成绩!关键在于...首次发现!数据异构影响联邦学习模型,关键在于表征维度坍缩 | ICLR 2023爱上一个人需要多少时间?“中国特色的关键就在于‘两个结合’”歌剧《野火春风斗古城》选段大模型只是起点:朝向多智能体和人类紧密协作的未来|戴雨森对话吴翼血糖控制和室外保暖OpenAI、谷歌双标玩得溜!训练大模型用他人数据,却决不允许自身数据外流...日子过得好坏,在于环境,也在于选择 | 人间日签AI大模型用鲁迅风写高考作文,大家来品品能打多少分
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。