李志飞劝各位冷静点：通用大模型创业不一定适合所有人，包括大佬们

公众号新闻

2023-04-13 04:04

来源丨腾讯科技（ID：qqtech）

作者丨张小珺

题图丨图虫创意

中国大模型经历了短暂沸腾以后，一部分人骤然冷静下来。在过去1个月，行业已悄然分化。前Google科学家、出门问问创始人兼CEO李志飞就是其中之一。

1个月前，他率先声称要做“中国OpenAI”，但现在，他却说：“中国是不是存在一个跟OpenAI一样的这种组织？我觉得大概率不存在。”

他说：“真正像OpenAI那样探索AI天花板的凤毛麟角，复制一个OpenAI未必有必要。”

他还说：“你就算做了一个AGI（通用人工智能）又怎么样，更重要的还需要make AGI accessible。”

在过去短短1个月，一部分沸腾着的大模型创业者心态经历了巨幅转变。李志飞回忆说，对大模型达到狂热顶峰期，是他刚过完年赴美国考察的时候。在硅谷，学院路有个Blue Bottle，他穿过咖啡馆走廊，耳边接连听到一大串chat、chat、GPT、chat、ChatGPT……那段时间他每天5点就醒了，感觉多睡一会儿都在浪费生命；逢人便聊大模型，“每天喉咙都是哑的”。

这次到美国，他带着三个疑惑：一，ChatGPT背后革命性的技术是怎么做出来的？二，为什么是OpenAI，而不是他的前东家Google带来这一历史性时刻？最后，大模型壁垒有多高？为了一探究竟，他约见了OpenAI、Google、DeepMind、Amazon、Meta等一系列工程师。

对于第三个问题，他在当时得出了过于乐观的结论：大模型壁垒极高。但随着他回国、ChatGPT在国内爆火，巨头、大佬和资金疯狂涌入大模型领域——很快，这个结论破灭了，大模型的壁垒和门槛被踏得粉碎。

大模型的供给比他想象得多太多。不管是互联网巨头，还是原有人工智能企业，抑或大佬带资入局，都在快速为这场大模型平台之争备战。在中国，似乎一夜之间遍地是大模型。据李志飞预估：“中国1-2年以后，你会看到50家以上公司做大模型。”这场平台之战太过于惨烈。

在此背景下，一部分大模型创业者在过去1个多月回归了平静。这波人选择了一条更现实、也能与原有业务相结合的路径。李志飞只是其中一位。

有投资人说，他们的一个顾虑是，李志飞如何妥善安排自己10年的创业公司、对原有股东负责，然后另起炉灶？“这个我先声明一下。”李志飞回应称。现在他的想法是，在出门问问基础上，一方面做大模型底层能力，另一方面做基于大模型的各种应用，且公司已有业务闭环基础。他们目前暂无融资诉求。

“我其实是希望劝一些人不要去做大模型，”他说，“与其现在就匆匆忙忙跳进去做通用大模型，不如多想想我做出了通用大模型以后又怎么样。”

“包括大佬们。他们可能走进了一个，他们不知道是什么、也不一定像他想象中擅长、最后也不一定是喜欢（的地方）。”

以下是对李志飞的访谈节选。为了方便阅读，我对文本进行了一些优化。

突然的转折

Q：今年2月，为什么和王慧文、真格投资人吃了那顿饭？

A：吃饭是因为他们提到老王也要做AI，我挺好奇。大家对OpenAI很兴奋。但至于怎么做，什么时候中国能做出来没有清晰概念。大家聊更多是想能怎么做。

要花多少钱？入门门槛什么样？当时我说至少需要5,000万美金——2,000万美金买算力，2,000万美金招人，1,000万美金标数据。

Q：有没有互相给offer邀请对方加入公司？

A：有。但大家有不同做法。

Q：接下来你准备怎么做？

A：我的想法做了很多改变。当时我觉得壁垒极高，早期投入非常大，最后能做或者愿意投入的没几个。但通过过去这1-2个月去看，很多东西都变了。

首先做的人会很多。大家太快达成共识，这是未来10-20年最重要的一件事。其次，这个事难度取决于你怎么做。如果你要像OpenAI或Google做最牛的模型，探索AI天花板，非常难。但如果你跟自己的或你想做的场景结合，难度会大幅降低。包括有开源模型，算力本身英伟达发布了更厉害的计算平台——从算力、算法、数据各层面，难度会降低。

所以一方面供给多，另外一方面如果不是探索能力天花板，难度没那么大，导致做法有很大调整。你可能就没必要一开始单独做个公司，融很多钱，招最厉害的人，在与世无隔的环境憋12个月。以前我想的是那种。现在还是基于自己的投入和应用落地，快速把模型做起来，迭代使用场景。

Q：你想法转变是什么时候？

A：（吃完饭）之后一个多月。

腾讯新闻：中间到底发生了什么？从雄心壮志就要做中国OpenAI、探索AGI，转变得更现实。

A：兴趣和商业是两回事。这不代表我不能探索AGI。探索特别难的事有两种方式：一种从零开始，是突变式；另一种是渐进式。现在对我最好的方式是基于出门问问这种渐进式。

Q：还会做“中国OpenAI”吗？

A：中国的OpenAI是个伪命题。大家都知道完全复制OpenAI非常难，甚至他们自己都不一定能重复。这里边很多不确定，所需资源体量庞大。中国是不是存在跟OpenAI一样的组织？我觉得大概率不存在。你就算做了一个AGI又怎么样，更重要的还需要make AGI accessible，把AGI变成可用的东西。我们可以在这方面做很多探索。

Q：你认可Robin（李彦宏）说中国不需要第二个大模型吗？

A：中国肯定需要很多大模型，但是不是有能力做类似OpenAI这样探索人类天花板的模型，我不确定。我一直在强调，做大模型不只一条路。

能笑到最后的也不知道是谁，甚至哪怕在全世界，OpenAI也不一定笑到最后。今天我对它的商业模式还挺悲观的。

Q：我昨天见一个投资人，他说大多数创业者另起炉灶，想看看志飞怎么选。他们在等你的下一个项目。

A：不。这个我先声明一下，是在出门问问基础上，一方面做大模型的能力，另一方面有各种应用。

我们从2020年8月就开始做大模型和应用，差不多做了8个月，但局限于学术研究和商业模式的探索就停了。这之后，去年9月我去了一次美国，又把大模型重启，我们当时想做文案产品，类似Jasper.AI，因为看到GPT-3最适合干的是写文案。很幸运我们已经做了好几个大家叫AIGC的产品，有AI配音和写文案的。

Q：你们大模型的参数和算力大概是什么规模？

A：我们就几百亿。

它更加manageable。你做一个万亿的模型，有的时候真的只能祈求上帝，机器不要挂掉。

这轮AI核心是构建了大一统模型

Q：从你最早读自然语言处理的phd，到进入Google翻译实验室，再到现在，这个技术经过了哪些迭代？

A：十几二十年前，我在约翰霍普金斯读博，实验室叫CLSP，创始人是语音识别之父。现在大家对语言模型了解，当时是很小的学术圈，全美做语言模型的phd同一年就几个。2010年毕业我去了谷歌翻译实验室，工作不到三年。2012年回国创业。

2005到2012年，Google用大规模数据训练语音识别和机器翻译系统，开放给普通用户。在这以前，研究是靠美国军方项目支撑。2005年后，Google把它变成消费产品，我们相当于黄金时代的phd，用大数据、统计做机器翻译和语音识别，特点叫符号主义。

到2012年，分布式计算的红利基本没了。我在Google很痛苦，随便怎么加数据，准确率都不会提升，有时反而降低。Google把大数据、分布式计算用到极致了。

2012年到现在最重要的是深度学习，它跟符号主义不一样。跟以前的模型比，它容量更大，潜在天花板更高，对数据学习能力更强。以前很多模型学习数据是表面的pattern，比如两个词同时出现、出现频繁，我认为他们之间要么是翻译关系，要么是上下文关系。但深度学习通过10年发展，它能对数据做很多抽象。规模也比以前大——以前用几千万或者几亿的token，现在可能10万亿。

总结来说，深度学习时代后，模型的表达能力、吸取数据的抽象能力、分布式训练能力，相比2012年当时到瓶颈的时候有几十倍或几百倍提升。

Q：ChatGPT在哪些技术革新了，导致和过去10年的AI不一样，同时带来了爆发？

A：核心是通用。以前语音识别的系统专门一个团队做，机器翻译专门一个团队做。以前在我们学校，做机器翻译的人在计算机系，做语音识别的人在电子工程系。Google也一样，做机器翻译的人跟做语音识别的人是不同团队——他们有单独训练的数据，单独的代码系统。

大模型，当然现在还没做到，但未来它可能做语音识别、图像、机器翻译、回答你所有问题，陪你聊天，甚至做蛋白质结构预测——它可能是大一统的系统，做到以前每个需要单独训练一个系统的能力。这是为什么叫它通用人工智能。

Q：现在达到AGI了吗？还是只是逼近？

A：微软前阵子写过一篇文章，GPT-4是AGI的火花，我比较同意。通用的智能无非是第一通用，第二要有高度抽象的能力，第三有规划能力。

Q：对于ChatGPT，你作为一个内行人的Aha moment是什么？

A：以前AI系统，你去问它一些抽象的东西，推理或者故意骗它，它只在网上找相对应的文本形成答案。你知道它笨在什么地方。但ChatGPT你有强烈感觉：在跟有智商的人聊天，它理解你在说啥，还能跟你绕。

Q：所谓的“自监督”，我可不可以通俗一点理解，把孩子扔到海里游泳，他不需要我们看着他就能自己学会。

A：不需要比喻也容易理解。就是基于前面的词，预练下个词是什么。所谓的自监督是因为互联网是序列文本，我们现在正在“聊天”，当我说“聊”，后面有个“天”。互联网上有海量文本，可以自监督预测下个词。

每次AI预测，如果输出是“天”，跟文本对上了，系统给奖励；如果输出是“话”，这个不对，系统给惩罚。所谓自监督是互联网文本每一步都给了监督的信号，但为什么又叫自监督？因为这个数据不是被标出来的。不像以前，我做机器翻译，我要提供一句中文，然后标注一句英文；或者做语音识别，提供一个音频文件，然后标注一个对应文字。现在你从互联网上就能收集数据。自监督是每预测下个词，数据都给你反馈，告诉你错了还是对了。

硅谷见闻实录：

为什么是OpenAI而不是Google？

Q：春节后你马上动身去了硅谷，那段时间发生了什么，在那待了多久，有什么收获？

A：当时对我来说，ChatGPT太神奇、太厉害了。第一，我很想知道到底怎么做出来的，原理是什么？第二，为啥是OpenAI做出来，而不是Google？第三，壁垒多高？

我带着这些问题跟很多人聊。聊完答案是，第一没人知道这怎么搞出来的，技术原理是啥，为啥它突然有这么强的能力。包括OpenAI的人也没有清晰答案。很多深度学习的问题不可解释、不可操控。

Q：为什么是OpenAI而不是Google搞出来？

A：如果高度简单化这个东西，我觉得主要几点：

第一OpenAI成立就一直目标是做AGI，Google很多人不太相信——就觉得这可能是学术骗子，甚至当你说你要做AGI，我觉得你不知道你在说啥。你看在GPT-2的时候，OpenAI就说我要做通用，我不是去做那些比如pre-training，然后fine-tunning，收敛到具体任务的系统。它跟Google的信仰不一样。

第二，在GPT-3后，它是产品驱动的AI研究，这跟Google或别的组织不一样。别的要么是偏学术的研究——一帮人做出一个系统，写一篇论文，弄个PR，又去干别的了；要么是像DeepMind是项目制，AlphaGo做一做，又做AlphaZero，又做AlphaFord。它不是product-oriented的迭代。

Q：DeepMind怎么遴选项目？

A：有偶然有必然。必然是他们做游戏出身，认为通过深度学习去学怎么打游戏，最终实现通用AI，这是DeepMind人的信仰。

从执行路径，先找一些限定场景，比如下棋不涉及很多人的交互。它规则、边界清晰，数据干净，但同时足够难，有代表性。

Q：嗯，第一是信念，第二是产品驱动，还有第三点吗？

A：很多时候，有的人只对研究有兴趣，有的人只会做产品，有的人只愿意做工程。但能有一批人对三个都有兴趣，相互能协作，这也是重要因素。

2020年6月GPT-3开放给用户后，获得了很多用户反馈，通过反馈收集数据，通过数据又去迭代系统，然后重新给用户，效果越来越好。它已经悄悄干了两年半。Google就没有这么一个系统在线上。

Q：最后你的第三个问题，壁垒是什么？

A：那一刻我是觉得大模型壁垒极高。我跟很多人聊之前，觉得Google应该很快就搞出来了；但聊完，我意识到这个模型跟以前的壁垒不一样，有比较长的订货交付时间（lead time）。

首先你要花很多算力算，管你再厉害，如果你没有那么多卡，在这么大的数据量算过，模型就出不来。第二，模型的结构，包括数据的收集和清洗，需要时间积累。第三，这个实际是实验的科学，我用很多台机器，基于这个模型、数据的格式，我去调，调完后看结果，每做一个实验都要花很多时间。

它类似于造硬件。不是说两个月后另一个人立马就可以造出同样的iPhone。

Q：预计周期是多长？

A：至少比如6个月8个月以上。哪怕对Google这样的竞争对手。

Q：你当时跟Google的人聊，跟OpenAI的人也聊，OpenAI的人怎么看Google，Google怎么看OpenAI？

A：这个我倒没太注意。算力、数据、人，某种程度上Google可以碾压OpenAI。Google更大的问题是内部组织形态。在跨部门，Google的研究部门和业务部门是分开的，比如跟Youtube、搜索、云业务分开，调动数据、资源，甚至把产品上线都不是容易的事。在部门内部，太多聪明人，每个人有自己的想法、自己相信的方法论。这都是OpenAI不存在的情况。

有时一个竞争对手比你强10倍，但在这种高度不确定性的事上，它不一定能打得过你。

在中国创业的现实和真相

Q：大模型时代到底给我们会带来什么，从今天往后看10年有什么样的预演？

A：人类最引以为傲的是通过语言承载的认知。ChatGPT已经有很强的认知能力。这会导致有几个后果。

第一，它让我们产生强烈信心，当认知问题都能解决，很多感知问题小菜一碟。

第二，很多人讲 AI大模型是生成式，这是巨大的误导。ChatGPT这种认知模型，能力是全方位，比如它有很强的理解能力、分析能力、生成能力，甚至有不错的规划能力。它的应用远超语言。未来5-10年，我想不到什么领域不会被这个影响。

Q：现是iPhone时刻还是浏览器时刻？

A：这个我跟别人争论过，我认为是后iPhone时刻。通过过去10年，人类很多东西高度数字化了，每个人有手机，手机联网，手机内存、触摸屏、通讯、GPS能力非常好。我们等的是智能时代的爆发。现在智能有巨大突破，为什么不觉得它是iPhone后时刻呢？

Q：你们属于从上一代AI创业的时代走过来，上一代AI公司的共同挑战包括哪些？

A：商业模式不行，投入很高、产出很低，所有公司陷在商业化糟糕的状况里。

Q：现在呢？

A：现在好的方面是AI应用场景远超上一代，需求可能是以前的十倍、百倍。

但大模型出来后，在太短的时间内所有人达成了共识。坏的地方是供给可能也是上一代的10倍，所以会让很多现在做AI的公司，还是像上一代一样比较痛苦。

对行业、社会当然是好事，但对player，共识太强，竞争会非常激烈。我曾经说过一个观点，中国1-2年后你会看到50家以上的公司做大模型。这里面做法有不同。真正像OpenAI那样探索AI天花板的凤毛麟角，复制一个OpenAI未必有必要，我们可以做中国式创新的大模型。

Q：大模型时代的killing app在哪？

A：大模型empower killing app能力已经ready，更多是大家能做出什么样的应用，用户怎么去接受它。

Q：大模型这个领域，它是能诞生新的巨头，还是说它是原有巨头的叠加？

A：肯定会有新公司。最后能跑出来公司可能是垂直整合的，自己找一个主应用场景，收集用户的数据，同时也训练自己的模型，不停迭代。纯粹依赖于第三方的模型，不仅壁垒很难建立，而且很难快速迭代。

Q：创业10年有什么比较难的时候？最近的困难是什么？

A：没有一天不难的。最近面临着很大压力。一方面是机遇；另一方面，竞争无处不在，太多聪明人在里边琢磨，会让我有时产生一种——我会不会miss掉这一波机会，我能不能在大的浪潮里立住的感觉。好多人很焦虑，都觉得自己有可能被颠覆掉。无论是有业务的，还是没业务的。

我会越来越轻松点。焦虑也没用，还不如抱着长期主义心态。很明显，未来5年、10年、20年有太多可创新的地方，也许抓不住这个小机会，就能抓住另一个。你这一刻被更聪明、更努力的人超过了，并不代表你不能下一刻抓住，只要你觉得是长期的事。

Q：创业10年你的性格变了吗？

A：肯定是性格大变。

Q：你以前接受采访经常提到狂妄，讲话也会流露强烈的表达——你以前会说：“我只是要求非常正规的融资，正规到纯洁无瑕。”还会说：“看到这个世界正在被我瞧不起的人推向我不喜欢的世界，我非常痛苦。”

A：我不喜欢给自己打脸，有一些东西我说了做不到，或者是因为无知而说的，我会调整。

2012年人家问我说：“怎么跟某度竞争”？我说：“某度是什么东西？”通过10年在中国创业，你发现人家很厉害，不能欺骗自己对吧？明明知道这个东西不是这样子，还去忽略它，这是不求真。现在行为、说话方式有变化，是因为我看到了很多真相。

Q：国内竞争的真相是？

A：从竞争维度，中国是美国的10倍。怎么得出来的？中国创业供给是美国的2倍，美国客单价是中国的5倍，乘起来是10倍。我是觉得超级有道理的。

Q：你今年的目标是什么？

A：我希望我每天思考的问题和与大家聊的话题，超过70%内容跟这相关。

Q：对当下这波在中国做大模型创业的人，有什么想说的吗？

A：我其实是希望劝一些人不要去做大模型。这跟我个人竞争没有任何关系，我跟他们没有任何冲突。

我觉得你贸然进入，难度很大，商业竞争激烈。你现在做的是一个非常通用的大模型，但你没有仔细想过，最后落地在什么场景下？商业模式怎么做？与其说现在就匆匆忙忙跳进去做通用大模型，还不如多想想做出了通用大模型以后又怎么样？

两个月以前，我就是要复制ChatGPT，但现在我觉得不想清楚商业模式到最后会很痛苦。

找靠谱商机，关注创业邦视频号！

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章