就在2024年春节复工的第一周,百川智能CEO王小川罕见地在内部发了一次火。
但对于这一点,这位看上去性情温和的CEO,相当固执。在他眼中,OpenAI推出的视频生成模型Sora和之前的ChatGPT根本不是一支技术脉络——“AGI理想一定要以语言为中轴做模型”,Sora是阶段产物。在公司技术会上,工程师展现了对文生视频的热情,试着说服他应该尝试。“大家没有站到更长远的角度考虑终局,我到底在干嘛?”在他看来,要么Sora靠近AGI理想,要么靠近现实场景,但它“两个都不靠”。王小川出生于1978年,曾获国际信息学奥林匹克竞赛金牌,他清华大学计算机系毕业后加入搜狐,6年从高级技术经理晋升至CTO,于公司内部孵化创业。2010年随着搜狗独立分拆,他也出任这家公司CEO。直到11年后腾讯全资收购搜狗,王小川才结束这段漫长的事业生涯。“搜狗没有做成大厂,但是拆开看里面,我们承受和经历了大家不能想象的东西。”他试图阐释在技术和市场、理想主义和现实主义之外,中国AGI还有第三种可能性——他形容所有人都在“盲人摸象”,他或许能在技术和场景的交叉点上,“把两个看得全一点”——“治理是把两个不同的东西融合起来,变成更大的真相。”他说。由于百川智能是较晚入局的一家中国大模型企业,他也复盘了自己的创业始末、思考与心态起伏,并对朱啸虎的质疑一一进行了回应。你会看到,他和朱啸虎有共识也有分歧,虽和杨植麟一样是技术背景,但有一套不同的语汇系统。“基因”、“哲学”、“生命模型”、“牛顿定律”、“智能纪元”,甚至“太虚幻境”。王小川说,“在技术里面,我们认为美国代表的最高级,他们确实有人才储备和资金,但不代表在更高的哲学思考里,他们就一定是对的。”大象的隐喻
“他们各自看到了大象的局部”
问:看到朱啸虎在报道中说“妈的,王小川也一样”,你怎么想?王小川:整个看了一遍,但好几个人转我。就莫名躺枪。我想他们转给我的原因,要是知道骂我就不转给我了,应该是好话。但我听了觉得还是没完全理解我们做的事——但我理解他呀。王小川:他是一个率真、敢表达、一点不伪装的投资人,而且有自己的经验。一个人能做自己,有一套成熟、成功的打法,这值得鼓励。他是很真的现实主义,不掖着藏着,而不是一边挂着理想、一边说着现实的话。王小川:正好有另一篇杨植麟的报道,把他当成技术理想主义代表,走在朱啸虎反面。他谈技术,怎么长窗口,怎么能统一建模,谈的是很未来、很远的事。杨植麟呢,理想主义离现实有距离。但他们都不代表从技术到商业的完整闭环,不代表世界的全部。他说,不是和你关系不好不投你,确实不知道怎么退出,有这件事吗?王小川:我印象是在深创投组织的一个会上,中午吃饭坐我旁边,就聊了几句。他第一个讲,他只看能快速赚钱的,不能赚钱的他不投。在今天这种环境,这是挺务实、旗帜鲜明的一种投资方式。第二个讲,如果你们最后有并购机会,百川也是会考虑的,但现在不鼓励大的并购,退出路径很渺茫,他看不清。小学读盲人摸象挺可笑,但随着年龄增长,发现我们都是盲人,只是看的多多少少不一样。王小川:至少在我心中,我是把两个看得全一点,至少看到大部分的象长啥样子。问:在我们这两篇报道发布后,很多人会自发站队杨植麟或朱啸虎,你站他们其中一方,还是你代表第三种声音?我特别想画一个图——(开始在白板上作图)——一个圆柱体,如果从三维上看它是圆柱体,二维呢?问:你过去一年多少次遇到过朱啸虎这样的投资人,他们可能拍着你的肩说,不是我跟你的关系不好,但是我就是不能投你?王小川:如果没有这个文章,我都不记得朱啸虎这件事。问:你是很难有情绪波动吗?过去一年大模型创业中,为了什么事生气过、愤怒过?比如,大家对技术理解不足。
我更多针对的不是朱啸虎这种,他逻辑足够自洽——
他说我就赚快钱,那我这么投,很闭环。
但如果说,我想投大模型,做选择就有不同声音了,他的目标、动作和决策链条是偏差的——
一种认为技术不重要,反正技术会扩散,看场景就行了。
毕竟这是一个技术为核心的创业,这已经缺乏对技术基本尊重了,是一种悲哀。
还有一种只迷信美国人的东西。
所以还是没看全这个事。
有些人属于特别笃定自己,还跟我沟通过,但没理解,这个我情绪大一些。洁癖和决策
“单独从美国搞了一个手机回来”
问:你是2023年2月开始关注大模型,4月入局,中间两个月在想什么?借用简单几个公式刻画宇宙规律,科学奠基最多以物理学为基础。我发现,物理范式对宇宙规律在模拟里面很多是无效的,尤其对生命,对复杂事物。牛顿力学是偏线性系统,到了非线性系统走向混沌了,物理学就失效了。有个经典问题叫“三体”,三个球互相转,轨道通常不确定了。通常,病人只有在医院才是被观察对象,而在治疗期间也缺乏完整数据收集。医学界有一个词叫Real World Studies,真实世界研究。当使用ChatGPT,一下trigger(触发)我之前的论断:语言一旦被攻克,我们构建生命数学模型就会有新武器。谈医学,大家老觉得我在做vertical(垂直的)——今天Sora没有懂物理规律,没有深入到后面的分子、细胞相变,它只是模拟引擎。因此Sora要把物理学全都学会才会变成world model,世界引擎。我们现在有了GPT这个武器,未来可以构建更大的世界模型,包括生命模型。问:也就是说你在健康和大模型这两段创业,是可以关联起来,不是割裂的?外界在描述的时候倾向于认为,你是放弃了前一段,开始了这一段。
王小川:那时还在疫情,大约在去年1月份(开始试用)。我要用自己的账号、自己的IP去访问,所以单独从美国搞了一个手机回来。王小川:我也不知道,这个东西你要真的进去,而不是用淘宝的方式带我进这个账号。
可能也说不清楚。
所以是用我自己的账号拨上去的。
用完之后发现变天了。
第一个月沉浸在震撼中,第二个月才意识到这对生命科学研究、大众健康服务有巨大意义。
问:我看你之前说,王慧文的做法是招英雄,直接敲门就行了;但你一想到要做,可能会立刻想这和我过往的经历、搜狗团队、国内最精英的人是什么样的关系,这个时候大家的决策路径就不一样了——
我是有更多思维链路,未来这个世界长啥样?
把vision、mission,甚至技术路径想清楚了,我才能干活。
问:你怎么看,你入局的时候大家总是把你和王慧文放在一起比较,特别是投资人。王小川:有他们的道理吧,毕竟你在分的时候,就跟盲人摸象一样。按我的逻辑,分类和比喻就是智力,这个分法代表了一种智力水平。
问:哪种智力水平?
王小川:不太高级的。
慧文在商业上比我成功多很多,但本质上美团的成功不是技术推动。
我们当年做输入法,做搜索,对技术依赖度是很近的,甚至在工作外,我们很早就把前沿技术用进来。
搜狗,我们悲催地方在于,做搜索比百度晚4年,而且在搜狐一个媒体公司——这种难度大家并没看见。
和微软的朋友聊,他们做Bing,在面对Google的时候,对搜狗就特别称赞。
他能设身处地知道,你在那个环境做到今天的不容易之处。
那会儿我们是引领过一群最天才的人工作,只是最后没取得大成。
投资人没有辨别能力,只能听学者或美国学术圈的说法。在技术里面,我们认为美国代表的最高级,他们确实有人才储备和资金,但不代表在更高的哲学思考里,他们就一定是对的。问:也有人说当时王慧文入局,导致你们第一笔钱很难融。盖模型摩天楼
“活是干出来,只是话语体系对不上”
问:你在去年4月公布大模型创业以后去了美国考察,得到什么新认知?大家有不同见解,有的逻辑说到美国招人,招到OpenAI的人回来再干——到目前为止,没有迹象表明,任何一个中国公司挖到OpenAI的人。有几个公司讲他的团队主要来自美国人,最后也都没兑现。今天大多这样一些公司,还是基于之前的积累或中国人在做。那时大家还不太相信,百川能做模型吗?是不是套壳的?我有自己的见解和认知,比如我们对强化、多模态的理解。去了之后我才知道,因为投资人很多思路来自美国技术圈,大家在语言体系上能对齐一些。我并不觉得得到了技术上立刻该怎么办的认知,只是话语体系提升了。王小川:数据、算力、scale,他们用这种语言在表达。我在谈不同观点的时候,跟他们想法不一样,能回溯他们想法来源。他们真的想把一千万颗GPU串一块训练模型,英伟达一年才生产一百万颗。去之前我说“理想上慢半步,落地上快一步”,回来改成“理想上慢一步,落地上快三步”。问:如果你要构建的是模型大楼,你会怎么画这个图,让它有画面感?王小川:今天的娱乐行业,本质在追求《红楼梦》里的“太虚幻境”。语言是概念空间,小说用文字构建一个想象的世界,每个人在读的时候有自己的想象。在不同娱乐形式背后,都有一个“故事引擎”,这个引擎负责讲故事,通过人物角色(NPC)与观众互动。因此,并不是说做Sora、Midjourney就娱乐了,无论小说、电影还是游戏,它们都是通过故事驱动。娱乐世界核心逻辑是,由故事引擎推动多模态和互动,这是三个要素之间的关系。问:娱乐是你构建的模型大楼的所有,还是只是一部分?王小川:一部分,娱乐就是一个大的模型,我称之为“虚拟世界模型”或“太虚幻境”。王小川:第二是生命模型,是推动医疗和对生命的这样一个结构。但如果你不带着钉子榔头一块看,就变成了朱啸虎批评的了。问:所以你既做基础模型又做垂直模型,既做开源又做闭源。最终有一天可能合在一起,没关系,但我得做模型的时候知道应用场景最后需要什么样的能力。问:朱啸虎质疑,大模型这么早陷入价格战,公司很难独立生存。他说现在部署一个私有化大模型都不到100万人民币。王小川:他说的是对的,光做to B无法养活百川,核心拼的是超级应用。问:我可以想象,你要做三栋模型大楼,三栋楼会分别形成三个应用?王小川:模型即应用,理想状况我们可能三个应用,可能两个应用,剩下的把to B开放,大家调用。问:之前百度、字节这些巨头都做过很长时间医疗,为什么不成功?更多只是生产关系的改变,帮你挂号,帮你连接信息,而不是医疗知识、经验和逻辑供给——智能纪元二年——去年是元年,今年是二年——我们很有幸成为智能纪元元年诞生的公司。当ChatGPT来之后,我已经看到这个技术能解决的问题、最后的画面感是什么。这两个画面感朱啸虎、杨植麟都没画出来。杨植麟是屠龙刀,我有屠龙刀的刀了,然后去找龙。问:杨植麟的想法是做OpenAI+字节,技术理想主义的模型加商业化成功的应用。GPT核心,第一它会语言,马克思讲人和动物的区别是人会语言。第二,它会制造和使用工具。
我们在造一个类人的生命,一种新物种。
当你谈ChatGPT,谈字节,谈anyway的时候,没有回到我们到底在构建什么样一种价值。
大家经常提productivity(生产力),我觉得第二就是像人,它是我们的助手、我们的顾问,是专业的人。也许是科学家,像爱因斯坦,但更多会像医生、律师、老师。人的灵魂是思想,世界的灵魂是大世界后面的一种推动力量。问:在你看来,有什么是百川能做但OpenAI不能做的?OpenAI的追求是尽快实现AGI,优先探索技术边界,这也代表了西方范式。公司一把手要有这方面的信仰,而且巨头之前做医疗做伤了。问:杨植麟和朱啸虎一个代表“技术信仰派”,一个代表“市场信仰派”,怎么用一个词概括你?回应朱啸虎与杨植麟十条
“我们就不在他的审美品类里”
“你说这些创业公司有啥优势,有啥条件去做大模型?百川发布了给游戏的NPC,你有啥数据去训练游戏的NPC。大厂有大把、大把数据。我让一个公司去体验了一下,没看出任何区别。”王小川:首先他已经定位赚快钱,要做立刻有场景、商业的。他举NPC的例子,不代表我们在娱乐完整的思考,只见了零部件。做GPT-4至少四五千万美金,GPT-5至少几亿美金。关键是万一你砸这么多钱,别人开源了,不就全白砸了?我们的策略叫“理想上慢一步,落地上快三步”,暗合了他这个题目。问:第三,他说,AIGC PMF你十个人找不到,投一百个人也同样找不到,和人数、成本没有关系。拿LLaMA训练两三个月就够了,他被投公司最差的只有一张卡。今天这个M,有的快是赚快钱的方法,有的慢是赚慢钱的方法,都存在。我没有跟朱啸虎谈过医疗场景,你不要去掰他的爱好,我们就不在他的审美品类里。问:第四,他说,今天说个人助理都是技术人员的想象,我就问你几个人需要个人助理?是典型伪需求。如果给你一个律师,一个医生,一个购物顾问,大家是需要的。我们得谈一个大家见过,甚至花钱买过的服务,只是今天供给缺乏。通用助理没构成一个行业。我们在公司叫行政助理、生活助理、业务助理。助理是我动脑子、你动手脚。但现在大模型不是动手脚,是动脑子的。问:第五,他批评这批大模型公司连“AI四小龙”都不如,“四小龙”还有黄金时代,进入的时候竞争没有那么激烈,在资本泡沫中长大,后来才杀价格。王小川:还是把它当成一个to B、大家做一样的事(去看待)。大场景需要大技术,小场景用小技术,只是大场景现在并没有形成共识。问:第六,他质疑在融资上,下一步钱不好拿,估值已经抬到这里了,后面估值怎么弄?还是我讲的TPF(Technology-Problem Fit,技术与行业现存问题相契合)。今天核心问题是,大家不知道product(产品)是啥?——product不能是scaling law(规模法则)。以前是先有M(市场),后有P(产品),用P去fit这个M。而且P是从T(技术)过来,因此TPF是今天要讨论的问题,而不是PMF。大模型的P是什么东西?娱乐最后走向“开放世界”或者“太虚幻境”,“开放世界”造的顾问需要大T来支持。比如Sora,大家觉得造了个钢琴,你敲什么音乐它都能给你奏出乐章。但我们今天不是造钢琴是瓶颈,造乐章、造乐谱是关键。大模型不是做皮囊,大模型是做认知引擎、决策引擎、推理引擎。假设我们能在中国供给医生,我能用AI做出100万医生,它是什么样的一个价值?在TPF里面,我回答你,至少我们有一支是在做医生的。问:第七,朱啸虎认为中美AI生态差别会非常大,这个你可能是认同他的。我们今天需要更快把场景打开,有些场景形成数据飞轮,甚至形成全球化优势。王小川:杨植麟有很好的技术理想,相信scaling law,相信long-context,相信多模态。他的大部分技术(判断)都是对的呀。王小川:他叫“场景摩尔定律”,我不知道场景在哪儿,我能力好,场景就拓宽了。而不是说这个可以拿过去看简历了,可以看word文档了。问:在你看来,为什么朱啸虎在访谈中反复点名你?为什么是你?和巨头对决、和巨头共舞
“我是果粉,苹果造车我一定买;
李斌说呵呵,苹果造不出车来”
王小川:对我来讲一点不虚的原因,我们对场景的思考。我们在通向AGI的路有各种坡,很多坡你不知道商业模式,也不知道场景——医生是一个顶天立地的场景,立地是它对服务有意义,顶天是它对大模型有需求。我们砸大模型,至少有一根支柱,确保模型的技术能力变成场景的壁垒。问:多长时间追上GPT-4,多长时间追上Sora,有时间预期吗?王小川:Sora不在我们的主线,Sora的高度、突破性、应用价值低于GPT。李彦宏之前不是在讲百度更懂中文嘛,他很幻觉主义——去年2月就喊出比OpenAI只差两个月,已经够有幻觉了。问:你怎么看他最近说,在中文上,文心大模型4.0已经超过GPT-4?他说GPT写一个《沁园春》,都分不清楚4个字、5个字开头,他们自己也分不清楚,你可以试试。他不仅对GPT有误解,对自己的产品有误解,对国内模型也有误解,那不是活在自己幻觉中?你得问他的团队怎么汇报工作,他怎么形成这样一个输入。这个人是一个也正直,也聪明的人,更多是信息输入不太对。问:你怎么保证你的团队给你的汇报是信息充分且正确的?第一,大家都知道模型做不好,公司做不好,大家都挂了。他们有足够多的资金,足够多的算力,足够多的人才号召力。我当时是苹果粉,就跟李斌说,苹果的手机、手表、Pad我都买了,苹果往下造车,它的车我一定会买。我想苹果顶尖人才有,供应链有,钱无限多,号召力也有,它具有造车的所有要素。但是苹果造了十年车,消耗了100亿美金,甚至没做出来。李斌预言了这件事。王小川:现在240多人,算法技术占比70%,多位技术联创——我搭班子的时候,并不是一开始就找纯小鲜肉,做以年轻人为主导的公司。今天的大模型不是靠技术理想主义推动的一件事,需要更多对现实的考虑,对技术通盘的看法,甚至有人文哲学高度的一个组织。王小川:百分之二三十吧。第一天开始做的时候,已经磨合过。问:有人会说搜狗在浏览器和搜索都不是第一,为什么原班人马可以在大模型上干到第一?王小川:那我也想问,还什么都没干过,凭什么干第一呢?一定要看背后语境。能在那个时代把搜索做到18%市场份额,换任何一个其他人都做不到,在全中国。输入法反而是离大模型最近的产品,它是把互联网压缩成一个语言模型,输出next token。问:搜狗的经验对大模型创业的帮助是什么?差异是什么?王小川:我们完整经历过整个体系,方向感我们特别好,实操中需要更多大模型年轻的researcher或博士操刀。问:你在搜狗提出过有名的“三级火箭”理论,今天大模型的“三级火箭”是什么?很有可能能力和场景就已经决定应用的成败,应用上的外挂会少很多。问:你刚才提到搜狗的经历是在死局里找出路,最难是什么时候?那会的提法叫“我的天职是搜索”——这是老张(搜狐创始人兼CEO张朝阳)定的slogan。
我力图定的叫“搜狗从上网开始”,强调入口。
比如浏览器到底该不该做,到后来是推荐引擎该不该做。2011年我调了一个小50人团队做推荐引擎,那会推荐是未来,流量分发比搜索效率高。王小川:在当时,我们想走的路线是做推荐,2011年已经开始做了。我当时跟清华沟通,和清华有联合实验室,提法就是搜索不是未来,不要搞搜索了,我们搞推荐去吧。王小川:到2012年就开始在讨论(搜狗)是不是卖给360,更多是讨论上层稳定性的问题了。问:今天在大模型战局中的你和当年的你有什么不一样?王小川:以前比百度晚三四年,这次在时态脉搏下做事。同时,自己能完整做主,这次我把自己名字放进去,也投钱进去了。问:为什么当时你没有想到一个选择是我要从搜狐、搜狗出去,为什么一直留在那里(一干快20年)?王小川:这是个人特质。
你就是觉得信仰老板,信仰一件事情往前走,有阻力克服。
当时资本结构不太顺利。
2008年之后老张不相信浏览器,把我拿下,我想的不是离职——
我想的是,得回到做CEO的位置才行。
以前人也挺温和,但其实你不问世事,活在自己的世界里。我们都讲“千面英雄”、“自然时刻”,人进入自然时刻才能成熟。问:后来搜狗发生了一系列的事,包括和360、阿里谈判,和360、腾讯谈判,后来接受腾讯投资及并购,你是怎么走每一步的?我经历过那么多挫折,今天遇到困难,成熟度会高一些。虽然搜狗没有做成大厂,但是拆开看里面,我们承受和经历了大家不能想象的东西。问:有人评价说,你的成功经验有一项是“有丰富的和巨头共舞的经验”,你认为这是你成功的一项秘诀吗?王小川:不关键,关键是对技术的热爱以及把技术变成价值的一种追求,你带着这种信念跟巨头谈,用价值感染他们。过完年,我不焦虑了
“他们想做Sora,被我摁死在这”
王小川:为了能赶上这个时代的火车,快速rush的一个状态。但去年更多在follow GPT的路径,不是我心中最有力量感的事情。到今年,我们希望把自己的价值观和对世界的理解放到模型里。王小川:王慧文是2023年2月下场,MiniMax是2021年,智谱AI是2019年,还有百度、字节这种老牌公司。去年你在人才争夺、资金争夺,是偏晚的一个,很仓促。
我习惯一个把事想透了以后,按自己节奏走。
但第一阶段必须按市场节奏,到(去年)6月前都挺累的。(那段时间)每天要去招人,跟投资人打交道,但你手上没有产品。王小川:这件事没错,更多是怎么把它转化成产品价值,这很少讨论。低估技术觉得技术无用,仰望呢,非技术的人更愿意把技术捧在手里,当光环。这不利于平等对话。王小川:中国这边,应用跟不上的时候,会变成游说资本的游戏。如果不能把场景尽快打开,越往后走压力越大。
模型往前走,技术是你的发动机,市场是你的方向盘。
你可以先造发动机,再造车。但当你上路,两个都得有才行。
美国走的道路,反正有钱有算力,他们就冲着AGI去了。
你问他们应用,他们也不知道。
为什么做Sora?不是有个技术我就得跟。从AGI理想说,Sora不是跟GPT一支的。语言这个概念空间不是Sora这种模型能取代的,Sora是需要把语言加进去,或者需要视频把语言加进去,才能变成往AGI走的引擎。在内部会上,他们不是谈Sora,他们知道我不要做Sora。但就开始讲,多模态要搞一搞,视频要搞一搞。我知道他们还是在想Sora——我要么做技术理想,要么做应用场景,我希望大家有明确的判断。(我们)做多模态,但不复刻Sora,它既不代表AGI,也不代表场景,两个都不靠。过完年回来,大概一星期内形成这样一个决定——我拍板的。王小川:在创造、健康、快乐里给大家提供普惠知识和服务,回到AGI最后的应用是什么。问:你之前说过,很长时间都处在“有压力的优秀”状态里,今天走出“有压力的优秀”了吗?王小川:去年是有这种压力的,但过完春节,这种压力没了。我也不知道为什么。翻过年之后,对于未来的画面感和怎么做,变得不纠结。一个惯性是把跟随GPT-3.5和GPT-4变成最主要任务。二是在模型之外,希望通过应用思考有些外部的能力可以帮助模型,而不是模型跟应用是一体的。把这种差异化放在模型里,而不是说做GPT-3.5、GPT-4外面挂里面的应用。思路和执行,更统一了。内心的压力小一些,就会更有力量,大家也能感受到决策的质量和坚定度更高。如果去年出来Sora,可能大家会更焦虑一点。今年过完年,至少我不焦虑了。王小川:在内部如何能达成技术、产品之间的共识,不断把T和P更好衔接起来。能把我们的认知、能力变成一个公司并创造价值,是特别好的一件事。王小川:我手机里面多了ChatGPT、文心一言、Kimi智能助理,还多了叫SynClub的(AI社交)软件。是一个小人物有大梦想的故事,有些无厘头的嬉皮的东西。但是他比周星驰人缘好很多,吴君如什么的都愿意帮他。我确实有时候流眼泪,有时候觉得好笑。会有一种同感在里面。问:你一直是学霸路径,没有强烈的小人物奋斗史,为什么会有共鸣?王小川:电影很多是在体验别人的人生,不仅仅是在体验自己的。问:如果百川的命运最终和搜狗类似,会让你感到不服气吗?原来搜狗在百度的阴影里,这群优秀的人没有发挥出他们最大价值。问:你说以前性格是温和,经历挫折以后,后来增加了什么?王小川:原来温和,但却是孤傲的人,你不想别人怎么思考。每个人都是一尊佛,你对这个世界,有一种“大我”存在。