Redian新闻
>
百川智能王小川:大模型创业100天,我确认找到了属于我的「无人区」

百川智能王小川:大模型创业100天,我确认找到了属于我的「无人区」

公众号新闻

「以前没人说小川你适合做搜索,现在大家都说小川适合做大模型。」

作者 | Founder Park


4 月,王小川宣布下场,成立大模型公司「百川智能」。
6 月,百川智能发布 70 亿参数开源大模型,Baichuan-7B
7 月,百川智能发布 130 亿参数开源大模型,Baichuan-13B
两款模型在各种测评上都有不错的表现,也收获了国内外大量用户的认可。
开源很简单,大家可以拿着自己用的,这不是你自己吹牛吹出来的。
他动作很快,比大多数人想象得都快。就连他自己也很意外:下场动手开始做以后,进度会比预期快很多。
在由极客公园主办的 AGI Playground 大会上,王小川透露,百川智能的开源模型能力一定会超越 Llama 2。按照计划,之后百川智能将发布几百亿,千亿级闭源大模型。
几个月前,王小川要「做中国的 OpenAI」登上各种媒体的头条。
这是一句大众爱听的口号,但未必是一句准确的描述。
王小川究竟想做什么?他要怎么做?三个月的实践,取得阶段性成果之后,他对大模型时代的创业有哪些一手认知?
以下内容来自极客公园创始人 & 总裁张鹏与百川智能创始人 & CEO 王小川在 AGI Playground 大会上的访谈,经 Founder Park 编辑。

开源
OpenAI没做到的
张鹏:
大家可能最感兴趣的,还是你创业之后这段时间动作很快,发了两个模型:一个7B,一个 13B,而且反馈都很好。
大家都很好奇,因为一开始都认为你要做一个中国的OpenAI,但是看到你做了开源的东西,那开源是一个技术阶段,还是本身它就是未来你思考的新模型?

王小川:
开源,我们觉得是一个技术阶段,其实做中国的 OpenAI 并不代表着完全要复制它完整的路径。在硅谷跟 OpenAI 交流的时候,他们在理想上是走得非常远的,比如说他们现在做 GPT-4 的时候是需要 2 万多张卡做计算,国内都没见过这么大的规模。
他们很自豪地说他们在设计把 1000 万张 GPU 连在一块做计算模型。
1000 万张卡什么概念?英伟达一年的产量是 100 万张。1000 万张就完全是可以登月(moonshot)的这么一种计划。
另外,在怎么去做应用、做产品上,甚至做一些更广义的技术上,这可能是OpenAI的短板,或者是他们现在不是特别关注的事情。
所以在中国做OpenAI跟美国的生态环境会非常的不一样。
最近开源的 Llama 2发 布之后,在国内引起一个狂潮,大家觉得它会重新改变格局,这是 OpenAI 没做到的地方。很遗憾这个不是 Google ,而是 Facebook(Meta) 做的, Google 还是继续缺席的位置。但国内的话我们就提前看到这件事情了,我们认为未来开源和闭源会有一个并行的状态。

张鹏:
开源和闭源会是并行的状态。

王小川:
并行就有点像现在既有苹果的系统,也有安卓的系统。甚至在更多的公司要参与进来的时候,光用闭源的API调用是不够的,也需要这个开源模型提供 80%的服务,最后靠闭源来给大家提供服务剩下的 20%会有大量开源的需求。而之前美国没有,中国更没有类似的模型。因此Llama 一旦宣布的话,对美国是很大的震动,但中国也有热潮跟着在走。事实上,严肃的技术评测包括几种主流的像SuperClue的评测,以及一些大厂和公司的对比, Llama 和百川对比的话,明显我们现在在中文领域里面是远超 Llama 的品质。
在中国的开源模型领域,就像我们的手机行业一样,最早也是用美国的,后来就自己追上了。

张鹏:
你觉得 Llama 2 最近这么热,百川会比它们做得好?

王小川:
Llama 是有Llama 1 和 2。
首先,我们今年在 6 月份发布了第一个 7B 参数的模型, 7 月份发布 13B 参数的模型。在英文的指标里面,最重要的一个指标是 MMLU (Massive Multitask Language Understanding),这个关键指标我们的两个模型是优于 Llama(1)的,在中文里面大幅度领先。
我们知道 Llama 其实对中文的处理部分其实是不足的,跟Llama(1)相比,百川的英文是能够部分对标,关键指标是超过的,然后中文是明显是做得更好,很多人在对 Llama进行中文改造,但还是没有本土的百川好用。
Llama 2 发布之后,我们也能看到技术报告,里面大概有 9 个技术创新点,其中有 6 个在我们正在研发的模型里已经做到了。
跟国内其他模型相比,我们这边的思路是目前最接近的,有 6 个点我们已经做了,然后有 2 个我们没想到,有一个我们这是无效的,所以在跟 Llama2 对比的时候,我们在技术的思考里不是简单的抄袭借鉴,我们是有自己的思考的。我们认为在这个道路里面后面会有我们的机会。
今天我也呼吁,在国内大家在用的时候不要只想着国外很好,OpenAI 现在来讲离距离确实更远,年底能够达到 GPT-3.5 或者接近的水准需要时间,但在开源大模型里面我们现在已经很接近了,在中文领域现在就可以替代,也许未来还能超过 Llama,我觉得是可以做到的,我们应该有这样的自信。

张鹏:
所以你的下一个开源模型,你认为会比 Llama 2 更好?

王小川:
至少是在中文。在中文领域,现在已经是超越了。再往下是在全球市场的开源领域去发出中国的声音。

张鹏:
英文和中文都要达到比Llama2好,这件事对你是看得见、可实现的。

王小川:
我觉得有机会,在可预测未来是可能会发生的。

张鹏:
所以你的观点是:今天不能简单的说我们未来大模型就是走向OpenAI——闭源的中心化的模型。开源实际上是具备着很大的可能性。所以也就意味着一方面在于实践技术,展示技术能力,但它也确实有可能蕴含着商业模式和价值。
同时,开源的基础之上,中国做一个全球最好的中文模型还是一个让人可以期待的事。

王小川:
总结得非常准确。
搜索的经验
是坏的惯性,还是好的资产?
张鹏:
之前很多投资人认为,用搞搜索的经验做大模型肯定成不了。经过这几个月的实践,你是否验证了你当初的与他们不同的判断?搜索的积累和能力对大模型有什么帮助?

王小川:
因为今天(AI的)这个成就是OpenAI做到的,Google没做到,所以投资人的第一个想法就是这个新的技术正好是搜索的反面。他们很难分清到底是技术还是组织管理的原因。
导致这种声音的原因,一个是不理解搜索技术和AI的关系,第二个是认为搜索背景的认知会带来负向的效果。
因为搜索公司主要就是百度和Google,不太需要对外融资,也不会给投资人讲搜索是什么。尤其是上一波AI热潮更多是通过图像带起来的,大家对搜索里的NLP等技术内涵是陌生的。
从结果上来说,我们6月份发布了第一个模型。最早有竞争对手告诉投资人,百川最早第一个模型要用半年时间,其实我们只用了1/3时间就做到了,然后又发了第二个。而且不久的将来,我们会发布一个闭源大模型。
百川从第一天开始就是自研的,而且冷启动非常非常快。这背后的原因是什么呢?
今天我们知道高质量数据是大模型的基础,那什么公司对语言数据有广泛的理解呢?那其实搜索公司干20年,每天都在思考怎么找到这种高质量数据。比如说首先从1万亿个网页中找到100个高质量的网站,然后再做页面分析,包括信息抽取、去重、反垃圾,甚至按段落级别来提取内容。
这种工作,搜狗、百度和Google已经做了很久。
第二点,从人才储备来说,既要有算法能力,又要有以搜索能力为主的工程能力,这种人基本也在搜索公司。现在字节跳动做模型就是用的搜索的团队,百度的进度也非常快,包括沈向洋在做的模型也是Bing的VP过去做的。
做大模型还有一件事情就是评测。评测大模型好不好其实是一个痛苦的问题,包括推理的问题、精准问答的问题、创作的问题……有的变好,有的变差,怎么评价?所以这种评价体系也是搜索公司长期积累的一个能力,用评价来带动后续算法的迭代。
另外创业公司又比大厂的组织效率要高很多,有非常且灵活的决策体系,所有效率就会得到最大化的体现。

张鹏:
所以当年认为搜索干不好大模型的那个投资人,后来你跟他聊过吗?

王小川:
名字打上叉除名了,都不知道是谁了。这种只看商业不看技术的,还有特别喜欢美国回来创业的小鲜肉的,这些投资人就直接划出来不聊了。
老王说得对
「小创新靠大厂,大创新靠小厂」
张鹏:
你觉得创业者在未来这波技术变革中会有足够大的机会吗?还是说主体仍然由巨头把控?创业者该如何抓住属于自己的机会?

王小川:
王慧文虽然对技术没那么懂,但他有一句话我觉得说的特别对:小创新靠大厂,大创新靠小厂。
虽然大厂有很多人、钱、资源的优势,但组织壮大后反而会有很多很内部问题,组织效率收到了严重限制。
如果我们坚定认为 AGI 的到来,那么一定会爆发出巨大的新物种。这些事情对创业公司来说有巨大发挥作用的机会。这个从历史推演就能论证,所以只要有AGI,未来就有新的机遇。
中间的难点在哪呢?
OpenAI 是一个以研究导向为主,在现实世界落地产品的公司。你跟着它走,研究领域可以有非常耀眼的成就。但是今天怎么做应用,不管是 OpenAI 还是硅谷以技术驱动公司都还不是太擅长这个。我有自信中国在应用落地上比美国强很多。
全世界都到了一个转折点,现在技术已经就位,这是第一个难点。应用和需求方面是第二个难点,这一块叫做 model service(模型服务)。所以现在的挑战是,第一,你有模型了吗?第二,有了模型就等于有了服务吗?

张鹏:
兜售 API 属于服务的范畴吗?

王小川:
我觉得不是。
就像你有了无人驾驶的技术,但你真的就能造辆车了吗?显然不是。其中还需要许多技术的融合。
现在美国对于应用层比较迷茫,中国现在的问题是模型能力不足。今天很多做模型的创业公司,也是把自己的视角局限在大模型上,对其它技术栈没那么了解。
讲个最简单的例子,做模型肯定会遇到幻觉问题,时效性问题。幻觉和时效性都是光靠大模型本身能解决的。有人用扩大参数,扩大到万亿,十万亿来解决幻觉;或者用强化学习。但其实最直接的做法就是把搜索和信息检索带进去。大模型和这些结合在一块,才能形成一个更完整的技术栈。
这个技术提出后,已经有点苗头了。比如现在有一个叫做向量数据库的东西,它其实就是搜索的变通,主要应用在 toB 里面。
搜索方面,在 2018 年有了 Transformer 技术后,已经具备了语义搜索的能力。大家可能听过倒排索引,就是把这种符号网络索引起来。
在 2018 年之后,不管是我们、百度还是字节的向量都已经转向了语义搜索,背后支持这种技术的是三个巨大的向量数据库。这些技术栈和大模型结合在一起,才能让大模型有更大的发展。大家可以看到,搜索的团队经验对于做模型是有优势的。
第二个方面,现在大模型技术逐渐实用化。然后在所谓的知识计算中,还需要加入向量数据库和搜索,才能形成更完整的技术和产品。在这个问题上,大家正在逐步形成共识。
今天来讲 ChatGPT 的流量,大家开始担心是否能够持续爆发。
因此大家还需要更多探索。
我们认为在娱乐行业,在人物角色扮演方面有广阔前景,但这件事情需要中国公司进入才能做得更好。
另外一件事是如何将大模型和搜索如何结合在一起,Perplexity AI 现在做得挺好,我们则处于被动的地位,美国有机会,投资人就会找中国的对照公司。
如果这家公司,一没有大模型,只是在调用API;二没有搜索技术,只能依赖 Google,Bing 这些公司的技术,这样并不理想。

张鹏:
刚才你说,ChatGPT 这类的用户量在下滑,就是让大家感觉新范式未必能够一下子打穿。这是不是对创业者做应用的挑战很大?
因为根据你刚才所讲,创业者在一个技术不成熟的环境下,本身创业探索的代价就很大。而如果创业者只是拿别人的API做个应用范式的变化,其实没有特别亮眼。

王小川:
前两天 OpenAI 刚升级了 code interpreter,然后又升级了 custom instruction。对创业公司来说又形成了巨大的压力。
美国投资人也在担心,在焦虑其中还有没有机会创业公司能超过巨头,会不会做一半就被大公司取代了。
在中国的话,我觉得走大模型路线的还没有像OpenAI那样有一个占据顶端的公司出现。现在还处于“百模大战“的阶段。今天做大模型的公司有没有能力做应用,这件事中国比美国有很多看点。

追赶GPT-4?
一味追求模型代际提升很危险
张鹏:
这也引发了一个问题,就是接下来中国谁会追到GPT-3.5,甚至GPT-4的水平
也有另一种声音说GPT-3已经足够企业去解决一些垂直场景问题。
我感觉小川你们还是致力于去追GPT-3.5,GPT-4。这个追的过程难不难?你们为什么说一定要追到GPT-4的程度?

王小川:
我觉得这是两个事情。
首先是技术的跨代进步,可能对后续产品生态产生碾压式的影响。无论从理想的角度来看,想象一个遥不可及的未来,就像战斗机的三代、四代、五代一样,在这其中每一代都可能发挥重要作用。所以在这个时候,大家应该争取在竞争激烈的领域中寻求优势。
但是在争夺优势的过程中,大家可能会面临新的困惑:到哪一代才能真正实现超级应用?GPT-3.5在美国至今尚未形成超级应用,训练一次大约需要5000万人民币,这还不包括前期准备和实验之类的成本。GPT-4训练一次可能需要5亿人民币。到GPT-4.5代,成本可能会达5亿美元。
因此,如果没有超级应用,单纯追求技术提升也是非常危险的。所以我们需要在这个领域同时追求第四代和第五代技术能力的提升,同时要有超级应用。否则,我们可能会突然面临两个方面的升级压力,这两者都需要同时升级才能取得成功。

张鹏:
所以每一波型的技术里都应该能够诞生有价值的应用。

王小川:
你刚才说的很对。
在B端里面GPT- 3 基本就已经能用了,在C端没有能用的原因我认为还是时间太短。
加之大家把目光太过聚焦在OpenAI上,它不是一个产品公司,不是一个能做超级应用的公司。
能做超级应用不仅需要技术追赶,也要对产品有一个足够的理解。这件事我觉得年底是水落石出的时候。
「小川适合做大模型」
「做了20年搜索,没人说我适合做搜索」
张鹏:
大家有没有可能高估了OpenAI?或者说我们认为OpenAI很难被超越的一点就是因为它有数据飞轮,你如何理解这个,数据飞轮是真实存在的吗?

王小川:
今年年初在提数据飞轮的事情,当时特别恐慌。用户的请求给了它,它知道用户要什么,然后就更好地去升级模型。
在目前看的话,这个问题并不严重。
像 Llama 2 推出之后,大家看到在微调阶段,数据要精而少,而不是精而多,现在大家开始逐步形成共识,技术的秘密不是在飞轮里面,还是时间的技术积累。
像 Claude 的公司 Anthropic 的技术实力也涨的很快,OpenAI 远远它用户多,这也证明了数据飞轮的概念被证伪了。 

张鹏: 
或者说有可能它里边真正有价值的数据都体现在跟人对话的技巧上,我记得最早的时候,它的对话方式就挺“木讷”的,但现在就感觉更有人性。 

王小川:
这个东西感觉都不多,更多还是在于它的数据集里面,不管在 Pre-training阶段还是在微调阶段,怎么去搞优质的数据?如何去配比等,这是它的核心的能力。尤其是我听他们聊天说,一方面 GPT-4 在训练 GPT-3.5 ,让 3.5 更高效的工作,同时用 GPT-4 去生产 GPT-5 所需要的部分数据,在做迭代过程的优化。它的迭代在内部是使在线服务更好,同时生成未来的部分数据,我觉得这是是内部的一个飞轮。 

张鹏:
所以如果 从Llama 的角度去看,通过开源也有可能能够去 deliver 一个不断在提升技术水平的模型。但如果要从 OpenAI 的这个视角,可能在某个阶段也需要有足够的用户和数据。 

王小川:
开源的、闭源的,还有应用,事实上今天大家都还在铺开来做,跟现在美国西部一样还在扩张的阶段。 

张鹏:
所以今天对于一个创业公司,比如像百川,就不会轻易的只是说我只配合了某一个方向,我要保持战略模糊也好,或者叫可能性的丰富也好,就这些维度可能都会下注。 

王小川:
对。我这次创业比较有意思,很多人说小川你特别适合做大模型,我做了 20 年搜索,从来没一个人说过小川你特别适合做搜索。
在国内做搜索,比百度晚了3年,这种追赶是非常艰难的。而今天这个积累和经验放过来一看,前面都是没人的。原来想的很难,已经晚了好几年了,但今天在我看起来处处都是机会。因此只要我们有足够多的能力,我们处处都可以在里面试,也看看今天是否能够改变大家原搜狗的这种印象。
不要盲目崇拜
中美会有不同的 AI 故事
张鹏
小川说的这点我还挺有感触的。你终于站到了一个无人区。
大模型这件事,可能很多人觉得要学习、追赶 OpenAI。但当你真干了这件事,才会真的找到距离和路径。

王小川:
对,不用那么崇拜。
我记得 2016 年 AlphaGo 之后,我当时提了两点,第一,如果(AI)能够预测下一帧视频,那就是 AGI 的到来。
但是说完之后就过了,你也没有能力去做,动力、能力、条件都没有。后来说如果机器掌握语言,那么强人工智能也会到来。现在其实已经开始验证。
所以我觉得我们自己有很多想法,并不是走在后面的。只是原来各种时机、条件不成熟。这就像,一个学霸说这件事已经可以解了,你这个学霸,也不是说一定要把作业给你抄对吧?
别人告诉你可解,甚至大的思路给你了,我觉得我们自己就会做了,不需要盯着别人的作业打小抄。

张鹏:
所以这里面你真正的乐趣不是实现和复刻了别人,而是在这个无人区里在探索出一些大家还没有抓到的东西。

王小川:
是的,我觉得这次有机会在部分领域做到领先。

张鹏:
是有这种可能性的,所以中国和美国,百川和 OpenAI,可能它并不是一样的故事。

王小川:
确实会不一样。中美本来就不是一种制度,一种体系、文化,所以最后长出来的,不管是技术问题还是应用问题,都会不一样。

主要工作:和同事聊天
百川智能刚刚突破 100 人
张鹏:
你平常的工作都怎么安排?你的时间怎么分配?很多人都说,算力重要、人才重要,但我觉得只有真正创业的人才知道什么东西最重要。所以我就想问问你时间花最多的地方在哪?

王小川:
我现在时间花最多的,是跟我们的同事聊天。

张鹏:
聊天?

王小川:
对,这聊天在过程当中的时候,其实是一个不断形成共识的过程,就是把大家的这种认知、养分、外面信息汇聚,使大家形成同一个大脑。
因为我们知道Top-Down可能会走偏。比如说这个 Google 为什么没做成?第一个 Google 本部做的时候有它惯性。数据拿不到,上了线之后成本提升,没有具体用户收益,所以有创业的窘境。
Google Brain的话,它是Button-Up的。它的研究员很自由,什么都干,或者汇成一个力量,所以他们其实很多看到了大模型,但是没法集中一块做,力量是分散的。那Deepmind是自顶向下的,公司要求做什么,大家做什么。它做了AlphaGo,AlphaZero,AlphaFold,现在开始走向了氢能源、核聚变、量子计算,但是离大部分已经远了。
在今天其实Top-Down、Button-Up做起来叫上下同欲,使大家从这种理想上到技术上、认知上充分地对齐,变成一个事儿。所以我认为跟大家更多日常的交流,会使这个大家变成一个大脑,这是我最重要的工作。

张鹏:
嗯,有意思。所以一个小的团队去发挥它最大的能量,反而是所有人能够同喜同悲、同欲同求 。

王小川:
这很重要,今天也不讲组织管理了,就是大家变成像一个人做。百川现在是 100 人,昨天刚到 100 人。
信心的变化
百川的进度比想象中更快
张鹏:
过去几个月,投身大模型,你的热情没有变化,但是信心有变化吗?跟你一开始的预期相比,是更难了?还是符合你的预期?

王小川:
如果讲真话,发自内心的,我觉得比我想得更简单。
预期就是,一开始都知道很多(困难),国外好几年的积累,算力、服务器......但是当你和同事在一起工作的时候,当大家在共创的时候,我们实际的进度、节奏都比预期要快。
原来我们预计是 Q3 发一个 500 亿的模型,然后 Q4 发布一个 1750亿的。
但事实上,这些东西不会变,但过程中,应用的进展速度,模型开源的速度,都比预期快很多。
而且也更快地,今天我们可以开始说,不只是在国内做到最好,我在国际舞台上开源。
开源很简单,大家可以拿着自己用的,这不是你自己吹牛吹出来的。开完之后,我们有信心能在国际舞台上拿到非常好的位置。

张鹏:
所以跳到水里之前是不知道深浅的焦虑,真跳进去了,发现其实能踩到底了,就踏实了很多?这件事真的这么简单吗?

王小川:
分人。
我是一个做事还比较谨慎的,我当时还在看,然后我们的联创一脚把我踹进去,说开始干。然后我说好吧,宣布下场开始干。否则还可能更晚,才会觉得自己准备 ready 了。但一旦下场之后,会发现比自己想的时候,会跑得更快一些。

狂热之后
最近关注的技术进展
张鹏:
你最近在关注大模型的那些技术进展?有哪些 paper 是让你感到比较兴奋的东西?

王小川:
第一,光看论文,今天其实已经不重要的。你看不完的。
基础就那些东西。而且今天 OpenAI 已经不把好论文发出来了。发出来的都是信息量不大的论文,收获是有限的。
同时大家因为之前进入狂热(状态),我们叫「度日如年」,每天过得更(技术进步)一年似的。

张鹏:
度日如年是因为它跑得快。

王小川:
对,不是枯燥。每天都太多新鲜事了。大家神经已经刺激到了一个高点,有一点疲软的状态。
说回来,最近有几个技术进展,我觉得非常厉害的。
一个是,大概一周多前,OpenAI 推出了 code interpreter,这是重大的一个突破,但在国内好像没有形成新一轮的媒体狂潮。
之前的狂潮大家已经享受过了,这次的进度,code interpreter,我觉得是媒体没有当量地去正视它报道它。
以及昨天的一个小升级,定制自己的 instruction
代表了它从模型 LLM,开始走向 Agents。
里面会描述说「我是谁,我有什么特点」,你这个大模型会扮演一个怎样的角色,有什么特点?形成这样一个关系,是从模型是不是 Agent(角度来看的)。
这两个领域,是今天大家关注报道不够的。

创业的决定
终于等到「适合小川」的无人区
张鹏:
最后一个问题,你刚刚提到,你是被「踹」到这个创业的局里。我也知道你很早就是AI的狂热分子,从 AlphaGo 的时候就是。
最终下决心,成为一个 AGI 领域、大模型领域的创业者,老王(慧文)也好,中国这波浪潮也好,他们对你的决策产生了怎样的影响?经历了这样一个过程,你内心发生了怎样的变化?

王小川:
心路历程其实挺长的。
在搜狗的时候,到后期。第一,错失了推荐引擎,也跟腾讯做了战略结盟,在这种情况下,没有新的技术突破的话,发展上是非常受限的。当时把搜狗并给腾讯的时候,我在挑战一个更有意思的事,就是把生命变成数学模型。就像我们说,牛顿是把物理变成数学模型。
之前在极客公园的平台上,我都在讲向生命学习。
生命是什么?这是我思考了20年的一件事。
怎么把生命变成数学模型?这是我关心的。甚至在研究中医,怎么把生命变成数学模型,(后来)发现这条路不一定是能走通的。
怎么在科学范式里,对医学有新的突破,这是我特别感兴趣的事情。我读医学的论文比我读计算机的论文多得多,我读了上千篇医学论文。
21年发生了什么事呢?21年的时候大模型已经开始有一些机会。那时候我们做了百亿模型,来解决搜索变问答的问题。
其实之前做输入法,就已经在搞「预测下一个词想说什么」,然后怎么改写,搜索是变成问答。其实有摸到那个门,但是那时候技术是没有突破的。
所以你知道把生命变成数学模型,我是很感兴趣的,所以大模型这波到来之后,我第一想法不是做大模型,我想说,是不是今天可以在生命领域做个Health ChatGPT?健康的 GPT,一个数字医生?

张鹏:
你在从应用的、解决问题的角度思考。

王小川:
对,在思考这个问题。然后又想,如果你今天做一个垂直模型,它可能会被大模型干掉。通用智能会干掉专有智能,对吧?
但是这种情况下,我们发现,如果只做一种 HealthGPT,或者只做一个数字医生,这是不够的。
最后就说,还是要做大的模型。
(下场做大模型的决定)是转了这么一圈转回来的,并不是觉得之前自己有积累之类的。
但是做大模型,发现其实(之前的积累)是挺相关的,比如语言相关的处理。
甚至极端一点说,ChatGPT 第三个把语言模型做成超级应用。前两个,一个搜索,一个输入法。

张鹏:
感觉你不把这个也干了,对不起之前干的那两个。

王小川:
对,所以发现之前的积累在今天确实用得上,这是之前没想到的。
因此我很感慨,老天对你很好,给了你一个机会。在搜索画句号的时候,还有一次机会,把以前的经验用来做一件原来做不到的事。
现在说,大家没人说过「小川适合做搜索」,但都说「百川适合做大模型」,对我来讲,是一件非常幸运的事。

张鹏:
这是你当初决定要做的原因。
现在几个月下来,大家可能会觉得这件事很难,OpenAI都没能变成一个超级赚钱的公司,硅谷很多人都质疑它的商业模式。所以大模型对创业者会有这方面的压力,你感受到这个压力了吗?

王小川:
我都是很亢奋的。
因为以前都是在百度的阴影下工作,现在是无人区,这件事对我来讲正好是我想做的事,而不是说前面有个领导者在里面,然后你跟着追。对我来说,这是我喜欢的,一个新的探索。

张鹏:
特别感谢小川今天给我们做了走心的分享,也恭喜你终于迎来了属于你的无人区,希望在这里能看到更美的风景,掌声献给小川,加油!

*头图来源:极客公园


极客一问
你认为中国能做出自己的 OpenAI 吗?




 

热点视频

GPT3.5 vs GPT4!AI真的能自主拥有常识吗?微软机器学习研究员Sebastien Bubeck曾在一堂公开课上分享自己针对GPT-4进行的测验。

点赞关注极客公园视频号
观看更多精彩视频



 

更多阅读






微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
王小川大模型首亮相!70亿参数霸榜,清北抢先用|独家专访美团接盘王慧文:大模型创业的机会在哪?M3版MacBook Pro或明年发布/王小川回应大模型套壳争议/微博新增VVIP会员高尔夫,恰似人生信歩游性能碾压Llama 2,全球下载量超500万,百川智能开源模型凭什么?王小川大模型首亮相!70亿参数霸榜,清北抢先用百川智能开源最新商用大模型!王小川:比LLaMA更香,下一枪打ChatGPT百川智能发布Baichuan2,王小川:中国企业用LLaMA2的时代过去了|甲子光年曝大基金三期将投3000亿!马斯克起诉中国公司侵害特斯拉技术秘密;王小川发布全新开源大模型! | AIoT情报八声甘州 美国债务内讧Llama也中招,混合精度下位置编码竟有大坑,百川智能给出修复方案王小川的大模型打造秘籍首次曝光:五步走,两个月炼成百川智能发布开源中英文大模型,多个榜单评测成绩最佳王小川大模型2个月交卷!开源7B规模里中文最强,GitHub揽星2.2k国内第一批大模型准入资质公布,聊聊海内外大模型创业的近距离观察 |极客周末杨立昆:生成式AI还不如狗聪明;谷歌建议员工不要将机密内容输入Bard;王小川公司发布开源大模型| AI一周资讯挺进气象服务「无人区」,墨迹天气让「普通人」的天气预报进入Next Level?OpenAI对ChatGPT进行更新;百川智能正式推出70亿参数开源中英文大模型|AIGC周观察第六期华为将推盘古数字人大模型;搜狗原CMO加盟王小川公司;首个线性注意力Transformer大模型推出丨AIGC大事日报拳打智谱,脚踢 Meta,百川智能成了 7B 规模大模型 NO.1?王小川:坐在电脑前的工作大概率会被大模型取代,且坐的时间越长,越容易被取代前搜狗CMO洪涛入职百川智能 与王小川茹立云再度联手创业王小川创办的百川智能发布Baichuan-13B 参数量达130亿百川智能发布Baichuan2大模型:全面领先Llama2,训练切片也开源了对话王小川:决定大模型的胜负,钱很重要,人更重要国泰为啥致歉​​李嘉诚将投资千亿在欧洲建5G网络;王小川发布开源中英文大模型;​钟薛高回应21家分公司全部注销;故宫禁止未经允许进行商业拍摄鞭牛晚报:东方甄选抖音直播间被关;搜狗原CMO洪涛将入职百川智能;薇娅夫妇公司被诉侵权王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署GPT-4关键信息遭泄露;北京将发4000万元算力券;百川智能推130亿参数大模型丨AIGC大事日报百川智能发布 70 亿参数量开源中英文大模型搜狗三剑客齐聚「百川智能」!搜狗原CMO洪涛下周入职王小川新公司【故国神游】荒漠,孤烟,无人区父亲渔歌子:晨旭清辉花色匀混合精度下位置编码竟有大坑,llama 等主流开源模型纷纷中招!百川智能给出修复方案
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。