中国未来会出 50 家大模型公司,为什么?
如果未来五年甚至十年大模型都会很重要,今天早 3 个月发布有那么重要吗?
来源:飞哥说AI
作者:高佳
原标题:Founder Park 对话李志飞:AI 大模型会大幅度平民化,未来 CoPilot 无处不在
人类的未来,CoPilot(副驾驶)将在哪里?
无处不在。
在疯狂的 3 月,英伟达 CEO 黄仁勋表示 AI 正迈入「iPhone」时刻,随着大模型一路狂飙,以及这波 AI 核弹的轰炸,出门问问创世人李志飞认为,我们已经开启「iPhone 后」时刻。
语言大模型将成为下一个科技时代的超级加速器,是超越互联网级别的需求,「大模型值得专门去做,而且把它当商业模式去做」。
英伟达新 H100 的问世将大模型加速推向平民化时代。过去一个月,李志飞对大模型的认知快速迭代,探究大模型的另一种发展思路。长远来看,大模型并非短战,而是一场长期主义的持久战。在兴奋之后,更应理性去判断,怎样能够长期参与,「垂直整合型大模型」就是一种比较务实的做法。
中国大模型会如何发展?未来中国会有多少大模型,到底应该如何看待百度的文心一言?
关于这些问题,极客公园创始人&总裁张鹏与李志飞进行了一场对话,共同探讨和解读近期 AI 热点、大模型格局以及中国大模型如何发展。
01
英伟达 H100 推动
大模型平民化的到来
GPT-4、Microsoft 365 CoPilot、Midjourney V5、Google PaLM API、文心一言,大模型领域的重磅炸弹,在 3 月密集引爆。而英伟达新 H100 的推出,像其中一枚被热能催化的氢弹,正加速推动大模型平民化的到来。
张鹏:看到英伟达在 GTC 大会推出新 H100 以及各种新技术,其中有哪些需要重点关注的?
李志飞:我主要分享一下它与大模型相关的部分。
首先,大模型训练是一个分布式的系统,分布式训练要协调多台机器、多张卡,以及很多模型、数据的流转,不仅需要很大的内存和算力,对通讯也有很高要求。
训练一个百亿甚至千亿参数的大模型,因为模型单卡性能或内存不够大,或者在同一台机器上卡与卡之间的通讯带宽速度不够快,模型训练就会遇到各种困难,就好比电脑路由器,因为内存不够多,只能借助外部存储来维持运转。这意味着大量等待时间的浪费,GPU 的计算利用率很低。
英伟达发布新 H100 的好处是可以大幅提升模型的训练效率。其中最核心的是,将内存提高到 94G(A100 是 80G 内存);其次,专门为 Transformer 模型设计的芯片架构,让算力本身也有很大提升,如模型训练提升 10 倍、推理提升 30 倍。比如说,以前训练一个 30 Billion 的大模型,需要 10 台机器训练 60 天,而现在只需要 5 台机器 20 天就搞定了。
随着训练效率的提升,英伟达新 H100 也让模型迭代加速。比如以前一个月甚至两个月才能做一次实验,现在一个星期就可以做一次实验,整个迭代效率是很不一样的。而且,即使是训练单个模型,每台机器都会有一定的出错概率,但现在有了新 H100,需要机器数量变少,整个系统稳定性就会提高很多。
总结一下,新 H100 的升级核心就是单卡性能、内存和算力都增强,在训练大模型时可以使用更少的机器、更短的时间,以及更低的失效率,让大模型训练更容易。
张鹏:《飞哥说 AI》文章里提到「大模型平民化」,随着未来训练大模型复杂工程难度下降,将导致更多人参与,还是技术更先进?
李志飞:我觉得是相辅相成的,两者都有。成本更低,意味着更多人可以参与,也会推动大模型技术进步。
首先我们需要区分两种情况。
第一种是 OpenAI、Google 这些超级玩家,是要探索 AI 能力的天花板,挑战自我的。虽然工程难度和成本的下降对他们也有帮助,比如以前训练一个万亿参数的模型没那么容易,但现在英伟达新 H100 有十倍的提升,就能训练一万亿了。所以对超级玩家来说,并非走向平民化,而是让他们的模型天花板更高。
第二种,是对于很多初级玩家,如果有这种平民化解决方案,可以加速大模型在他们自己应用的落地。算力只是一方面,还有开源模型、数据以及认知等,都会让壁垒下降。更多人可以训练大模型,很多公司有大模型可以满足自己诉求,可以针对性地训练,提高大模型训练灵活性,才可能不断试验出更好的应用方法。
02
中国大模型格局:科技进步是
全人类集体智慧线性叠加过程
中国互联网公司迎来第一个大模型产品发布,百度「文心一言」提到知识图谱、知识增强以及垂直领域的模型,却被质疑是「缝合怪」大模型...... 滚滚向前的变革时局,AI 大模型已是新时代的蒸汽机,中国玩家如何参与?
在「借鉴」基础上
要做出自己的特色,
文心一言值得鼓励
张鹏:文心一言对比 ChatGPT,如果给文心一言打个分,你认为会是多少呢?
李志飞:如果 ChatGPT 是 100 分,文心一言会是 60 分。
张鹏:李彦宏表示三个月前测试,目前水平应该是与 GPT-3 类似,今年一月份应该是 60 分。你对此怎么看?
李志飞:首先,在全民使用 ChatGPT 的情况下,百度敢第一个发布大模型肯定是值得认可和鼓励。
其次,需要清楚大模型能力通常包括几个方面,最基础的是「语言能力」,可以做语言生成,像一个小孩子,先有语言的能力;然后是「知识能力」,可以执行问答;还有「算数或逻辑能力」。当具备了前面提到的「语言、知识、逻辑」的能力后,后面就是做任务能力,比如翻译、聊天等;再后面就是各种各样的「进阶能力」,比如角色扮演、考 GRE、法律和医生考试等。
从大模型能力角度来看,百度「文心一言」已具备基础语言和知识能力,目前外界主要对文心一言的逻辑、数学等进阶能力持质疑态度。其实这很正常,因为 GPT-3 发布时逻辑能力也很差,很多时候需要 few shot 才可以正常运转,不像现在 GPT 模型都是 Zero-Shot。
因此,现在文心一言的基础能力应该是接近 2020 年 GPT-3 的水平,但是做任务能力可能处于半年前 GPT 的能力;从模型训练角度来说,在基础能力还不是特别完善情况下,现在就必须出来答题并完成各种任务,某种程度上有点揠苗助长的感觉。
张鹏:外界看到百度「文心一言」可以很新锐地进行成语、图片解释,但参数模型把中文翻译成英文,只是简单的「套壳」,对此怎么看?
李志飞:首先,完善的图片生成能力出现的时间本身也不长,尤其是这种用自然语言直接面向 C 端用户的产品。我从工程师角度来看,百度的「文心一言」,在训练过程中是否使用了开源数据,比如在 Stable Diffusion 基础上做训练,这种可能性都是存在的,但我并不认为这样做有什么不妥,大方承认就可以了。科技创新本来就是全人类智慧集体线性叠加的过程,关键在于是否在「借鉴」的基础上做出自己的特色以及做出自己的贡献。
现在的「文心一言」也提供了一个中国化的服务,生成很多有意思的图片,如夫妻肺片、陆家嘴,这是很好的。当然有一些人,总是要从自主可控的角度去看问题,这可能就是另外一种看法。
从科技角度来说,并非一定要从零开始,重点是在全球范围内参与。当然你也要贡献,不能总是白嫖。所以我认为某种程度上,文心一言无论是训练数据,还是模型本身,都会有一定的外部借鉴。OpenAI 也是「拿来主义」地借鉴了很多别人的方法,其最核心底层架构 Transformer 就是来自 Google,而现在 Google 被他打得满地找牙,在科技领域这都是很正常的现象。
张鹏:确实,我看到观众也说飞哥的心怀很 Open。
大模型不是只有
OpenAI 一种搞法
张鹏:百度 CEO 李彦宏认为不是每个创业公司都需要像 OpenAI 一样做大模型,可以多关注应用生态或者特定的垂直领域。你对未来大模型的发展方向有什么想法?
李志飞:OpenAI 是其中一种搞法,探索 AI 能力天花板,非常有意思。之前 GPT-4 发布时就提到「Predictable Scaling」功能,比如现在有一千亿的参数,想要变成两千亿参数,它提前大概就能预测到这么训练会花多少钱、所谓的 lost function 会收敛到什么地步。但同时它的问题也在于 scale,比如能 scale-up 到什么程度?AI 能力天花板怎样不断提升?这都是问题。
像我们这种公司做大模型,也很有意思,是和 OpenAI 不同的有意思。比如说,如果我们要在教育领域做大模型,对这个大模型的能力要求肯定与 ChatGPT 不同,你会希望模型在解题的同时,也可以清晰地给出解题步骤,就是 step by step 的推理能力。在对话过程中,你可能希望模型不停地以良师益友的方式沟通,而不是像 ChatGPT 以一种上帝的口吻直接给出答案。
因为学习和教育是一个具有长线历史的终身问题,这时候模型怎样可以看更长的 context?ChatGPT 最长可以看三万字,但其实这在学习过程中远远不够,需要看十万到百万甚至更长的 Context。答案需要有过程而不是直接给答案,这些都是 ChatGPT 现在不擅长的能力。这个时候,你就可以专门做一个教育大模型,可以真实地去解决这些问题,这个研究过程也会很有意思。
张鹏:出门问问作为创业玩家之一,目前在 AIGC 和大模型方向有哪些成果?
李志飞:我们一直在训练大模型。从公司角度,我们本身没有必要和能力花费大量金钱去训练探索天花板级别的大模型,和 OpenAI 去一较高下,从全世界范围来看,能与 OpenAI 相较的也不多。OpenAI 做大模型的投入就很大,如果要做所谓的「多模态、Action、以及 AI Self-play」的 AGI 系统,对于算力、资金都是巨大的考验。
训练大模型本身会面临很多困难,仅仅是标注数据、数据格式选择、数据训练、模型结构是什么样子以及参数到底怎么定好、神经网络有多少层,这些对于训练大模型都是很重要的,而且每一个决定都会导致不同的结果。
出门问问在 2020 年底就开始训练自己的大模型「UCLAI」,出门问问代表的是如何让大模型变得可用的务实做法。我们更多是从自己的使用场景出发,形成了包括 AI 声音生成、AI 绘画、AI 写作、数字人视频生成和直播的 AIGC 产品矩阵,比如 AI 配音「魔音工坊」,全球已有 300 万的注册会员,从产品到商业化规模,在整个配音领域都处于顶尖水平。最近我们的数字人产品「奇妙元」,可以用 AI 做短视频以及 24 小时自动直播,客户也很多。我们很快也会发布新一代的文案写作产品。
在训练大模型这部分,现在第一阶段主要是为了让应用可以使用得更好。从长远角度来看,是需要和用户数据进行迭代。简单理解,我们就是垂直整合型大模型,拥有自己的真实场景,也做自己的大模型。
我们大模型的做法与 OpenAI 在方法论上是基本一致的,有 Pre-Training、SFT、RLHF,训练过程中遇到的问题也是一样的。要分布式,多机多卡,需要处理和标注很多数据,工程师要大量时间去调试。不过,OpenAI 很大的不同是在探索 AI 能力的天花板,比如 GPT-4 现在可以通过 GRE 考试;但是从出门问问角度,我们更多是解决模型落地遇到的问题。
中国未来会有 50 家公司
拥有自己的大模型
张鹏:随着时间推移,大模型在更新,参与玩家数量也在变,中国会有哪些公司和玩家参与?最终会有多少个大模型?
李志飞:首先,需要定义是哪种大模型。如果指「OpenAI+微软」、「Google+DeepMind」这类探索 AI 天花板的大模型,中国甚至全球可能都不存在,因为训练这类大模型对资金需求和人才要求都极高。
另一种是与自有应用、生态去结合的模型,也属于大模型,可以达到千亿参数规模,具备通用能力以及很强的对话推理能力。比如抖音的内容生产;阿里的天猫电商搜索、云服务平台,可能阿里内部就会有两三个大模型;亚马逊也很典型,Alexa 可能有一个大模型、云服务 AWS 会有一个大模型、电商搜索的导购也会有一个大模型。这种大模型,也是千亿参数规模、拥有通用能力,可以用自然语言进行很强的对话,以及不错的推理能力,但是不一定能够达到 OpenAI 或者 Google 一样的天花板级别。未必都要把大模型培养成哈佛、耶鲁、MIT 等最顶尖的大学生,世界上还有很多大学可以选择,而且也更适配自己的实际需求。
总结下来,我认为未来一两年后,中国至少五十家以上公司都会拥有自己的大模型。中国的大模型玩家,首先是 BAT、字节四家科技大厂;中型互联网公司可能会有十几家,基于开源大模型去 Tuning 自己的领域;所有的 AI 公司,如果是给甲方提供服务也要有自己的模型,这又是十几家;还有一些垂直领域的甲方,比如大的银行、保险公司、汽车、手机厂商,一两年后,也会有属于自己的大模型。所以,加起来估计会有 50 以上的大模型,会很卷。
03
长期主义看
大模型之持久战
如果一件事是以五到十年,甚至更长久的时间为周期,对于心力、体力都是一场旷日历练和考验,在兴奋之后,更应理性去判断,怎样能够长期跑下去。炼大模型就是这样一项长期主义的持久战。
张鹏:科技产业巨头彼此的竞争,就如力学体系,牵一发而动全身。百度已经出发,阿里一定不会等着百度独家收割云服务,一定快速反应跟上。以腾讯风格,其内部可能不止有一个大模型,但从微信等应用上来看,其数据飞轮是比百度、阿里都更有优势的,所以腾讯可能是不一定最着急,但肯定持续在「跑」的。飞哥怎么看?
李志飞:首先,每个公司都有自己的主业,一定都会从自有主业和主应用出发去考虑,如何与大模型更好的结合。
比如字节,因为大模型很重要的第一个应用就是内容生成,字节的抖音本身就是内容平台,一方面是内容生成,一方面是内容分发。很显然,因为大模型使得内容生成的瓶颈或者壁垒大幅度降低,更加平民化,如果这个时候不去跟,是不可能的,他们不可能 miss 掉这个东西。第二,字节也有云服务,火山引擎是 ToB 的,其实他是有很多卡。从云服务的角度,无论是 BAT、字节,都会跟进训练自己的大模型。
比如,现在微软为 OpenAI 大模型的训练提供云服务,可以自称是全世界第一个训出 GPT-4 的云平台,这种描述对于专业人士可能并不会当回事,但是对很多传统行业,可能会觉得不明觉厉,未来微软更容易借此从亚马逊那里撬动很多客户。
从这个角度来说,中国大模型发展,字节基于自己「内容生成和云服务」可能会有两个大模型。阿里巴巴基于淘宝「电商搜索」、云服务以及钉钉都可能单独做大模型。按这个逻辑,腾讯也一样,因为它有微信、视频号以及企业微信,也有云服务,如果说内部有三拨人同时训练大模型,这是完全有可能的,这也是为什么前面提到会有五十家大模型。
更重要的是以长期主义来看,如果你认为未来五年甚至十年大模型都会持续火热且重要,那么今天早 3 个月或 6 个月发布,有那么重要吗?其实就没那么重要,大家不用这么卷,也没必要这么卷。因为现在结果就是,卷得我们连算力都买不着了(笑)。
张鹏:我觉得卷的不只是你算力买不着,现在每天都是颠覆式革新,这么多大事件,让睡眠时间都变少了。飞哥怎么样?你是不是也有这种感觉?
李志飞:我最近还好。两个月以前,就是过年后从美国回来那个时候,我每天真的就只睡四、五个小时。
张鹏:所以我现在才进入你这个阶段,是吗?
李志飞:对,你只是比我晚了一个月而已,主要是我基础不错,很多东西我大致看一下就能理解,不像你可能需要很多时间(笑)。
张鹏:我最近发现,越来越多的人从最开始的上头,到现在开始入脑仔细分析。其实回想当年从互联网到移动互联网,是有掉队的,但 BAT 都没有掉队,这些科技大厂巨头也都是趟过了一个变革时代。而大模型时代,可能更多的巨头走过来,而少的是结构性的大机会。
李志飞:还是刚才说的,首先如果我们认为大模型不是一个月、一年的事情,而是五到十年的长期主义的事情,无论是心态、体力上这就是一场持久战。如果现在就把精力消耗完,后续可能会续航不足。所以我认为在兴奋之后,更应理性去判断,怎样能够长期跑下去。
其次,你刚才提到「上一代互联网巨头大概率都不会掉队,但并不会有那么多新的机会」,我同意前半句。因为 BAT、字节这些巨头,我看不到任何理由,他们不采取任何行动就被颠覆掉,这个挺难的。
后半句关于新的机会,我觉得大模型确实比上一代 AI 的广度更广,甚至和移动互联网相比也是。因为移动互联网更多是设备变得更小,让大家连接更加方便。当然这是革命性的,因为中国就是没有经过 PC 互联网的渗透,直接进入移动互联网 90% 的渗透率。但是我觉得,这只是连接,把所有信息放在网上,用户可以非常快速地去访问,并非智能。然后,中国 2015 年后进入 AI 时代又搞了几年,但是上一代 AI 存在智能不够通用,广度不够的问题。
但这次不同,确实可以看到 ChatGPT,解决了认知的问题,语言是认知,语音识别、视觉都是感知。一旦认知问题解决了,其他问题相对来说都会比较简单。所以这次 AI 的深度和广度都会很厉害,现在还只是对虚拟世界的影响,我们已经看到了从文本、视频到图片的多模态的影响,这个影响已经非常大。接下来,物理世界也会是这种通用模型,比如机器人也可以变得很通用,不同于以前的专用。
所以未来,无论是虚拟世界还是物理世界,都会被大模型重新塑造一遍。那你说这里有没有什么机会呢?我觉得机会太多了。
张鹏:听说过去一个月,业界大佬都排队找你谈大模型,飞哥帮大家分析分析,当下想要创业应该是以什么方向为主?怎么做会比较务实一点?
李志飞:从创业角度来说,第一你要进去,这是一个新东西,跟当年移动互联网相比,进入门槛是需要理解的知识会更多一点,因为以前你只要懂 API、GPS、网络,内存就够了,但这次虽然也是 API,但你要知道 AI 的能力边界。
因此,第一要赶快进去学起来。但同时也要从中找对创业方向,还是应该想想有没有什么结构性的机会,不能都是抄袭别人已经做的,如果只是这样,最后肯定搞不过巨头或者会进入特别卷的状态。
张鹏:现在,很多人提到一个概念,移动互联网叫 Mobile Native,Web 3.0 叫 Crypto Native,现在到了通用大模型(Generative AI)又开始叫 AI Native。从移动互联网的 mobile native 再到大模型时代的 AI native,现在都很注重 AI 思维,怎么理解 AI Native 思维?
李志飞:说到 AI Native,有两个关键词「数据」和「对话」。
首先数据驱动的计算(Data Oriented)与以前程序驱动的计算(Program Oriented)相比,这是一个范式的变化。以前做一个 APP,需要很清楚每一步怎么做,脑海中是没有数据概念的。但现在,随着 GPT 的出现反而是应该忘掉过程本身,因为这个 GPT 会自己搞定,研发应该更多关注用户的输入和模型的输出。这种所谓 Data Oriented,而不是 Process Oriented 或 Program Oriented,是一个革命性的变化。
未来,我觉得对很多人,无论是工程师或产品经理,都得要想需要什么样的数据?输入的数据格式是什么?输出的数据格式是什么?所以无论是从后台程序或者产品开发角度,都必须开始从「数据」角度去思考问题。
然后,讲一下对话式的交互。以前的交互都是图形交互或者是表单式交互,产品经理很重要的一种能力是能够把高频刚需的功能抽取出来最后变成一个表单,而那些长尾的,虽然可能是产品经理自己的需求,但也不能放进去,因为你可能发现绝大多数人并没有这个需求,这是以前的思维方式。
现在有了 GPT,通过自然语言交互,低频长尾的需求都可以满足,交互方式被完全颠覆,因为不再需要一个固定表单或者说一个固定的界面。这个对于整个产品设计,无论是产品经理还是设计师,包括前端工程师,都是一个巨大的变化,可以称之为「开放式的 UI」。
自然语言对话式交互本身是完全开放的,它的问题在于用什么 Prompt 去测试模型的能力,到底该念什么咒语才能把它的「魔法」给激活出来?那未来是不是存在这种介于「表单」和「对话」之间的半开放式的交互方式?这也是未来作为一位具备 AI Native 的设计师,在设计 APP 时候可以多思考的一个方向。
以上是我补充的两点,一个是「数据」,一个是基于数据的半开放式的「对话交互」。
04
关于 Prompt:
你的提问体现你的思考
GPT 开启了大模型的多模态应用,AI 迈入 2.0 时代如同创世纪一样,日新月异,AI 取代人类的声音不绝于耳,随着大模型发展,是否会催生一种专注 Prompt 的新工种?
张鹏:你刚才提到 Prompt 很重要,我最近和李彦宏聊,他说对于不同的大模型,需要的 Prompt Engineering 可能还会不同。以前很多都是机器语言,未来可能 50% 都变成 Prompt Engineering,未来是不是会出现专门负责提示工程的工种?需要学习用自然语言怎样可以更好地与 AI 对话,来调用 AI 的能力?
李志飞:首先这是肯定的,如果你有一种能力可以通过 Prompt 就把 ChatGPT 的「魔法」调出来,而且还可以组合成一款用户体验非常好的产品,这肯定会吸引大量的用户,就这么简单。过去,如果要做一款产品,从产品经理、前后端技术、设计师、测试最少得十个人,现在可能两三个人就可以做一个创业项目。
张鹏:Prompt Engineering 会是一个长期稳定存在的工种吗?而且会有大量的文科生来负责?未来是不是就变成,我们怎么说 AI 都能懂?
李志飞:Prompt 的那些表面技巧能力,比如一定要用某种方式去说,或者先要说什么后要说什么,可能慢慢就不一定重要了。坦白来说,我认为随着 Prompt 见的越多,AI 就可以把这个当作训练数据去训练,从而降低对 Prompt 表面技巧的重要性,随便你怎么说 AI 都能懂。
但是,如果你能够用一个正确的方式去提问,就像作为记者去采访别人的时候,你就是不停的在 Prompt 被采访者的想法,关键在于问什么问题?怎么去很好地组织问题?当对方回答了问题以后,又怎么追问下一个问题?我觉得这些东西是永远都不过时的,而且你的问题本身就体现了你的思考。
所以文科生会很厉害,因为文科生更会提问。文科生相对于过去的理科生的在科技领域的劣势就没有那么明显了。以前,文科生因为编不了程序、也不懂原理,所以会被局限。但现在只要会问正确的问题,大概知道 AI 的边界就可以做得很好。
张鹏:我作为一个混迹在理科生的群体里 20 多年的文科生,从来都是一说到编程,大家就说你也不懂。这是我经常遇到的情况。今天终于有一位如此厉害的 AI 科学家,说出我们文科生的春天来了,以后对于理科生就说不定了。
李志飞:是有理性思维和结构化思维的文科生迎来春天。
张鹏:文科生还是要拥抱科技和理解新的潮流。
05
未来 CoPilot 将会无处不在
让微软焕发青春的 CoPilot,只要你打开电脑,他就无处不在,实现你所想即你所得,实现电脑与人脑的完全交互,而这一切,只需要你一个指令。未来的个人生活和垂直场景中,CoPilot 将会在哪里?
张鹏:前面你也提到出门问问在做大模型时候,之前是有很多做个人助理方面的经验。现在很多人想拿依据 ChatGPT 做智能助理类的产品,您怎么看这种思路?它是真的到了一个临界点吗?
李志飞:绝对是。
未来 CoPilot 将无处不在。购物、旅游甚至日常各种各样的情境都会有一个助理,甚至做 CEO 的各种战略问题、组织问题、业务脑暴等,每个方向都会有一个 AI 助理。所以说,CoPilot 会无处不在,且搭载在你身边的手腕上(智能手表),耳机里,车里,家里,工作中。我们多年对未来的畅想在这一刻,都连起来了。
最近微软推出的 CoPilot,就可以直接看用户的 Excel、信息流、聊天记录,据此提供更好的服务。这种更像咱们以前说的企业内的搜索,企业内的「副驾驶」。
张鹏:比如记者都会有赶稿焦虑的问题,如果想让 AI 按照自己的风格生成文本,基于这点有什么实现路径?如何能把自己的作品反向输入给 AI?
李志飞:目前,无论是 OpenAI 的 ChatGPT,还是它的开放平台,依然是处于一个最原始的阶段。很难让每一位用户都可以提供自己的个性化数据,然后不停地给 AI 输入,让 AI 更懂你的文风、性格等。但是未来,比如说像我们这种公司,接下来都会去提供这样的个性化的 CoPilot 工具。
张鹏:这件事和助理是一个逻辑,你的助理要想越用越好,本身就需要了解你的风格,也就是「双向奔赴」。
李志飞:对的。
张鹏:我听说有钱人都是有买手负责购物,不是我们想象中的去逛街,这不就是给每一个人配一个买手吗?
李志飞:首先,比如电商助理,未来每一个人都有自己的 AI 买手,每一个商家有自己的 AI 导购,这两者可以自动互相谈判,很多基本的都可以 AI 之间自动解决。比如你买衣服,身材尺寸、价格范围、喜欢的颜色等,都无需再每次和商家讲一遍。当你去买东西你的 AI 买手就会和对方的 AI 导购,在信息层面上实现 AI 的互相对接。
而且很重要的是,以前大家需要按照固定 API 格式,每一个导购助理和买手助理的格式、协议都得对一遍,单方格式变了还得大家都统一更新一遍。现在不需要了,都是自然语言,格式如同人与人之间的自然语言对话一样。甚至,如果底层结构上的模型是统一的,都不用自然语言,可直接在向量空间里实现交互。当然,还是自然语言更靠谱。
所以这就解决了接口通用性的问题,因为大家讲的话都是一样的,CoPilot 将会无处不在。
张鹏:基于这个助理我们脑洞一下,有没有可能在一种极端情况下,比如说未来我约你做直播,双方的 AI 就能进行沟通,演变成 agent 对 agent?
李志飞:如果沿着这个方向去想,只要提供给 AI 足够多的信息,然后 AI 双方就能不停地对话,自行寻找重要信息。
拿我们约直播这个例子,你的 AI 助理(CoPilot) 和我的 AI 助理 (CoPilot) 沟通。你可以想象一下这个交互体验,它可能偶尔在我的屏幕上弹出一些提示让我确认,就像现在飞书的审批流,你只是完成了「点击」的一瞬,但其实背后已有很多人做了很多事情。比如说首先确认我今天晚上九点的时间行不行,我点一下「可以」;然后你的 AI 助理再询问能不能提供一张照片,一个 title,或者是一段公司的简单介绍,我的 AI 助理因为已经有这些信息就可以直接自动提供了。
张鹏:其实顺着这个助理的思维,真的很多的 Work flow 和 Business flow 会很不一样。
刚才你也提到,现在大模型时代还是有很多机会的,除了前面提到这四、五十家做大模型的玩家,其实真正考验的是谁能够去理解在这样一个新的形态下,商业、信息、关系的 flow,会如何演变。
因为技术还在往前走,没有人知道 GPT-6、GPT-10 会变成什么样?这也就是为什么又回到 AI native,大家接下来还是要持续关注这个领域。
06
大模型的另一种思路
谈及这一波大火的 AI,往前一段时间听到最多的就是 all in 大模型,OpenAI 只有一个,新 H100 问世将大模型推向平民化时代,专注于自己的领域可能是另一种可行、且务实的深度参与方式。
张鹏:关于小模型或者大模型的平民化,到底怎样发展成本会下降?
李志飞:任何一个模型至少都有三个维度,包括数据、算力和算法,我觉得这三个部分都会更亲民。
第一,开源就会让算法本身更加平民化,比如以前工程师调超参数、流程需要耗费大量时间,现在随着开源就可以直接使用。目前 Meta 已经开源 Language Model,效果也不错。往后花很少的钱就可以做到 GPT-3 类似水平。
第二,算力的平民化。比如说训练同样一个模型,哪怕算法、数据量不变化,随着时间推移,算力花费的资金肯定是下降的,因为本身摩尔定律确实在起作用,而且算法本身也继续在做优化对算力的需求。
第三,也会有很多开源的数据,比如现在 Meta 开源,不仅将模型本身,还有模型前面可能已经预训练 1 万亿或者几千亿的 token 是否也可以开源?基于这点,未来不但不需要看原始数据,甚至连算力也不用花钱,因为开源模型已经消化了 1 万亿的 token 了。
算法、算力和数据都会让训练大模型大幅度平民化,还有认知的平民化。用你的话说就是「认知的流转会非常的快」。比如说现在能训练大模型的就 OpenAI、Google 可能加起来就 100-200 人,但是这个世界上聪明的人真的很多,硅谷饭局十个人中可能有八个人都是 PhD,连在家带小孩子的宝妈都是 PhD,人家都能看得懂论文的,只不过现在人家不工作而已。大家每天讨论、发博客、甚至直播,都是会让认知越来越平民化,让更多人懂大模型。这种认知流转的加速度会非常快。
所以回答你的这个问题,大模型平民化是不可挡的。比如 Meta 不开源,Google 和 Amazon 也会,总会有人跳出来「搅局」。此外,学校也会参与进来做很多事情。而这也是科技竞争及开放社会的美妙之处。
张鹏:为啥一定要拥有自己的大模型?与拥有大模型相比,哪些是加 Prompt 实现不了的?
李志飞:从两个不同维度来说,一是模型本身的能力,另一个是使用模型的便捷程度。
首先是大模型本身的能力,即使外面大模型再厉害,但比如说某个领域它就是没看到这些数据,那如果不去训练或者 Fine Tuning 自己的模型,那模型的这项能力就不一定有。
第二,从使用便利性的角度来说,即使外面通用大模型的能力不是问题,对于实际使用来说,有人会关心回应的速度是不是很快?成本是不是很低?或在使用模型时是否有一些接口,有了接口才能提供某一种 feature 给用户或客户。所有这些,都是需要有自己大模型后才能够比较方便的去做的。
第三,从竞争的角度。现在很多人用 OpenAI 这很正常,其中有不少人是应急反应,因为现在没有自己的大模型,所以必须得先拥抱,这很正常。但是后面,我相信商业上,很多公司一方面用外面的大模型,先参与进来或开始收集用户体验数据进行迭代。另外一方面随着大模型训练的平民化,以及竞争原因不能把数据传给第三方,很多人会去炼自己的大模型。
07
AI 迈入「iPhone 后」时刻
我们把此刻类比为一个应用爆发前夜或奇点时刻。这是一件更接近从当年大模型机到个人 PC 机出现的临界时刻,也是一个远比从互联网到移动互联网蕴藏更多倍机会的时刻,而本质上也只有计算的变革才有可能体现这一点。
张鹏:英伟达 CEO 说现在是 iPhone 时刻,也有人认为是黑莓时刻,你怎么看?
李志飞:两者都不是,我认为现在是 AI 大模型的「iPhone 后」时刻。
张鹏:都「iPhone 后」时刻啦?已经不是 iPhone 一代吗?
李志飞:肯定不是一代,一代是 2006、2007 年,我感觉是 2011、2012 年。
张鹏:2011、12 年,就是 iPhone 6 了,你的逻辑是什么?为什么这样类比?
李志飞:首先,科技的迭代速度一直都在加速、迭代周期一直都在缩短。现在有人觉得是黑莓时刻,是因为体验到大模型威力的时间太短了,心理状态还没有跟上。第二,相比 2011 年的 iPhone,现在的网络、GPS 定位、手机内存等问题都解决的很好了,万事俱备,只要模型能力上有突破,就会实现质的飞跃,而现在模型上也已经有突破了。
所以,今天的每个人都有一部手机 (及其他形态的智能载体),只要装上各种 CoPilot,就全民进入了 AI 大模型时代,那此时为什么不是「iPhone 后」时刻呢?
我们等待的就是这一刻对智能时代的引爆。
*头图来源:飞哥说AI
直播预告
每个内容平台的崛起,每种内容产品的流行,背后一定有内容生产效率的迭代升级。大模型技术所带来的,正是一个席卷整个内容行业的效率革命。
从 2022 年的 AIGC,到现在大热的 GPT-4,从图片到文本,甚至视频、3D,AI 正在带来全新的内容生产范式。
AI 大模型会如何颠覆现有的内容生产模式?新的玩法、新的工具会如何随着技术迭代而涌现?在这次 AI 革命中,现有的内容工具将何去何从?
本次 Founder Park 直播,特别邀请到中国内容工具、平台和引擎的相关领域的优秀创业者进行连麦,共同聊聊:大模型浪潮下,内容工具及引擎平台会有哪些新机会?
微信扫码关注该文公众号作者