访谈|邓咏仪 杨轩 陈紫冰
文|邓咏仪
编辑|杨轩 苏建勋
来源|智能涌现(ID:AIEmergence)
站在核爆中心圈,是一种什么样的体验?
在这次ChatGPT引发的AI大爆炸中,做了十年堪称冷门的NLP(自然语言处理)的杨植麟,就处在这样一个位置。这位保送清华、程序设计课程满分的“少年天才”,在卡耐基梅隆大学读博士时,就已经作为第一作者发表的关于Transformer-XL与XLNet的两篇论文,成为本次AI大模型技术能够突破的重要一环。
“先是非常激动,好像被苹果砸中一样,”杨植麟对36氪说,随即又陷入沮丧,再想到可干的事情还很多,又“兴奋起来”。
这也是他新创办的第二家AI公司“月之暗面(Moonshot)”的由来。Moonshot这个名字,则来自英国著名摇滚乐队Pink Floyd的专辑《Dark Side of the Moon》。
杨植麟认为,做大模型如同登月工程一样,“月之暗面”意味着神秘,令人好奇和向往,同时又极具挑战难度。
事实上,月之暗面的核心团队曾参与到Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发中——这是一支在“登月”道路上已探索多年的队伍。而AI大模型,目前还在一个以技术能力定成败的阶段。
在这半年的国内大模型市场中,Moonshot显得尤为沉默,但并不妨碍投资人的蜂拥而至。36氪最新获得的消息是,月之暗面已经完成一轮超过2亿美元的融资,目前身处中国大模型创业公司融资额第一梯队。
成立半年多后,10月9日,Moonshot终于推出了首款大模型产品:智能助手Kimi Chat。这是Moonshot在大模型领域做To C超级应用的第一次尝试。
来源:Moonshot
Kimi Chat支持输入20万汉字,是目前全球大模型产品中所能支持的最长上下文输入长度。
这也代表着,Moonshot在长文本技术的探索突破到了一个新高度——对比当前市面上几家主流模型,Kimi Chat的上下文长度是Claude 100k的2.5倍(实测约8万字),GPT-4-32k的8倍(实测约2.5万字)。
如今市面上的大模型产品繁多,拓展了上下文长度的Kimi Chat,在使用上有什么不同?
最明显的是,你可以一次性给模型输入大量的信息,由模型理解进行问答和信息处理,有效减少幻觉问题。
比如,公众号的长文也可以交给Kimi Chat ,让它帮你总结分析:
发现了新的算法论文时,Kimi能够直接帮你根据论文复现代码:
快要考试了,直接把一整本教材交给Kimi,就可以让它陪你准备考试:
甚至,也可以只用一个链接就让它来扮演你喜爱的游戏角色,和你对话:
目前,Moonshot AI 的智能助手产品Kimi Chat已开放了内测。访问Moonshot.cn(或于文末扫描二维码),即可加入内测计划。
长文本:大模型落地的另一瓶颈
值得关注的一点是,不同于其他大模型公司拼参数、展示各种各样的行业案例,在Moonshot的发布会上,“长文本”成了绝对的主角。
“无论是文字、语音还是视频,对海量数据的无损压缩可以实现高程度的智能。而要有效提升大模型的性能,不仅要扩大模型参数,更要提升上下文长度,两者同样重要。”杨植麟表示。
大模型之所以能在智能水平有质的飞跃,是因为通过扩大参数规模,突破到了千亿级别,才能够让智能“涌现”(Emergence,指模型自主产生出复杂行为或特性)。
但如今,大模型落地更重要的瓶颈不是模型大小,而是在于上下文不够,文本长度不足会带来对模型能力的严重束缚。
一个典型问题是,如果遇到多轮对话或者需要复杂步骤的场景,往往会出现模型记不住的情况——讲了具体设定,但下一回合就忘记。比如,Character AI的用户就经常吐槽模型记不住关键信息:
这与计算机运行的原理类似:计算机依靠CPU进行计算;内存则存放了临时计算的数据,决定其运行速度。“如果说参数量决定了大模型支持多复杂的‘计算’,而能够接收多少文本输入(即长文本技术)则决定了大模型有多大的‘内存’,两者共同决定模型的应用效果。”他解释道。
这也是Moonshot在保持模型拥有千亿级参数的同时,首先将上下文长度先“拉满”的原因。
要想做到拓宽上下文长度(Context),在模型训练和推理侧都存在算力+显存的双重挑战。
比如,计算量会随着上下文长度的增加呈平方级增长——比如上下文增加32倍时,计算量实际会增长1000倍;而在推理方面,即使是将单机显存配置拉到目前的最高水平(如配备8张80GB显存的GPU芯片),最多只能在千亿级模型上处理约5万汉字的长度。
但在Kimi Chat上,Moonshot团队通过创新的网络结构、改进算法策略等等,对模型训练的各个环节进行了上百项的优化,从而在千亿级参数下可以实现对超长文本的全文理解。
简单而言,Moonshot AI并不通过当前滑动窗口、降采样、小模型等对效果损害较大的“技术捷径”来实现长文本,而是研发基于大模型的长程注意力,以实现真正可用的超长文本技术。
让模型“记性”更好,会让大模型未来的应用场景拓宽不少。比如,律师、分析师等职业,就能让大模型分析长篇报告;像狼人杀这样需要基于大量信息来推理的游戏,大模型也能够胜任。
而在本次产品发布前,36氪曾与杨植麟进行过一次深谈。作为站在这次技术核爆中心圈的人,杨植麟谈起AI大模型,有种笃定感。他会不时用轻松的语气,抛出一些让人一愣的断言。
比如,“Next token prediction(预测下一个字段)是唯一的问题。” “只要一条道走到黑,就能实现通用泛化的智能(AGI)。”
比如,“五年之内,大模型将持续保持较强的技术壁垒,不会commoditize(变成平价的、没有壁垒的商品)。”
从LLM(大语言模型)到LLLM(长文本大语言模型),Kimi Chat只是Moonshot的第一步。不过,如今的Moonshot已经寄托着杨植麟一些很“黑镜”的预想:在未来,如果机器能够掌握一个人一生的信息,人们就会拥有自己的AI分身,这个AI分身共享了你的所有记忆,无异于另一个你。
以下为36氪与杨植麟的对话实录,经36氪编辑整理:
时隔七年,两次AI创业
36氪:先来聊聊这次产品发布吧。很多大厂、创业公司都会选择先发一个具体的大模型,开源或者闭源的都有。大模型已经火了半年后,Moonshot如今选择先发一个To C的智能助手产品。为什么?杨植麟:因为我始终坚信以终为始,只有当大模型被多数人使用时,才会涌现出最多的智能。Moonshot会秉承以应用为导向的模型开发,我们并不想只是发布一个模型,以迅速获得科技圈可能的短期技术关注。比如,“长上下文”技术的价值,可能很难第一时间让用户感知到。但通过Kimi智能助手,就可以直接触达用户。我们希望让技术成为用户日常生活中一旦接触就不可或缺的助手,以真实的反馈做来迭代模型,尽早地创造实际价值。36氪:ChatGPT出来之后,这半年你的心情是怎么样的?杨植麟:这一年来,我是百感交集。如果是什么可控核聚变的突破,那其实跟我也没什么关系,但这个事情(大语言模型)是我做了十年的事情,我觉得就好像是被苹果砸中一样。ChatGPT刚发的时候,我非常激动,我好奇这个世界到底能做什么样的AI,我能多大程度去复制、甚至做得比人脑更好。同时,我也陷入到非常沮丧的状态——因为这个事情也不是你做出来的对吧?我会开始想在这个浪潮里我还能贡献什么,又开始兴奋起来:现在是非常好的timing,不管发生什么,一定要做。36氪:ChatGPT算是直接促使你创立新公司“月之暗面”?杨植麟:对。从一开始的激动到沮丧,再决定创业之后,我逐渐恢复理性思考,思考想要什么样的团队来做,现在是技术演进过程里的什么阶段,我们要做什么?然后再开始焦虑——铺天盖地地,所有人都说要做大模型,那大模型到底能不能做?是不是做不了?最后又会回到理性。我会去更长期地看这些个事情,短期内的大模型进展,东边发一个模型,西边发一个,其实都是噪音。GPT-4的水平在这儿(高一截),其他模型都是在下面,其实大家现在说“我比你高”“你比我高”,没什么意义。我这半年都在思考底层逻辑,最后发现这件事还是很适合我们来做。第一层机会,是被第一个找到第一性原则的人抓住,那就是OpenAI。这需要很强大的vision,非常高瞻远瞩,是靠经验所支撑的。第二层机会就是在技术创新期,能解决一些技术方向性的问题——比如long context(长上下文)怎么做?能把技术做好的团队可以抓住。第三层是纯应用的机会,就是技术已经全部清楚了,不再需要考虑技术层面的事情,只做应用。我们可以抓住的是第二层机会,在这个层面我们拥有很好的积累和优势。杨植麟:我们希望先把模型能力做到世界领先水平,同时也会聚焦C端的超级应用,通过产品连接技术与用户,从而共同创造通用智能,Kimi Chat只是我们的第一个产品尝试。我们现在做的模型已经到千亿级,未来会是一个多模态大模型,当前会先把语言模型做好。36氪:在做应用上,你们大概思考的方向是怎么样的?杨植麟:我们还处在技术创新的阶段,所以我们会先持续追求世界级的技术突破,比如长上下文、多模态等。而在产品层面,我们肯定是坚定在To C这一侧,希望能做头部的Super App。以ChatGPT和Character.ai为例,这两个产品已经积累了大量的数据和用户反馈,有大量的迹象证明已经通过这种的产品产生了新的入口,新一代AI在“有用“和”有趣“两个方向上,都会有巨大潜力。我相信,无论是智能助手还是情感陪伴,我们都能通过技术为更多人解决工作和生活中的实际问题。杨植麟:比如Character.AI的情感更多元化,他其实底层满足的是人的征服欲,我觉得征服是一个真正的刚需。AI最后不会是一个完全同质化的东西。它不像电,在新加坡充电和中国充电是一样的。所以像Character.AI最后所实现智能可能比其他公司会更强,因为他们有数据能一直积累,后面可以做一些专业化,这也导致以后AI的毛利率会比以前的云计算要高。36氪:好多大模型公司忙着在硅谷挖人,比如从OpenAI、Google、微软。你是怎么组建起月之暗面的团队的?杨植麟:我们很多人还是重新招的。我们更多是找这种30岁左右,有很多一手实践经验的人。从去年12月开始,我就去了一趟海外,开始为招人做储备了。杨植麟:我们在海外有office,其实两边还是可以相结合的。36氪:现在月之暗面团队有多少人?你预想中的团队,会是什么样子?杨植麟:我们的团队约60人,有很多技术专家,每个月都有在全球某个领域有显著影响力的人加入,我们在努力打造大模型公司里产品人才密度最高的团队。互联网时代的技术和产品已经成熟分工,但我们希望产品团队能更直接地参与模型优化,大幅缩短创新周期。智能时代无论技术、产品、增长还是商业化,都存在创新的机会。我们的愿景是建立一个全新的组织,能与用户共情,也能用客观数据来定义美和智能标准,将科技与人文融为一体。杨植麟:我觉得他们提供了很多很好的实践。比如他们就不搞赛马,这是非常重要的例子。这并不是因为他们资源或者人不够。他们资源挺多,但是会把资源放到一个统一的scope下面。比如,他们希望花10%的精力去探索一些新的东西,那会有一个团队在做这个事情,主线永远就只有这一个——这是非常重要的。并且,他们鼓励底层创新,每个人贡献想法。36氪:现在不少人关注成本问题,这直接关系到工程化的成本,还有后续的商业化进展。现阶段,你最关注的是什么因素?杨植麟:就是能不能尽快找到PMF,这是第一优先级。36氪:现在不少大厂、创业公司都在发开源模型,Moonshot有开源计划吗?你怎么思考这个问题?杨植麟:我们目前没有开源计划。我认为,开源和闭源在整个生态里面会扮演不同的角色,开源很大一个作用是在To B端的获客,如果想做头部的Super App,大家肯定都是用闭源模型去做的,在开源模型上做C端应用很难做出差异化。36氪:你从博士阶段就已经开始创业,之前创立第一家AI公司“循环智能”的经验,会给你什么启发?杨植麟:现在月之暗面还是处在第一阶段,更重要的任务是降低不可预测性等偏技术上的工作,其实不会太受到外部因素的影响。
但从大环境上来说,不可预测性肯定是要比之前更多了。几年前的年景更好,可以顺着市场做扩张,做营收;但市场不好时,反而是需要做成本控制、降低烧钱速度。这也是我从上一段创业经验学到最多的。
大模型很烧钱,把握好投入的速度,同时还要保证自己还是要拿出东西,有产品数据,是非常关键的问题。
预测下一个token是唯一问题
36氪:AI领域有几大方向:图像识别(CV)、自然语言处理(NLP)、机器学习(ML)。前几年CV更热闹,上一波AI四小龙(商汤、旷视、云从、依图)都是这个方向。你一直在做NLP,为什么?
杨植麟:抛开偶然因素,还是有一些必然的原因。我觉得,Vision(视觉)方向其实更早地看到一些产业成果,但NLP可以去解决更多认知类的问题,让AI真正实现价值。
36氪:NLP怎么让AI真正发挥价值?
杨植麟:NLP相当于是从视觉的感知层面,进化到更有认知的层面。
像Midjourney这种AI绘画产品,它可能生成的图片特别好看,但它本质是一个没有大脑的画家——你不知道中美关系怎么样,不知道印第安人以前是怎么被奴役的。你需要知道这些历史,才有可能成为一个顶级画家。甚至最后不光只是画画,你还要做很多画画之外的事情。
从这个点来说,NLP会解决更难的、更有挑战性的问题,比如推理,它的存在会让AI的版图更加完整。
36氪:Transformer是你主攻的研究方向,它也是ChatGPT诞生的基础。Transformer的革命性意义在什么地方?
杨植麟:我比较幸运的地方在于,我博士有一半时间是在2017年之后。因为2017年Transformer出来了,这是一个超级巨大的分水岭。
Transformer架构的出现让整个NLP领域都发生了巨大的认知变化。有了这个东西之后,你就发现这里面可以做的东西实在太多了,突然一下子就给大家指明了方向。有很多之前完全无法实现的东西,它现在变得有可能了。
36氪:怎么理解这个“认知层面的变化”?
杨植麟:AI领域对语言模型的认知,存在三个阶段的变化:
2017年前,大家觉得语言模型有一些有限的作用,比如在这些语音识别、排序、语法、拼写等等小的场景里面可以做辅助,但用例(Use Case)都很小;第二个阶段:Transformer、Bard出现后,语言模型可以做绝大部分的任务,但它还是一个辅助的角色——我有一个语言模型,AI工程师微调一下任务就好了;到第三阶段,整个AI领域发展到最后,大家的认知会变成:所有东西其实都是语言模型,语言模型是唯一的问题,或者说是next token prediction(预测下一个字段)是唯一的问题。这个世界其实就是一个硬盘模型,当人类文明数字化之后,所有人类文明之和就是硬盘的总和。输入的Token是语言,或者也可以是别的东西——只要能预测下一个Token是什么,那我就能实现了智能。从思想到系统的层面,其实技术发生了非常大的变化,这里面有很多变量。然后你就可以在这个空间里面去看,怎么把这些技术做的更好。36氪:从2017年Transformer出现到今年ChatGPT爆火,中间还有五年的时间。这五年里,你的重要工作——有关Transformer-XLNet的论文,其实也有被拒稿过。中间有过对自己研究路线的怀疑吗?杨植麟:这个很有意思。当因为行业发生认知变化,而变化还没有调整过来的时候,会存在非共识。部分人觉得非共识是错的,但其实他实际上是对的。OpenAI在这里面绝对是一个先驱,因为他们最早有这种正确的非共识,最早看到“语言模型是唯一的问题”这一点。我们当时的研究效果非常好,能实现当时全世界最好的效果。但评审就问我们一个问题:就是说语言模型有什么用?你们好像没有证明他有用。但是这个时候其实你要做的事情并不是说去寻求认同,而是说你要把真把那个事儿给做出来。36氪:你说“唯一重要的问题就是预测下一个字段。”这个事儿在当时如果是非共识的话,你是怎么意识到这一点,并且坚信的?杨植麟:坦白说,我在那个时候还没有完全坚信这个事情,直到现在我觉得它也不一定是个共识,而是在逐渐变成共识的过程中。36氪:什么叫“预测下一个字段”,应该要怎么理解?杨植麟:本质上,做下一个token的预测,其实等价于“对整个世界的这个概率去进行建模”,就是现在给你任何一个东西,你都能给他估算一个概率。这个世界本来就是一个巨大的概率分布,里面有一些是不可建模的不确定性,你不知道下面会发生什么。但有一些是你能确定的,能排除掉一些东西的,这是一个通用的、对世界去进行建模的模型。有很多历史学家来对这个事情做过研究,比如Density Estimation(密度统计),大模型本质是在做这样一个事情。但当时我只意识到这是个重要的问题,而没有意识到是唯一要解决的问题。杨植麟:2020年GPT-3出来的时候,那个时候有了更明确的证据。OpenAI的人最厉害的点是,他们观察到了更多的数据,再更早的时候真正去把模型参数、训练规模扩大,所以他们更早地知道只要一直scale(扩大规模),就可能解决所有的问题。36氪:知道它是如此重要之后,这会怎么影响你的技术路线?杨植麟:回到刚刚那一点,如果这个世界只有一个问题:要预测下一个字段,那么输入和输出其实是一样的——也就是“理解”和“生成”其实也是同一个问题。几年前,我们自己也会区分,到底是要做理解模型还是生成模型,但现在不需要了。36氪:不过,现在有很多团队的技术路线,可能会先做文字理解,在理解这一端做得更多些,生成可能会靠后一点。杨植麟:这些思考方向不够本质。现在任何说“只能做理解而非生成”都是错误的方向。正确的方向应该是:理解和生成就是一个问题。如果能做很好的理解,那能做很好的生成,这两个应该是完全等价的。杨植麟:对的。现在就只有一个问题。比如说我能够去生成接下来10秒钟的视频,我那我必须对之前的这个视频有很好的理解,你得知道他发生了什么,这是一个什么样的story,接下来很有可能是什么样的演进,它是分不开的。36氪:你对实现AGI(通用泛化的智能)有信心吗?杨植麟:有没有信心取决于它的第一性原理,我觉得大家现在已经明白原理了,只有一个问题:就是预测下一个字段。一条道走到黑的话,我觉得就能实现。但确实还存在一些“第二层面”问题,也就是具体的技术方向难题。但是这些都是小问题,并非原则性的,第二个层面就是我们要去攻克的。人的一生不过是大量的信息
36氪:用一句简短的话来描述月之暗面的目标跟远景,你会怎么说?杨植麟:长期的几个目标是:探索智能的极限、让AI有用,以及让每个人都能拥有真正普惠的AI。杨植麟:现在的一个问题是,很多时候AI的价值观是被一个处于中心的机构控制。一个模型表现成什么样子,完全是由平台来决定——TA觉得什么是“好的”,什么是价值观正确的答案。但每个人会有自己的价值观。价值观是更底层的东西,它其实还包含很多可能——你的偏好,也就是你认为什么是对的,什么是错的。每个人都应该要有这种个性化定制的机会,所以以后的AI也应该要拥有“对齐”的机会。(Alignment,指确保AI系统的行为匹配预期的人类价值观和目标的过程)。当然,我们肯定要去设置安全底线,以及监管层面的东西。在这个基础上,可以有很多个性化AI的机会。36氪:个性化的AI,它的实现路径是什么?每个人都能训练一个代表自己的AI模型吗?杨植麟:你刚说的训练是一种方式,但我认为可能后面也许不需要去训练,也许直接设置就可以了。最终的一个可能形态是,AI会数字化的所有东西全部记录下来,你的手机、电脑上会有一个和你共生的AI Agent(AI代理、AI分身),它会知道所有一切你能知道的东西。36氪:你在你的个人主页上写,你的所有的工作目标都是“让AI价值最大化”。这指的是什么?杨植麟:最大的价值就是,最终每个人不用做自己不想做的事情,保留人性里面最精华的部分。比如,我们这次谈话也可以不用面对面,而是有更高效的方式——比如由我们的AI Agent直接对话。在公司也是一样,现在的组织要花时间去定绩效、考核。其实这都会非常花时间。以后我们也许就不需要公司了,一个人的效率会高很多,也不用为了赚一点钱就非得要去上班,可以用AI来做很多工作。要达到这样的效果肯定很难,但最终人类有可能实现生产最大化。最后,也许真正的共产主义会出现。36氪:如果让你现在对未来做一个预测的话,你觉得十年之后我们这个社会会有什么样的变化?或者说AI对这个社会最大的变革,你觉得会来自什么方面?我觉得至少五年内大模型技术不会commoditize(指技术还会有壁垒,不会变成廉价的商品)。因为至少还有一大批模型没有出来,我们还没有真正看到视频大模型。我觉得这两年可能是文本模型持续迭代的窗口。后再过三年,是视频模型持续迭代的窗口,这里始终是有技术壁垒的。杨植麟:对的,这些节点都迈过后,会出现一个巨大的变革。美国有一个公司叫Rewind(主打“记录一切”,让人类搜索一切在上看见过的所有内容),现在的产品能实现的效果,可能只是能问它:我上个月做了什么?它会记录下来,现在的效果还是比较浅层的。以后的AI Agent会更加深度地实现个性化。比如,大模型会和你有共享的记忆,知道你所有的价值偏好,所有的价值取向。如果你让他写一个Q3的规划,他会基于已知的这些东西直接去写规划,而不需要知道Q2做了什么东西。36氪:从文字到图片,再到视频大模型、Agent,要实现的关键是什么?杨植麟:是context(上下文长度,也可以理解为模型单次能处理的信息量),这基本决定了AI能产生价值的上限。如果大模型的context就是你的全部记忆,理论上,那它就可以做你现在做的全部事情。对于大模型来说,最关键的一点就是,你到底能有多少context被捕捉到。这取决于视频模型的能力,如果模型能力很强,理论上你的手机和电脑加起来就差不多是你完整的context。人的一生也不过是如此,我们每天就活在数字世界里面。可能除了我们现在这种线下对话,他可能捕捉不到,其他大部分都是都ok的。36氪:如果真的达到这种状态,人类应该要怎么和机器共存?杨植麟:我自己是比较乐观,就是说他在提供更多生产力的同时,他应该会创造很多新的岗位。视频现在是大家花时间最多的地方,所以他肯定会对生产关系产生很大的影响。所以每个人可能都可以生产(视频),很多价值会被重新分配。但这是一个反馈闭环时间比较长的事情。挑战在于,当前替代现有岗位的速度比创造新岗位的速度更快。核心问题在于,在理想的岗位没有被创造出来之前,我们如何解决一些社会问题。36氪:普通人怎么去面对这次技术变革?这种变化继续下去,普通人应该做点什么?杨植麟:我觉得最重要还是学习。不光是普通人,我觉得所有人,拥有最强终身学习的能力的人,以后才能够实现自己真正的价值。另外一点是要open minded。我四五年就找过很多人说,要不要来一起做大模型,当时他们说我现在要做数字人,你不要跟我讲这些东西(笑)。所以人确实有时候还是会被自己认知所局限。无论我们对技术的态度如何,历史的发展都是超出个人意志的。因此,我们要不断的自我迭代,适应这个世界唯一不变的,就是变化本身。扫码加入Kimi Chat内测:
或直接访问moonshot.cn