90后AI天才的大模型首战

公众号新闻

2023-10-10 09:10

单次可处理20万字小说，要做To C超级应用。

访谈｜邓咏仪杨轩陈紫冰

文｜邓咏仪

编辑｜杨轩苏建勋

来源｜智能涌现（ID：AIEmergence）

封面来源｜Pexels

站在核爆中心圈，是一种什么样的体验？

在这次ChatGPT引发的AI大爆炸中，做了十年堪称冷门的NLP（自然语言处理）的杨植麟，就处在这样一个位置。这位保送清华、程序设计课程满分的“少年天才”，在卡耐基梅隆大学读博士时，就已经作为第一作者发表的关于Transformer-XL与XLNet的两篇论文，成为本次AI大模型技术能够突破的重要一环。

“先是非常激动，好像被苹果砸中一样，”杨植麟对36氪说，随即又陷入沮丧，再想到可干的事情还很多，又“兴奋起来”。

这也是他新创办的第二家AI公司“月之暗面（Moonshot）”的由来。Moonshot这个名字，则来自英国著名摇滚乐队Pink Floyd的专辑《Dark Side of the Moon》。

杨植麟认为，做大模型如同登月工程一样，“月之暗面”意味着神秘，令人好奇和向往，同时又极具挑战难度。

事实上，月之暗面的核心团队曾参与到Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发中——这是一支在“登月”道路上已探索多年的队伍。而AI大模型，目前还在一个以技术能力定成败的阶段。

在这半年的国内大模型市场中，Moonshot显得尤为沉默，但并不妨碍投资人的蜂拥而至。36氪最新获得的消息是，月之暗面已经完成一轮超过2亿美元的融资，目前身处中国大模型创业公司融资额第一梯队。

成立半年多后，10月9日，Moonshot终于推出了首款大模型产品：智能助手Kimi Chat。这是Moonshot在大模型领域做To C超级应用的第一次尝试。

来源：Moonshot

Kimi Chat支持输入20万汉字，是目前全球大模型产品中所能支持的最长上下文输入长度。

这也代表着，Moonshot在长文本技术的探索突破到了一个新高度——对比当前市面上几家主流模型，Kimi Chat的上下文长度是Claude 100k的2.5倍（实测约8万字），GPT-4-32k的8倍（实测约2.5万字）。

如今市面上的大模型产品繁多，拓展了上下文长度的Kimi Chat，在使用上有什么不同？

最明显的是，你可以一次性给模型输入大量的信息，由模型理解进行问答和信息处理，有效减少幻觉问题。

比如，公众号的长文也可以交给Kimi Chat ，让它帮你总结分析：

来源：Moonshot

发现了新的算法论文时，Kimi能够直接帮你根据论文复现代码：

来源：Moonshot

快要考试了，直接把一整本教材交给Kimi，就可以让它陪你准备考试：

来源：Moonshot

甚至，也可以只用一个链接就让它来扮演你喜爱的游戏角色，和你对话：

来源：Moonshot

目前，Moonshot AI 的智能助手产品Kimi Chat已开放了内测。访问Moonshot.cn（或于文末扫描二维码），即可加入内测计划。

长文本：大模型落地的另一瓶颈

值得关注的一点是，不同于其他大模型公司拼参数、展示各种各样的行业案例，在Moonshot的发布会上，“长文本”成了绝对的主角。

“无论是文字、语音还是视频，对海量数据的无损压缩可以实现高程度的智能。而要有效提升大模型的性能，不仅要扩大模型参数，更要提升上下文长度，两者同样重要。”杨植麟表示。

大模型之所以能在智能水平有质的飞跃，是因为通过扩大参数规模，突破到了千亿级别，才能够让智能“涌现”（Emergence，指模型自主产生出复杂行为或特性）。

但如今，大模型落地更重要的瓶颈不是模型大小，而是在于上下文不够，文本长度不足会带来对模型能力的严重束缚。

一个典型问题是，如果遇到多轮对话或者需要复杂步骤的场景，往往会出现模型记不住的情况——讲了具体设定，但下一回合就忘记。比如，Character AI的用户就经常吐槽模型记不住关键信息：

来源：公开网络

这与计算机运行的原理类似：计算机依靠CPU进行计算；内存则存放了临时计算的数据，决定其运行速度。“如果说参数量决定了大模型支持多复杂的‘计算’，而能够接收多少文本输入（即长文本技术）则决定了大模型有多大的‘内存’，两者共同决定模型的应用效果。”他解释道。

这也是Moonshot在保持模型拥有千亿级参数的同时，首先将上下文长度先“拉满”的原因。

要想做到拓宽上下文长度（Context），在模型训练和推理侧都存在算力+显存的双重挑战。

比如，计算量会随着上下文长度的增加呈平方级增长——比如上下文增加32倍时，计算量实际会增长1000倍；而在推理方面，即使是将单机显存配置拉到目前的最高水平（如配备8张80GB显存的GPU芯片），最多只能在千亿级模型上处理约5万汉字的长度。

但在Kimi Chat上，Moonshot团队通过创新的网络结构、改进算法策略等等，对模型训练的各个环节进行了上百项的优化，从而在千亿级参数下可以实现对超长文本的全文理解。

简单而言，Moonshot AI并不通过当前滑动窗口、降采样、小模型等对效果损害较大的“技术捷径”来实现长文本，而是研发基于大模型的长程注意力，以实现真正可用的超长文本技术。

让模型“记性”更好，会让大模型未来的应用场景拓宽不少。比如，律师、分析师等职业，就能让大模型分析长篇报告；像狼人杀这样需要基于大量信息来推理的游戏，大模型也能够胜任。

而在本次产品发布前，36氪曾与杨植麟进行过一次深谈。作为站在这次技术核爆中心圈的人，杨植麟谈起AI大模型，有种笃定感。他会不时用轻松的语气，抛出一些让人一愣的断言。

比如，“Next token prediction（预测下一个字段）是唯一的问题。” “只要一条道走到黑，就能实现通用泛化的智能（AGI）。”

比如，“五年之内，大模型将持续保持较强的技术壁垒，不会commoditize（变成平价的、没有壁垒的商品）。”

从LLM（大语言模型）到LLLM（长文本大语言模型），Kimi Chat只是Moonshot的第一步。不过，如今的Moonshot已经寄托着杨植麟一些很“黑镜”的预想：在未来，如果机器能够掌握一个人一生的信息，人们就会拥有自己的AI分身，这个AI分身共享了你的所有记忆，无异于另一个你。

以下为36氪与杨植麟的对话实录，经36氪编辑整理：

时隔七年，两次AI创业

36氪：先来聊聊这次产品发布吧。很多大厂、创业公司都会选择先发一个具体的大模型，开源或者闭源的都有。大模型已经火了半年后，Moonshot如今选择先发一个To C的智能助手产品。为什么？

杨植麟：因为我始终坚信以终为始，只有当大模型被多数人使用时，才会涌现出最多的智能。Moonshot会秉承以应用为导向的模型开发，我们并不想只是发布一个模型，以迅速获得科技圈可能的短期技术关注。

比如，“长上下文”技术的价值，可能很难第一时间让用户感知到。但通过Kimi智能助手，就可以直接触达用户。我们希望让技术成为用户日常生活中一旦接触就不可或缺的助手，以真实的反馈做来迭代模型，尽早地创造实际价值。

36氪：ChatGPT出来之后，这半年你的心情是怎么样的？

杨植麟：这一年来，我是百感交集。如果是什么可控核聚变的突破，那其实跟我也没什么关系，但这个事情（大语言模型）是我做了十年的事情，我觉得就好像是被苹果砸中一样。

ChatGPT刚发的时候，我非常激动，我好奇这个世界到底能做什么样的AI，我能多大程度去复制、甚至做得比人脑更好。

同时，我也陷入到非常沮丧的状态——因为这个事情也不是你做出来的对吧？我会开始想在这个浪潮里我还能贡献什么，又开始兴奋起来：现在是非常好的timing，不管发生什么，一定要做。

36氪：ChatGPT算是直接促使你创立新公司“月之暗面”？

杨植麟：对。从一开始的激动到沮丧，再决定创业之后，我逐渐恢复理性思考，思考想要什么样的团队来做，现在是技术演进过程里的什么阶段，我们要做什么？

然后再开始焦虑——铺天盖地地，所有人都说要做大模型，那大模型到底能不能做？是不是做不了？

最后又会回到理性。我会去更长期地看这些个事情，短期内的大模型进展，东边发一个模型，西边发一个，其实都是噪音。

GPT-4的水平在这儿（高一截），其他模型都是在下面，其实大家现在说“我比你高”“你比我高”，没什么意义。我这半年都在思考底层逻辑，最后发现这件事还是很适合我们来做。

36氪：适合在什么地方？

杨植麟：每一次技术突破里会有三层的机会。

第一层机会，是被第一个找到第一性原则的人抓住，那就是OpenAI。这需要很强大的vision，非常高瞻远瞩，是靠经验所支撑的。

第二层机会就是在技术创新期，能解决一些技术方向性的问题——比如long context（长上下文）怎么做？能把技术做好的团队可以抓住。

第三层是纯应用的机会，就是技术已经全部清楚了，不再需要考虑技术层面的事情，只做应用。

我们可以抓住的是第二层机会，在这个层面我们拥有很好的积累和优势。

36氪：月之暗面想做的大模型，是怎么样的？

杨植麟：我们希望先把模型能力做到世界领先水平，同时也会聚焦C端的超级应用，通过产品连接技术与用户，从而共同创造通用智能，Kimi Chat只是我们的第一个产品尝试。

我们现在做的模型已经到千亿级，未来会是一个多模态大模型，当前会先把语言模型做好。

36氪：在做应用上，你们大概思考的方向是怎么样的？

杨植麟：我们还处在技术创新的阶段，所以我们会先持续追求世界级的技术突破，比如长上下文、多模态等。

而在产品层面，我们肯定是坚定在To C这一侧，希望能做头部的Super App。以ChatGPT和Character.ai为例，这两个产品已经积累了大量的数据和用户反馈，有大量的迹象证明已经通过这种的产品产生了新的入口，新一代AI在“有用“和”有趣“两个方向上，都会有巨大潜力。

我相信，无论是智能助手还是情感陪伴，我们都能通过技术为更多人解决工作和生活中的实际问题。

36氪：什么样的是真需求？

杨植麟：比如Character.AI的情感更多元化，他其实底层满足的是人的征服欲，我觉得征服是一个真正的刚需。

AI最后不会是一个完全同质化的东西。它不像电，在新加坡充电和中国充电是一样的。所以像Character.AI最后所实现智能可能比其他公司会更强，因为他们有数据能一直积累，后面可以做一些专业化，这也导致以后AI的毛利率会比以前的云计算要高。

36氪：好多大模型公司忙着在硅谷挖人，比如从OpenAI、Google、微软。你是怎么组建起月之暗面的团队的？

杨植麟：我们很多人还是重新招的。我们更多是找这种30岁左右，有很多一手实践经验的人。从去年12月开始，我就去了一趟海外，开始为招人做储备了。

36氪：海外的AI人才愿意回来吗？

杨植麟：我们在海外有office，其实两边还是可以相结合的。

36氪：现在月之暗面团队有多少人？你预想中的团队，会是什么样子？

杨植麟：我们的团队约60人，有很多技术专家，每个月都有在全球某个领域有显著影响力的人加入，我们在努力打造大模型公司里产品人才密度最高的团队。

互联网时代的技术和产品已经成熟分工，但我们希望产品团队能更直接地参与模型优化，大幅缩短创新周期。智能时代无论技术、产品、增长还是商业化，都存在创新的机会。我们的愿景是建立一个全新的组织，能与用户共情，也能用客观数据来定义美和智能标准，将科技与人文融为一体。

36氪：OpenAI会是这种组织的理想状态吗？

杨植麟：我觉得他们提供了很多很好的实践。比如他们就不搞赛马，这是非常重要的例子。

这并不是因为他们资源或者人不够。他们资源挺多，但是会把资源放到一个统一的scope下面。

比如，他们希望花10%的精力去探索一些新的东西，那会有一个团队在做这个事情，主线永远就只有这一个——这是非常重要的。并且，他们鼓励底层创新，每个人贡献想法。

36氪：现在不少人关注成本问题，这直接关系到工程化的成本，还有后续的商业化进展。现阶段，你最关注的是什么因素？

杨植麟：就是能不能尽快找到PMF，这是第一优先级。

36氪：现在不少大厂、创业公司都在发开源模型，Moonshot有开源计划吗？你怎么思考这个问题？

杨植麟：我们目前没有开源计划。我认为，开源和闭源在整个生态里面会扮演不同的角色，开源很大一个作用是在To B端的获客，如果想做头部的Super App，大家肯定都是用闭源模型去做的，在开源模型上做C端应用很难做出差异化。

36氪：你从博士阶段就已经开始创业，之前创立第一家AI公司“循环智能”的经验，会给你什么启发？

杨植麟：现在月之暗面还是处在第一阶段，更重要的任务是降低不可预测性等偏技术上的工作，其实不会太受到外部因素的影响。

但从大环境上来说，不可预测性肯定是要比之前更多了。几年前的年景更好，可以顺着市场做扩张，做营收；但市场不好时，反而是需要做成本控制、降低烧钱速度。这也是我从上一段创业经验学到最多的。

大模型很烧钱，把握好投入的速度，同时还要保证自己还是要拿出东西，有产品数据，是非常关键的问题。

预测下一个token是唯一问题

36氪：AI领域有几大方向：图像识别（CV）、自然语言处理（NLP）、机器学习（ML）。前几年CV更热闹，上一波AI四小龙（商汤、旷视、云从、依图）都是这个方向。你一直在做NLP，为什么？

杨植麟：抛开偶然因素，还是有一些必然的原因。我觉得，Vision（视觉）方向其实更早地看到一些产业成果，但NLP可以去解决更多认知类的问题，让AI真正实现价值。

36氪：NLP怎么让AI真正发挥价值？

杨植麟：NLP相当于是从视觉的感知层面，进化到更有认知的层面。

像Midjourney这种AI绘画产品，它可能生成的图片特别好看，但它本质是一个没有大脑的画家——你不知道中美关系怎么样，不知道印第安人以前是怎么被奴役的。你需要知道这些历史，才有可能成为一个顶级画家。甚至最后不光只是画画，你还要做很多画画之外的事情。

从这个点来说，NLP会解决更难的、更有挑战性的问题，比如推理，它的存在会让AI的版图更加完整。

36氪：Transformer是你主攻的研究方向，它也是ChatGPT诞生的基础。Transformer的革命性意义在什么地方？

杨植麟：我比较幸运的地方在于，我博士有一半时间是在2017年之后。因为2017年Transformer出来了，这是一个超级巨大的分水岭。

Transformer架构的出现让整个NLP领域都发生了巨大的认知变化。有了这个东西之后，你就发现这里面可以做的东西实在太多了，突然一下子就给大家指明了方向。有很多之前完全无法实现的东西，它现在变得有可能了。

36氪：怎么理解这个“认知层面的变化”？

杨植麟：AI领域对语言模型的认知，存在三个阶段的变化：

2017年前，大家觉得语言模型有一些有限的作用，比如在这些语音识别、排序、语法、拼写等等小的场景里面可以做辅助，但用例（Use Case）都很小；

第二个阶段：Transformer、Bard出现后，语言模型可以做绝大部分的任务，但它还是一个辅助的角色——我有一个语言模型，AI工程师微调一下任务就好了；

到第三阶段，整个AI领域发展到最后，大家的认知会变成：所有东西其实都是语言模型，语言模型是唯一的问题，或者说是next token prediction（预测下一个字段）是唯一的问题。

这个世界其实就是一个硬盘模型，当人类文明数字化之后，所有人类文明之和就是硬盘的总和。输入的Token是语言，或者也可以是别的东西——只要能预测下一个Token是什么，那我就能实现了智能。

从思想到系统的层面，其实技术发生了非常大的变化，这里面有很多变量。然后你就可以在这个空间里面去看，怎么把这些技术做的更好。

36氪：从2017年Transformer出现到今年ChatGPT爆火，中间还有五年的时间。这五年里，你的重要工作——有关Transformer-XLNet的论文，其实也有被拒稿过。中间有过对自己研究路线的怀疑吗？

杨植麟：这个很有意思。当因为行业发生认知变化，而变化还没有调整过来的时候，会存在非共识。

部分人觉得非共识是错的，但其实他实际上是对的。OpenAI在这里面绝对是一个先驱，因为他们最早有这种正确的非共识，最早看到“语言模型是唯一的问题”这一点。

我们当时的研究效果非常好，能实现当时全世界最好的效果。但评审就问我们一个问题：就是说语言模型有什么用？你们好像没有证明他有用。

但是这个时候其实你要做的事情并不是说去寻求认同，而是说你要把真把那个事儿给做出来。

36氪：你说“唯一重要的问题就是预测下一个字段。”这个事儿在当时如果是非共识的话，你是怎么意识到这一点，并且坚信的？

杨植麟：坦白说，我在那个时候还没有完全坚信这个事情，直到现在我觉得它也不一定是个共识，而是在逐渐变成共识的过程中。

36氪：什么叫“预测下一个字段”，应该要怎么理解？

杨植麟：本质上，做下一个token的预测，其实等价于“对整个世界的这个概率去进行建模”，就是现在给你任何一个东西，你都能给他估算一个概率。

这个世界本来就是一个巨大的概率分布，里面有一些是不可建模的不确定性，你不知道下面会发生什么。但有一些是你能确定的，能排除掉一些东西的，这是一个通用的、对世界去进行建模的模型。有很多历史学家来对这个事情做过研究，比如Density Estimation（密度统计），大模型本质是在做这样一个事情。

但当时我只意识到这是个重要的问题，而没有意识到是唯一要解决的问题。

36氪：那是什么时候让你改变主意了？

杨植麟：2020年GPT-3出来的时候，那个时候有了更明确的证据。OpenAI的人最厉害的点是，他们观察到了更多的数据，再更早的时候真正去把模型参数、训练规模扩大，所以他们更早地知道只要一直scale（扩大规模），就可能解决所有的问题。

36氪：知道它是如此重要之后，这会怎么影响你的技术路线？

杨植麟：回到刚刚那一点，如果这个世界只有一个问题：要预测下一个字段，那么输入和输出其实是一样的——也就是“理解”和“生成”其实也是同一个问题。

几年前，我们自己也会区分，到底是要做理解模型还是生成模型，但现在不需要了。

36氪：不过，现在有很多团队的技术路线，可能会先做文字理解，在理解这一端做得更多些，生成可能会靠后一点。

杨植麟：这些思考方向不够本质。现在任何说“只能做理解而非生成”都是错误的方向。正确的方向应该是：理解和生成就是一个问题。如果能做很好的理解，那能做很好的生成，这两个应该是完全等价的。

36氪：相当于这两者无法分开来。

杨植麟：对的。现在就只有一个问题。比如说我能够去生成接下来10秒钟的视频，我那我必须对之前的这个视频有很好的理解，你得知道他发生了什么，这是一个什么样的story，接下来很有可能是什么样的演进，它是分不开的。

36氪：你对实现AGI（通用泛化的智能）有信心吗？

杨植麟：有没有信心取决于它的第一性原理，我觉得大家现在已经明白原理了，只有一个问题：就是预测下一个字段。一条道走到黑的话，我觉得就能实现。

但确实还存在一些“第二层面”问题，也就是具体的技术方向难题。但是这些都是小问题，并非原则性的，第二个层面就是我们要去攻克的。

人的一生不过是大量的信息

36氪：用一句简短的话来描述月之暗面的目标跟远景，你会怎么说？

杨植麟：长期的几个目标是：探索智能的极限、让AI有用，以及让每个人都能拥有真正普惠的AI。

36氪：“普惠的AI”怎么理解？

杨植麟：现在的一个问题是，很多时候AI的价值观是被一个处于中心的机构控制。一个模型表现成什么样子，完全是由平台来决定——TA觉得什么是“好的”，什么是价值观正确的答案。

但每个人会有自己的价值观。价值观是更底层的东西，它其实还包含很多可能——你的偏好，也就是你认为什么是对的，什么是错的。

每个人都应该要有这种个性化定制的机会，所以以后的AI也应该要拥有“对齐”的机会。（Alignment，指确保AI系统的行为匹配预期的人类价值观和目标的过程）。

当然，我们肯定要去设置安全底线，以及监管层面的东西。在这个基础上，可以有很多个性化AI的机会。

36氪：个性化的AI，它的实现路径是什么？每个人都能训练一个代表自己的AI模型吗？

杨植麟：你刚说的训练是一种方式，但我认为可能后面也许不需要去训练，也许直接设置就可以了。

最终的一个可能形态是，AI会数字化的所有东西全部记录下来，你的手机、电脑上会有一个和你共生的AI Agent（AI代理、AI分身），它会知道所有一切你能知道的东西。

36氪：你在你的个人主页上写，你的所有的工作目标都是“让AI价值最大化”。这指的是什么？

杨植麟：最大的价值就是，最终每个人不用做自己不想做的事情，保留人性里面最精华的部分。

比如，我们这次谈话也可以不用面对面，而是有更高效的方式——比如由我们的AI Agent直接对话。在公司也是一样，现在的组织要花时间去定绩效、考核。其实这都会非常花时间。以后我们也许就不需要公司了，一个人的效率会高很多，也不用为了赚一点钱就非得要去上班，可以用AI来做很多工作。

要达到这样的效果肯定很难，但最终人类有可能实现生产最大化。最后，也许真正的共产主义会出现。

36氪：如果让你现在对未来做一个预测的话，你觉得十年之后我们这个社会会有什么样的变化？或者说AI对这个社会最大的变革，你觉得会来自什么方面？

杨植麟：十年有点难，五年可以说一说。

我觉得至少五年内大模型技术不会commoditize（指技术还会有壁垒，不会变成廉价的商品）。因为至少还有一大批模型没有出来，我们还没有真正看到视频大模型。

我觉得这两年可能是文本模型持续迭代的窗口。后再过三年，是视频模型持续迭代的窗口，这里始终是有技术壁垒的。

36氪：所以，视频大模型会是关键性的节点？

杨植麟：对的，这些节点都迈过后，会出现一个巨大的变革。

美国有一个公司叫Rewind（主打“记录一切”，让人类搜索一切在上看见过的所有内容），现在的产品能实现的效果，可能只是能问它：我上个月做了什么？它会记录下来，现在的效果还是比较浅层的。

以后的AI Agent会更加深度地实现个性化。比如，大模型会和你有共享的记忆，知道你所有的价值偏好，所有的价值取向。如果你让他写一个Q3的规划，他会基于已知的这些东西直接去写规划，而不需要知道Q2做了什么东西。

36氪：从文字到图片，再到视频大模型、Agent，要实现的关键是什么？

杨植麟：是context（上下文长度，也可以理解为模型单次能处理的信息量），这基本决定了AI能产生价值的上限。

如果大模型的context就是你的全部记忆，理论上，那它就可以做你现在做的全部事情。

对于大模型来说，最关键的一点就是，你到底能有多少context被捕捉到。这取决于视频模型的能力，如果模型能力很强，理论上你的手机和电脑加起来就差不多是你完整的context。

人的一生也不过是如此，我们每天就活在数字世界里面。可能除了我们现在这种线下对话，他可能捕捉不到，其他大部分都是都ok的。

36氪：如果真的达到这种状态，人类应该要怎么和机器共存？

杨植麟：我自己是比较乐观，就是说他在提供更多生产力的同时，他应该会创造很多新的岗位。

视频现在是大家花时间最多的地方，所以他肯定会对生产关系产生很大的影响。所以每个人可能都可以生产（视频），很多价值会被重新分配。

但这是一个反馈闭环时间比较长的事情。挑战在于，当前替代现有岗位的速度比创造新岗位的速度更快。核心问题在于，在理想的岗位没有被创造出来之前，我们如何解决一些社会问题。

36氪：普通人怎么去面对这次技术变革？这种变化继续下去，普通人应该做点什么？

杨植麟：我觉得最重要还是学习。不光是普通人，我觉得所有人，拥有最强终身学习的能力的人，以后才能够实现自己真正的价值。

另外一点是要open minded。我四五年就找过很多人说，要不要来一起做大模型，当时他们说我现在要做数字人，你不要跟我讲这些东西（笑）。所以人确实有时候还是会被自己认知所局限。无论我们对技术的态度如何，历史的发展都是超出个人意志的。因此，我们要不断的自我迭代，适应这个世界唯一不变的，就是变化本身。

扫码加入Kimi Chat内测：