支持20万字输入，月之暗面杨植麟：千亿大模型进入“长文本”时代 | 甲子光年

科技

2023-10-10 12:10

一口气读完一本《三体》。

作者｜赵健

在百模大战当下，谁会是中国的OpenAI？今年6月，科技媒体The Information盘点了中国AI初创企业Top5，分别为MiniMax、澜舟科技、智谱AI、光年之外（已被美团收购）以及杨植麟。

杨植麟是唯一一位以个人名字入榜的选手，只要他入局大模型，就会占据一席之地。在过去五年内的自研语言处理（NLP）领域，杨植麟有相当大的影响力，其学术论文在华人学者引用排名中位居前10，在40岁以下排名第一。

昨天，杨植麟在今年3月1日成立的通用人工智能（AGI）公司“月之暗面”（英文名MoonShot AI），发布了其千亿参数级大模型moonshot，以及搭载该模型的智能助手Kimi Chat。

大模型应用效果通常取决于两个核心指标，一是模型参数量，决定了大模型的“计算”能力；二是能够接收多少文本输入，即长文本技术，决定了大模型的“内存”能力。月之暗面在千亿参数模型的基础上，重点突破了长文本技术的挑战。

Kimi Chat最多支持20万汉字的超长文本输入，是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度。作为对比，Anthropic的Claude-100k模型支持约8万字，而OpenAI的GPT-4-32k只支持约2.5万字。

同时，杨植麟强调，Kimi Chat通过创新的网络结构和工程优化，在千亿参数下实现了无损的长程注意力机制，但不依赖于滑动窗口、降采样、小模型等常见的对性能损害较大的“捷径”方案。

月之暗面的名字来自于杨植麟最喜欢的一张专辑——Pink Floyd的《Dark Side of the Moon》，公司成立的日期正好是这张专辑发行的50周年。由于始终背对地球，月球的暗面始终处在地球人的视线之外，它象征着神秘与未知，而公司的愿景就是在人工智能领域探索这种未知。

发布会后，杨植麟接受了「甲子光年」等媒体的采访，深度阐释了月之暗面的长文本技术特点，以及此后的商业落地计划。

1.“登月计划”第一步：长文本

月之暗面将长文本技术称之为大模型“登月计划”的第一步。

支持更长的上下文意味着大模型拥有更大的“内存”，使大模型的应用更加深入和广泛。比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等。

然而，想要得到一个支持足够长上下文能力的模型，会在训练与推理层面对很多挑战。在训练层，这不可避免带来更高的算力需求与极严重的显存压力，缺乏充足的高质量长序列数据等。

在推理层，Transformer模型中自注意力机制（Self Attention）的计算量会随着上下文长度的增加呈平方级增长，比如上下文增加32倍时，计算量实际会增长1000倍。同时，超长上下文也将带来显存与带宽压力。

对于长文本技术的开发，市场上出现了不同的技术路线。但在杨植麟看来，这些路线几乎都是在牺牲一部分性能前提下的“捷径”。杨植麟将其总结为三类：

“金鱼”模型，容易“健忘”。通过滑动窗口等方式主动抛弃上文，只保留对最新输入的注意力机制。模型无法对全文进行完整理解，无法处理跨文档的比较和长文本的综合理解。例如，无法从一篇10万字的用户访谈录音转写中提取最有价值的10个观点。
“蜜蜂”模型，只关注局部，忽略整体。通过对上下文的降采样或者RAG（检索增强的生成），只保留对部分输入的注意力机制。模型同样无法对全文进行完整理解。例如，无法从50个简历中对候选人的画像进行归纳和总结。
“蝌蚪”模型，模型能力尚未发育完整。通过减少参数量（例如减少到百亿参数）来提升上下文长度，这种方法会降低模型本身的能力，虽然能支持更长上下文，但是大量任务无法胜任。

杨植麟认为，简单的捷径无法达到理想的产品化效果。因此，月之暗面的技术路线，就是不走捷径，踏实地解决算法与工程的双重挑战，在算力、存储、带宽等技术层面做了极致的优化。

杨植麟展示了在不同场景下Kimi Chat的长文本能力。比如，可以直接总结网页或者PDF文档的信息：

可以直接根据财报总结关键信息：

发现了新的算法论文时，能够直接根据论文复现代码：

只需要一个网址，就可以在和自己喜欢的原神角色聊天，实现“角色扮演”：

对此，月之暗面是如何做到的？

2.豪华人才团队，融资超20亿元

虽然仅成立半年，但杨植麟表示，在众多的大模型公司中，“人才密度”是月之暗面的最主要的特色之一。

杨植麟本人本科毕业于清华大学交叉信息学院，师从清华教授、IEEE Fellow唐杰。本科毕业后，杨植麟赴自然语言处理（NLP）研究全球排名第一的卡内基梅隆大学语言技术研究所（LTI）攻读博士，师从苹果公司AI负责人Ruslan Salakhutdinov和Google AI首席科学家William W. Cohen。

周昕宇和吴育昕是月之暗面的两位联合创始人，也都是清华背景，在大模型方面有非常丰富的工程和算法经验。

目前，月之暗面组建了50人左右团队，半数以上的成员拥有海外经历，分别来自谷歌、Meta、亚马逊等全球科技巨头，整体团队包括了NLP、CV、RL、Infra等方面人才，做了很多有世界级影响力的工作。

比如，在大模型方向，团队成员发明了RoPE相对位置编码，是Meta LLaMa和谷歌PALM等大多数主流模型的重要组成部分；发明了group normalization，是Stable Diffusion等AI模型成功的关键组件。杨植麟本人以一作身份发表了XLNet与Transformer-XL，Transformer-XL成为首个全面超越 RNN 的注意力语言模型，论文成为NeurIPS 2019与ACL 2019的最高引论文之一；XLNet则在20项任务上超越谷歌BERT模型。

在视觉领域，团队成员发明了MoCo，引爆了基于对比学习的视觉预训练范式，也是过去三年CVPR引用量最高的工作；发明了ShuffleNet，最高效的视觉网络结构之一；主导开发了detectron2，一个被广泛使用的视觉开源项目并被集成到Meta全线VR/AR产品中。

在基础设施方面，团队核心成员曾带领数十人从零开发世界领先的深度学习框架，也具备数千卡集群全自动化硬件运维告警、数百亿特征检索、大规模（数十PB数据、百万台机器）分布式系统数量级性能优化的经验。

在强化学习方面，团队成员作为一作提出了基于关系学习的少样本方法，得到斯坦福大学、谷歌、MIT、亚马逊等团队的使用和扩展，并获得过OpenAI RL联创及负责人John Schulman亲自邀请加盟。

除了技术层面，月之暗面也吸纳了很多优秀的产品人才，曾操盘过几亿DAU产品经验。

在豪华的人才团队加持下，月之暗面也很快得到了投资人的青睐，已获得来自红杉资本、真格基金、今日资本、励思资本等投资机构近20亿元的融资，估值超过3亿美元。

3.要做AI时代的Super App

从商业模式的角度来看，大模型分为to B与to C两大阵营。尽管在商业落地的探索中，月之暗面保持着开放的心态，但其核心定位放在了to C上。

对于业务定位，杨植麟是以终为始地看待这一问题的。月之暗面名字的由来，就是为了探索智能边界，并且让智能真正有用、实现个性化价值，这就需要提高技术与产品的迭代效率。

“迭代效率是我们现在非常重要的关键词，它决定了企业文化、人才结构，决定了做这件事的最终思路。当把这些纬度结合起来，to C就是一个自然而言的选择。”杨植麟表示。

杨植麟认为，AI Native的产品会在to C领域产生新的流量入口，成为AI时代的Super App，这是一个非常大的机会。

而要想做Super App，就必须用自研模型，因为“只有自研模型才能在用户体验上产生差异化”。

这一观点已经逐渐成为业内共识。比如在近期最新YC校友分享会上，OpenAI CEO阿尔特曼发表演讲时也表示，“套壳”OpenAI的公司注定不会长久。

对于当前很热门的开源模型，杨植麟认为本质上是一种to B的获客工具，或者是在Super App之外的长尾应用，才可能基于开源模型去发挥数据的优势或场景的优势。

但开源模型无法构建产品壁垒。比如，在海外有几百个基于开源扩散模型Stable Diffusion的应用出现，但最后其实没有任何一个跑出来。

其次，无法在开源技术的基础上通过数据的虹吸效应让模型持续地优化，因为开源模型本身是分布式部署，没有一个集中的地方接收数据。

因此，杨植麟坚定地表示，不管是从底层逻辑还是当前的现象，都需要通过闭源模型构建产品壁垒。

在落地场景上，杨植麟表示会在不同的方向去尝试，比如娱乐场景、生产力工具场景等，而非局限在很狭窄的方向上。

杨植麟并未透露很多细节，但表示最终考验的是技术上能否做到领先，产品上能否快速找到市场PMF，这还是一个巨大的空白市场。

月之暗面当前的核心战略，就是通过自研的方式，在to C领域打造一个Super App，把握AI时代的流量入口。

(封面图来源：月之暗面）

END.

点击文末“阅读原文”

进入「甲子光年」官网

了解更多精彩内容

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章