Redian新闻
>
全球首个支持输入20万字的大模型来了!一口气读几十个文档、一本20万字的小说

全球首个支持输入20万字的大模型来了!一口气读几十个文档、一本20万字的小说

科技


作者丨李扬霞
编辑丨陈彩娴
10月9日,由杨植麟创立的⽉之暗⾯,发布大模型产品——Moonshot AI,以及搭载该模型的智能助⼿Kimi Chat,是全球首个支持20万字输⼊⻓度的大模型。
据杨植麟介绍,Claude支持8万字左右,GPT4 只支持2万字左右。也就是说 Moonshot AI 已经超越了支持 100K 输⼊⻓度的大模型 Claude 以及支持 32K tokens 处理能力的 GPT4 。
其中Claude通过提供⻓⽂本问答服务实现了产品层的突破,并于近期拿下Amazon的40亿美⾦投资。
而⽉之暗⾯在成立不久也已经获得来⾃红杉资本、今⽇资本、砺思资本等知名投资机构近20亿元的融资。
那么杨植麟在国内做大模型的公司里面究竟是一个什么位置呢?
一个硅谷极具影响力的科技媒体The Information列出了其认为有可能成为“中国OpenAI”的五个候选,里面有MiniMax、智谱AI、光年之外以及澜舟科技,而另一个位置就是杨植麟。
杨植麟不仅师从清华教授、IEEE Fellow唐杰。后来他还前往 NLP 研究全球排名第一的 CMU(卡内基梅隆大学)语言技术研究所(LTI),跟随苹果公司 AI 负责人Ruslan Salakhutdinov 和 Google AI 智能首席科学家 William W. Cohen 攻读博士学位。
卡内基梅隆大学计算机专业的博士生往往要经过六年的学习才能毕业,而杨植麟只用了四年(2015-2019)就从CMU出师。
而其团队的核心成员也多出身清华系,有明星团队的光环在身,倍受关注。
杨植麟表示,这次创业瞄准的是ToC赛道,并阐述了创业的三个主要原因:第一,探索智能的边界,满足好奇心;第二,探索的东西对世界有用,和用户共创找到落地的场景;第三,希望AI是普惠的,提供一个更强大的方式,做个性化的结合。

(Kimi Chat内测界面)



1

瞄准ToC赛道
“大模型产品将进入长文本时代,”在媒体沟通会上杨植麟指出。Moonshot AI相信,更⻓的上下⽂⻓度可以为⼤模型应⽤带来全新的篇章,促使⼤模型从 LLM时代进⼊L(Long)LLM时代
“我们认为不光是要有足够多的参数量,同时要有很长的上下文能力,这是标志的新一代大模型的内存。”在杨植麟看来,做好大模型,有两个条件,第一个就是参数量,因为参数量决定了能处理多复杂的计算;第二个条件就是文本长度,因为上下文对应的是计算机的内存。
杨植麟说突破长文本能力是“登月计划”的第一步,也是为之后的多模态能力打基础。他对AI科技评论表示,计划明年会推出多模态能力。
Moonshot AI 的技术路线就是不走捷径,踏实解决算法和工程的双重挑战。在杨植麟看来,目前很多长上下文的模型走的是以下三种捷径:鲸鱼模型、蜜蜂模型、蝌蚪模型。
“鲸鱼模型”可以理解为,以滑动窗口的方式,直接主动抛弃了很多上文,虽然号称的范围很长,但是实际上支持的很短,这种鲸鱼模型是很难解决很多任务。
“蜜蜂模型”是关注局部,忽略了全局,虽然可以输入整个上下文,但模型可能只是采样其中的局部。比如一篇文章的关键在中间,那么它就无法提取到关键信息。
“蝌蚪模型”则是能力不够,可能只有10亿的参数量,并不是千亿级别的,所以能力有限。
目前Moonshot AI在存储、算力、带宽,都做了很多的优化,是一个真正可用可产品化的长文本,杨植麟如是说。



2

长文本处理能力惊人

为什么在这场如火如荼的AI大战中,大模型的长文本处理能力成为了各家攀比的关键。
用过大模型产品的朋友应该遇到过这样一个现象:当你和大模型进行多轮对话,聊着聊着它可能就忘了你之前说话的内容,此时回答的内容也比较拉垮。事实上是大模型在处理大量新内容时会有点“力不从心”,因此看起来像是出现了“分心”的现象。
长文本处理是生成式AI的重要应用场景之一,因为良好的长文本处理能力可以让AI系统理解书籍、研究报告、法律文件等足够复杂和冗长的信息,这将为知识获取、文档分析、语义理解等方面带来实用价值。
沟通会现场,杨植麟为我们演示了,Kimi Chat 在提取20万字小说关键信息的能力;可以一口气输入几十个文档进行提取;同时还能输入链接,直接提取链接内的内容,进行角色扮演;另外还可以分析财报,理解法律条文。
当问及上下文输入过长可能会导致注意力分散问题,杨植麟对AI科技评论表示,当你的输入有 20 万字的时候,要让模型准确的去连到某一个 token 上,这个难度肯定是会变大。所以在这里面其实就需要一些更高效的对齐方式,比如怎么去高效地得到好的数据,同时用一个工程化的方式去把它实现出来,这个需要大量的迭代和训练,而传统的鲸鱼、蜜蜂、蝌蚪模型是无法解决这些问题的。
Moonshot AI 突破这些难点的两个关键词是“全局”和“大规模参数”,一方面是要全局地思考上下文,另一方面是用千亿参数来训练,这两点很重要,杨植麟在最后表示。
AI科技评论看来,目前各家大模型还处于你追我赶的争夺赛当中,未来生成式AI的技术竞赛将在长文本处理领域。
本文作者:李扬霞,微信Dec9102。长期聚焦网络安全领域,同时关注AIGC、大模型等内容,对以上领域感兴趣的读者欢迎添加作者微信。

更多内容,点击下方关注:

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!


公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
余生应该为谁忙通义千问能看图了!阿里云开源视觉语言大模型 Qwen-VL ,支持图文双模态输入NeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型贾佳亚团队开源全球首个70B长文本大语言模型,读论文看小说直接ProMax什么样的科普书才能让孩子爱不释手,一口气读完?通义千问能看图了!阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了日本仲夏风物诗豆瓣 8.5,这本书我一口气读完的!太棒了!腾讯的大模型来了AutoDev 1.4 规模化 AI 研发辅助:团队 Prompts、自定义活文档、代码检视aiXcoder上新了!聚焦企业适配的代码大模型来了驶向未来,首个多视图预测+规划自动驾驶世界模型来了大模型「上车」关键一步:全球首个语言+自动驾驶全栈开源数据集来了百度发布首个量子领域大模型,5分钟内可完成上万字专利文档首个千亿医药对话大模型来了,要打破医药研发“三十定律”几分钟搞定一篇博客,网友:有了这款神器,还要啥谷歌文档、Apple Notes?自闭症的美高毕业生史诗级的大冒险办公党、学生党福音!30秒用文档、甚至一句话“造”出PPT,万字长文一键读懂全美多个支持控枪的大型组织首次联合起来共同支持拜登连任12项性能位居第一,中国最接近GPT-4的大模型来了!现已全面开放服务!在意大利研读美食的一年(106)去柏林支持20万字输入,月之暗面杨植麟:千亿大模型进入“长文本”时代 | 甲子光年打通大模型训练任督二脉!国内首个千亿参数、全面开源大模型来了,还联手开发者共训大模型如何开启输入法的“iPhone时刻”?对话讯飞输入法总经理程坤这碗火遍小红书的冰淇淋酸奶盒饭,有趣又好吃!一折、一撕、一拌,高颜值、料超多~百川智能推出全球最长上下文窗口大模型Baichuan2-192K,一次可输入35万字超越Claude2奴隶、奴隶制与奴隶社会视觉模型+大语言模型:首个支持10K+帧长视频理解任务的新型框架引入大语言模型、首个支持国产算力生态,全新开源RL框架RLLTE来了首个全面开源的千亿模型来了!源2.0全家桶击破算力限制,代码数学强到发指4个月狂揽两千万,国内首个披露营收的大模型来了!李开复零一万物发布首款大模型;马斯克xAI发布首个大模型;360、美团、昆仑万维等最新消息;vivo发布蓝心AI大模型工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型澳航飞行员大罢工,数十个支线航班被取消!薪资问题尚未达成一致!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。