Redian新闻
>
刚刚,百川智能Baichuan2-192K发布,上下文窗口全球最长!一次读完《三体》,拿下7个SOTA

刚刚,百川智能Baichuan2-192K发布,上下文窗口全球最长!一次读完《三体》,拿下7个SOTA

公众号新闻



  新智元报道  

编辑:编辑部
【新智元导读】全球最长上下文窗口来了!今日,百川智能发布Baichuan2-192K大模型,上下文窗口长度高达192K(35万个汉字),是Claude 2的4.4倍,GPT-4的14倍!

长上下文窗口领域的新标杆,来了!

今天,百川智能正式发布全球上下文窗口长度最长的大模型——Baichuan2-192K。

与以往不同的是,此次模型的上下文窗口长度高达192K,相当于约35万个汉字。

再具体点,Baichuan2-192K能够处理的汉字是GPT-4(32K上下文,实测约2.5万字)的14倍,Claude 2(100K上下文,实测约8万字)的4.4倍,可以一次性读完一本《三体》。

Claude一直以来保持的上下文窗口记录,在今天被重新刷新

把三体第一部《地球往事》丢给它,Baichuan2-192K稍加咀嚼,便立刻对整个故事了如指掌。

汪淼看到的倒计时里第36张照片上的数字是多少?答:1194:16:37。 
他使用的相机是什么型号?答:徕卡M2。
他和大史一共喝过几次酒?答:两次。

再看看第二部《黑暗森林》,Baichuan2-192K不仅一下就答出了地球三体组织建立了两个红岸基地,「水滴」是由强互作用力材料制作的。

而且,就连「三体十级学者」都未必能答上来的冷门问题,Baichuan2-192K也是对答如流,信手拈来。

谁的名字出现次数最多?答:罗辑。

可以说,当上下文窗口扩展到了35万字,大模型的使用体验,仿佛忽然打开了一个新世界!

全球最长上下文,全面领先Claude 2

大模型,会被什么卡脖子?
以ChatGPT为例,虽然能力让人惊叹,然而这个「万能」模型却有一个无法回避的掣肘——最多只支持32K tokens(2.5万汉字)的上下文。而律师、分析师等职业,在大部分的时间里需要处理比这长得多的文本。
更大的上下文窗口,可以让模型从输入中获得更丰富的语义信息,甚至直接基于全文理解进行问答和信息处理。
由此,模型不仅能更好地捕捉上下文的相关性、消除歧义,进而更加精准地生成内容,缓解「幻觉」问题,提升性能。而且,也可以在长上下文的加持下,与更多的垂直场景深度结合,真正在人们的工作、生活、学习中发挥作用。
最近,硅谷独角兽Anthropic先后获得亚马逊投资40亿、谷歌投资20亿。能获得两家巨头的青睐,当然跟Claude在长上下文能力技术上的领先不无关系。
而这次,百川智能发布的Baichuan-192K长窗口大模型,在上下文窗口长度上远远超过了Claude 2-100K,而且在文本生成质量、上下文理解、问答能力等多个维度的评测中,也取得了全面领先。

10项权威评测,拿下7个SOTA

LongEval是由加州大学伯克利分校联合其他高校发布的针对长窗口模型评测的榜单,主要衡量模型对长窗口内容的记忆和理解能力。
上下文理解方面,Baichuan2-192K在权威长窗口文本理解评测榜单LongEval上大幅领先其他模型,窗口长度超过100K后依然能够保持非常强劲的性能。
相比之下,Claude 2窗口长度超过80K后整体效果下降非常严重。
此外,Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现同样优异。
其中,有7项取得了SOTA,性能显著超过其他长窗口模型。
在文本生成质量方面,困惑度是一个非常重要的标准。
可以简单理解为,将符合人类自然语言习惯的高质量文档作为测试集时,模型生成测试集中文本的概率越高,模型的困惑度就越小,模型也就越好。
根据DeepMind发布的「语言建模基准数据集PG-19」的测试结果,Baichuan2-192K的困惑度在初始阶段便很优秀,并且随着窗口长度扩大,Baichuan2-192K的序列建模能力也持续增强。

工程算法联合优化,长度性能同步提升

虽然长上下文可以有效提升模型性能,但超长的窗口也意味着需要更强的算力,以及更多的显存。
目前,业界普遍的做法是滑动窗口、降低采样、缩小模型等等。
然而,这些方式都会在不同程度上,牺牲模型其他方面的性能。
为了解决这一问题,Baichuan2-192K通过算法和工程的极致优化,实现了窗口长度和模型性能之间的平衡,做到了窗口长度和模型性能的同步提升。
首先,在算法方面,百川智能提出了一种针对RoPE和ALiBi动态位置编码的外推方案——能够对不同长度的ALiBi位置编码进行不同程度的Attention-mask动态内插,在保证分辨率的同时增强了模型对长序列依赖的建模能力。
其次,在工程方面,百川智能在自主开发的分布式训练框架基础上,整合了包括张量并行、流水并行、序列并行、重计算以及Offload等市面上几乎所有的先进优化技术,独创出了一套全面的4D并行分布式方案——能够根据模型具体的负载情况,自动寻找最适合的分布式策略,极大降低了长窗口训练和推理过程中的显存占用。

内测正式开启,一手体验出炉

现在,Baichuan2-192K已经正式开启内测!
百川智能的核心合作伙伴已经通过 API 调用的方式将Baichuan2-192K 接入到了自己的应用和业务当中,现在已有财经类媒体、律师事务所等机构和百川智能达成了合作。
可以想象,随着Baichuan2-192K全球领先的长上下文能力应用到传媒、金融、法律等具体场景中,无疑会给大模型落地拓展出更广阔的空间。
通过API,Baichuan2-192K能有效融入更多垂直场景,与之深度结合。
以往,巨量内容的文档,往往成为我们在工作、学习中难以跨越的大山。
而有了Baichuan2-192K,就能一次性处理和分析数百页的材料,进行关键信息的提取和分析。
无论是长文档摘要/审核,长篇文章或报告的编写,还是复杂的编程辅助,Baichuan2-192K都将提供巨大的助力。
对于基金经理,它可以帮忙总结和解释财务报表,分析公司的风险和机遇。
对于律师,它可以帮助识别多个法律文件中的风险,审核合同和法律文件。
对于开发者,它可以帮忙阅读数百页的开发文档,还能回答技术问题。
而广大科研人员,从此也有了科研利器,可以快速浏览大量论文,总结最新的前沿进展。
除此之外,更长的上下文还蕴涵着更加巨大的潜力。
Agent、多模态应用,都是当前业内研究的前沿热点。而大模型有了更长的上下文能力,就能更好地处理和理解复杂的多模态输入,实现更好的迁移学习。

上下文长度,兵家必争之地

可以说,上下文窗口长度,是大模型的核心技术之一。
现在,许多团队都开始以「长文本输入」为起点,打造底座大模型的差异化竞争力。如果说参数量决定了大模型能做多复杂的计算,上下文窗口长度,则决定了大模型有多大「内存」。
Sam Altman就曾表示,我们本以为自己想要的是会飞的汽车,而不是140/280个字符,但实际上我们想要的是32000个token。
国内外,对扩大上下文窗口的研究和产品可谓是层出不穷。
今年5月,拥有32K上下文的GPT-4,就曾引发过激烈的讨论。
当时,已经解锁这一版本的网友大赞称,GPT-4 32K是世界上最好的产品经理。
很快,初创公司Anthropic宣布,Claude已经能够支持100K的上下文token长度,也就是大约75,000个单词。
换句话说就是,一般人用时大约5个小时读完等量内容后,还得用更多的时间去消化、记忆、分析。对于Claude,不到1分钟就搞定。
在开源社区,Meta也提出了一种可以有效扩展上下文能力的方法,能够让基础模型的上下文窗口达到32768个token,并在各种合成上下文探测、语言建模任务上都取得了显著的性能提升。
结果表明,70B参数量的模型就已经在各种长上下文任务中实现了超越gpt-3.5-turbo-16k的性能。

论文地址:https://arxiv.org/abs/2309.16039
港中文和MIT团队研究人员提出的LongLoRA方法,只需两行代码、一台8卡A100机器,便可将7B模型的文本长度拓展到100k tokens,70B模型的文本长度拓展到32k tokens。

论文地址:https://arxiv.org/abs/2309.12307
而来自DeepPavlov、AIRI、伦敦数学科学研究所的研究人员则利用循环记忆Transformer(RMT)方法,将BERT的有效上下文长度提升到「前所未有的200万tokens」,并且保持了很高的记忆检索准确性。
不过,虽然RMT可以不增加内存消耗,能够扩展到近乎无限的序列长度,但仍然存在RNN中的记忆衰减问题,并且需要更长的推理时间。

论文地址:https://arxiv.org/abs/2304.11062
目前,LLM的上下文窗口长度主要集中在4,000-100,000个token这个范围之间,并且还在持续增长。
通过AI产业界和学术界对上下文窗口的多方面研究,足见其对于LLM的重要性。
而这一次,国内的大模型迎来了最长上下文窗口的历史高光时刻。
刷新行业纪录的192K上下文窗口,不仅代表着百川智能这家明星公司在大模型技术上又一次突破,也是大模型发展过程中的又一里程碑式进展。而这,必然会给产品端形态改革带来新一轮的震动。
成立于2023年4月的百川智能,用了仅仅6个月的时间,便接连发布了Baichuan-7B/13B,Baichuan2-7B/13B四款开源可免费商用大模型,以及Baichuan-53B、Baichuan2-53B两款闭源大模型。
这么算来,基本上是一月一更LLM。
现在,随着Baichuan2-192K的发布,大模型长上下文窗口技术也将全面走进中文时代!



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
网飞《三体》剧集发布定档预告;新《加菲猫》动画电影首曝海报百川智能发布Baichuan2,王小川:中国企业用LLaMA2的时代过去了|甲子光年OpenAI CEO称没兴趣参与智能手机竞争;杨立昆反对过早监管AI;百川智能完成A轮3亿美元融资|AIGC周观察第二十一期全球最强长文本大模型,一次可读35万汉字:Baichuan2-192K上线《三体》与它,谁是“史上最好的科幻小说”最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星ChatGPT测试上传文件功能;百川推出192K长文本大模型;通义千问App安卓版上线丨AIGC大事日报Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT春游-话说叠字百川智能推出全球最长上下文窗口大模型Baichuan2-192K,一次可输入35万字超越Claude2百川智能再发新模型,超越Claude2将上下文窗口做到了全球第一《三体》里的科学家活在2023年,能搞出什么惊人的名堂?Meta普林斯顿提出LLM上下文终极解决方案!让模型化身自主智能体,自行读取上下文节点树【解字】理解混合精度下位置编码竟有大坑,llama 等主流开源模型纷纷中招!百川智能给出修复方案Corsica 2023大反转!奥特曼回归OpenAI ?;微软发布人工智能芯片;百度李彦宏:重复造大模型是浪费;阿里巴巴、百川智能、极睿科技等最新消息2行代码,「三体」一次读完!港中文贾佳亚团队联手MIT发布超长文本扩展技术,打破LLM遗忘魔咒"妈妈让我来自首",7岁男孩在派出所写下"bǎozhèng书"智能周报|美国更新「芯片禁令」;百川智能和智谱AI迄今已融资超25亿元;Meta实现对大脑视觉皮层的实时解码贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增 | GitHub热榜百川智能开源最新商用大模型!王小川:比LLaMA更香,下一枪打ChatGPT燃情岁月1989(23)游族网络创始人被毒杀案今日开庭!手握多部热门IP,《三体》IP尚未形成核心竞争力小度之父景鲲离职百度;OpenAI拟自研AI芯片;雷军连番注资百川智能丨AIGC大事日报读完《杨绛传》,我治好了自己的“脆皮心态”GPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录性能碾压Llama 2,全球下载量超500万,百川智能开源模型凭什么?雷军发文跟MIUI说再见:小米启用全新操作系统;苹果将捐款2500万支持中国乡村发展;百川智能完成3亿美元A1轮融资丨邦早报百川智能获阿里腾讯等3亿美元投资;vivo AI助手Jovi Copilot曝光;商汤推医疗健康大模型“大医”丨AIGC大事日报百川智能发布Baichuan2大模型:全面领先Llama2,训练切片也开源了王者GPT-4已来,32k上下文!OpenAI首届开发者大会最新爆料,全新UI可定制GPT,xAI大模型大范围可用“李南央状告海关案”跟进报道(一百零九) ——继续拭目以待YaRN:一种高效RoPE扩展方法,可推理更长上下文并达到SOTAChatGPT之父剑桥演讲遭抵制;百川智能推出192K大模型;影星斯嘉丽起诉AI开发商|AIGC周观察第二十三期
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。