Redian新闻
>
百川智能推出全球最长上下文窗口大模型Baichuan2-192K,一次可输入35万字超越Claude2

百川智能推出全球最长上下文窗口大模型Baichuan2-192K,一次可输入35万字超越Claude2

公众号新闻

10月30日,百川智能发布Baichuan2-192K大模型,上下文窗口长度高达192K,是目前全球最长的上下文窗口。Baichuan2-192K能够一次处理约35万个汉字,是目前支持长上下文窗口最优秀大模型Claude2(支持100K上下文窗口,实测约8万字)的4.4倍,更是GPT-4(支持32K上下文窗口,实测约 2.5万字)的14倍。

Baichuan2-192K不仅在上下文窗口长度上超越Claude2,在长窗口文本生成质量、长上下文理解以及长文本问答、摘要等方面的表现也全面领先Claude2。

今年9月25日,百川智能已开放了Baichuan 2的API接口,正式进军企业级市场,开启商业化进程。此次Baichuan2-192K将以API调用和私有化部署的方式提供给企业用户,目前百川智能已经启动Baichuan2-192K的API内测,开放给法律、媒体、金融等行业的核心合作伙伴。

10项长文本评测7项取得SOTA

全面领先Claude2

Baichuan2-192K在Dureader、NarrativeQA、LSHT、TriviaQA等10项中英文长文本问答、摘要的评测集上表现优异,有7项取得SOTA,显著超过其他长窗口模型。
此外,LongEval的评测结果显示,在窗口长度超过100K后Baichuan2-192K依然能够保持非常强劲的性能,而其他开源或者商用模型在窗口长度增长后效果都出现了近乎直线下降的情况。Claude2也不例外,在窗口长度超过80K后整体效果下降非常严重。

(LongEval是加州大学伯克利分校联合其他高校发布的针对长窗口模型的评测榜单,主要用来衡量模型对长窗口内容的记忆和理解能力,是业内公认的长上下文窗口理解权威评测榜单)


动态采样的位置编码优化

4D并行的分布式方案

同步提升窗口长度和模型性能

超长上下文窗口意味着更高的算力需求和更大的显存压力。目前,业内有很多提升上下文窗口长度的方式,包括滑动窗口、降采样、小模型等。这些方式虽然能提升上下文窗口长度,但对模型性能均有不同程度的损害,换言之都是通过牺牲模型其他方面的性能来换取更长的上下文窗口。
Baichuan2-192K通过算法和工程的极致优化,实现了窗口长度和模型性能之间的平衡,做到了窗口长度和模型性能的同步提升。
算法方面,百川团队提出了一种针对RoPE和ALiBi动态位置编码的外推方案,该方案能够对不同长度的ALiBi位置编码进行不同程度的Attention-mask动态内插,在保证分辨率的同时增强了模型对长序列依赖的建模能力。在长文本困惑度标准评测数据 PG-19上,当窗口长度扩大,Baichuan2-192K的序列建模能力持续增强。
(PG-19是DeepMind发布的语言建模基准数据集,是业内公认的衡量模型长程记忆推理问题的评测标准)
工程方面,在自主开发的分布式训练框架基础上,百川团队整合目前市场上所有先进的优化技术,包括张量并行、流水并行、序列并行、重计算以及Offload功能等,独创了一套全面的4D并行分布式方案。该方案能够根据模型具体的负载情况,自动寻找最适合的分布式策略,极大降低了长窗口训练和推理过程中的显存占用。

百川团队在算法和工程上针对长上下文窗口的创新,不仅是大模型技术层面的突破,对于学术领域同样有着重要意义。Baichuan2-192K验证了长上下文窗口的可行性,为大模型性能提升开拓出了新的科研路径。


Baichuan2-192K正式开启内测

已落地法律、媒体等诸多真实场景

Baichuan2-192K现已正式开启内测,以API调用的方式开放给百川智能的核心合作伙伴,已经与财经类媒体及律师事务所等机构达成了合作,将Baichuan2-192K全球领先的长上下文能力应用到了传媒、金融、法律等具体场景当中,不久后将全面开放。
全面开放API之后,Baichuan2-192K便能够与更多垂直场景深度结合,真正在人们的工作、生活、学习中发挥作用,助力行业用户更好的降本增效。Baichuan2-192K能够一次性处理和分析数百页材料,对于长篇文档关键信息提取与分析,长文档摘要、长文档审核、长篇文章或报告编写、复杂编程辅助等真实场景都有巨大的助力作用。
它可以帮助基金经理总结和解释财务报表,分析公司的风险和机遇;帮助律师识别多个法律文件中的风险,审核合同和法律文件;帮助技术人员阅读数百页的开发文档,并回答技术问题;还能帮助科研人员快速浏览大量论文,总结最新的前沿进展。
不仅如此,更长的上下文还为Baichuan2-192K更好的处理和理解复杂的多模态输入,以及实现更好的迁移学习提供了底层支撑,这将为行业探索Agent、多模态应用等前沿领域打下良好技术基础。
Baichuan2-192K是百川智能发布的第7款大模型,成立至今百川智能平均每个月就会发布一款大模型,研发速度处于行业顶尖水平。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增 | GitHub热榜GPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2【解字】理解OpenAI CEO称没兴趣参与智能手机竞争;杨立昆反对过早监管AI;百川智能完成A轮3亿美元融资|AIGC周观察第二十一期燃情岁月1989(23)Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT大反转!奥特曼回归OpenAI ?;微软发布人工智能芯片;百度李彦宏:重复造大模型是浪费;阿里巴巴、百川智能、极睿科技等最新消息王者GPT-4已来,32k上下文!OpenAI首届开发者大会最新爆料,全新UI可定制GPT,xAI大模型大范围可用百川智能获阿里腾讯等3亿美元投资;vivo AI助手Jovi Copilot曝光;商汤推医疗健康大模型“大医”丨AIGC大事日报“李南央状告海关案”跟进报道(一百零九) ——继续拭目以待PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍刚刚,百川智能Baichuan2-192K发布,上下文窗口全球最长!一次读完《三体》,拿下7个SOTAChatGPT测试上传文件功能;百川推出192K长文本大模型;通义千问App安卓版上线丨AIGC大事日报全球首个支持输入20万字的大模型来了!一口气读几十个文档、一本20万字的小说全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%ChatGPT之父剑桥演讲遭抵制;百川智能推出192K大模型;影星斯嘉丽起诉AI开发商|AIGC周观察第二十三期Corsica 2023百川智能再发新模型,超越Claude2将上下文窗口做到了全球第一百川智能开源最新商用大模型!王小川:比LLaMA更香,下一枪打ChatGPT百川智能发布Baichuan2,王小川:中国企业用LLaMA2的时代过去了|甲子光年Meta普林斯顿提出LLM上下文终极解决方案!让模型化身自主智能体,自行读取上下文节点树讯飞星火:整体超越ChatGPT,医疗超越GPT4!一手实测在此春游-话说叠字「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练全球最强长文本大模型,一次可读35万汉字:Baichuan2-192K上线百川智能发布Baichuan2大模型:全面领先Llama2,训练切片也开源了UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源混合精度下位置编码竟有大坑,llama 等主流开源模型纷纷中招!百川智能给出修复方案耶鲁&谷歌提出HyperAttention:近线性时间的长上下文注意力一句话解锁100k+上下文大模型真实力,27分涨到98,GPT-4、Claude2.1适用性能碾压Llama 2,全球下载量超500万,百川智能开源模型凭什么?RAG+GPT-4 Turbo让模型性能飙升!更长上下文不是终局,「大海捞针」实验成本仅4%智能周报|美国更新「芯片禁令」;百川智能和智谱AI迄今已融资超25亿元;Meta实现对大脑视觉皮层的实时解码YaRN:一种高效RoPE扩展方法,可推理更长上下文并达到SOTA
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。