Redian新闻
>
首个可商用的32k上下文开源大模型「长颈鹿」来了,两万词长文不在话下

首个可商用的32k上下文开源大模型「长颈鹿」来了,两万词长文不在话下

公众号新闻
机器之心报道
机器之心编辑部
大模型的上下文长度已经卷起来了。

依赖于注意力机制的大型语言模型(LLM)通常在训练时通常使用固定的上下文长度,模型可以处理的输入序列长度也就有了上限。因此,有很多研究探索了上下文「长度外推(length extrapolation)」方法。


上下文长度外推是指使用较短上下文长度训练过的 LLM,在较长语上下文长度上进行评估,而不针对长上下文做进一步训练。其中,大多数研究都侧重于修改注意力机制中的位置编码系统。


现在,来自 Abacus.AI 的研究团队对现有基于 LLaMA 或 LLaMA 2 模型的上下文长度外推方法进行了广泛的调查,并提出一种新的 truncation 策略。



  • 论文地址:https://arxiv.org/abs/2308.10882

  • 项目地址:https://github.com/abacusai/long-context


为了验证这种 truncation 策略的有效性,该研究发布了三个新的 13B 参数长上下文模型 ——Giraffe,包括两个基于 LLaMA-13B 训练而成的模型:上下文长度分别为 4k 和 16k;一个基于 LLaMA2-13B 训练而成的模型,上下文长度是 32k,该模型也是首个基于 LLaMA2 的 32k 上下文窗口开源 LLM。


Abacus.AI 的 CEO Bindu Reddy 在推特介绍道。


32k 的上下文窗口是什么概念呢?大概就是 24000 个词,也就是说开源模型 Giraffe 能够处理一篇 2 万字的长文。


图源:https://twitter.com/akshay_pachaar/status/1694326174158143619


方法简介


随着上下文长度的扩展,LLM 架构中的注意力机制会让内存使用量和计算量呈二次增加,因此长度外推方法至关重要。


该研究整理了当前一些有效的上下文长度外推方法,并对它们进行了全面的测试,以确定哪些方法最有效,包括线性缩放、xPos、随机位置编码等。并且,研究团队还提出了几种新方法,其中一种称为 truncation 的新方法在测试中非常有效。



首先,评估 LLM 性能的难点之一是选择正确的评估方法,一个常用的指标是下一个 token 的困惑度,它能够衡量模型根据上下文预测下一个 token 的能力。然而,研究团队认为,通常只需根据整个可用上下文中的一小部分,生成合理连贯的文本分布,就能在该指标上获得良好的结果,因此不适用于长上下文。


为了分析模型在长上下文情况下的性能,该研究使用模型召回(recall)的准确率作为衡量指标,并发布了三个用于评估模型长上下文性能的数据集,分别是 LongChat-Lines、FreeFormQA 和 AlteredNumericQA。其中,LongChat-Lines 用于键 - 值检索任务;FreeFormQA 和 AlteredNumericQA 则是基于自然问题数据集的问答数据集。这三个数据集可以评估 LLM 在键 - 值检索任务和问题解答任务上的能力,模型关注的上下文长度越长,获得的准确率才会越高。




实验及结果


研究团队使用上述三个新数据集对几种上下文长度外推方法进行了评估实验。在 LongChat-Lines 上的实验结果如下表 1 所示:



在 FreeFormQA 和 AlteredNumericQA 数据集上的评估结果如下表 2 和表 3 所示:




总体而言,线性缩放效果最好,truncation 显示出一些潜力,而 xPos 方法无法在微调中自适应。


感兴趣的读者可以阅读论文原文,了解更多研究内容。


参考链接:

https://twitter.com/bindureddy/status/1694126931174977906

https://blog.abacus.ai/blog/2023/08/22/giraffe-long-context-llms/



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
免费、可商用,阿里云开源70亿参数通义千问大模型大模型「上车」关键一步:全球首个语言+自动驾驶全栈开源数据集来了「目前最好的文生视频AI」来了!做广告、电影都不在话下,网友:很丝滑国产语音对话大模型来了:李开复零一万物参与,中英双语多模态,开源可商用中文LLaMA-2刷榜,开源可商用!千元预算,训练半天,效果媲美主流大模型卷疯了!研0就要发论文?!得亏我偶遇发文法宝,10分+也不在话下……西工大新技术亮相了,千米海底能潜伏60天!伏击航母不在话下太值了!19.9买了个切菜小能手,粗丝、细丝、切花、切片,做蒜蓉,统统不在话下!一秒拥有绝&刀工!还不伤手!王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署32k上下文可商用!羊驼进化成长颈鹿,“开源大模型之最”UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源Meta发布首个开源可商用LLM,硬刚OpenAI和谷歌两大巨头650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目莫怨枯寒梅田渊栋团队最新研究:不到1000步微调,将LLaMA上下文扩展到32K阿里大模型又开源!能读图会识物,基于通义千问7B打造,可商用百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元中文版开源Llama 2同时有了语言、多模态大模型,完全可商用全球首个可商用生物医药大模型BioMedGPT-10B开源全面超越AutoGPT,面壁智能联合清华NLP实验室开源大模型「超级英雄」XAgent下载量超300w的ChatGLM-6B再升级:8-32k上下文,推理提速42%Meta普林斯顿提出LLM上下文终极解决方案!让模型化身自主智能体,自行读取上下文节点树ChatGPT企业版来了:历史最强版本,2倍速GPT-4使用无限制、32k上下文无限量访问GPT-4!ChatGPT企业版来了,可扩展32k上下文,代码解释器随便用爱奇艺VR公司业务停滞,员工或被欠薪;阿里云开源通义千问 70 亿参数模型,免费可商用;华为正式发布鸿蒙 4,接入大模型|Q资讯Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT瓦格纳反水的启示---要善待厨子国产130亿参数大模型免费商用!性能超Llama2-13B,支持8k上下文,哈工大已用上增强版开源Llama2 终可商用;5G消息真的要来了,工信部最新通知;微软英伟达市值一夜飙升1750亿美元 | AIoT情报ChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光泰国诗圣苏东坡第三章 旧文明的社会组织 (全文)5100 血壮山河之武汉会战 浴血田家镇 8将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。