国际科技财经博客移民网络热点娱乐民生时事公众号

>

Hyena成下一代Transformer？StripedHyena-7B开源：最高128k输入，训练速度提升50%

Hyena成下一代Transformer？StripedHyena-7B开源：最高128k输入，训练速度提升50%

公众号新闻

2024-01-02 05:01

新智元报道

编辑：LRS

【新智元导读】Hyena处理长序列输入比FlashAttention速度高100倍！最新发布的StripedHyena模型可能成下一代AI架构的新标准？

最近几年发布的AI模型，如语言、视觉、音频、生物等各种领域的大模型都离不开Transformer架构，但其核心模块「注意力机制」的计算复杂度与「输入序列长度」呈二次方增长趋势，这一特性严重限制了Transformer在长序列下的应用，例如无法一次性处理一整本书，或是处理千兆像素级别的图像。

即便强如GPT-4也难以摆脱这种缺陷。

最近，Together Research开源了一个全新的语言模型StripedHyena，采用了针对「长上下文」的新架构，可以处理高达128k个token的长上下文，并且改进了Transformer架构在训练和推理上的性能，为目前的主流架构提供了一种可选方案。

开源链接：https://github.com/togethercomputer/stripedhyena

StripedHyena也是「首个」在短上下文和长上下文评估中，以相同模型尺寸，实现了与最佳开源Transformer模型性能相匹敌的模型：在OpenLLM基准任务上与Llama-2, Yi和Mistral 7B实现了相当的性能，并且在长上下文摘要上表现更出色。

StripedHyena是一种混合架构，由多头、分组查询注意力和排列在Hyena块中的门控卷积组成，不同于传统的decoder-only的Transformer：通过将卷积表示为状态空间模型（SSM，state-space model）或截断滤波器，在Hyena块中进行常数内存解码。

实验结果显示，StripedHyena在32k个token、64k个token和128k个token序列的端到端训练中比传统transformer快30%、50%和100%以上。

SH 7B的另一个优点是，与Transformer相比，自回归生成期间的内存占用减少了50%以上；在Transformers中，每个层的键和值在预填充阶段被缓存，以避免重新计算并加快增量解码。

Hyena块

现有的基于低秩和稀疏近似的次二次（subquadratic）方法需要与稠密的注意层相结合才能匹配Transformer，也就是说二者在表达能力上存在差距。

也就是说，注意力机制在语言处理中只利用了其二次方能力的一小部分，所以研究问题在于，是否存在一个次二次算子，在大规模训练时的性能可以与注意力机制相匹敌？

今年2月，来自斯坦福大学和蒙特利尔大学（Mila and Université de Montréal）的研究人员提出了一个次二次下降的注意力替代品Hyena：在对数千到数十万个token的序列进行召回和推理任务时，Hyena比依赖于状态空间和其他隐式和显式方法的运算符提高了50多个点的准确性，匹配基于注意力的模型。

论文链接：https://arxiv.org/abs/2302.10866

研究人员在标准数据集（WikiText 103和The Pile）的语言建模上设置了一个新的免密集注意力架构，达到了Transformer的质量，在序列长度为2k时所需的训练计算减少了20%；在序列长度为8k时，Hyena算子的速度是高度优化注意力的两倍，在序列长度为64k时，速度快100倍。

研究人员对高效次二次primitive进行组合，如元素乘法（门控）和长卷积（即滤波器大小与输入一样长的卷积），最终从实验结果中得到了肯定的答案。

根据最近在机制可解释性方面所做的工作（如召回recall和归纳induction），研究人员制定了一系列有针对性的推理任务，以提炼出注意力与其性能相关的三个特性，以及与现有次二次元方法之间的质量差距：

1. 数据控制（Data control）

注意力机制实现了一种富有表现力的数据控制线性算子，在单个块中对整个线性函数族进行编码。

2. 次线性参数缩放（sublinear parameter scaling）

将注意力层的参数数量与序列长度脱钩，允许Transformers在注意力层之间的其他地方分配更多参数，例如前馈神经网络（FFN）。

3. 无限制的上下文（unrestricted context）

对于给定的输入，注意力具有不受限制的上下文，可以近似任意两个输入之间的依赖关系，而不受任意限制，如局部性（locality）；但使用掩码的情况除外，如自回归模型。

Hyena层次结构

基于上述三个发现，研究人员提出Hyena层次结构，由两个高效的二次基元递归定义的算子（长卷积和元素乘法门控）组成。

递归的指定深度（即步数）可控制算子的大小；对于短递归，现有模型可作为特例。

通过将 Hyena 递归中的每一步映射到相应的矩阵形式，研究人员发现Hyena算子可以等价地定义为数据控制矩阵的分解，即entries为输入函数的矩阵。

此外，研究人员还展示了如何利用快速卷积算法，在不具体化全矩阵的情况下高效地评估 Hyena 算子。

从经验上看，Hyena 算子能够显著缩小与大规模注意力的质量差距，以更少的计算成本实现了相似的困惑度和下游性能，而且无需混合注意力。

缩小能力差距

设计Hyena的初衷是「标准稠密注意力」和「次二次运算符」之间的存在质量差距，并且可以通过与大规模语言建模性能相关的推理任务来确定这一差距。

研究人员扩展了一套基本的机械可解释性基准（归纳和召回），并增加了额外的任务以探究当任务复杂度增加（如词汇量增加）时，模型性能会如何快速下降。

此外，文中还研究了 Hyena 中长卷积的最佳参数化。

在具有数十万词条的最具挑战性的设置中，隐式参数化方案比其他利用状态空间、频域参数化或标准卷积的算子提高了50%以上的准确率。

语言和视觉中的扩展

研究人员还验证了推理基准套件中的排名是否能预测大规模质量，对Hyena 自回归语言建模进行了十亿以下参数规模的测试，在标准数据集（WikiText103 和 The Pile）中的无稠密注意力架构中实现了新sota，并与Transformer的质量相当。

在3.35亿参数规模的The Pile数据集上，该系统以减少20%浮点运算（FLOPs）总数达到了与Transformer相当的困惑度指标。

作为扩展，研究人员在大规模图像识别中测试了Hyena运算符的通用性，并在视觉Transformer（ViT）中取代了注意力。

在图像分类中，当在ImageNet-1k数据集上从头开始训练时，Hyena 的准确率可以与注意力相媲美。

面向更长的上下文

研究人员还对 Hyena 在长序列上的效率进行了基准测试。在长度为 8192 的序列上，测得的速度是稠密自注意力的 5 倍，是高度优化的 FlashAttention的 2 倍，而在长度为 64k 的序列上，测得的速度是 FlashAttention 的 100 倍。

参考资料：

https://archive.ph/SDJMv#selection-2025.0-2028.0

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

南开&山大&北理工团队开发trRosettaRNA：利用Transformer网络自动预测RNA 3D结构终于有人把Transformer讲清楚了！hé bàng？hé bèng？书识——— 读孙过庭《书谱》NeurIPS 2023 | MixFormerV2：基于Transformer的高效跟踪器大语言模型里的Transformer还可以这么用？谷歌DeepMind力证：GPT-4终局是人类智慧总和！Transformer模型无法超越训练数据进行泛化 ConvNet与Transformer谁更强？Meta评测4个领先视觉模型，LeCun转赞 Transformer挑战者出现！斯坦福CMU联合团队，开源模型及代码，公司已创办 Transformer变革3D建模，MeshGPT生成效果惊动专业建模师，网友：革命性idea Robot Transformers 是什么 Transformer？彭丽媛至哀总理; 哈喽喂看差异 Meta对Transformer架构下手了：新注意力机制更懂推理爆火！清华提出LCM火了！让实时文字生成图像速度提升5-10倍，浏览超百万！仅根据蛋白质序列便可预测相互作用界面，一种基于Transformer的蛋白预测模型破解自注意力推理缺陷的奥秘，蚂蚁自研新一代Transformer或实现无损外推我在Performer中发现了Transformer-VQ的踪迹 Transformer变革3D建模！MeshGPT来了！效果惊动专业建模师。。。MIT斯坦福Transformer最新研究：过度训练让中度模型「涌现」结构泛化能力聊点科学（2）——宇宙起源预测token速度翻番！Transformer新解码算法火了，来自小羊驼团队｜代码已开源 DeepMind指出「Transformer无法超出预训练数据实现泛化」，但有人投来质疑 NeurIPS 2023 | MCUFormer: 可在内存有限微控制器上部署的Vison Transformer模型说说李克强的两岸关系政策红色日记批评高潮 2.16-28 传统卷积已经彻底输给Transformer了吗？改进分子表征学习，清华团队提出知识引导的图 Transformer 预训练框架 Mamba可以替代Transformer，但它们也能组合起来使用开源模型新纪录：超越Mixtral 8x7B Instruct的模型来了重新审视Transformer：倒置更有效，真实世界预测的新SOTA出现了实时文生图速度提升5-10倍，清华LCM/LCM-LoRA爆火，浏览超百万、下载超20万颠覆Transformer霸权！CMU普林斯顿推Mamba新架构，解决致命bug推理速度暴增5倍谷歌DeepMind力证：Transformer模型无法超越训练数据进行泛化！GPT-4终局是人类智慧总和！7B开源数学模型干翻千亿GPT-4，中国团队出品 Yann LeCun点赞！Meta对Transformer架构下手了：新注意力机制更懂推理

热点事件追踪