新的AI模型，将GPU用量降低100倍

2024-01-31 01:01

👆如果您希望可以时常见面，欢迎标星🌟收藏哦~

来源：内容由半导体行业观察（ID：icbank）编译自hpcwire，谢谢。

在市场将索伦之眼转向 GenAI（例如 ChatGPT）之前，传统神经网络受到了大部分关注。这些类型的神经网络的特点是具有一些“短期”记忆，称为循环神经网络或 RNN。它们在 Apple Siri 或 Google Translate 等许多“智能”技术中继续使用，并且绝不过时。

最近，一篇新发表的，题为《RWKV: Reinventing RNNs for the Transformer Era》的论文描述了一种具有 GPT 级别 LLM 性能的 RNN，它也可以像 GPT Transformer（可并行化）一样直接训练，计算要求降低 10 到 100 倍。（即更少的 GPU）。

该论文描述了像 ChatGPT 这样的转换器如何彻底改变了几乎所有自然语言处理 (NLP) 任务，但却受到内存和计算复杂性的影响，这些复杂性与序列长度呈二次方关系（即，向模型添加更多内容，将需要更多内容平方更多的计算资源）计算）。

相比之下，循环神经网络 (RNN) 在内存和计算要求方面表现出线性扩展（即，向模型添加更多内容，将占用成比例/线性数量的计算资源）。然而，由于并行化和可扩展性的限制，RNN 很难达到与 Transformer 相同的性能。

本文提出了一种新颖的模型架构——接收加权键值（RWKV：Receptance Weighted Key Value），它将 Transformer 的高效并行训练与 RNN 的高效推理相结合。

初步结果相当惊人。从积极的一面来看，RWKV 方法提供了：

运行和训练时降低资源使用率（VRAM、CPU、GPU 等）；
与具有大上下文大小的转换器相比，计算要求降低了 10 倍到 100 倍；
线性缩放到任何上下文长度（Transformer 以二次方缩放）；
在回答质量和能力方面表现同样出色；
与大多数现有模型相比，模型通常可以更好地用其他语言（例如中文、日语等）进行训练；

RWKV 模型当前面临的一些挑战是：

对提示格式敏感；您可能需要更改提示模型的方式；
它在需要回顾的任务上较弱，因此相应地重新排列提示（例如，不要说“对于上面的文档，执行 X”，这将需要回顾。而是说“对于下面的文档执行 X”））；
RWKV ( wiki ) 也是 Linux 基金会下一项开源、赞助商支持的非营利项目。他们的目标是结合最好的 RNN 和 Transformer 技术，包括出色的性能、快速推理、训练、VRAM、“无限”上下文长度和自由句子嵌入；

此外，与 LLM 不同，RWKV 100% attention-free。

RWKV 等项目的影响是巨大的。RWKV 模型不需要购买（租用）100 个 GPU 来训练 LLM 模型，而是可以以不到 10 个 GPU 的成本提供类似的结果。

HuggingFace 上提供了预训练、微调的 7B 世界模型（在更大、更多样化的数据组合上训练的基本模型，其中包括来自 100 多种语言的样本，并且经过部分指令训练。）