国际科技财经博客移民网络热点娱乐民生时事公众号

>

RWKV项目原作解读：在Transformer时代重塑RNN

RWKV项目原作解读：在Transformer时代重塑RNN

公众号新闻

2023-06-04 04:06

机器之心最新一期线上分享邀请到了新加坡国立大学博士侯皓文，现 RWKV Foundation 成员，为大家分享他们团队的开源项目 RWKV。

Transformer 已经彻底改变了几乎所有自然语言处理（NLP）任务，但其在序列长度上的内存和计算复杂度呈二次方增长。相比之下，循环神经网络（RNN）在内存和计算需求上呈线性扩展，但由于并行化和可扩展性的限制，难以达到 Transformer 相同的性能。

基于此，该研究团队提出了一种新颖的模型架构，即 Receptance Weighted Key Value（RWKV），将 Transformer 的高效可并行训练与RNN的高效推理相结合。该方法利用了线性注意机制，并使得模型既可以作为 Transformer，也可以作为 RNN 来构建，从而实现了在训练过程中的计算并行化，并在推理过程中保持恒定的计算和内存复杂度，这使得它成为第一个可以扩展到数百亿参数的非 Transformer 架构。

实验结果显示，RWKV 的性能与大小相似的 Transformer 相当，这表明未来的工作可以利用这种架构创建更高效的模型。这项工作在平衡序列处理任务中的计算效率和模型性能之间的权衡方面迈出了重要的一步。

分享主题： 新型RNN模型RWKV，结合Transformer的并行化训练优势和RNN的高效推理

分享嘉宾：2017 年毕业于新加坡国立大学，获得博士学位。随后，加入腾讯担任应用研究员，致力于搜索、自然语言处理和多模态领域的研究和实践。目前，作为RWKV Foundation 的成员，继续在相关领域进行研究和贡献.

分享摘要：本次分享主要围绕 RWKV 的论文进行，介绍 RWKV 的核心理念和公式，展示 RWKV 并行化训练优势和高效推理。展示实验结果，证明了 RWKV 的性能与规模相近的 Transformer 相当，也是首个效果接近 Transformer 的线性注意力模型。

相关链接：

1）SOTA！模型平台项目主页链接：

https://sota.jiqizhixin.com/project/rwkv

2）论文链接：

https://arxiv.org/abs/2305.13048

3）代码仓库：

https://github.com/BlinkDL/RWKV-LM

加群看直播

直播间：关注机器之心机动组视频号，北京时间 6 月 6 日 19:00 开播。

交流群：本次直播设有 QA 环节，欢迎加入本次直播交流群探讨交流。

如群已超出人数限制，请添加机器之心小助手：syncedai2、syncedai3、syncedai4 或 syncedai5，备注「RWKV」即可加入。

如果你也有最新工作希望分享或提交你感兴趣的内容方向，随时告诉我们吧：https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区，聚焦于学术研究与技术实践主题内容，为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动，欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

PackedBert：如何用打包的方式加速Transformer的自然语言处理任务 Alpaca-CoT项目原作解读：多接口统一的轻量级LLM指令微调平台图与代码不一致，Transformer论文被发现错误，网友：早该被指出1000次 SpikeGPT项目原作解读：使用脉冲神经网络的生成式语言模型大模型的好伙伴，浅析推理加速引擎FasterTransformer ICLR 2023 | DIFFormer: 扩散过程启发的Transformer 盛名之下其实难副的日本温泉《蓝色的哈达》&《饮酒欢歌》RWKV：在Transformer时代重振RNN CVPR 2023｜两行代码高效缓解视觉Transformer过拟合，美图&国科大联合提出正则化方法DropKey transformer的细节到底是怎么样的？Transformer 连环18问！ICLR 2023｜场景三维重建新SOTA！基于3D Transformer的单目场景重建 RWKV论文燃爆！将RNN崛起进行到底！可扩百亿级参数，与Transformer表现相当！CVPR 2023 | 正则化方法DropKey: 两行代码高效缓解视觉Transformer过拟合在Transformer时代重塑RNN，RWKV将非Transformer架构扩展到数百亿参数 5042 血壮山河之武汉会战鏖战幕府山 11 ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架炸裂！微软新作LongNet：将Transformer扩展到10亿个Tokens Transformer作者创立，Hinton、李飞飞青睐，明星创企Cohere推出打工人专用知识助手 12种模态，一个学习框架，Meta-Transformer实现骨干网络大一统星标破10万！Auto-GPT之后，Transformer越新里程碑科学匠人 | 胡瀚：成功用Swin Transformer连接CV和NLP主流架构的“破壁人”彻底解决ChatGPT健忘症！突破Transformer输入限制：实测支持200万个有效token 写给表姐的一封信 RWKV：一个大模型小团队，要做 AI 时代的安卓 ICML 2023 | 轻量级视觉Transformer (ViT) 的预训练实践手册 JARVIS项目原作解读：连接ChatGPT和HuggingFace解决AI问题 ChatGPT的“底座”Transformer诞生六周年：在它之后世界地覆天翻今年的清明非同寻常 Transformer开山论文惊天「翻车」？图与代码不一致，神秘bug看傻了无自注意力照样高效！RIFormer开启无需token mixer的Transformer结构新篇章 Gzip+ kNN文本分类竟然击败Transformers：无需预训练、14行代码实现比Transformer快4成！Meta发布全新Megabyte模型，解决算力损耗硬伤后GPT书：从GPT-3开始，续写Transformer庞大家族系谱基于Transformer的大模型是如何运行的？Meta从全局和上下文学习揭秘

热点事件追踪