Redian新闻
>
RWKV项目原作解读:在Transformer时代重塑RNN

RWKV项目原作解读:在Transformer时代重塑RNN

公众号新闻

机器之心最新一期线上分享邀请到了新加坡国立大学博士侯皓文,现 RWKV Foundation 成员,为大家分享他们团队的开源项目 RWKV。

Transformer 已经彻底改变了几乎所有自然语言处理(NLP)任务,但其在序列长度上的内存和计算复杂度呈二次方增长。相比之下,循环神经网络(RNN)在内存和计算需求上呈线性扩展,但由于并行化和可扩展性的限制,难以达到 Transformer 相同的性能。

基于此,该研究团队提出了一种新颖的模型架构,即 Receptance Weighted Key Value(RWKV),将 Transformer 的高效可并行训练与RNN的高效推理相结合。该方法利用了线性注意机制,并使得模型既可以作为 Transformer,也可以作为 RNN 来构建,从而实现了在训练过程中的计算并行化,并在推理过程中保持恒定的计算和内存复杂度,这使得它成为第一个可以扩展到数百亿参数的非 Transformer 架构。

实验结果显示,RWKV 的性能与大小相似的 Transformer 相当,这表明未来的工作可以利用这种架构创建更高效的模型。这项工作在平衡序列处理任务中的计算效率和模型性能之间的权衡方面迈出了重要的一步。

分享主题: 新型RNN模型RWKV,结合Transformer的并行化训练优势和RNN的高效推理

分享嘉宾:2017 年毕业于新加坡国立大学,获得博士学位。随后,加入腾讯担任应用研究员,致力于搜索、自然语言处理和多模态领域的研究和实践。目前,作为RWKV Foundation 的成员,继续在相关领域进行研究和贡献.

分享摘要:本次分享主要围绕 RWKV 的论文进行,介绍 RWKV 的核心理念和公式,展示 RWKV 并行化训练优势和高效推理。展示实验结果,证明了 RWKV 的性能与规模相近的 Transformer 相当,也是首个效果接近 Transformer 的线性注意力模型。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/rwkv

2)论文链接:

https://arxiv.org/abs/2305.13048

3)代码仓库:

https://github.com/BlinkDL/RWKV-LM


加群看直播
直播间关注机器之心机动组视频号,北京时间 6 月 6 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「RWKV」即可加入。

如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
PackedBert:如何用打包的方式加速Transformer的自然语言处理任务Alpaca-CoT项目原作解读:多接口统一的轻量级LLM指令微调平台图与代码不一致,Transformer论文被发现错误,网友:早该被指出1000次SpikeGPT项目原作解读:使用脉冲神经网络的生成式语言模型大模型的好伙伴,浅析推理加速引擎FasterTransformerICLR 2023 | DIFFormer: 扩散过程启发的Transformer盛名之下其实难副的日本温泉《蓝色的哈达》&《饮酒欢歌》RWKV:在Transformer时代重振RNNCVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKeytransformer的细节到底是怎么样的?Transformer 连环18问!ICLR 2023|场景三维重建新SOTA!基于3D Transformer的单目场景重建RWKV论文燃爆!将RNN崛起进行到底!可扩百亿级参数,与Transformer表现相当!CVPR 2023 | 正则化方法DropKey: 两行代码高效缓解视觉Transformer过拟合在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数5042 血壮山河之武汉会战 鏖战幕府山 11ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架炸裂!微软新作LongNet:将Transformer扩展到10亿个TokensTransformer作者创立,Hinton、李飞飞青睐,明星创企Cohere推出打工人专用知识助手12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统星标破10万!Auto-GPT之后,Transformer越新里程碑科学匠人 | 胡瀚:成功用Swin Transformer连接CV和NLP主流架构的“破壁人”彻底解决ChatGPT健忘症!突破Transformer输入限制:实测支持200万个有效token写给表姐的一封信RWKV:一个大模型小团队,要做 AI 时代的安卓ICML 2023 | 轻量级视觉Transformer (ViT) 的预训练实践手册JARVIS项目原作解读:连接ChatGPT和HuggingFace解决AI问题ChatGPT的“底座”Transformer诞生六周年:在它之后世界地覆天翻今年的清明非同寻常Transformer开山论文惊天「翻车」?图与代码不一致,神秘bug看傻了无自注意力照样高效!RIFormer开启无需token mixer的Transformer结构新篇章Gzip+ kNN文本分类竟然击败Transformers:无需预训练、14行代码实现比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤后GPT书:从GPT-3开始,续写Transformer庞大家族系谱基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。