Redian新闻
>
RWKV:在Transformer时代重振RNN

RWKV:在Transformer时代重振RNN

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Transformer】交流群

梦晨 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT爆火以来,大语言模型和Transformer几乎成了同义词,然而真的如此吗?

刚刚,一个由国人主导,总共27所大学、研究机构和公司组成的开源研究团队,联名发表重磅论文《RWKV:在Transformer的时代重新发明RNN》,受到学术界大量关注。

RWKV就是论文中提出的新深度学习模型架构,以循环神经网络RNN为基础魔改而来。

实际上RWKV模型的开源发布比论文要早不少,并且已经在开源社区和行业内产生不小影响力。

其创始人彭博在知乎等平台也非常活跃。

在人类玩家打分的大模型匿名竞技场Chatbot Arena最新一期榜单中,RWKV在一众Transformer中排名第6,并且与7-11名相比拉开一个分数段。

并且RWKV也有在线Demo可玩。(地址在文末)

有意思的是,参与论文的EleutherAI实验室表示,论文还不是完全版本,由于不便公布的截止日期而被迫提前发布,以后还会继续完善。

那么就先来看一下,到目前为止RWKV团队都做出了哪些成果。

时间复杂度比GPT低

RWKV设计灵感来自苹果21年的研究《An Attention Free Transform》,团队意识到如果在公式中使用循环矩阵(circular matrices)就可以将网络结构写成RNN。

与GPT系列的时间复杂度O(n^2)相比,RNN的时间复杂度只有O(n),空间复杂度是O(1)。

这意味着生成内容的速度不会随长度而夸张增涨,显存占用也是恒定的。

一作彭博在接受36kr采访时曾这样形容:

GPT每写一个字就要重新看一遍前面所有文字,效率很低。而RWKV就相当于人类读了一遍资料后,在不再看资料的情况下直接回答。

传统RNN由于并行化的方式难以扩大规模,RWKV通过使每个通道的时间衰减与数据无关,可以在训练期间像Transformer一样做并行化。

训练好的140亿参数RWKV在多个数据集上的表现与开源Transformer大模型相当。

另外团队指出RWKV并非没有缺陷,虽然大致与Transformer的性能匹配,但对提示更敏感,并难以整合非常长的信息。

物理出身现在卖灯的论文一作

RWKV背后是一支不小的论文团队,总共27家大学、研究机构和公司组成,作者达30人。

论文一作Peng Bo,毕业于香港大学物理系,编程经验20+年,曾在世界最大外汇对冲基金之一Ortus Capital就职,负责高频量化交易。

还出版过一本关于深度卷积网络的书籍《深度卷积网络·原理与实践》。

他的主要关注和兴趣方向在软硬件开发方面,在此前的公开访谈中,他曾明确表示AIGC是自己的兴趣所在,尤其是小说生成。

目前,Peng Bo在Github有1.3k的followers,知乎粉丝已经超过了11万人,随着RWKV论文的发布,这个数字还在增加。

除了关注RWKV模型、论文发布和最新进展,吃瓜网友们最讶异的还是Peng Bo的身份之多样:

不仅仅是RWKV模型一作、元智能OS创始人,他的最主要公开身份是一家灯具公司禀临科技的联合创始人,主要是做阳光灯、吸顶灯、便携台灯什么的。

乍一看这个跨行有点猛,物理出生,搞过量化金融,写了20年程序,然后主业卖灯,根据爱好搞了个大模型,走的还不是主流transformer路线……

并且Peng Bo本人应该是一个喵星人资深爱好者,Github、知乎、微信头像,以及灯具公司的官网首页、微博上,都有一只黄色橘猫的身影。

ps. 如果你也好奇RWKV这个词该怎么读,根据元智能OS团队在播客《三五环》的读法,应该是“Rua库”

论文地址:
https://arxiv.org/abs/2305.13048
RWKV模型下载:
https://huggingface.co/BlinkDL/rwkv-4-raven
在线试玩:
https://www.codewithgpu.com/i/app/BlinkDL/ChatRWKV/RWKV-4-Raven-7B

参考链接:
[1]
https://twitter.com/AiEleuther/status/1660811180901019648
[2]https://zhuanlan.zhihu.com/p/618011122
[3]https://36kr.com/p/2257744759205508
[4]https://www.xiaoyuzhoufm.com/episode/645b68e0306513184c97034b

点击进入—>【Transformer】交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
炸裂!微软新作LongNet:将Transformer扩展到10亿个Tokens在Transformer时代重塑RNN,RWKV将非Transformer架构扩展到数百亿参数RWKV项目原作解读:在Transformer时代重塑RNN12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统ChatGPT的“底座”Transformer诞生六周年:在它之后世界地覆天翻ICLR 2023 | Edgeformers: 基于Transformer架构的表征学习框架基于Transformer的大模型是如何运行的?Meta从全局和上下文学习揭秘transformer高效训练方法一览比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤ICML 2023 | 轻量级视觉Transformer (ViT) 的预训练实践手册Transformer开山论文惊天「翻车」?图与代码不一致,神秘bug看傻了彻底解决ChatGPT健忘症!突破Transformer输入限制:实测支持200万个有效tokenCVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKeytransformer的细节到底是怎么样的?Transformer 连环18问!RWKV论文燃爆!将RNN崛起进行到底!可扩百亿级参数,与Transformer表现相当!Fr?ulein (1958) Dana Wynter, Mel Ferrer, Dolores Michaels sfint图与代码不一致,Transformer论文被发现错误,网友:早该被指出1000次CVPR 2023 | 正则化方法DropKey: 两行代码高效缓解视觉Transformer过拟合PackedBert:如何用打包的方式加速Transformer的自然语言处理任务科学匠人 | 胡瀚:成功用Swin Transformer连接CV和NLP主流架构的“破壁人”VCE物理— transformer的理解和例题马拉松摸底测验萧萧千禧梦 第五章 往昔如梦(6)ICLR 2023 | DIFFormer: 扩散过程启发的TransformerCVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法ICLR 2023|场景三维重建新SOTA!基于3D Transformer的单目场景重建即插即用!Apple新作FastViT: 又快又强的视觉Transformer,端侧部署无压力!无自注意力照样高效!RIFormer开启无需token mixer的Transformer结构新篇章后GPT书:从GPT-3开始,续写Transformer庞大家族系谱星标破10万!Auto-GPT之后,Transformer越新里程碑大老板玻璃缸里的孙凤 (6)ICLR 2023 | Specformer: 基于Transformer的集合到集合图谱滤波器Gzip+ kNN文本分类竟然击败Transformers:无需预训练、14行代码实现大模型的好伙伴,浅析推理加速引擎FasterTransformer
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。