Redian新闻
>
震惊!使用RNN就能达到超越GPT的对话效果!甚至超越LLaMA? Github已近万star

震惊!使用RNN就能达到超越GPT的对话效果!甚至超越LLaMA? Github已近万star

公众号新闻

大家好,我是zenRRan,最近在群里发现小伙伴分享了一篇极为震撼的文章:通过纯RNN架构竟然达到甚至超越以GPT为base的大语言模型的性能。刚开始我还以为是民科呢,但是细细了解后发现作者知乎关注达十几万

该项目的github名为The RWKV Language Model[1]项目的star竟然快接近万了。

项目介绍

RWKV是具有Transformer级LLM性能的RNN,也可以像GPT transformer一样直接训练(parallelizable)。而且它是 100% 无注意力的。你只需要位置 t 的隐藏状态来计算位置 t+1 的状态。您可以使用“GPT”模式快速计算“RNN”模式的隐藏状态。

因此,它结合了 RNN 和 Transformer 的优点——出色的性能、快速推理、节省 VRAM、快速训练、“无限”ctx_len 和自由句子嵌入(使用最终隐藏状态)。

下面还是进入作者的一篇知乎文章来一起看看吧~


知乎:PENG Bo
地址:https://zhuanlan.zhihu.com/p/619721229

进NLP群—>加入NLP交流群

目前 RWKV 所有模型的介绍[2](注意 RWKV 是 100% RNN,目前地球只有我能用 RNN 做到这样)。

下面是 7B Raven-v7-ChnEng 在 ChatRWKV v2 运行的效果(无修改,无重试):

可见 7B 有时会省略细节,需要你去引导。其实如果写好程序,允许编辑电脑的回答,在电脑的早期回答加入丰富的细节,它也能一直保持细节丰富的风格。注意,目前中文只用了【20G普通+200G网文】,连词表都是英文的(很多中文需要两三个token),稍后的RWKV中文基础模型会强得多

另外可以加入世界设定。例如下面这个 prompt,我用 + 让模型生成了各种开头,都挺好:

Prompt:请你扮演一个文本冒险游戏,我是游戏主角。这是一个玄幻修真世界,有四大门派。我输入我的行动,请你显示行动结果,并具体描述环境。我的第一个行动是“醒来”,请开始故事。

再看 14B Raven-v7-Eng,这个强,Discord 老外玩的记录(无修改,无重试):

另外 Raven 模型可以完成各种任务。例如这是 7B Raven-v7-Eng 写代码(由于这里 topp=0.8,会容易出小错,降低 topp 即可更准确):

上述这些,如果是 GPT 做到的,一点都不稀奇,技术含量等于 0。

但这些是用 RNN 做到的。如前所述,这个星球上只有我能用 RNN 做到这样。

RWKV 越大越强,而且有能力运用长 ctxlen。而且 RWKV 的算法极其简单,更适合硬件和芯片。

因此,在未来几年,我将用 RWKV 对 transformer 实施全方位降维打击(目前已逐步积聚资源),淘汰 transformer,成为人类所有 AI 大模型的基础架构。

另一个证据是,目前其它团队的设计,无论是 state space 系列,还是 Mega 这种,都在朝 RWKV 的 exponential moving average 方法靠拢,可见 RWKV 就是目前的正解。

在同样语料训练,RWKV vs GPT,zero-shot成绩:

RWKV 的全部设计,研发,优化,从 0.1B 炼到 14B,数据清洗,推广,客服(这个最浪费时间 lol),都是我一个人完成。我一个人会把它先逐级炼到 100B(在 Pile v2 1.7T),首先淘汰 LLaMA。

知乎喷子喜欢神话 OpenAI。而我说过,只要给我优质的数据和算力,我一个人就可以对线 OpenAI。

这不是因为我懂,而是因为 OpenAI 做的事情弱智。因为现在大家都在挑弱智的 low-hanging fruit 去做无脑堆数据堆算力堆人工就行),真正难的问题没人去做。ChatGPT出来我就多次说过GPT系列是弱智研究,技术含量等于0。这不是我的观点,而是全世界所有行家都知道,如果你不知道说明你不是行家。甚至百度等等都可以追上(如果投入去做)。

我认为,为确保真正 Open AI,必须用非盈利基金会,像 Linux 的模式。事实上 Stable Diffusion 对比 DALLE2 就能证明,开源社区的力量胜过一切封闭组织(同时,在这个开源生态中,仍然可以也必须有很多商业公司,欢迎 VC 投资)。

为什么必须做 Open AI,另一个原因是,目前东西方的军备竞赛在不断升级。我长期上外网,外网愚民的想法很简单,就是认为瓷国是邪恶帝国(所以我常说,人类维护统治,最有效方式是造假想敌)。

我认为,全球化的开源 Open AI 有助于保持互信,降低这里的各种风险。至于 AGI 本身的风险,我从前说过,可能是人类必经的考验。

其实 RWKV 首先应该进入教科书,我起这个名字就是和 LSTM 等等并列的。

注意,本文不代表 RWKV 有任何特别之处。我认为 RWKV 是个傻模型,整个设计过于简单,没有数学可言。幸运的是,我起步比较早,所以我是第一个把这个傻模型做出来的人。

为什么发这么个图,因为现在的喷子太多。喷子的特点是自己没有判断能力,只信权威和骗子。所以 RWKV 还得靠专家来认证,无奈。

另外,我经常说对线,因为真正的boss不是OpenAI而是AGI。未来的"AGI"将代表全世界八十亿人的思绪结晶。我是做好准备和八十亿人对线的。如果你不敢和八十亿人对线,你就只能选择投降或降临派。


上面就是知乎的全部内容了,顺便再看看留言吧。

文章就到这里吧,最后,留给时间去验证吧。

请大家在留言里发表你的观点~



进NLP群—>加入NLP交流群



参考资料

[1]

RWKV: https://github.com/BlinkDL/RWKV-LM

[2]

所有模型的介绍: https://zhuanlan.zhihu.com/p/618011122

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ChatGPT的第一次“危机”:多国“封杀”、近万人联名抵制,AI研发要按下暂停键?刷榜GitHub!中科院学术科研专用版 ChatGPT开源了!斩获24K star。。论文润色、语法检查,一键搞定!存储量扩大千倍,Discord 是如何使用Rust语言和ScyllaDB数据库来改进架构的?第三届 冇(Mǎo)国际青年影像周 开始征片啦!GitHub开源神器,已获3k star!让你的 ChatGPT 不再报错!感受丝滑般体验!Conagen和Natáur达成合作,生产可持续天然牛磺酸7月1日起,数百万澳洲人将获得加薪!加薪幅度可能达到7%,澳联储或进一步加息1.2万Star!无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站东莞,正在批量制造国家高新技术企业,目前已近万家别小瞧10岁小孩!她们做出的科学发现,甚至超过了科学家鸡块是金子做的?澳洲KFC餐食价格暴涨,上涨幅度甚至超过通胀!专家指出行业问题主旋律、人品与遮羞布对话圆代码 CEO 张朝明:做不跟 ChatGPT 对抗的企业大模型,用更少的数据达到更好的效果Ubuntu 20.04 使用realmd加入AD域澳洲人几岁能达到收入最高! 专家揭晓准确数字: 35-45是巅峰CNN、GRNN、CLSTM、TD-LSTM/TC-LSTM…你都掌握了吗?一文总结情感分析必备经典模型(一)眼科医生靠做手术年入600万lāo dao?láo dao!3天近一万Star!MiniGPT-4来了!看图聊天,不在话下!超越GPT-4!华人团队爆火InstructBLIP抢跑看图聊天,开源项目横扫多项SOTAAI「复刻」现实女友爆火!国外小哥开源GirlfriendGPT,GitHub已获1.3k星「羊驼」们走到哪一步了?研究表明:最好的能达到GPT-4性能的68%谁能达到任何目的?ChatGPT的过去,现在和未来——这才是今年Build上最重要的对话|大模型新鲜事百度正式发布”文心一言“,它能成为ChatGPT的对手吗?七绝 球场不是桃花源五十年代初, 回老家当省人民政府主席的不止程子华一位被ChatGPT耍了!!使用虚假的案例!纽约资深律师恐把自己送进监狱!百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元特朗普出庭应诉!最高刑期可能达到136年......ChatGPT已过时?Auto-GPT迅速走红,无需人类插手自主解决复杂任务,GitHub标星5万1965年的《椰林怒火》和《赤道战鼓》, 多少人还记得?ChatGPT的替代品来了!HuggingChat号称媲美GPT-3.5,要拆掉OpenAI的围墙3天近一万Star,无差体验GPT-4识图能力,MiniGPT-4看图聊天、还能草图建网站性能超越GPT-4!谷歌推出大语言模型PaLM 2,全面升级Bard反击ChatGPT|环球科学要闻
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。