Redian新闻
>
无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

公众号新闻

机器之心报道

编辑:陈萍

Eagle 7B 可将推理成本降低 10-100 倍。

在 AI 赛道中,与动辄上千亿参数的模型相比,最近,小模型开始受到大家的青睐。比如法国 AI 初创公司发布的 Mistral-7B 模型,其在每个基准测试中,都优于 Llama 2 13B,并且在代码、数学和推理方面也优于 LLaMA 1 34B。


与大模型相比,小模型具有很多优点,比如对算力的要求低、可在端侧运行等。


近日,又有一个新的语言模型出现了,即 7.52B 参数 Eagle 7B,来自开源非盈利组织 RWKV,其具有以下特点:



  • 基于 RWKV-v5 架构构建,该架构的推理成本较低(RWKV 是一个线性 transformer,推理成本降低 10-100 倍以上);

  • 在 100 多种语言、1.1 万亿 token 上训练而成;

  • 在多语言基准测试中优于所有的 7B 类模型;

  • 在英语评测中,Eagle 7B 性能接近 Falcon (1.5T)、LLaMA2 (2T)、Mistral;

  • 英语评测中与 MPT-7B (1T) 相当;

  • 没有注意力的 Transformer。



前面我们已经了解到 Eagle 7B 是基于 RWKV-v5 架构构建而成,RWKV(Receptance Weighted Key Value)是一种新颖的架构,有效地结合了 RNN 和 Transformer 的优点,同时规避了两者的缺点。该架构设计精良,能够缓解 Transformer 所带来的内存瓶颈和二次方扩展问题,实现更有效的线性扩展,同时保留了使 Transformer 在这个领域占主导的一些性质。


目前 RWKV 已经迭代到第六代 RWKV-6,由于 RWKV 的性能与大小相似的 Transformer 相当,未来研究者可以利用这种架构创建更高效的模型。


关于 RWKV 更多信息,大家可以参考「Transformer 时代重塑 RNN,RWKV 将非 Transformer 架构扩展到数百亿参数」。


值得一提的是,RWKV-v5 Eagle 7B 可以不受限制地供个人或商业使用。


在 23 种语言上的测试结果


不同模型在多语言上的性能如下所示,测试基准包括 xLAMBDA、xStoryCloze、xWinograd、xCopa。



共 23 种语言


这些基准测试包含了大部分常识推理,显示出 RWKV 架构从 v4 到 v5 在多语言性能上的巨大飞跃。不过由于缺乏多语言基准,该研究只能测试其在 23 种较常用语言上的能力,其余 75 种以上语言的能力目前仍无法得知。


在英语上的性能


不同模型在英语上的性能通过 12 个基准来判别,包括常识性推理和世界知识。



从结果可以再次看出 RWKV 从 v4 到 v5 架构的巨大飞跃。v4 之前输给了 1T  token 的 MPT-7b,但 v5 却在基准测试中开始追上来,在某些情况下(甚至在某些基准测试 LAMBADA、StoryCloze16、WinoGrande、HeadQA_en、Sciq 上)它可以超过 Falcon,甚至 llama2。


此外,根据给定的近似 token 训练统计,v5 性能开始与预期的 Transformer 性能水平保持一致。


此前,Mistral-7B 利用 2-7 万亿 Token 的训练方法在 7B 规模的模型上保持领先。该研究希望缩小这一差距,使得 RWKV-v5 Eagle 7B 超越 llama2 性能并达到 Mistral 的水平。


下图表明,RWKV-v5 Eagle 7B 在 3000 亿 token 点附近的 checkpoints 显示出与 pythia-6.9b 类似的性能:



这与之前在 RWKV-v4 架构上进行的实验(pile-based)一致,像 RWKV 这样的线性 transformers 在性能水平上与 transformers 相似,并且具有相同的 token 数训练。



可以预见,该模型的出现标志着迄今为止最强的线性 transformer(就评估基准而言)已经来了。


参考链接:https://blog.rwkv.com/p/eagle-7b-soaring-past-transformers




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
计算机视觉GPT时刻!UC伯克利三巨头祭出首个纯CV大模型,推理惊现AGI火花Only in Cornell can you get a C with raw score 33/100图解大模型推理优化之KV Cache千元成本搞定专业大模型,系统优化+开源大模型是关键 | 潞晨卞正达@MEET2024Apple Watch 今天有$100 off的好deal,需要买的可以果断下单停更,网红,exposure,人设,标签,骗子好消息!安省家庭成本降低从汽油开始:福特将碳税减免延长至 2024 年底!《木棉红》&《好好》开源模型新纪录:超越Mixtral 8x7B Instruct的模型来了马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一2B参数性能超Mistral-7B:面壁智能多模态端侧模型开源模型A:幸亏有你,我才不得0分,模型B:俺也一样基于RNA测序分析中国人群MET 14号外显子跳跃突变的发生率及其与PD-L1表达相关性胡说八道斯坦福爆火家务机器人升级二代!双手稳到能偷钱包,成本降至19万Google发布最强开源大模型Gemma/苹果OLED产品路线图曝光/小米汽车价格定了?高管辟谣库克:苹果将「开辟 AI 新天地」;比特币突破 6 万美元,市场兴奋;百度文心大模型推理成本骤降 99% | 极客早知道BR额外7.5折+额外9折,100%美利奴羊毛Polo毛衣$40,风衣$61,Avery羊毛混纺裤子才20刀新的AI模型,将GPU用量降低100倍一个超级大国的道义形象,在他的笔下瞬间崩塌无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法2B小钢炮碾压Mistral-7B,旗舰级端侧模型炸场开年黑马!1080Ti可训,170万tokens成本仅1元清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力全面对标OpenAI生态!智谱AI推出GLM-4大模型全家桶,GLMs上线,不会编程也能创建Agent比A100性价比更高!FlightLLM让大模型推理不再为性能和成本同时发愁Revive 有满减,最高满$300减$100, 他家的赋活眼霜眼精华非常好用老师木新创业项目曝光:瞄准大模型成本问题,推理性能将得到数量级的提升“我们比云厂商做得好”!老师木新创业项目曝光:瞄准大模型成本问题,推理性能将得到数量级的提升外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生首个国产开源MoE大模型来了!性能媲美Llama 2-7B,计算量降低60%清华系又造大模型标杆!2B规模干翻Mistral-7B,超低成本为AI Agent护航北航等提出TTP:基于大模型的遥感图像变化检测新网络,性能表现SOTA!带你去阳明山看芒草(多图)吕洪来谈科学养生之九:科学养生需要克服陋习、养成好的生活习惯无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型GLM-4国产大模型上线 称整体性能逼近GPT-4 降低推理成本AI早知道|Gemini推理能力强于GPT-3.5;美图AI视觉大模型将向公众开放;Meta推全新视频生成模型FlowVid将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。