国际科技财经博客移民网络热点娱乐民生时事公众号

>

性能突破Transformer！Mamba引爆AI圈

性能突破Transformer！Mamba引爆AI圈

公众号新闻

2024-03-25 06:03

Transformer 是现今AI 大模型的主流架构，但随着模型规模的扩展和需要处理的序列不断变长，Transformer 的局限性也逐渐凸显。最近，一项名为Mamba的研究似乎打破了这一局面。它是一种基于选择性状态空间的线性时间序列建模方法，可以有效地解决传统Transformer模型在处理长序列数据时面临的计算效率问题。

3月27日-3月28日，我们邀请到大厂AI算法工程师，手握多个专利的Shawn老师带来——「2024顶会新捷径：魔改Mamba！」，带我们探索Mamba未来的发展趋势。

扫码预约直播

免费领导师亲自整理mamba论文合集

（文末福利）

01

老师简介

-大厂AI算法工程师，负责落地多个计算机视觉方向项目，撰写多个专利。kaggle master，2金5银，发表多篇论文，ICLR，ICDE第一作者。多次获得国内外算法竞赛top名次。

-研究方向：计算机视觉，自然语言处理，数据挖掘领域。

02

课程大纲

1）Mamba模型原理介绍

2）Mamba模型创新及实验分析

3）改进以及其他应用

扫码预约直播

免费领导师亲自整理mamba论文合集

Mamba模型的创新主要体现在以下几个方面：

选择性机制： Mamba引入了一种新颖的选择性机制，使得模型可以根据输入动态调整其行为。这种机制使得模型能够有效地过滤掉无关信息，并加强与任务相关的信息。相当于在RNN中引入了一种类似门控机制的方式，但在SSM的框架下更加灵活地应用于模型中。

硬件感知算法： 为了进一步优化计算效率，Mamba模型采用了一种硬件感知算法，充分利用GPU的内存层次结构来提高计算速度和降低内存需求。这种算法结合了RNN的递归计算效率和CNN的并行处理优势，使得Mamba模型在处理长序列数据时表现出更高的计算效率和性能。

模型架构优化： Mamba模型简化了传统SSM架构，通过合并H3和MLP块，形成了一个均匀堆叠的结构。这一优化不仅简化了模型的结构，还提高了模型的灵活性和效率。

通过结合RNN和CNN的优点，并引入选择性机制和硬件感知算法，Mamba模型成功地解决了传统Transformer模型在处理长序列数据时的计算效率问题。

在各种序列数据处理任务中，包括语言、音频和基因组学数据等领域，Mamba模型展现了出色的性能和高效的计算能力。其对长序列数据的处理能力以及在各种任务中的性能表现，使其成为当前序列建模领域的一种重要解决方案。

悬着的心终于死了：

被尊为Transformer挑战者的Mamba，已正式被ICLR拒绝。

得分为8/8/6/3的Mamba论文被拒，其主要原因是ICLR 2024的审稿人认为该篇文章还存在重大的缺陷，在实验评估方法上面存在一定的争议。

虽说被拒，但Mamba确实一种新型的选择性状态空间模型方法，在语言建模方面可以媲美Transformer，并且目前已经有了很多结合Mamba的研究成果。

对于还没有发过第一篇论文，还不能通过其它方面来证明自己天赋异禀的科研新手，学会如何写论文、发顶会的重要性不言而喻。

发顶会到底难不难？近年来各大顶会的论文接收数量逐年攀升，身边的朋友同学也常有听闻成功发顶会，总让人觉得发顶会这事儿好像没那么难！

但是到了真正实操阶段才发现，并不那么简单，可能照着自己的想法做下去并不能写出一篇好的论文、甚至不能写出论文。掌握方法，有人指点和引导很重要！

还在为创新点而头秃的CSer，还在愁如何写出一篇好论文的科研党，一定都需要来自顶会论文作者、顶会审稿人的经验传授和指点。

很可能你卡了很久的某个点，在和学术前辈们聊完之后就能轻松解决。

扫码二维码

免费与大牛导师1v1meeting

文末福利

为庆祝沃恩20周年庆！给大家送一波大福利！我整理了100节计算机全方向必学课程，包含CV&NLP&论文写作经典课程，限时免费领！

扫码免费领取课程

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

Transformer升级之路：“复盘”长度外推技术扩散模型和Transformer引爆时序方向！挑战 Transformer 霸权？ Yan 架构竟以半价成本实现百万级参数大模型现场围观 | 黄仁勋对话Transformer论文作者：世界该给Tranformer翻篇了 CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能！港中文&腾讯新作《香飘飘》&《云之羽》药物-靶标亲和力预测，上科大团队开发了一种Transformer编码器和指纹图谱相结合的方法 Meta革命新架构掀翻Transformer！无限上下文处理！探索视频理解新境界！在12项任务中，Mamba先打败了Transformer Mamba再次击败Transformer！在视频理解任务中杀疯了！Transformer已死？Mamba强的离谱！革命新架构掀翻Transformer！无限上下文处理，2万亿token碾压Llama 2 Transformer要变Kansformer？用了几十年的MLP迎来挑战者KAN hé bàng？hé bèng？7人创业、1人投敌！Transformer 八子谷歌坐冷板凳5年再成老黄座上宾 CVPR‘24：与任务无关的多模态数据也能提升Transformer性能｜港中文&腾讯纯加法Transformer！结合脉冲神经网络和Transformer的脉冲Transformer | NeurIPS 2023 YOCO：打破传统Decoder-only架构，内存消耗仅为Transformer的六分之一中文实录！黄仁勋集齐Transformer论文七大作者，对话一小时，干货满满 CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术为什么Transformer一般使用LayerNorm？Mamba架构第一次做大！混合Transformer，打败Transformer Transformer解码真实场景！Meta推出70M参数SceneScript模型风雪之夜 Mamba超强进化体一举颠覆Transformer！单张A100跑140K上下文用艺术托举「中段普娃」，成绩单有B也能突破Top30名校录取！Robot Transformers 是什么 Transformer？Attention isn’t all you need！Mamba混合大模型开源：三倍Transformer吞吐量【五律】加國之秋 OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Mamba和Transformer合体！Jamba来了：超越Transformer！从20亿数据中学习物理世界，基于Transformer的通用世界模型成功挑战视频生成背景认同绑架 Transformer仍是2024发论文神器说一说质疑

热点事件追踪