Redian新闻
>
SpikeGPT项目原作解读:使用脉冲神经网络的生成式语言模型

SpikeGPT项目原作解读:使用脉冲神经网络的生成式语言模型

公众号新闻

机器之心最新一期线上分享邀请到了电子科技大学朱芮捷,为大家分享他们近期工作 SpikeGPT。

现有的语言模型如 ChatGPT 等都需要大量的计算资源和维护成本,而脉冲神经网络则可以利用稀疏和事件驱动的激活来降低模型推理的计算开销。脉冲神经网络是一种模仿大脑信息处理方式的算法,与传统的深度学习神经网络不同的是,神经元只有在被激活时才会发出脉冲信号。然而,脉冲神经网络在模型训练方面也面临着挑战,很多针对非脉冲神经网络的优化策略难以应用于脉冲神经网络,导致它们在语言生成任务上的性能落后于现代深度学习。

SpikeGPT 借鉴 RWKV 语言模型,用纯二进制的脉冲激活单元替换了传统的深度学习激活单元,并修改了 Transformer 模块,用流式输入代替多头自注意力机制,以减少随序列长度增加的二次计算复杂度。在三种参数规模(45M、125M 和 260M)下进行了实验,其中 260M 是目前最大的可反向传播训练的脉冲神经网络。实验结果与进一步推断表明,在维持相似性能的情况下,SpikeGPT 在能够利用稀疏、事件驱动激活的神经形态硬件上,比相似的深度学习模型节省了约 22 倍的能耗。

分享主题:SpikeGPT:使用脉冲神经网络的生成式语言模型

分享嘉宾:朱芮捷,电子科技大学大四本科生,加州大学圣克鲁兹分校准博士生,主要研究兴趣为脉冲神经网络,为目前两大主流脉冲神经网络框架snntorch与SpikingJelly的贡献者。

分享摘要:本次分享将主要专注于脉冲神经网络、SpikeGPT与RWKV上,尝试为此类RNN的生成式方法梳理一条脉络。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/spikegpt

2)论文链接:

https://arxiv.org/abs/2302.13939v2

3)代码仓库:

https://github.com/ridgerchu/SpikeGPT

4)延伸阅读

https://news.ucsc.edu/2023/03/eshraghian-spikegpt.html


加群看直播
直播间关注机器之心机动组视频号,北京时间 4 月 15 日 19:00 开播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

如群已超出人数限制,请添加机器之心小助手:syncedai2、syncedai3、syncedai4 或 syncedai5,备注「SpikeGPT」即可加入。

如果你也有最新工作希望分享或提交你感兴趣的内容方向,随时告诉我们吧:https://jiqizhixin.mikecrm.com/fFruVd3

机器之心 · 机动组
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
RWKV项目原作解读:在Transformer时代重塑RNN性能超越GPT-4!谷歌推出大语言模型PaLM 2,全面升级Bard反击ChatGPT|环球科学要闻怎样让ChatGPT在其内部训练神经网络?先让它想象自己有4块3090让ChatGPT长“手”!Meta爆火新论文,让语言模型学会自主使用工具TPVFormer项目原作解读:面向自动驾驶场景的纯视觉三维语义占有预测2对夫妻自驾游,晚上妻子故意装睡,看到丈夫惊人的举动提出离婚13层网络如何拿下83%精度?极简神经网络架构VanillaNet作者亲自解读JARVIS项目原作解读:连接ChatGPT和HuggingFace解决AI问题Meta最新语言模型LLaMA论文研读:小参数+大数据的开放、高效基础语言模型阅读笔记微软提出自动化神经网络训练剪枝框架OTO,一站式获得高性能轻量化模型Npj Comput. Mater.: 多主元素合金硬度—集成神经网络模型大型语言模型技术公开课上线4讲!直播讲解ChatGPT开源平替、类GPT4低成本定制以及GPT4ToolsMIGA项目原作解读:基于生成式预训练语言模型T5的Text-to-SQL模型炸掉北溪民用设施习不想做点啥CVPR 2023 | 三维场景生成:无需任何神经网络训练,从单个样例生成多样结果13层网络拿下83%精度,华为诺亚新型神经网络架构VanillaNet「简约」到极致从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力Alpaca-CoT项目原作解读:多接口统一的轻量级LLM指令微调平台OpenAI 联合创始人、首席科学家 Ilya Sutskever 解读大语言模型的底层逻辑与未来边界UDOP项目原作解读:统一视觉、语言、格式、任务的通用文档处理模型CVPR 2023 | 神经网络超体?新国立LV lab提出全新网络克隆技术NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录怎样让ChatGPT在其内部训练神经网络?“生成式大语言模型技术分享”系列直播即将启幕GPT的背后,从命运多舛到颠覆世界,人工神经网络的跌宕80年自动驾驶生成式大模型 DriveGPT 来了:基于 4000 万公里量产车驾驶数据训练,参数规模 1200 亿​AAAI 2023 | 利用脉冲神经网络扩展动态图表示学习胡鑫宇死因真相大反转,八条信息揭露了他的真实死因?王兴投资王慧文 ChatGPT 项目;谷歌发布全球最大视觉语言模型 PaLM-E;自如考虑赴港上市 | 极客早知道ChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源SparK项目原作解读:卷积模型的首个BERT预训练我的厉害国, 下了狠手?ELITE项目原作解读:基于扩散模型的快速定制化图像生成重访西班牙(12)-黄金之城的欢歌AudioLDM一作解读:文本生成高质量音频,单GPU即可
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。