ECCV 2024 Oral 满分论文！SpikeYOLO：高性能低能耗目标检测网络

公众号新闻

2024-08-15 06:08

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer111，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

中国科学院自动化所李国齐课题组作者：竹贤

https://zhuanlan.zhihu.com/p/714264914

中国科学院自动化所李国齐课题组

论文：https://arxiv.org/abs/2407.20708

代码：github.com/BICLab/SpikeYOLO

脉冲神经网络（Spike Neural Networks，SNN）因其生物合理性和低功耗特性，被认为是人工神经网络（Artificial Neural Networks，ANN）的一种有效替代方案。然而，大多数SNN网络都由于其性能限制，只能应用于图像分类等简单任务。为弥补ANN和SNN在目标检测上之间的性能差距，本文提出了目标检测框架SpikeYOLO，以及一种能够执行整数训练脉冲推理的脉冲神经元。在静态COCO数据集上，SpikeYOLO的mAP@50和mAP@50:95分别达到了66.2%和48.9%，比之前最先进的SNN模型分别提高了+15.0%和+18.7%；在神经形态目标检测数据集Gen1上，SpikeYOLO的mAP@50达到了67.2%，比同架构的ANN提高了+2.5%，并且能效提升5.7×。

1. 背景

脉冲神经元模拟了生物神经元的复杂时空动态，其利用膜电势融合时空信息，仅在膜电势超过阈值时发射二值脉冲信号。因此，脉冲神经网络只有在接收到脉冲信号时才会触发稀疏加法运算。当脉冲神经网络部署到神经形态芯片时，能发挥其最大的低功耗优势。例如，神经形态感算一体芯片Speck[1]采用异步电路设计，具有极低的静息功耗(低至0.42mW)，在典型神经形态边缘视觉场景的功耗低至0.7mW。

然而，脉冲神经元的复杂内在时空动态和二值脉冲活动是一把“双刃剑”。一方面，复杂内在时空动态特性带来强大的信息表达能力，结合脉冲信号使能事件驱动计算获得低功耗特性；而另一方面，二值脉冲活动不可微分的特性使得SNN难以训练。因此，SNN在计算机视觉中的大多数应用仅限于简单的图像分类任务，而很少应用于更常用且具有挑战性的目标检测任务，且和ANN之间有着明显的性能差距。

2020年，Spiking-YOLO[2]提供了第一个利用深度SNN进行目标检测任务的模型，利用数千个时间步长将ANN转换为SNN。2023年，EMS-YOLO[3] 成为第一个使用直接训练SNN来处理目标检测的工作。2024年，直接训练的Meta-SpikeFormer[4]成为首个通过预训练微调方式处理目标检测任务的SNN。然而，这些工作和ANN之间的性能差距显著。

2. 本文主要贡献

本文目标是弥合SNN和ANN在目标检测任务上的性能差距。我们通过两项努力实现了这一目标。第一，网络架构方面，我们发现过于复杂的网络架构在直接加入脉冲神经元后会导致脉冲退化，从而性能低下。第二，脉冲神经元方面，将连续值量化为二值脉冲不可避免会带来信息损失，这是SNN领域长久存在且难以克服的一个问题。

基于此，本工作的主要贡献包括：

● 简化SNN架构以缓解脉冲退化。本文提出了SpikeYOLO，一个结合YOLOv8宏观设计和Meta-SpikeFormer微观设计的目标检测框架，主要思想是尽量避免过于复杂的网络架构设计。

● 设计整数训练脉冲推理神经元以减少量化误差的影响。提出一种I-LIF神经元，可以采用整数值进行训练，并在推理时等价为二值脉冲序列，有效降低脉冲神经元的量化误差。

● 最佳性能。在静态COCO数据集上，本文提出的方法在mAP@50和mAP@50:95上分别达到了66.2%和48.9%，比之前最先进的SNN模型分别提高了+15.0%和+18.7%；在神经形态数据集Gen1上，本文的mAP@50达到了67.2%，比同架构的ANN提高了+2.5%，并且能效提升5.7×。

3. 方法

3.1 架构设计

本文发现，YOLO过于复杂的网络模块设计会导致在直接加入脉冲神经元后出现脉冲退化现象。因此，本文提出的SpikeYOLO在设计上倾向于简化YOLO架构。SpikeYOLO将YOLOv8[5]的宏观设计与meta-SpikeFormer[4]的微观设计相结合，在保留了YOLO体系结构的总体设计原则的基础上，设计了meta SNN模块，包含倒残差结构、重参数化等设计思想。SpikeYOLO的具体结构如图1所示：

宏观设计：YOLO是一个经典的单阶段检测框架，它将图像分割成多个网格，每个网格负责独立地预测目标。其中一些经典的结构，如特征金字塔(FPN)等，在促进高效的特征提取和融合方面起着至关重要的作用。然而，随着ANN的发展，YOLO的特征提取模块愈发复杂。以YOLOv8的特征提取模块C2F为例，其通过复杂的连接方式对信息进行多次重复提取和融合，这在ANN中能增加模型的表达能力，但在SNN中则会引起脉冲退化现象。作为一种折衷方案，本文提出了SpikeYOLO。其保留了YOLO经典的主干/颈部/头部结构，并设计了Meta SNN模块作为微观算子。

微观设计：SpikeYOLO的微观设计参考了Meta-SpikeFormer[3]，一个典型的脉冲驱动CNN+Transformer混合架构。我们发现Transformer结构在目标检测任务上表现不如简单的CNN架构，作为一种折中方案，本文提出的SpikeYOLO尽量避免过于复杂的网络架构设计。SpikeYOLO包含两种不同的卷积特征提取模块：SNN-Block-1和SNN-Block-2，分别应用于浅层特征提取和深层特征提取。两种特征提取模块的区别在于他们的通道混合模块(ChannelConv)不同。SNN-Block-1采用标准卷积进行通道混合(ChannelConv1)，SNN-Block-2采用重参数化卷积进行通道混合(ChannelConv2)，以减少模型参数量。SpikeYOLO的特征提取模块可被具体表示为：

3.2 神经元设计

脉冲神经元通过模拟生物神经元的通信方案，在空间和时间域上传播信息。然而，在将尖峰神经元的膜电位量化为二值脉冲时存在严重的量化误差，严重限制了模型的表达能力。为解决这个问题，本文提出了一种整数训练，脉冲推理的神经元I-LIF。I-LIF在训练过程中采用整数进行训练，在推理时通过拓展虚拟时间步的方法将整数值转化为二值脉冲序列以保证纯加法运算。

考虑传统的软重置的LIF神经元，其内部时空动力学可以被表示为：

上式中，Θ(·)是指示函数，将小于0的值置零，否则置1。这种二值量化方式带来了严重的量化误差。相比之下，I-LIF不将膜电势与神经元阈值做比较，而是对膜电势四舍五入量化为整数，其脉冲函数S[t]被重写为：

其中，round(·)是四舍五入量化函数，Clip(·)是裁剪函数，D是最大量化值。S[t]的发放结果被量化为[0,D]的整数，以降低模型量化误差。

推理时，I-LIF通过拓展虚拟时间步的方法，将整数值转化为二值脉冲序列，以保证网络的脉冲驱动特性，如图2所示。

图2 I-LIF训练和推理原理(在训练过程中发放的整数值2，在推理过程中转化为两个1)

图3展示了一个更加细节的例子(T=3,D=2)。在训练时，当膜电势为1.9时(如第一列)，I-LIF发放一个值为2的整数，并将膜电势减去相应量化值；当膜电势为2.6时(如第三列)，由于其高于最大量化值，I-LIF也只发放一个值为2的整数，而不会发放值为3的整数。在推理时，I-LIF拓展虚拟时间步(图中红色虚线部分)，将整数值转化为二值脉冲序列，保证脉冲驱动。

4.1 静态数据集

如图4所示，SpikeYOLO在COCO数据集上达到了66.2%的mAP@50和48.9%的mAP@50:95，分别比之前SNN领域的SOTA结果提升了+15.0%和+18.7%，超越DETR等ANN模型，并且仅需要84.2mJ的能耗。此外，增大量化值D的效果远远优于增加之间步长T，且能耗增幅更小。

4.2 神经形态数据集

如图5所示，SpikeYOLO在神经形态数据集Gen1上同样取得了SNN领域的SOTA结果，map@50:95超过SNN领域的SOTA结果+9.4%。和同架构ANN网络相比，SpikeYOLO的mAP@50:95提高了+2.7%，并且能效提升5.7×。

4.3 消融实验

4.3.1 架构消融实验

本文在COCO数据集上进行不同模块的消融实验，包括移除重参数化卷积、采用SNN-Block-2替换SNN-Block-1，以及将Anchor-free检测头替换为Anchor-based检测头等。结果证明，SpikeYOLO拥有最先进的性能。

4.3.2 量化值实验

本文在Gen1数据集上分别测试了不同时间步T和量化值D对精度和能耗的影响。实验表明。适当增加T或D都有助于提升模型性能。另外，当提升D时，模型的能耗反而降低，一个可能的原因是输入数据是稀疏的事件数据，包含的有效信息较少，此时采用更精细的膜电势量化方案可以避免网络发放冗余脉冲，从而降低模型的平均发放率。

综上所述，本文提出了目标检测框架SpikeYOLO，以及一种整数训练脉冲推理的神经元I-LIF，并在静态和神经形态目标检测数据集上均进行了验证。全文到此结束，更多细节建议查看原文。

参考文献

[1] Yao, M., Richter, O., Zhao, G., Qiao, N., Xing, Y., Wang, D., Hu, T., Fang, W., Demirci, T., De Marchi, M., Deng, L., Yan, T., Nielsen, C., Sheik, S., Wu, C., Tian, Y., Xu, B., Li, G.: Spike-based dynamic computing with asynchronous sensing computing neuromorphic chip. Nature Communications 15(1), 4464 (May 2024),https://doi.org/10.1038/s41467-024-47811-6

[2] Kim, S., Park, S., Na, B., Yoon, S.: Spiking-yolo: spiking neural network for energyefficient object detection. In: Proceedings of the AAAI Conference on Artificial Intelligence. vol. 34, pp. 11270–11277 (2020)

[3] Su, Q., Chou, Y., Hu, Y., Li, J., Mei, S., Zhang, Z., Li, G.: Deep directly-trained spiking neural networks for object detection. In: Proceedings of the IEEE/CVF International Conference on Computer Vision. pp. 6555–6565 (2023)

[4] Yao, M., Hu, J., Hu, T., Xu, Y., Zhou, Z., Tian, Y., XU, B., Li, G.: Spike-driven transformer v2: Meta spiking neural network architecture inspiring the design of next-generation neuromorphic chips. In: The Twelfth International Conference on Learning Representations (2024), https://openreview.net/forum?id=1SIBN5Xyw7

[5] https://github.com/ultralytics/ultralytics

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer111，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer111，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章