Redian新闻
>
NeurIPS 2023 | 清华ETH提出首个二值化光谱重建算法

NeurIPS 2023 | 清华ETH提出首个二值化光谱重建算法

公众号新闻



本文介绍我们在 NeurIPS 2023 上的新工作 《Binarized Spectral Compressive Imaging》。

论文链接: 
https://arxiv.org/abs/2305.10299

代码链接1:

https://github.com/caiyuanhao1998/BiSCI

代码链接2:

https://github.com/caiyuanhao1998/MST

▲ 图1 BiSRNet 与当前最先进的二值网络的性能对比 


目前所有的代码,预训练模型和测试结果均已开源在我们开发的一个二值化光谱压缩重建工具包 BiSCI 内,该工具包支持八类最主要的二值网络,欢迎大家来使用。同时,我们还将 BiSRNet 嵌入到了我们之前开发的光谱重建工具箱 MST 当中。目前 MST 工具包已支持超过 12 类深度学习算法,并包含各种配套的可视化函数,欢迎大家来对比。




光谱压缩重建任务介绍

相比于常规的三通道 RGB 图像,高光谱图像包含几十上百个波段,从而捕获了关于成像场景更丰富的信息。也正因为这一重要特性,高光谱图像被广泛地应用于医疗,地形勘探,农业等领域。如图 2 所示,在医院进行检查时,如果只看常规的 RGB 图像可能很难诊断病因,但是如果采用高光谱图像捕获并在特定波长下渲染的话,就可以看清楚各类血管,骨骼结构等,从而辅助医生诊断。同样的原理也可应用在遥感地形勘探和农业病虫害检测。

▲ 图2 高光谱图像的应用


然而高光谱图像并容易获取,传统的成像设备采用光谱仪对成像场景进行逐波段的扫描,费时费力,难以捕捉运动场景。近些年,科学家们专门设计了单曝光压缩成像(Snapshot Compressive Imaging,SCI)系统来解决这一问题。其光路结构如图 3 所示。


该系统首先通过一个编码孔径掩膜对成像场景的各光谱通道进行调制,然后通过一个三棱镜进行色散后在相机上捕获到一个二维的快照估计图(compressive measurement)。通过这个光路系统,我们便可将三维的光谱立方块压缩成一个二维的图像。而光谱压缩重建的任务便是从这个二维的压缩估计图上恢复出三维的高光谱数据。

▲ 图3 单曝光压缩成像系统


当前的主流方法是采用的是全精度模型如 CNN 或者 Transformer 来学一个从压缩估计图到三维光谱立方块的映射。几个比较经典算法有我们之前的工作 MST,MST++,CST,DAUHST,HDNet 等(这些方法全部都开源在我们的工具箱 MST 当中)。


这类方法虽然取得了很好的重建效果,但却难以部署到移动端设备(如智能手机、相机、无人机等)上,因为移动端设备的内存空间,计算资源和电力均有限,无法运转全精度模型。另一方面,全精度模型的一些计算单元如深度展开算子和多头自注意力机制等相对复杂,移动端设备无法支持。为了推动光谱重建算法的实际应用,本文做了如下贡献:


(1)提出了光谱压缩重建领域内首个基于二值神经网络(Binarized Neural Network,BNN)的算法——二值化光谱重分布网络(Binarized Spectral-Redistribution Network,BiSRNet)。


(2)设计了一个新的二值化卷积单元——二值化光谱重分布卷积(Binarized Spectral-Redistribution Convolution,BiSR-Conv)。该卷积单元可以调整光谱表征的强度和分布,同时在反向传播中更好地逼近二值化符号(Sign)函数,从而让求得的梯度更加准确。


(3)制作了四个二值化卷积模块来解决特征图形变过程中的维度不匹配问题,从而让全精度信息能流通整个模型的每一层卷积单元以弥补二值卷积造成的信息损失。


(4)我们的 BiSRNet 显著地超越了当前最先进的二值化算法,甚至取得了能与全精度 CNN 比肩的效果,然而我们的 BiSRNet 算法却只需要极低的存储空间(约 0.06 %)和计算代价(约 1 %)。



本文方法

2.1 基础模型

一般来说,用于二值化的全精度模型应该是比较轻量的且它的计算单元可以再移动端设备上运行。然而,现存的 CNN 或 Transformer 模型均不满足这一要求。为此,我们重新设计了一个简单,轻量,易于部署的基础模型(Base Model)。


受到之前工作 MST,MST++,CST,DAUHST 的启发,我们设计的基础模型也采用一个 U 形结构,如图 4 所示。

▲ 图4 基础模型的网络结构


在这个基础模型中,采用的所有计算单元都可以被移动端设备支持,同时也不涉及计算复杂度高的操作。

2.2 二值化光谱重分布卷积单元

二值化光谱重分布卷积的细节如图 4(c)所示。将输入的全精度激活信号记为 。我们注意到,受到特定成像波长的限制,高光谱信号沿着光谱维度有着不同的强度与分布。为了适应光谱图像的这一特性,我们提议在二值化激活之前,按通道对高光谱图像表示进行重分布:

其中的 表示重分布后的激活。 表示可学习参数。然后 经过一个符号函数后被量化到 1 位的激活

如图 5(b)和(c)所示,由于符号函数是不可导的,之前的方法大都采用一个分段线性函数 Clip(x)或者二次函数 Quad(x)来在反向传播中拟合符号函数。

▲ 图 5 符号函数与各类逼近函数的对比图


Clip(x)与 Quad(x)的具体表达式如下:

然而分段线性函数知识一个粗略的估计,它与符号函数之间依旧有着很大的误差。图 5 中的阴影部分面积就表示这个误差的大小,Clip(x)的误差是 1。此外,一旦激活或者权重的值落在了 [-1,1] 之外,他们就不会再被更新。尽管分段二次函数是一个更精确的逼近(误差为 2/3),上述的两个问题依旧存在。为此,我们设计了一个可缩放的双曲正切函数来在反向传播中拟合符号函数:

其中 是一个可学习的参数,自适应地调整 Tanh()与 Sign()之间的距离。我们证明当 时,Tanh()→ Sign()如下:

我们仿照之前的二值化算法,定义然后我们可以得到:

我们计算图 5(d)中的阴影面积:


由此可见,当 足够大时,Tanh()可以任意地逼近 Sign()。同时,我们的 Tanh()既不是分段函数,也不会因为 x 落在 [-1,1] 之外而无法更新。


更进一步,我们比较三个逼近函数的一阶导数。如图 5 下边一行所示与 取值范围均为 ,这与 着本质的区别。而我们的 以通过改变参数 来调整它的取值范围 和形状,从而更加灵活地逼近 


在二值化卷积层当中,32 位的权重 也被二值化到一位的权重


其中的 表示取均值。由此,计算繁重的全精度卷积操作便可由纯逻辑异或非运算(XNOR)与位计数(bit-count)操作替换如下:

因为全精度信息 的取值范围与二值卷积的输出 差别较大,直接引入残差连接将两者相加容易导致 的信息被淹没掉,所以先采用一个 RPReLU 激活函数来重塑 的取值范围:

然后再引入残差链接:


通过我们的设计,全精度信息流就不会被二值卷积给阻断,从而能够顺畅地流过我们设计的 BiSR-Conv 单元,如图 4 (c) 中的红色箭头所示。

▲ 图6 本文卷积二值卷积块与普通二值卷积块在处理特征图维度变化时的对比

全精度信息流在二值化算法中非常重要,因为它在一定程度上弥补了量化导致的信息损失。然而在特征图的上下采样过程中,由于维度发生了变化,难以直接引入残差链接以补充全精度信息,如图 6 中每个子图的左半部分所示。蓝色箭头表示二值信号,红色箭头表示全精度信息流。普通的二值卷积模块会在特征度维度改变的同时阻断全精度信息流的传递。然而我们的二值卷积模块通过采用分割合并的技巧,让全精度信息流不被阻断,从而在整个二值模型中流通。



实验结果

3.1 量化指标

▲ 表1 BiSRNet 与 SOTA BNN,传统方法,全精度CNN方法的量化指标对比

表 1 展示了我们的 BiSRNet 与 SOTA BNN,传统方法,全精度 CNN 方法的量化指标对比。可以看到,我们的 BiSRNet 显著超越了当前最先进的 BNN 算法 BTM 2.55 dB。同时超越了所有的 64 位传统算法,增幅超过了 4.49 dB。值得注意的是,我们的 BiSRNet 取得了能与全精度 CNN 方法比肩的性能,比如超过了 1.23 dB,然而却只占用了 0.06 % 的存储空间和 1 % 计算代价。

3.2 视觉对比

▲ 图7 BiSRNet 与其他 BNN 方法在仿真数据及上的视觉对比
▲ ‍‍图8 BiSRNet 与其他 BNN 方法在真实数据集上的视觉对比



总结

本文首次探索了压缩量化在光谱压缩重建领域的应用,提出了该领域首个二值化卷积神经网络 BiSRNet,在量化指标和视觉结果上都显著地超越了当前最先进的二值化模型。代码,预训练权重,重建结果均开源在:
https://github.com/caiyuanhao1998/BiSCI


本文也是我们光谱压缩重建系列工作的第六篇,欢迎大家回顾我们之前的一系列工作:


[NeurIPS 2022] 清华提出首个退化可感知的展开式Transformer 

https://zhuanlan.zhihu.com/p/576280023

[ECCV 2022] CST: 首个嵌入光谱稀疏性的Transformer 

https://zhuanlan.zhihu.com/p/544979161  


[CVPR 2022 & NTIRE 冠军] 首个高光谱图像重建Transformer 

https://zhuanlan.zhihu.com/p/501101943


这一系列关于光谱压缩重建的工作均开源在下面两个工具箱当中,欢迎使用。


https://github.com/caiyuanhao1998/MST

https://github.com/caiyuanhao1998/MST-plus-plus


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2023 | 港科大提出EAC:"可解释一切"图像概念解释器NeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调NeurIPS 2023 | 清华&ETH提出首个二值化光谱重建算法默克尔余毒JMT 2023NeurIPS 2023 | 北大具身智能团队提出需求驱动导航:对齐人类需求,让机器人更高效JMT 2023NeurIPS 2023 | Backbone之战:计算机视觉任务模型大比较我行走在“鸟巢”的“顶美空中走廊” (多图)北大全新「机械手」算法:辅助花式抓杯子,GTX 1650实现150fps推断|NeurIPS 2023几何纹理重建新SOTA!浙大提出SIFU:单图即可重建高质量3D人体模型NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!NeurIPS 2023 | 李飞飞团队提出SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!​NeurIPS 2023 | RayDF:实时渲染!基于射线的三维重建新方法精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法2017红色日记 中国入联 10.17-31NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023咱家今天过双十节2009从美国看中秋的月亮FC Cincinnati win 2023 MLS Supporters' Shield让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%NeurIPS 2023 | AI Agents先行者CAMEL:首个基于大模型的多智能体框架NeurIPS 2023 | 单张图片3D数字人重建新SOTA!浙大&悉尼科技大学发布GTANeurIPS 2023 & MICCAI 2023:可兼容软标签的语义分割损失函数NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCR多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟NeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusionICCV 2023 | 清华、ETH提出Retinexformer,刷新十三大暗光增强榜NeurIPS 2023 | 港科大&华为提出CoDA:开放词汇3D目标检测新网络NeurIPS 2023 | 全新机械手算法:辅助花式抓杯子,GTX 1650实现150fps推断校友活动丨第十四届清华EMBA网球团体邀请赛(北京站)圆满落幕计算需求降为1%! 清华大学首次提出「二值化光谱重建算法」,代码全开源|NeurIPS 2023NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTANeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。