Redian新闻
>
顶刊IJCV 2024 | EfficientSCI++:高效的视频单曝光压缩成像重建框架

顶刊IJCV 2024 | EfficientSCI++:高效的视频单曝光压缩成像重建框架

公众号新闻
©作者 | 曹淼
单位 | 浙江大学博士生



背景介绍

在之前的工作中,人们通常使用高速相机采集高速运动场景,但是这样就会带来较高的硬件成本和数据传输带宽。受到压缩感知技术的启发,视频单曝光压缩成像系统提供了一种低成本、低带宽的解决方案用于高速运动场景的采集。


如图 1 所示,视频单曝光压缩成像系统由硬件编码器和软件解码器组成:硬件编码器采用多张不同的调制编码来调制高速运动场景,之后通过一个低速相机在其单个曝光时间内采集一系列单曝光压缩测量值;软件解码器将单曝光压缩测量值和相应的调制编码输入到视频单曝光压缩成像重建算法中恢复出高速运动场景的图像序列。

▲ 图1. 视频单曝光压缩成像系统的工作原理


一方面,视频单曝光压缩成像硬件系统已经比较成熟。另一方面,基于深度学习的重建算法也取得了不错的重建效果。但是,当前仍然面临以下挑战:1)目前的重建算法往往具有较高的计算复杂度;2)现有的重建算法无法重建大尺度、高压缩比的场景;3)之前的工作没有深入研究重建算法对于不同压缩比的灵活性。


针对以上问题,来自浙江大学和西湖大学的研究人员提出了一种基于 CNN-Transformer 架构的高效、大尺度视频单曝光压缩成像重建算法 EfficientSCI++。


论文标题:
Hybrid CNN-Transformer Architecture for Efficient Large-Scale Video Snapshot Compressive Imaging

论文链接:

https://link.springer.com/article/10.1007/s11263-024-02101-y

代码链接:

https://github.com/mcao92/EfficientSCI-plus-plus


EfficientSCI++算法详解

EfficientSCI++ 算法的网络结构如图 2 所示,其主要包括:


1. 初始化模块(给定压缩测量值和调制编码,生成模糊的视频帧);


2. 特征提取模块(由卷积核为 3×3×3 和 1×3×3 的两个 3D 卷积层以及对应的 LeakyReLU 激活函数组成,将输入图片序列映射到高维特征空间);


3. ResHNet 模块(由 3 个 ResHNet 单元组成,用于高效地构建时空关联性)。其中,每个 ResHNet 单元由多个 ResHNet 块堆叠而成;


4. 视频重建模块(由 PixelShuffle 操作和卷积核为 1×1×1,3×3×3 的两个 3D 卷积层组成,将高维特征映射到图片序列得到最终的重建结果)。

▲ 图2. EfficientSCI++网络结构图


现在,我们重点讲解一下 EfficientSCI++ 的核心网络设计:基于特征通道划分机制的 ResHNet 块。如图 2.c 所示,我们首先将输入特征沿着特征维度分成多份。然后,我们利用 CFormer 块高效地构建时空连接。最后,我们将所有 CFormer 块的输出特征沿着特征通道维度连接到一起,随后通过一个 1×1×1 卷积层更好地融合特征信息。


不难看出,CFormer 块在 ResHNet 块中起到至关重要的作用。如图 3 所示, CFormer 块基于时空分解机制和 CNN-Transformer 架构,其主要包括:


1. 空间域卷积分支(2 个卷积核为 3×3 的 2D 卷积层可以很好地提取局部空间特征,同时算法复杂度和内存占用也会大大降低);


2. 时间域自注意力分支(在每一个像素点位置,沿着时间维度使用自注意力机制,这么做可以很好地建立长时序特征关联);


3. 基于门控机制的前馈神经网络(Gating mechanism based Feed Forward Network,简称 GFFN)。


和之前的前馈神经网络相比,GFFN 可以更好地控制网络中的信息流从而抑制网络中的无用信息,只让有用信息在网络中传递。此外,我们在 GFFN 的第一个线性转换层后面加入一系列零填充大小为 1 的 3×3×3 卷积操作实现了动态位置编码。因此,在压缩比变化时,EfficientSCI++ 仍然可以给出很高的重建质量。

▲ 图3. CFormer块结构图



EfficientSCI++性能分析

在实验部分,我们在六个灰度仿真测试数据(256×256×8)、六个中等尺度彩色仿真测试数据(512×512×3×8)和四个大尺度彩色仿真测试数据上进行测试。然后,为了验证重建算法在真实测试数据上对于不同压缩比的灵活性,我们制作了一个压缩比从 10 到 50 逐渐变化的灰度和彩色真实测试数据集。最后,我们在另外两组真实测试数据上进一步验证 EfficientSCI++ 在实际系统中的性能。


由于篇幅限制,这里只给出部分实验结果。其中:


1. 如图 4 所示, EfficientSCI++ 可以取得和之前的重建算法相当的重建质量,但是测试时间大大缩短;


2. 如图 5 所示,压缩比从 8 变化到 48 时,EfficientSCI++ 能够更好地保证重建质量;


3. 从表 1 可以看出,EfficientSCI++ 第一次在 1644×3480×3,压缩比为 40 的大尺度彩色仿真测试数据上给出 34dB 以上的重建质量;


4. 针对快速运行的场景,EfficientSCI++ 也可以给出精确的重建结果,如图 6 所示。

▲ 图4. 不同算法的测试时间&重建质量对比

▲ 图5. 压缩比变化时,不同算法的表现

▲ 表1. EfficientSCI++ 在大尺度彩色测试数据上的性能,其中算法结果中每一格从左到右依次列出了 PSNR,SSIM 和测试时间

▲ 图6. EfficientSCI++ 重建的高速运动场景(压缩比为 10,相机的曝光时间为 20ms)


结论

基于 CNN-Transformer 架构,本文提出一种高效、大尺度的视频单曝光压缩成像重建算法 EfficientSCI++。大量的实验数据表明:相比于之前的视频单曝光压缩成像重建算法,EfficientSCI++ 可以给出相当的重建质量,然而计算复杂度大大降低。此外,为了验证视频单曝光压缩成像重建算法对于不同压缩比的灵活性,我们构建了一套压缩从 10 到 50 连续变化的灰度和彩色真实测试数据集。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
当Mamba遇上视觉压缩:首个具有选择性状态空间的视觉压缩网络标注受限也能识别多标签图像!中山大学等发布异构语义转移HST框架 | IJCV 2024HCSSA | 哈佛之声校友说: 王冲和:智能医疗成像新纪元 - 可穿戴成像技术个人感慨之125 坏分子TPAMI、IJCV期刊影响因子降低!CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT谈谈对哈佛斯坦福学生的印象留学生注意!2024咨询公司目标院校名单曝光!MBB竟都爱密歇根大学!非藤校G5也有希望!老街Hatton Garden【首发】中慧医学成像宣布正式完成近6000万港元Pre A轮融资,发布集团品牌Aitrasound® 及全新AI医学成像产品线CVPR 2024 竞赛冠军方案!复杂场景下的视频对象分割美国文化探究,我喜欢的瞬间:CVPR 2024 | 借助神经结构光,浙大实现动态三维现象的实时采集重建Students Debate Universities Sharing TranscriptsCVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作搬家清囤的Lululemon, Aritzia Randy & Murphy, Sophie Webster蝴蝶鞋及其他AAAI 2024 北大提出BEV-MAE:高效的LiDAR感知模型预训练策略顶刊TPAMI 2024!黄高团队提出EfficientTrain++:高效视觉骨干训练方法顶刊IJCV 2024!基于概率表征的半监督对比学习框架Best CD Rates Of April 2024: Up To 5.42%Nginx静态压缩和代码压缩,提高访问速度!《梦圆》&《貌美如花》CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024ICLR 2024 | 微软提出视觉新主干EfficientMod:融合卷积和注意力机制CVPR 2024 大核卷积杀回来了!101x101大核!PeLK:高效大核卷积网络Mamba成功杀入ECCV 2024!VideoMamba:高效视频理解的状态空间模型CVPR 2024 | MotionEditor:首个面向动作编辑的视频扩散模型ICML 2024 | 大模型Checkpoint极致压缩,精度无损存储降低70倍顶刊IJCV 2024!通过提问学习基于知识的新物体识别6.15 | NASU 2024征服群山系列活动⑤- Mount Jefferson高效、可泛化的高斯重建框架,只需3张视图即可快速推理,45秒便可完成优化愚人节(4/1/2024)CHANEL的审美又回来了!2024/25 秋冬系列成衣很出彩洛杉矶东区猫狗领养活动 4/28/2024 周日下午3CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架Mamba将在MICCAI 2024、ACM MM 2024和ECCV 2024上爆发?!换季必备!太力免抽气真空压缩袋,不用工具3秒压缩,让衣柜空间大大大!还是航天纪念款!给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源 | CVPR 2024
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。