软件ISP将成为图像处理未来？

2023-09-13 01:09

从电子门铃、网络摄像头，到手机、电脑、汽车，图像传感器已遍布我们生活中的各个角落，高清晰度、精细化的图像已经成为了消费者的基本期望。

在这些边缘设备中，摄像头收集到的图像需要先由图像信号处理器 (ISP)实时处理后再呈现给用户。然而，如何在高效处理海量数据的同时又确保图像质量，对芯片制造商来说既是一个挑战，也是一个机会。

一般来说，ISP 通常作为硬件组件来实现，但最近，以色列的一家初创公司Visionary.ai开发了一种基于AI技术的软件ISP，据称可以有效地解决图像中的噪声和灵活性挑战。

其实，软件定义图像质量这一理念早在Google Pixel中就开始盛行，从Pixel 2到Pixel 6，谷歌保留了相同的相机和镜头硬件，但将改进重点放在图像处理软件上。那软件ISP会成为图像处理的新常态吗？

了解图像信号处理器（ISP）

首先让我们来简单了解下图像信号处理器的工作原理。

图像传感器由数百万像素组成的半导体矩形构成。这些像素小至1微米（1 x 10^-6m），并配备微小的彩色滤光片。在常见的“拜耳”滤光片阵列中，这些滤光片的颜色为红、绿或蓝。当光子落在半导体表面上时，其中一部分将与硅原子发生量子相互作用，产生电子空穴对，并因此产生虽然小但可测量的电荷，一般而言，电荷量与落在像素上的光强度成比例。

图像信号处理器（ISP）从传感器中获取红、绿、蓝三色的原始数据，并对其进行如消除马赛克效应、调整颜色、消除镜头失真等多项校正处理，并进行有效的数据压缩。原始传感器数据可能具有 12 到 24 位范围内的位深度，而输出通常是 8 位 RGB 信号。

目前，主流的ISP由几家供应商提供的IP模块组成，通过高度并行的计算方式，将算法以硬编码的方式加入到硬件中，因此成品的灵活性有限。

图像处理面临两大挑战：噪声和灵活性

图像传感器和ISP中的一个特定问题是噪声，在许多情况下，这是系统设计的限制因素。

噪声的根本原因在于图像传感器本身，当几乎没有光子被捕获的低光照条件下此问题最为严重。当落在传感器上的光子减少，其与硅原子的相互作用也随之变少，当两者不一致时，就会产生噪声。为此，可以添加硅本身产生的热噪声——由此随机产生电子空穴对，并可能被误认为是光子。噪声来自对极低电荷水平进行测量和数字化的过程。很明显，噪声会通过多种方式蔓延到系统中。

大家都不喜欢嘈杂的图片，因为这扭曲了大脑对图像的理解能力。同样，在机器视觉系统中，噪声会阻碍性能，使算法更难以可靠地检测物体。因此，对于人类和机器视觉，如果存在噪声，它将限制设备在弱光下运行的能力。此外，它还降低了系统处理高动态范围图片的能力（同一图像中的极度明亮和黑暗）。

当然，在传感器设计中有一些解决噪声的方法，主要基于捕获更多的光子来增加相对于噪声的信号。例如，可以增大像素，但这要么需要更大、更昂贵的传感器，要么需要降低图像分辨率。当硅的表面积增加时，透镜的尺寸也会改变，因此我们最终会得到一种不太坚固且更难封装的器件。另一种方法是增加曝光时间，但这显然会导致帧率降低并增加运动模糊的风险。此外，我们也可以选择消除噪音，目前市场上的 ISP 采用几种不同的信号处理算法，但性能均存在局限性，例如，一些电流降噪器使图像平滑，因此丢失了图像中特征的清晰度。

除了噪音性能不佳外，传统ISP的另一个缺点是灵活性相对不足。将 ISP与传感器相匹配的调优过程，可能需要数周甚至数月。这项调优任务会带来巨大的成本压力，并增加图像系统工程项目的时间周期。

软件ISP，提升图像质量的关键

以色列初创公司 Visionary.ai 开发的这种基于AI的软件ISP，其图像信号处理器是以软件形式实现，而且能够比传统算法检测并消除更多的图像噪声。虽然许多计算机视觉研究人员正在开发更好的方法来检测和识别图像中的对象，但 Visionary.ai的创始人意识到，优化ISP是提升图像质量的关键。一个高效的 ISP 能提供更高品质的图像数据，从而增强如物体识别和图像分割等AI任务的效能。

解决“垃圾进垃圾出”的问题已证明可提供更高的精度和改善机器视觉效果。至于智能手机或笔记本电脑视频质量等“人类视觉”应用，Visionary.ai 的实时降噪器可以生成更清晰、更明亮的成像，并提供更准确的着色。

与其他降噪器不同，由 Visionary.ai 开发的 AI 降噪方法可实时消除噪声，并能够实现 19dB 的信噪比增强。但是，为了消除最大噪声量，AI 需要从图像传感器访问原始信号，然后才能被 ISP 修改和压缩。Visionary.ai 通过创建软件ISP完全取代传统硬件 ISP 来应对这一挑战（图 1）。

图 1：软件ISP实时消除最大噪声量

由于ISP和降噪功能采用软件实现，这表示在硬件设计中必须配备适当的计算资源。

首先，降噪功能依赖于神经网络。其性能需求会随工作负载、视频帧速率以及图像分辨率发生变化。在降噪器的早期研发阶段，团队采用了Nvidia Jetson，这种计算平台在性能方面有巨大优势，能够不受限制地进行实验和研究。但从长远考虑，他们的目标是开发一种既满足硅片面积要求又在功率预算内的解决方案，以适合广泛应用的技术和商业需求。

当谈到AI，尤其是边缘AI，人们常常会联想到为多种推理任务设计的10、100甚至1000 TOPS的性能，但这显然不适用于降噪应用。新思科技的ARC EV7x系列是一系列的异构嵌入式视觉处理器，它包括了可扩展的矢量DSP核心和神经网络引擎。事实证明，Visionary.ai的降噪算法可以在新思科技 ARC EV72 处理器上非常有效地运行，同时，他们还计划在 ARC VPX矢量DSP和ARC NPX神经处理单元的新版本上运行。

除了ISP算法和降噪功能外，系统还需要一个应用处理器来执行控制代码。对于这种要求不高的工作负载，一个单核的32位处理器即可满足需求，如新思科技 ARC HS系列（参见图2）。

图 2：AI降噪器和软件ISP可以

使用传感器的原始数据来优化性能

对于灵活性问题，软件定义的ISP可以通过其噪声和AI功能更快地进行调谐，并且还可以在其生命周期内更新以增强性能。当供应链中出现问题，或需使用不同的图像传感器模型时，基于新组件的系统重新设计变得更为简便。

随着调谐执行速度更快、成本更低，进行应用特定的调谐已变得可行。例如，针对特定农业应用中对绿色细节的精准捕获，或医疗场景中更准确的红色识别，都可以进行精细化的优化。

写在最后

搭乘新思科技的ARC EV72 处理器的快船，Visionary.ai带降噪器的软件ISP已经正式面市，这为消费类电子产品和安全摄像头的设计带来了新的可能性。同时，他们也瞄准了汽车、无人机以及医疗行业等多个领域。

软件定义汽车、软件定义手机……软件定义的原则正在整个科技领域传播。虽然软件图像处理可能仍处于起步阶段，但凭借其优势和灵活性，并且随着边缘人工智能和人工智能成像的发展，软件ISP正在获得越来多厂商的关注。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3522期内容，欢迎关注。