TinyML，将在未来十年攻下MCU

2023-08-01 01:08

来源：内容来自半导体行业观察（ID：icbank）综合，谢谢。

意法半导体微控制器和数字IC事业部总裁Remi El-Ouazzane在接受eetimes采访时表示，TinyML将在未来10年成为微控制器市场的最大推动力。“我真的相信这是海啸浪潮的开始，我们将看到大量带有机器学习功能的产品：它只会增加，并且会吸引很多注意力。”Remi El-Ouazzane强调。

根据eetimes的报道，STMicro 目前占据微控制器 (MCU) 市场约四分之一的份额，每天出货 500万至 1000 万个 STM32 MCU。El-Ouazzane 表示。而在未来五年内，其中 5 亿个 MCU 将运行某种形式的 tinyML 或 AI 工作负载。

什么是 TinyML？

TinyML 是机器学习中的一个新兴领域，专注于开发可在低功耗、内存受限的设备上运行的算法和模型。“TinyML”一词源自“Tiny和“machine learing”这两个词，反映了在小型硬件上实现机器学习功能的目标。通过设计可在此类环境中运行的高效模型，TinyML 有潜力将人工智能 (AI) 引入到以前无法支持的数十亿设备中。

随着物联网设备数量的猛增，对智能、本地化决策的需求也随之增加。传统的基于云的人工智能方法可能会受到延迟、带宽和隐私问题等因素的限制。相比之下，TinyML 支持设备上的智能，从而可以更快、更高效地做出决策，而无需与云持续通信。

此外，小型设备的资源限制需要消耗最少功率和内存的高效算法。TinyML 通过优化模型和利用专用硬件来应对这些挑战，即使在资源有限的情况下也能取得令人印象深刻的结果。

回看过去的历史，多项技术和进步促进了 TinyML 的发展：

模型压缩：剪枝、量化和知识蒸馏等技术有助于减少 ML 模型的大小和复杂性，使它们能够在资源受限的设备上运行。

高效架构：紧凑、高效的 ML 架构（例如MobileNets和TinyBERT）的设计允许以最小的开销在设备上执行。

硬件加速：定制硬件（例如Google 的 Edge TPU）已经开发出来，可以在低功耗设备上快速高效地执行 ML 任务。

软件框架：TensorFlow Lite和PyTorch Mobile等工具使开发人员可以更轻松地在从智能手机到微控制器的各种设备上部署机器学习模型。

虽然 TinyML 具有巨大的潜力，但它也面临着一些必须解决的挑战，以充分实现其功能：

模型优化：开发能够用有限资源执行复杂任务的高效模型仍然是一个重大挑战。对模型压缩技术和架构设计的进一步研究至关重要。

硬件限制：TinyML 专用的低功耗硬件加速器的开发仍处于起步阶段。硬件设计的持续创新将在提升 TinyML 功能方面发挥至关重要的作用。

能源效率：随着设备变得更加智能，管理功耗变得更加重要。开发节能的机器学习算法和硬件将是 TinyML 长期成功的关键。

隐私和安全：随着越来越多的设备处理敏感数据，确保隐私和安全变得越来越重要。研究人员和开发人员在开发新的 TinyML 应用程序时必须解决这些问题。

毫无疑问，TinyML是一个令人兴奋且快速发展的领域，有望将机器学习的力量带给数十亿个资源受限的小型设备。通过优化机器学习模型并利用尖端的硬件和软件技术，TinyML 有潜力彻底改变行业并改善全世界人民的生活。随着研究人员和工程师不断创新并克服 TinyML 面临的挑战，这项技术的未来看起来非常光明。

TinyML的运行效能，谁说了算？

在AI芯片或神经加速处理器（Neural Network Processing Unit, NPU或Deep Learning Accelerator, DLA）领域中，大家也都说自家的芯片世界最棒，对手看不到车尾灯，难道没有一个较为公正衡量芯片运行（推论）效能，就像手机跑分软件一样，让大家比较信服的基准吗？

其实在AI芯片领域中所谓的「效能」，可能因关心的重点不同而会有不同定义和解读。分别可从硬件每秒可执行乘加的次数（又可细分FP32,FP16及INT8等）、对于特定模型在指定推论精度下每秒可执行次数或推论一次所需时间（包含有无模型优化处理）、特定模型推论功耗（推论一次耗费焦耳数）、每瓦特可执行乘加指令次数及其它特定规范时的表现，甚至有用每块美金获得算力来当成基准。所以常会遇到谁也不服谁，老王卖瓜自卖自夸的现象。

目前较被大家接受的就是ML Commons[1]所提出的MLPerf规范，其中包含训练及推论两大项，而推论部份又可细分为数据中心（Datacenter）、边缘（Edge）、行动（Mobile）及微型（Tiny,大多为MCU）。前不久（2023/6/27）才刚公布了Tiny v1.1测试结果报告，接下来就帮大家解读一下这份报告，让大家能更了解未来单芯片运行AI的方向及可行性。

1.评测场景及项目

目前ML Commons在Tiny部份先前已经过三轮（v0.5, v0.7, v1.0）测试，此次公布的是v1.1结果[2]。测试时分为封闭（Closed）及开放（Open）型式，前者依官方规范测，而后者厂商可提出依自己规范测试更优的结果，不过不是每轮评测都会有开放型式。

目前主要评测项目如Fig.1 所示，共有四个项目，包含关键字侦测（Keyword Spoting, KS）、视觉唤醒字（Visual Wake Words, VW）、影像分类（Image Classification, IC）及异常侦测（Anomaly Detection, AD）。而每个项目都是采单串流数据（Single Stream）方式进行，即推论完一笔再取下一笔进行推论。依照不同项目，分别使用对应的数据集和模型，并在指定的推论品质下进行评量。

2、参与评测公司、硬件及软件

本次参与评测的项目共有32项，以下依不同项目分别介绍。

●参与评测公司：共有10家，Krai, Nuvoton（新唐科技）, STMicroelectronics（简称STM）, Skymizer（台湾发展软件科技）, cTuning, fpgaconvnet, Plumerai, Syntiant, Robert Bosh GmbH, kai-jiang（个人）。

●参与评测开发板：共有14种，规格下如下所示。

STM NUCLEO-H7A3ZI-Q, Arm Cortex-M7（DSP+FPU）@280MHz
STM NUCLEO-L4R5ZI, Arm Cortex-M4（DSP+FPU） @120MHz
STM NUCLEO-U575ZI-Q, Arm Cortex-M33（DSP+FPU） @160MHz
STM NUCLEO-G0B1RE, Arm Cortex-M0+ @64MHz
STM DISCO-F746NG, Arm Cortex-M7（DSP+FPU） @216MHz
Nordic nRF5340 DK, Arm Cortex-M33（DSP+FPU） @128MHz
Nuvoton NUMAKER-M467HJ, Arm Cortex-M4F @200MHz
DIGILENT Cora Z7, Arm Cortex-A9 @667MHz
DIGILENT ZC706, Arm Cortex-A9 @650MHz
DIGILENT ZedBoard, Arm Cortex-A9 @650MHz
DIGILENT ZyBo, Arm Cortex-A9 @650MHz
Infineon CY8CPROTO-062-4343W, Arm Cortex-M4 （DSP + FPU） @150MHz
Syntiant NDP9120, HiFi3+M0 @30.7MHz/98.7MHz
ZCU106, RISC-V @20MHz

主要CPU规格：共有7大类。只有1项使用RISC-V，1项为MCU+NPU，其余皆是Arm Based。Cortex-M为单芯片（MCU）等级，Cortex-A为微处理器（MPU）等级芯片，用于手机或单板微电脑。

Arm Cortex-M0+ （1项）
Arm Cortex-M33 （4项）
Arm Cortex-M4/M4F （13项）
Arm Cortex-M7 （7项）
Arm Cortex-A9 （4项）
Syntiant HiFi3+M0 （2项）
RISC-V （1项）

主要软件及函式库：共有9种。

Skymizer ONNC
MicroTVM
Plumerai Inference Engine
Syntiant TDK+SDK
Bosch Hardware-Aware Lowering Engine（HALE）
STM X-CUBE-AI
fpgaConvNet（Model+Optimiser）
Arm CMSIS-5
TVM

3、评测结果

由于芯片等级落差颇大，单从推论时间（毫秒ms）及能耗（微焦耳uJ 比较可能会有点不公平，所以这里依CPU等级及工作频率来分会更清楚些。图2分别列出各等级中推论速度表现最好的。如果想了解更完整测试数据可点击文章后面的阅读原文。

👇👇 点击文末【阅读原文】，可查看原文链接！

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3480期内容，欢迎关注。