自动驾驶大算力AI芯片,进入量产决赛
来源:内容由半导体行业观察(ID:icbank)编译自,谢谢。
在大算力自动驾驶芯片这个世界杯比赛中,地平线与英伟达已经率先进入百TOPs芯片前装量产的阶段,提前锁定了决赛席位,这场决赛是场硬仗。
从2019年一季度征程5开始立项研发,2021年2月,征程5在台积电顺利tapeout,5月,芯片一次性流片成功,15小时内完成了全部的核心功能测试,到2021年7月征程5正式发布,这对地平线和整个行业来讲都是一个里程碑的事件。征程5单颗AI芯片算力最高可达128TOPs,作为国内首款百TOPS级的自动驾驶大算力AI芯片,征程5开启了中国大算力芯片的里程碑的时代。
软硬结合,征程5性能再提升20%
在硬件架构和算法都没有变的情况下,征程5 的AI计算效能从最初发布的1283FPS提升到了1531FPS。这是怎么做到的?答案是软件。
从神经网络计算推动整个自动驾驶大行其道,到走向L2+高阶的辅助驾驶感知方案,再从L2、L3、L4走向L5,随着自动驾驶级别的提升,它所需要的算力几乎是指数级的爆炸式的增长,每往上走一级至少有10倍以上算力需求的提升,大规模并行化的AI计算,使得大算力的计算平台变成一个行业的必须。自动驾驶逐步由数据驱动替代传统基于规则的计算。
目前主流的自动驾驶方案大致可以分为四个阶段,分别是广义感知、地图融合、规划和控制。每个阶段的任务在软件1.0时代实现用规则,然后在不同程度上过渡到用数据驱动的软件2.0,但是包括地平线和特斯拉在内的企业,都比较激进的把这四个阶段的pipeline融合,把更多的信息融合在一起。这样做的好处是,一方面能够大幅提升整个自动驾驶系统的精度、鲁棒性、适用度,再就是可以大幅改进算法迭代的速度。
地平线联合创始人&CTO黄畅认为,在未来,广义感知几乎百分之百都是靠数据驱动的,而在规划和控制阶段80%~90%也是靠数据驱动完成的,如必要交通规则,包括人为专门制定的一些规范性要求,只需要极少量的规则。所以面向未来的自动驾驶算法,支持数据驱动、神经网络模型推理计算的专用芯片占比会显著增加,而CPU这样的处理器的需求量则不会显著增加。
传统意义上芯片总是讲求PPA,但是AI芯片往往要讲APPA,前面多出来的A是accuracy,值得是算法的精度。地平线认为,加速高等级自动驾驶落地的根本途径是,范式级的智能算法和支持这种算法的硬件体系相结合,也就是我们经常说的软硬结合。通过软硬协同优化的方式,在首重效能的情况下,地平线打造出兼顾灵活的新一代AI计算架构。
地平先征程5所采用的是第三代BPU架构,称之为贝叶斯。每一代BPU架构地平线都用一个数学家的名字来命名,第一代叫高斯,第二代叫伯努利,第三代叫做贝叶斯,据黄畅透露,下一代是纳什。BPU(Brain Processing Unit)是先进处理器技术的集大成者,其最大特点是高性能、低延迟、低能耗。那么BPU架构是怎么做到的呢?BPU凝聚了对AI、深度学习和自动驾驶场景的深度洞察:通过聚焦最新的神经网络架构来服务真实的自动驾驶场景,坚持高度软硬件的并行化,另外,还有近存计算,极大优化内存占有与访存,够灵活访问的高带宽的存储。所有这些将保障BPU在非常灵活的条件下提供足够好的算力密度和能效比。
地平线认为,评估一个AI芯片最合理的目标是FPS/Watt或FPS/$。这个值可以拆解成三个部分,对应达成这个目标的三个架构设计。第一是TOPS/Watt&TOPS/$,这个数值是由硬件架构所决定,通过工艺的演进可以持续改善,TOPS这个数值大家不会做出太大的差异,但是在第三个数值,FPS方面却有巨大的差异。FPS(Frames Per Second),即为单位的有效算力所实现算法处理的速度,FPS更能够反映AI芯片的真实计算性能。FPS由算法架构决定。也称之为是算法的新摩尔定律,大体上是在9-14个月的时间内将AI任务需要的计算次数、复杂度降低一半。而另一个Utilization则属于是软件架构,征程5性能的提升就来源于此。地平线的理念是能让软件做的事情尽可能让软件做,硬件做简单、极致、高效且容易被软件灵活调用的功能。这也使得征程5能从去年7月份以后提升20%的软件架构效率。
按照这个评估依据,我们来看下征程5的表现。在典型分类模型下,征程5在处理单帧输入的百万像素大图时,其性能达Xavier的 6.2倍;针对高效模型(EfficientNet)更接近自动驾驶场景的物体检测,同精度下,征程5的性能是Xavier的9倍多。按照Orin的官方数据来推算,征程5也是远高于Orin的。
量产是检验智能驾驶AI芯片的首要标准
自从去年7月份地平线正式发布征程5以后,截止到目前,征程5已经率先斩获了多家车企的量产定点,这其中包括国内豪华车品牌红旗,以及新能源车的销量领导者比亚迪,造车新势力自由家。目前征程5也将是国内首款实现前装量产的百TOPS大算力AI芯片。
一颗AI芯片能跟车企达成前装量产的合作,是要经历重重考验的。从自动驾驶芯片本身的评估来看,征程5可以称之为是全面满足高等级自动驾驶量产需求的一款芯片。它具有强大的深度学习计算能力,多样化计算组合、丰富的传感器接口和通讯能力,完全针对自动驾驶场景,满足全车电子电气架构的需求,领先的自动驾驶算法闭环验证。今年底地平线就会拿到全套的国际安全认证,征程5的完整芯片方案均符合ASIL-B产品认证标准。
征程5芯片发布的同时,也发布了基于征程5的高等级自动驾驶视觉感知方案原型。地平线历届的发布会都是在发布芯片同期交出基于芯片实时跑通的感知Demo,这也是地平线一直以来「Talk is cheap,show me the product」的风格。2022年4月份,征程5在实车环境下完成了城区复杂场景自动驾驶的闭环验证,征程5对领先自动驾驶算法的完美支持性也得到进一步证明。
从2022年6月份开始,有多家软件生态伙伴推出基于征程5开发的高等级自动驾驶方案,并陆续推出原型Demo,这也进一步证明征程5与开发工具在支持合作伙伴开发的敏捷性与成熟度。
不止如此,为了帮助车企去交付车,地平线提供了一整套丰富、成熟、完善的系统工具。如下图所示,从最上层的参考算法到下面的应用中间件、基础中间件、操作系统以及硬件参考平台,再到芯片、工具链、AI开发平台,完整的一套开发环境其实是帮助我们的客户大幅地降低了在地平线芯片平台上开发的难度、花的时长、投入的成本,提升开发效率。地平线智能驾驶产品规划与Marketing高级总监吕鹏的介绍到。
从最底层开始看,除了征程5芯片,地平线提供丰富的AI开发套件给合作伙伴和客户去实现高效的软件开发,例如征程5的EVM开发版、征程5最小的模组系统、PCIe形式的集群加速卡、Matrix 5整车智能计算参考平台。
Matrix 5是更接近于量产级的参考设计,它包括多种形态,这也是征程5现在在市场上几个主打形态的细分市场,包括单颗征程5、双颗征程5以及4颗征程5的硬件方案,对应的算力可以从128TOPS到最高512TOPS,而且这些硬件方案都提供了相应的原理图参考设计,可以加快整个行业使用它快速地设计好自身的产品。据悉,到现在已经有10家的相关的合作伙伴推出了基于Matrix 5相关参考设计的域控产品;也有多家在行业中拿到了车型的定点,面向相关的量产项目去进行相关的开发和交付。
面向征程5,地平线在Linux上提供可靠性和安全性的增强方案。还有提供安全可靠的执行环境和相关的基础服务的应用中间件。面向高等级的自动驾驶,地平线在征程5上提供了相应的应用开发环境。
在开发工具方面,地平线有天工开物平台和艾迪平台。其中天工开物的AI工具链可以提供非常高效的自动化环节,帮助客户以最小的精度损失实现量化的过程;AI的艾迪开发工具平台是地平线面向软件2.0趋势的一个背后引擎,它是一个能进行高效AI训练、测试和管理的工具平台。
“生态建设不是一朝一夕,我们花了很多年的时间一直建设我们的软件生态,工具链有了上百家合作伙伴的赋能经验,他们在使用中给我们提供了很多反馈和输入,我们也不断进行迭代,逐渐形成非常多的参考样例、参考算法,这样帮助我们的客户能够更加易用我们的工具链,更加快速地去使用我们的工具链。”吕鹏指出,“地平线的定位还是Tier2,通过芯片+工具链和平台打造开放共赢的合作模式。围绕地平线的芯片平台,正有越来越多生态合作伙伴和越来越多的资源,支持Tier1和OEM完成他们的量产和交付。”
结语
综上,地平线能实现快速的量产落地,背后的原因是一系列从芯片设计的思考到整个开发环境到完整成熟工具的支撑。后续地平线会持续地推动征程5完成全部车规可靠性测试与全面功能安全认证工作,并在年内达到量产成熟水平。年末基于征程5芯片的首个量产项目也会正式SOP。自动驾驶芯片量产决赛已打响,国产厂商必有一席。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3092内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
微信扫码关注该文公众号作者