加速AI终端创新,Arm做对了什么?公众号新闻2024-06-06 07:062023年,vivo推出了新一代专业影像旗舰X100系列手机。当时,许多大V争先恐后将vivo X100与苹果手机进行了流畅性的对比。基于蓝晶芯片技术栈,再加上Arm微架构的加持,vivo X100的流畅性达到了非常高的水准。“在软硬件的优化上,我们与 Arm进行合作,将浏览器的性能提升了 20%,几乎相当于一代处理器能力的提升。”vivo首席芯片规划专家夏晓菲如是说。 如今,vivo也在不断探索生成式AI的应用,不仅发布了蓝心大模型,而且依托Arm终端计算子系统 (CSS) 的处理能力,持续深化在AI领域的布局。夏晓菲相信,未来Arm终端CSS中将集成更多更强大的AI能力,同时为开发者提供一个良好的环境,让他们可以基于通用平台,开发出具有特色的端侧生成式 AI 应用,为用户带来不一样的体验。 vivo只是众多受益于Arm终端CSS的合作伙伴之一。Arm终端事业部产品管理副总裁James McNiven表示,Arm终端CSS提供了领先的AI体验,将助力芯片合作伙伴更轻松、更快速地构建基于Arm架构的解决方案,加速产品和方案创新。 AI终端的机会来了 在过去一年中,我们见证了AI技术给移动设备带来的诸多令人惊叹的改变。AI智能手机、AI PC等新产品如雨后春笋般快速涌现。“现在正是移动设备行业发展的关键时刻。”James McNiven表示,“端侧AI重新定义了终端的智能性。而 Arm则是这一切的基石。”Arm 终端事业部产品管理副总裁James McNiven 从智能手机到笔记本电脑,从可穿戴设备到数字电视,Arm为最庞大的终端计算生态系统提供普适应用,以及对开发者友好的指令集。“Arm是下一波计算性能需求的基石。这意味着在端侧和云端均能实现更高的性能。AI应用会消耗更多的能耗,而能效正是Arm的DNA。”James McNiven表示,“Arm架构的强大能力以及领先的实现能力,为当今的计算平台带来了最高效的性能。” 随着AI应用的快速普及,技术复杂性随之提高,同时计算需求也呈指数级增长。为了更好地应对这一趋势,为端侧AI提供可靠的基础平台,Arm终端CSS应运而生。 Arm终端CSS为旗舰系统级芯片 (SoC) 提供基础计算要素,具备最新的 Armv9.2 CPU、Arm Immortalis GPU、基于三纳米工艺生产就绪的CPU和GPU物理实现,以及最新的CoreLink系统互连和系统内存管理单元(SMMU),可以更好地赋能芯片合作伙伴快速创新,加快产品上市进程。此外,与Arm同步推出的Arm Kleidi将有助于软件开发者无缝获得Arm CPU上的最佳性能,包括面向AI工作负载的KleidiAI和面向计算机视觉应用的KleidiCV。 早在2021年,Arm便推出了全面计算解决方案(TCS),通过一整套专为无缝协同工作而设计的IP组合,可以极大地降低SoC设计的复杂度,帮助SoC设计者大幅提高计算性能。谈到TCS与CSS两者的区别,James McNiven进一步解释说:“Arm 终端CSS采用最新的CPU和GPU,并且在TCS的基础上,提供了三纳米工艺的CPU和GPU物理实现。这是两者最主要的不同。” Arm终端CSS是迄今为止速度最快的Arm计算平台,提升了30%以上的计算和图形性能,以应对要求苛刻的实际用例中的安卓工作负载,同时还提高了59%的AI推理速度,适用于更广泛的 AI/机器学习 (ML) 和计算视觉工作负载。总之,Arm终端CSS继承了Arm能效至上的DNA,为AI引发的下一波计算浪潮奠定了基础。在以平台化赋能合作伙伴方面,Arm终端CSS同样不负众望,通过平台功能的显著提升,不断突破高端移动端体验的极限。 James McNiven表示:“Arm终端CSS能够为我们的合作伙伴生态系统带来所需的性能,加速其产品开发。所有这些与持续的软件投资相结合,为开发者构建起一个强大的平台,帮助他们在Arm平台之上,打造更加卓越、快速的 AI 体验。” 谈到与Arm之间的紧密合作,夏晓菲坦言:“作为产业链下游的终端厂家,我们看到了大量、迫切的用户需求,同时也了解用户的痛点。而Arm处于产业链最上游。我们希望将对用户对产品的需求,以及对工作负载、产品性能、功耗瓶颈等的分析,及时反馈给Arm,使得整个产业链良性循环起来,最终让手机产品和用户受益,为消费者带来越来越好的体验。未来,大家将看到更多我们与Arm的合作成果。” Arm终端事业部产品管理副总裁James McNiven(左)与vivo首席芯片规划专家夏晓菲(右) 创新集大成 Arm终端CSS强者恒强 Arm 终端CSS平台的强大,得益于Arm在软硬件细节上的精益求精。 Arm终端CSS整合了最新的Armv9 CPU、Immortalis GPU,以及最新的CoreLink 系统互连和系统内存管理单元 (SMMU),并优化到内存及SoC其他部分的计算路径。而且,这也是首次在终端领域以Arm CPU和GPU的优化设计形式提供物理实现解决方案。好消息是,Arm已经准备好将这些成果投入到其合作伙伴的SoC设计中,以充分发挥三纳米工艺的优势,确保高性能、高效率。 Arm终端CSS中使用的Armv9 CPU——Arm Cortex-X925,是Cortex-X推出以来取得最高IPC同比增幅的CPU。得益于新设计带来的微架构改进和频率提升,Cortex-X925在Geekbench中实现了36%的单线程性能增长。以AI性能为例,与去年的Cortex-X CPU相比,Cortex-X925的Token首次响应时间提高了41%,表明LLM的初始响应能力有了显著改善。 Arm终端CSS中使用了Immortalis GPU——Arm Immortalis-G925,是Arm性能最强、效率最高的GPU。在各种图形应用上,Immortalis-G925的性能同比提高37%;而在多个AI/ML网络上进行测试时,实现了约34%的性能提升。特别值得一提的是,2022年,Immortalis 将光线追踪技术引入智能手机。今年,Arm大幅提高了光线追踪技术在面对复杂物体时的表现,性能提升高达52%。 James McNiven表示,为了提升Arm终端CSS的效率,Arm通过选择不同的CPU微架构来实现最高性能和最长使用天数,并通过Immortalis和Arm Mali实现了GPU的灵活扩展。 Arm还发布了Kleidi,并将这些小型、高度优化的内核,集成到涉及AI或计算视觉的任何地方,使得开发者在部署到任何Arm CPU上时,均能获得优异的性能。James McNiven介绍说,Kleidi 能够确保开发者从Arm终端CSS中最新的Armv9功能中获得最佳性能,例如可伸缩矢量扩展 (Scalable Vector Extensions, SVE)。举例来说,当运行于Cortex-X925上时,Kleidi 技术运行最新Llama 3 和Phi-3 LLM 的速度要比参考实现快2.9 倍,而且只用不到24 小时就可以实现。 另外,在安全方面,Arm的内存标记扩展(Memory Tagging Extension, MTE)可以帮助开发者在无需侵入式检测的情况下,查找和修复代码中的错误,还可以在实际操作环境下,有效减少安全漏洞被利用。比如,vivo X100和X100 Pro以及Google Pixel 8旗舰设备都允许用户启用MTE功能。 让James McNiven感到兴奋的是,今年也是Windows on Arm (WoA) 生态系统成果丰硕的一年。除了Microsoft Office、Dropbox、Zoom、Adobe套件等之外,越来越多的应用正成为Arm原生应用,比如百度、哔哩哔哩、Chrome 浏览器、爱奇艺、搜狗、腾讯QQ音乐等,另外还有许多针对创作者的开源工具。Arm希望通过不断丰富应用生态,为用户提供更佳的体验。 面向未来的AI Arm平台是基石 AI的潜力和影响力可能会超出我们的想象。而为了运行庞大且复杂的AI工作负载,就必须实现计算的变革,从数据中心到边缘再到终端,无一例外。 以新一代基础计算平台,助力实现新一代领先的AI体验,这是Arm不懈的追求。通过应用最先进的Arm CPU和GPU,以及软硬件优化的完整解决方案,再加上生态伙伴的鼎力支持,Arm有愿景也更有能力为开发者提供所需的性能、工具和软件库,释放其创造力,打造更加丰富多彩的AI应用。 “我们的最终目标,是让合作伙伴及生态系统不断创新、演进,实现差异化并更快进入市场。”James McNiven重申,“Arm终端CSS带来了Armv9.2卓越的能效优势,并且凭借物理实现和持续的软件优化,将彻底革新开发者和消费者的体验。Arm平台是未来AI应用的基石。” 往/期/回/顾从科技赋能到价值引领,东莞证券可进化的信创云建设启示录“智算”雄起 | 智算操作系统要“顶天立地”Arm平台为AI创新奠定基石ARM处理器的前途一台ARM服务器“一朵云”,ZStack真的做到了微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章