阿里自研CPU大规模应用!芯云合体重塑算力体系科技2022-11-03 04:11算力升维赛打响,阿里亮出新王牌。作者 | 李水青编辑 | 漠影智东西11月3日杭州报道,今日,在2022云栖大会上,阿里云智能总裁张建锋宣布,阿里平头哥自研云原生处理器倚天710已大规模部署应用,成为中国首个云上大规模落地的自研CPU。作为阿里首款自研服务器CPU,倚天710自去年10月推出以来已落地了数据库、大数据、视频编解码等多个场景。张建锋说,应用倚天710云实例,算力性价比提升超30%,单位算力功耗降低60%,未来两年20%的新增算力将使用自研CPU。▲阿里云智能总裁张建锋当下,算力成为像水力、电力一样重要的生产要素,云计算已融入到人们生产生活的方方面面。如何进一步提高算力效率以满足数字化转型需求?这成为全球科技公司关注的议题。芯片、操作系统和上层应用的原生融合已是大势所趋,未来十年,软硬件一体化的自研技术体系或将成为算力攻坚突破的关键。纵观阿里技术发展脉络,其已从软件深入到硬件,并涉足技术门槛极高的通用CPU领域。在当下CPU领域,流片不再稀奇,能规模化落地的“好用”处理器却不多。倚天710的规模化落地无疑再度刷新互联网公司造芯的天花板水平。那么倚天710是如何在推出一年多快速落地的?这又如何影响阿里乃至算力产业的发展道路?本文对此进行了深入探讨。01.自研CPU大规模落地,性价比提升30%2022年科技圈的主题是产业落地,在2022云栖大会现场,关于倚天710的新消息印证了这一趋势。创立于中国广州的汇量科技是一家营销SaaS企业,为全球超95个国家客户提供服务。汇量科技首席AI官朱小强说:“随着广告模型结构不断升级,在线推理模型请求参数变多,我们对CPU性能和内网带宽要求更高,倚天710云实例很好地满足了我们业务升级的需求,实现了降本与增效。”据悉,其在引入倚天710云实例后,CPU性能和内网带宽均实现提升,综合性价比提升40%以上。在去年10月的2021阿里云栖大会上,倚天710正式推出,这是阿里第一颗为云而生的CPU,使阿里成为继亚马逊、华为后,全球第三家拥有自研Arm服务器芯片的云计算厂商。倚天710单片容纳高达600亿个晶体管,在全球权威CPU基准测试集SPECint2017上,倚天710的分数达到440,超出业界标杆20%,能效比优于业界标杆50%以上,能有效帮助数据中心节能减排。在倚天710推出不久后的2021年“天猫双11”,技术立马遭遇极限考验。众所周知,“天猫双11”创造了全社会一年的流量高峰,高并发对算力的性能、稳定性要求极高。阿里将淘宝核心交易系统迁移至基于倚天710的实例,根据其官方数据,这一替换使得算力性价比提升了30%。电商业务的应用只是一个开始。阿里在全球管理着超过150万台服务器,随着自研CPU的诞生,其已在阿里数据中心规模化部署,进而支持存储、数据库、大数据、视频云等多个行业。今年,倚天710的落地步伐加快,通过阿里云输出,倚天710提供的算力也从内部走向了外部各行各业。据称,中国一些知名的科学计算、智能手机行业和互联网等领域的企业在迁移至倚天710云实例后,性价比均得到了显著提升。这意味着倚天真正成为中国首个云上大规模应用的自研CPU,倚天710不仅能用,而且好用。02.攻克落地难题,芯云融合潜力巨大倚天710的成功绝不轻易。当下,科技企业涌入硬件创新赛道渐成趋势,但选择征战通用处理器技术的玩家屈指可数。近年来,Arm阵营在英特尔、AMD主导的x86服务器市场划开了一道口子。Arm于2018年推出了专为云数据中心打造的服务器处理器,而基于Arm架构,目前只有亚马逊等几家大公司及少数独立CPU公司推出了顶级性能的云端通用处理器。研发一颗高性能的通用服务器芯片本身就极具技术挑战,但这仅仅是系列挑战的开始。要真正实现芯片的大规模应用落地,还要克服众多技术难题。在这个过程中,技术团队需要针对场景做深度优化,让其适配不同的软件及应用生态。比如,需要提供多语言和多操作系统迁移工具,并且“打样”最佳实践,让用户愿意尝试,以最小的工作量完成迁移适配。阿里技术团队在操作系统层面做了大量优化,完成主流业务关键组件的完全适配,用户进行业务迁移需要改动的代码量是——0。能做到这样的极致效果,背后是倚天710为云而生的设计理念。为云而生,当然更易被云所用。云场景经常有高并发、高性能和高能效的算力需求,因此倚天710被设计成可提供极致物理核性能的处理器,并且通过单个物理核独享缓存,有效提升性能稳定性和可预期度,让使用倚天710云实例的计算服务,能持续输出更稳定算力。生于云、用于云,倚天710云实例的大规模应用,证明了阿里所选择的这条芯云深度融合的算力攻坚之路,走得通,行得远。03.算力升维赛打响,阿里亮出新王牌知名行研机构IDC预测,未来五年全球算力规模增速将超50%,到2025年整体达到3300EFlops(每秒33万亿亿次浮点运算)。算力需求的爆发,对技术提出更高挑战。回顾现代算力产业发展历程,从大型机、小型机、PC、移动终端到云计算,背后,人们对算力的需求也从早期仅需发个信息,变为发图文、看视频、实时通话等。在可以预见的未来,自动驾驶、元宇宙、人工智能需求将推动新一波算力升维赛。算力产业正进入一个软件定义、硬件加速的新阶段。这场算力升维赛,既比拼从底层硬件到上层IaaS、PaaS、SaaS的数据传输和计算效率,又比拼云与大量和多样化的边缘、端侧的协同融合能力。面向这一趋势,从本次阿里云栖大会我们看到,阿里的新王牌,正是“飞天+CIPU+倚天710”驱动的一个全新的计算体系。追溯整个体系的起点,还要从2009年飞天的第一行代码说起。彼时,国内依旧没有自己的算力系统,IOE(IBM小型机、Oracle数据库、EMC存储)架构下企业只能不断扩大采购规模。飞天的诞生让算力成为一种可在线获取的资源,分布式替代了传统集中式架构,也从而拉开了中国企业自研云计算的序幕。2013年,飞天调度的服务器数量突破5000台大关,标志着早期的算力底座正式落成。基于此,阿里云成功应对十多年“双11”和“12306”春运购票等极限并发场景挑战,不断拓展云计算的性能边界,连续多年稳居亚太第一、全球前三。随着数字经济的蓬勃发展,企业对上云提出了强算力、低时延、高带宽的新需求,仅靠软件及系统层面的优化已无法满足。因此,阿里开始深入硬件,从神龙到CIPU,完成系列突破。CIPU发布于2021年6月,是为阿里云飞天操作系统设计的专用处理器。CIPU相当于是云计算的CPU,在上面跑的是飞天云操作系统,进而形成了云上的统一虚拟资源池,并供客户使用云上算力。无论是分布式应用还是AI场景测试中,“CIPU+飞天”都展现出了更优越的性能。今天,倚天710云实例再次升级“CIPU+飞天”,通过芯片、操作系统、计算架构以及上层应用的协同优化,云计算的整体性能和性价比均得到大幅提升。算力攻坚13年,阿里已成长为实打实的硬科技公司。张建锋说,阿里云将坚持技术长征,面向下一代体系去构建第二技术曲线,抓住未来技术的定义权。(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。) 微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章