Redian新闻
>
后摩尔定律时代,如何提升云效益的天花板

后摩尔定律时代,如何提升云效益的天花板

科技

编辑 | Lisa  
阿里云和英特尔作为云与硬件厂商的代表,如何打破摩尔定律失效的魔咒?

在摩尔定律失效的今天,各行各业对算力的需求却空前膨胀。大数据、AI 等趋势方兴未艾,生命科学、智能制造等行业的深度数字化,也给数据处理的规模和性能带来更高要求。

云作为如今数字经济的基础设施,承载着海量的应用。云厂商不得不思考,如何才能更好地满足客户对数据处理效率越来越高的要求,对算力性能、性价比越来越高的要求?

在摩尔定律失效的今天,当前云上的企业是否已经触碰到了云效益的天花板?云厂商可以做点什么,来突破传统计算架构下对算力的限制?作为一种新型的计算服务提供模式,云服务器所提供的性价比如何超越自建数据中心?

本文,InfoQ 于阿里云第八代企业级实例 g8i 正式发布之际,采访到了阿里云弹性计算产品总监王志坤和阿里云高级产品专家姬少晨,试图寻求上述问题的答案。

1 死磕“性能”,软硬一体化重塑计算架构

3 月 24 日,阿里云发布第八代企业级实例 g8i。其依托于 CIPU+ 飞天的技术架构,搭载第四代英特尔至强处理器(代号 Sapphire Rapids,SPR),全核睿频 p0n 达到 3.2GHz,相比上一代实例,整机核密度提升 50%,性能提升 60% 以上。

存储方面,IOPS 最高达 100 万,全面适配 NVMe 云盘,存储延时低至百微秒,同时支持共享盘。网络方面,全面升级至配阿里云自研 eRDMA 大规模加速能力,g8i 是业界首个具备大规模弹性 RDMA 加速能力的计算实例,网络延时最低 8 微秒,为数据库、大数据等常见应用带来进一步的性能跃升。

这种算力服务水平的不断提升,效益的不断突破,从何而来?

从阿里云弹性计算的一路演进来看,答案很明确:软硬一体化,甚至尝试重构传统计算架构。具体到本次 ECS g8i 实例,其表现为基于“飞天 +CIPU”架构。

如今,软硬一体化成为所有云厂商共同的方向。如果将时间倒退到 2017 年,阿里云是孤独的。

以往,企业选择上云主要是希望通过其进行商业模式的创新,云计算弹性、灵活、免运维的原始特点降低了企业的初始建设门槛,虽然这牺牲了一部分性能,但在当时的商业环境下,这样的性能损失与其带来的商业价值相比并不关键。

后来,随着越来越多的企业上云,性能损耗问题越来越突出。为了解决这一问题,阿里云相关研发团队于 2017 年推出业内首款计算虚拟化损耗为零的神龙弹性裸金属服务器,深度融合了物理机和虚拟机特性,标志着神龙架构的诞生。

45 天之后,亚马逊云科技在地球另一端发布了自研的云服务器硬件——Nitro。

自此,云厂商开始深入硬件领域,战场开始发生转移。

2019 年 9 月,阿里云正式发布第三代自研神龙架构,用户能在云上获得超越传统物理机 100% 的计算能力。2021 年,第四代神龙架构诞生,具备业界首个大规模弹性 RDMA 加速能力。2022 年,神龙架构全面升级为 CIPU,可实现对计算服务器即插即用,对数据中心内部的云计算体系架构进行改革创新,从以 CPU 为中心的体系架构进入以飞天操作系统 +CIPU 为中心的体系架构。

如今,云计算所能提供的优势不单单是免运维,而是性能也就是性价比的全面提升。ECS g8i 的发布让这种能力更加普惠,让大部分云上用户都可以感受到云平台本身的性能跃迁。

2 普惠 eRDMA 加速能力,突破场景化性能极限

ECS g8i 实例的发布也标志着阿里云自研 eRDMA 能力的全面商业化,这也是本次第八代实例 g8i 的性能大杀器之一。eRDMA 能够大幅提升大规模计算通信效率,并且能够随着阿里云的集群规模动态扩展,轻松构建大规模 RDMA 高性能计算网络。

RDMA(Remote Direct Memory Access)是一种高性能网络传输技术,可将数据直接从一台计算机的内存传输到另一台计算机,数据传输不经过 CPU。相比传统 TCP 网络,RDMA 能够大幅减少 CPU 的开销,并降低网络互联带来的通信延迟,有助于在云上处理更大数据量的应用。

然而,搭建 IB (InfiniBand) 和 RoCE(RDMA over Converged Ethernet)等主流 RDMA 方案,存在部署周期长、维护成本高、使用门槛高和无法大规模组网等弊端,同时与现有 TCP 网络不兼容。企业需要购置昂贵的专用设备,并对应用做改造,才能用上 RDMA 能力。

阿里云通过自研的 CIPU,基于云上通用设备,研发出“弹性 RDMA”,简称 eRDMA。相较于传统 TCP 网络,eRDMA 具有更高性能,同时消灭了上述弊端。

基于 CIPU,eRDMA 与云上 VPC 共享同一张网络,用户可以随开随用具有 eRDMA 能力的实例;现有 Redis、Spark、AI、HPC 等应用,通过阿里云提供的接口,即可一键适配,最大程度降低企业的使用难度。同时,企业的大规模分布式计算应用将更加高效,能够以更低的成本在更短的时间内处理更大规模的数据量。

与此同时,芯片厂商的王牌代表英特尔,也在用自身的方式,正在打破摩尔定律失效的魔咒。他们给出的方式,是 CPU 内置多种加速器——让 CPU 不仅仅承担通用计算的功能,而是变得擅长更多垂直场景。

第四代英特尔至强可扩展处理器所配备的硬件原生加速器,搭配上阿里云的 eRDMA 能力,更是使 g8i 在大数据和数据库等场景下的性能大幅提升。

“英特尔已经不是一家传统的 CPU 厂商,它也在积极地向云转型,而通过硬件辅助的虚拟化带来的性能优势是巨大的。阿里云每年都会与英特尔保持高密度的沟通,双方就如何让云计算更加普惠做深入合作,而只有当云本身达到一定的体量,这种合作的规模化效益才能展现出来,实现双赢。”王志坤表示。

阿里云弹性计算产品线负责人张献涛表示,阿里云 CIPU+ 飞天的技术架构与第四代英特尔® 至强®可扩展处理器的强强联合下,阿里云第八代企业级实例 g8i 规格族性能最大提升了 60%,叠加第四代英特尔® 至强®处理器的加速器,在大数据、数据库等场景实现了数倍级性能提升,进一步为客户实现降本增效;同时,双方就机密虚拟机能力 TDX 在云上的实践进行了深度的技术合作,相信在双方的持续紧密合作之下,将会给更多各行业的客户带来更具性价比的技术红利。

3 卷安全:将机密计算拉下神坛

在性能得以持续攀升的背后,云厂商必须死守安全底线,否则皆是空谈。

安全方面,本次发布的 ECS g8i 实例支持可信计算与加密计算等特性,默认内存加密(TME),并率先支持机密虚拟机 TDX(Intel® Trusted Domain Extension)能力。

随着云计算的大规模部署,机密计算旨在允许将云提供商从可信计算基础(TCB)中移除,以便只有硬件和受保护的应用程序本身在可信边界内。这使得客户可以放心地、安全地将业务负载转移到公有云上。然而,过去多年,机密计算对用户来说始终是一种“看得着,摸不着”的存在。

在工程落地层面,主流的机密计算技术方案要么对应用具备较大侵入性,要么性能会做出较大牺牲。作为亚太地区最早部署机密计算的云厂商,阿里云一直在持续推广可信与机密计算技术以为客户的数据提供更好的保护。

ECS g8i 实例成功将机密计算“拉下神坛”,其全量搭载安全芯片 TPM 作为硬件可信根,实现服务器的可信启动,确保零篡改;虚拟化层面,支持虚拟可信能力 vTPM,提供实例启动过程核心组件的校验能力。在实例可信的基础上,配合英特尔硬件 TEE 能力和内存加密 TME (Intel® Total Memory Encryption) 技术,以及阿里云自研的加密计算隔离环境 enclave,ECS g8i 实例进一步实现数据的可用不可见,为大型互联网、新金融、医疗保健、知识产权等业务场景提供了更高安全等级数据保护能力和云上可信运行环境。

内存加密 TME 技术是新一代 ECS g8i 实例独具的全新安全加密技术。在该技术的加持下,ECS g8i 实例默认全内存加密,加强内存数据的抗物理攻击能力,进一步提升云上数据的安全水位,用户无需对操作系统或应用进行任何改动,即可享受到更高一层的安全防护。

同时,基于英特尔第四代至强可处理器的 g8i 实例还实现了机密虚拟机能力 TDX 在云上的实践,无需用户二次开发即可将现有应用迁移至受 TDX 保护的实例。阿里云和 Intel 在 TDX 的架构设计、功能验证、安全分析和性能优化等方面均进行了紧密的合作,并实现了 TDX 技术在云上的首次应用。目前,阿里云在全球范围内实现了该能力的首发,这将推动机密计算的通用化和平民化,并与可信技术一起成为未来云上服务器的标准能力。

4 行进在云普惠的路上:天花板远未到达

过去 16 年的发展历程中,阿里云的弹性计算演进史可以概括为云计算技术的普惠历程、算力的普惠历程,这对当今处在人工智能风暴中的企业而言具备极大的场景价值。

时至今日,云所带来的已经不单单是运维优势,性能提升的背后蕴含着的是巨大的成本优势。随着阿里云这样的云厂商在核心技术层面不断做出突破,将会有越来越多的企业愿意深度用云。

在政策方面,数字中国建设、东数西算等都将云计算放到了非常重要的位置。未来十年,在多方利好因素促成之下,我们有理由相信云计算将进入普惠发展期。

所以,云效益的天花板远未到达,有些人尚未触顶,有些人在不断突破极限。

 活动推荐:

5 月 26 日 -5 月 27 日,QCon 全球软件开发大会即将落地广州,从下一代软件架构、研发效能提升、DevOps vs 平台工程、AIGC、数据驱动业务、工业互联网、出海的思考、金融分布式核心系统、大前端架构等角度与你探讨,欢迎你来现场打卡交流~

点击阅读原文直达大会官网,现在购票享 8 折优惠,组团购票还有更多折扣,感兴趣的同学联系票务经理:15600537884(电话同微信)。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
从硅基光刻到碳基测序:以“超摩尔定律”向摩尔致敬迈向一亿美元的旅程 2022 投资总结2023年宏观经济展望ChatGPT之父提新版摩尔定律!宇宙智能数量每18个月翻一番量子计算:后摩尔时代计算能力提升的解决方案英特尔创始人辞世,他的摩尔定律如何长久影响世界?构建新摩尔定律下的算力分发网络Sam Altman:万物摩尔定律,人人富裕的未来微信,转发,朋友圈以及公众号摩尔定律之父,硅谷巨人戈登·摩尔的传奇故事何为智能驾驶的「摩尔定律」?这家芯片方案商给出自己的答案不再猜tsla对话顶级键合技术专家:晶圆键合如何超越摩尔定律?|甲子光年荷花定律,竹子定律,金蝉定律(建议收藏)戈登摩尔离世,他的“摩尔定律”还能助英特尔重返巅峰吗?“摩尔定律”的提出者、英特尔联合创始人戈登·摩尔去世,享年94岁两会专访|全国政协委员、中国工程院院士邓中翰:后摩尔时代要加强核心标准体系建设OpenAI提出的新摩尔定律怎样理解?中国隐藏算力巨头有话说纪实人文摄影,如何提升故事感?人类历史上最灵验的预言:戈登·摩尔与摩尔定律AMD苏姿丰:摩尔定律还没有过时微软谷歌大战,英伟达赢麻了!「AI摩尔定律」来了!切实把政府财力发挥出最大的社会效益、民生效益!上海市财政审计税务工作会议今天召开摩尔定律奠基人,戈登摩尔的辉煌一生ChatGPT之父:《万物摩尔定律》出现,这场革命将创造惊人的财富ChatGPT与新摩尔定律,下一个系统性机会大门已近在咫尺?我们与清华教授、衔远科技创始人周伯文聊了聊 |【经纬科创汇*AI】产业观察 | 芯片绿色节能也是延续摩尔定律美国正在研究一种新的半导体工艺,超越摩尔定律量化私募大扩张,如何提升市场定价效率?强化技术进步、保持策略容量...大语言模型: 新的摩尔定律?“摩尔定律”提出者戈登·摩尔 | 经济学人讣告摩尔定律放缓,Multi-die如何引领芯片创新?英特尔创始人去世,「摩尔定律」光辉闪耀50年丨知料读书人的志向ChatGPT之父撰文:《万物摩尔定律》出现,这场革命将创造惊人的财富
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。