Redian新闻
>
让CPU跑大模型该怎么做?阿里云交出答卷:AI推理速度飙升7倍

让CPU跑大模型该怎么做?阿里云交出答卷:AI推理速度飙升7倍

科技

阿里云ECS g8i整机性能最高提升85%,可支撑720亿参数规模的大语言模型。
作者 |  程茜
编辑 |  漠影

AI应用落地加速,对推理的性能提出了更加苛刻的要求。

就在上周,阿里云重磅升级了第八代企业级通用计算实例ECS g8i,国内首款搭载英特尔第五代至强可扩展处理器Emerald Rapids的实例。相比上一代,g8i整机性能最高提升85%,AI推理性能最高提升7倍,可支撑720亿参数规模的大语言模型,帮助中小规模模型起建成本降低50%

阿里云ECS g8i的发布证明,为AI大模型提供算力的不只有GPU和AI芯片,基于CPU的通用算力正在打破过去业界的固有认知
钉钉联合国际知名咨询机构IDC预测,随着AIGC技术发展,智能化应用将呈现爆发式井喷,2024年全球将出现5亿个新应用,不同应用对算力的需求将是多样化的,这一背景下,业内开始探索CPU算力在AI推理的潜力。
在阿里云第八代企业级通用计算实例ECS g8i发布之际,智东西与阿里云弹性计算产品线副总经理王志坤、阿里云弹性计算高级产品专家姬少晨进行了深入交流,深度探讨CPU算力在AI推理方面的独特优势,以及面临大量AI创新应用的涌现云计算提供商的新思考。

01.
整机性能提升85%
国内率先商业化


算力无疑是此次生成式AI浪潮的焦点,随着大量AI创新应用走向落地,企业对于大模型推理的算力需求正在发生变化。
瞄准企业对AI推理算力的多元化需求,已经正式对外商业化的阿里云第八代企业级实例ECS g8i,在计算、存储、网络和安全等能力方面实现全方位提升。
在底层通用能力提升方面,阿里云ECS g8i实例基于阿里云自研的「CIPU+飞天」计算体系架构,搭载了第五代英特尔至强可扩展处理器,使得单核性能提升25%,核密度提升50%。L3缓存从提升6倍达到320MB,内存速率提升75%达到5600MT/s,并于国内率先商业化上线。
CIPU作为高效核心引擎,将云上的计算、存储、网络等能力调度以提升计算效率。阿里云ECS g8i实例在ESSD云盘方面提供了100万IOPS,搭载NVMe使得存储延迟低至百微秒。
更强的单核性能、更高的核密度、更大的缓存、更快的内存的综合能力下,阿里云ECS g8i整机性能提升达到85%。

值得一提的是,阿里云还将第五代英特尔至强可扩展处理器的QAT、AMX等加速器能力融入到自研的虚拟化技术并实现性能零损耗,用户以最小规格2vCPU即可启用加速器能力。
同时,阿里云自研Alibaba Cloud Linux3操作系统是业界首家全量优化适配英特尔加速器,真正实现从芯片、虚拟化再到操作系统的整体优化,进一步降低加速器技术门槛,让用户真正享受技术普惠。

02.
阿里云与英特尔强强联合
“压榨”CPU为AI提速


大模型在训练环节需要处理海量数据,因此对算力性能要求较高,GPU也被公认为更适用于大模型训练。但在AI推理阶段,随着CPU性能的提升,在部分场景下基于CPU的通用计算性价比更高。
姬少晨坦言,大模型推理工作负载主要面临首包时延、吞吐性能上的挑战,如果只是看并行算力、浮点算力、内存带宽、执行效率和网络延时等指标,很容易草率地认为CPU不适合做AI计算。
但阿里云ECS g8i的出现可以说是生成式AI发展突飞猛进之际,云计算提供商给企业提供的新选择。
阿里云ECS g8i在AI能力的提升,背后是阿里云与英特尔的深度合作。最为关键的是CPU的定制化改造。姬少晨说:“我们在英特尔设计芯片的早期就深度沟通交流,最后的结论是直接在第五代英特尔至强CPU的每个核心里增加加速器AMX。”
第五代英特尔至强可扩展处理器提供的AMX高级矩阵扩展,增强了CPU的并行计算能力, 可以给企业客户提供平台化、统一、弹性能力,带来了革命性的AI性能提升。
阿里云ECS g8i实例通过AMX加速,逐步提升了CPU做并行算力的能力,将其中的差距逐步缩小。同时,基于阿里云自研的CIPU架构优势,通过云上弹性扩展的天然优势,屏蔽单实例内存带宽劣势,依托阿里云自研的eRDMA超低延时弹性网络,解决网络通讯的痛点。
基于以上在并行计算、内存带宽、网络延时等方面的优化,阿里云ECS g8i不仅可以更迅速地响应中小规模参数模型,还可胜任720亿参数级别的大语言模型。
在中小模型方面,阿里云ECS g8i实例运行知识检索、问答系统及摘要生成等AI工作负载时,起建成本相比传统GPU方案下降50%。此外,配合阿里云平台的Spot抢占式实例,成本优势将进一步凸显,进一步降低AI推理成本。
对于超大规模参数的模型来讲,通常会通过模型并行、流水线并行切分到AI集群,这个时候网络通讯成了主要的性能瓶颈。基于eRMDA网络构建的ECS g8i实例集群拥有超低延时网络和高弹性优势,可支撑720亿参数级别的大语言模型分布式推理,推理性能随集群规模接近线性加速,并可支持超过32batchsize的超大参数规模的AI模型负载,运行文生图、AI生成代码、虚拟助手以及创意辅助工具等AI工作负载。
实际测试中,通义千问70B参数超大模型中,大在输入小于500字情况下,首包延时小于3秒,每秒可生成7个Token

同时在安全方面,基于机密计算,阿里云ECS g8i实例保证企业云上数据可用不可见,为企业后续数据上云、业务上云打好了基础。
CPU算力还有更为关键的一大优势是资源供应。GPU的缺货潮仍然没有停息,因此短期内其价格不会大幅下降也不会有大量供应,而云上CPU的资源供应能力更优。“未来在AI推理场景的算力需求满足上,CPU与GPU算力会互为补充。根据客户在性能表现、售卖模式、供应能力等综合考量下的实际应用诉求,CPU和GPU将互相配合、共同支撑AI推理的算力需求。”姬少晨补充道。

03.
结语:CPU上跑AI
缓解推理算力焦虑


大量AI创新应用涌现已经成为业界共识,在AI时代既需要云上算力更具灵活性,还要有更强的加速能力。与此同时,基于云端的算力交付成为企业使用算力一个越来越重要的场景和途径。
因此,阿里云和英特尔联手探索CPU在AI推理场景的潜力。王志坤谈道,阿里云和英特尔集中投入大量资源进行研发的关键就是,双方对于客户需求场景的共同的判断和使能,使客户获得算力的方式比传统方式更迅捷、更高性价比、更弹性。
随着AI应用趋于盛行,阿里云与英特尔强强联手打造的这一新方案,将为加速AI创新应用落地提供新的路径。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
三种8卡GPU评测Llama2:解密大模型训练、微调和推理运行时的性能问题从股价飙升700%到濒临退市 证监会通报*ST左江涉嫌重大财务造假加拿大退休养老规划到底应该怎么做?游泳赛AMD最强生成式AI核弹发布!跑大模型性能超H100,预告下一代AI PC处理器FlashIntel石一:当To B创业公司寻求国际化,到底应该怎么做? | OMEGA访谈录全球移民政策收紧!加拿大移民最后黄金期!两年后难度飙升北京内推 | 阿里淘天集团招聘大模型/多模态大模型算法实习生阿里云联手英特尔「压榨」CPU性能,跑起了72B大模型推理澳铸币局发行女王纪念币,民众排队抢购!“身价”飙升700多倍,专家:恐将绝版阿里云通义千问上线图生视频功能;小冰宣布通过大模型备案;深圳前海深港AI算力中心正式启动丨AIGC大事日报【房产】巴黎近三分之一房租超标,房客应该怎么做?首次越野考试,安踏交出了怎样的答卷?颠覆Transformer霸权!CMU普林斯顿推Mamba新架构,解决致命bug推理速度暴增5倍巩固拓展主题教育成果,创造新业绩、交出新答卷!上海市主题教育总结会议举行,陈吉宁李锦斌出席并讲话阿里云汪军华:大模型时代的人工智能+大数据平台,加速创新涌现AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G癌症病友在群里推荐的疗法和食谱能尝试吗?科学康复该怎么做?国产RISC-V狂奔:端侧能跑大模型,AI计算成重头戏今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!最近几部剧的观感 - 好久不见这3类人必看!运营、设计、开发转产品,该怎么做?阿里云欧阳欣:阿里云安全大模型正式投入使用AMD推出锐龙8040系列APU,采用Zen4 CPU+RDNA3 GPU大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加速推理方案之一过洛水观点 | 新冠卷土重来,而美国对下一个病毒毫无准备,该怎么做?美国|物价再度飙升!汽车保险涨幅最大,明年买房计划要泡汤?四大品牌家族重塑未来格局,捷豹路虎转型交出完美答卷邙山窑洞AI手机,中国品牌交出一份新答卷银行存款业务,该怎么做?AI早知道|Gemini推理能力强于GPT-3.5;美图AI视觉大模型将向公众开放;Meta推全新视频生成模型FlowVid重游商场身处时代拐点下的我们,2024应该怎么做?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。