Redian新闻
>
IEEE:GPU很好,但不是唯一

IEEE:GPU很好,但不是唯一

科技
金磊 梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

是时候让CPU在AI应用上 “支棱”起来了。

这是去年大语言模型大火之时,权威期刊IEEE Spectrum在一篇文章中,开门见山给出的一个观点;并且是由一群AI研究人员得出、声量越来越大的那种。

文章还坦言道:

诚然GPU可能占据了主导地位,但在AI领域中的很多情况下,CPU却是更合适的那一个。

例如文章引援了Hugging Face首席布道官Julien Simon体验的真实案例——

拿一个英特尔® 至强® 系列CPU,就能轻松驾驭Q8-Chat这个大语言模型,而且响应速度很快。

Simon对此开诚布公地表示:

GPU虽然很好,但垄断从来不是一件好事,可能会加剧供应链问题并导致成本上升。

英特尔CPU在许多推理场景中都能很好地运行。

而这也正与当下大模型的发展趋势变化相契合,即逐渐从训练向推理倾斜,大模型不再仅仅较真于参数规模、跑分和测评,更注重在应用侧发力。

一言蔽之,比的就是看谁能“快好省”地用起来。

不过话虽如此,但在真实的AI场景中,CPU真的已经“支棱”起来了吗?

京东云,选择CPU

如果说当时在这个话题上,IEEE扮演了 “嘴替”,是在帮那些AI应用实践的先行者们发声,那么这种发声,确实又吸引或带动了更多实干者来验证这种可行性。他们如今已经可以给出一个确定答案,即在很多AI推理的场景中,CPU已经能很好地上岗了。

例如中国公有云服务器市场的翘楚京东云,它pick的便是最新的第五代英特尔® 至强® 可扩展处理器

具体而言,是在其新一代京东云服务器上搭载了这款高端CPU。

话不多说,我们直接先来看下效果。

首先,从整体来看,新一代京东云服务器的整机性能最高提升了23%!

除此之外,在AI推理方面的性能也是Up Up Up。

  • 计算机视觉推理:性能提升38%

  • Llama 2推理:性能提升51%

而之所以能有如此突破,核心就是第五代英特尔® 至强® 可扩展处理器内置的AMX(高级矩阵扩展)技术对AI的加速能力。

英特尔® AMX是针对矩阵运算推出的加速技术,支持在单个操作中计算更大的矩阵,让生成式 AI 更快地运行。

一言以蔽之,你可以把它当作内置在CPU中的Tensor Core。

展开来说, AMX引入了一种包含两个组件的新矩阵处理框架,包括二维的寄存器文件,它由被称为“tile”的寄存器组成;另一个是一系列能够在这些tile上执行操作的加速器。

在这些技术的加持之下,以向量检索为例,当处理n个批次的任务时,需要对n个输入向量x和n个数据库中的向量y进行相似度比较。

这一过程中的相似度计算涉及到大量的矩阵乘法运算,而英特尔® AMX能够针对这类需求提供显著的加速效果。

英特尔® AMX架构

在提升模型性能的过程中,英特尔® oneDNN作为AMX的软件搭档,可为操作者提供一种高效的优化实现方式。

开发者仅需调用MatMul原语,并提供必要的参数,包括一些后处理步骤,oneDNN便会自动处理包括配置块寄存器、数据从内存的加载、执行矩阵乘法计算以及将结果回写到内存等一系列复杂操作,并在最后释放相关资源。

这种简化的编程模式显著减轻了工程师的编程负担,同时提升了开发效率。

通过上述软硬结合的优化措施,京东云新一代服务器就可以在大模型推理和传统深度学习模型推理等场景里提供能满足客户性能和服务质量 (QoS) 需求的解决方案,同时还可以强化各种CPU本就擅长的通用计算任务的处理效率。仅就大家关心的大模型推理而言,已经能用于问答、客服和文档总结等多种场景。

Llama2-13B推理性能测试数据

而且除了性能上的优化之外,由于搭载了英特尔® AMX等模块,新一代京东云服务器也可以更快地响应中小规模参数模型,把成本也狠狠地打了下去。

你以为这就结束了?英特尔CPU给新一代京东云服务器带来的好处,可不只涉及推理加速和成本,更可靠的安全防护也是其独到优势之一。

基于新款处理器内置的英特尔® Trust Domain Extension(英特尔® TDX)技术,京东云在不改变现有应用程序的情况下,就能构建基于硬件设备的可信执行环境(Trusted Execution Environment,TEE)

英特尔® TDX通过引入信任域(Trust Domain,TD)虚拟环境,利用多密钥全内存加密技术,实现了不同TD、实例以及系统管理软件之间的相互隔离,让客户的应用和数据与外部环境隔离,防止未授权访问,且性能损耗较低。

总的来说,英特尔CPU上的这项技术,是从硬件、虚拟化、内存到大模型应用等多个层面,为新一代京东云服务器的数据和应用保密提供了可靠支撑。

重新发现CPU的价值

AI进入2.0时代,所有应用都值得重写一遍已逐渐成为共识。

如果站在算力基础设施的视角重新审视这场变革,还能发现这样一个新趋势:推理算力越来越被重视起来。

也就是随着大模型应用场景的日益丰富,对推理阶段的性能要求也变得更高和多样化。

一方面,实时性强、时延敏感的终端侧场景需要尽可能短的响应时间;

另一方面,并发量大、吞吐量高的云端服务则需要强大的批处理能力。

与此同时,面向不同硬件平台、网络条件的推理适配也提出了更复杂甚至带有不同前置条件的要求。

如此一来,此前在硬件上的单一“审美观”就被改写,本来就主攻通用计算、能在整个AI的协同编排中扮演重要角色,又能撸袖子自己上、兼顾AI加速,同时还有更多“才艺”、应用适配也更为灵活,相比GPU或专用加速芯片获取更容易,且已部署到无处不在的CPU,其价值也被重新发现,这一切都顺理成章。

相信随着软硬件适配的不断深入,以及云边端协同的加速落地,CPU还有望在AI,特别是AI推理实践中找到更多的用武之地,发挥更大的应用潜力。

可以预见,高性能、高效率、高适应性的CPU,在大模型越来越卷的时代,依旧是个可靠的选择。这一点,会有更多人因为实践,从而见证。

最后让我们打个小广告:为了科普CPU在AI推理新时代的玩法,量子位开设了《最“in”AI》专栏,将从技术科普、行业案例、实战优化等多个角度全面解读。

我们希望通过这个专栏,让更多的人了解CPU在AI推理加速,甚至是整个AI平台或全流程加速上的实践成果,重点就是如何更好地利用CPU来提升大模型应用的性能和效率。

更多CPU支持云计算的解决方案内容,请点击“阅读原文”获取。

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
扎克伯格警告:GPU不再缺货,功耗成为大问题张鹏对谈安克阳萌:GPU 和 Transformer 可能是中间态,机器人+大模型会诞生超级品类人生很多事情,不动心是唯一的选择苏州景他很好,唯一的错,是爱错了人《藏品故事》 华荣堂制OpenAI CEO最新演讲:GPT-5性能远超GPT-4;媲美Sora,视频生成模型EMO上线通义APP丨AIGC日报医院是应用大模型最好的场景,但不是商业化的最好场景OpenAI爆炸更新:GPT-4免费了!新模型GPT-4o发布,视觉、语音能力大幅增强,速度起飞,API打骨折台积电董事长预测:未来15年每瓦GPU性能提升1000倍,GPU晶体管数破万亿!微软打破Decoder-Only架构!大幅降低GPU内存需求,网友:把Llama3 70B弄20GB GPU上运行ChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 公司的努力将毫无意义我永远不会回中国!在墨尔本,这是唯一能听到真心话的地方!全美存钱最困难地方在南加,但不是洛杉矶武汉杨泗大桥OpenAI掌门人:GPT-4.0让我爱不释手 下代大模型可能不叫GPT-5芭芭拉跟安姬拉7034 血壮山河之枣宜会战 “扑朔迷离”南瓜店 11新州租金年增长达14.3%!悉尼不是唯一的热点,乡村地带也面临租赁危机45人死亡!突发严重车祸 8岁男童是唯一幸存者ChatGPT 之父最新演讲:GPT-5 聪明程度超乎想象,一大批 AI 初创公司的努力将变得毫无意义OpenAI掌门人最新专访:GPT-4o让我爱不释手 下代大模型可能不叫GPT-5【诚邀投稿】2024 IEEE国际电能转换系统与控制会议(IEEE IEECSC 2024)OpenAI抓内鬼出奇招,奥特曼耍了所有人:GPT搜索鸽了!改升级GPT-4NZ公校开始严查学区?!已经有孩子入学被拒!绿党新联合党魁是她?目前是唯一竞选人!逃离不是唯一因素!加州首次出现人口下降,未来充满不确定性!算力专题:GPU芯片解析惊掉下巴:GPT-4o现场爆改代码看图导航!OpenAI曝光LLM路线图,GPT Next年底发滑大最卷学姐秒拿TD Bank Offer:GPA 4.0不是我的极限,是分数的极限你的方案很好,但SU模型丑绝了!​前谷歌大佬离职创业,不到一年造出GPT3.5和Gemini Pro,惨痛忠告:GPU简直菜鸡,就像是买彩票!AI国力战争:GPU是明线,HBM是暗线日常故事是唯一永恒的故事中国大模型算力到底够不够?Scaling Law不是唯一增长曲线苹果的新 iPad 很好,但我和你都不会买
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。