Redian新闻
>
基于存算一体技术的GPU大型计算系统

基于存算一体技术的GPU大型计算系统

公众号新闻

陈巍谈芯:产业巨头已经打通存算一体技术的落地通道,存算一体技术加快应用部署。与未使用HBM-PIM(HBM-PIM GPU v.s. HBM GPU)相比,仅用20nm工艺就使7nm集群计算性能提升了2.5倍。这个思路也是本人在2016年给中科院提的研发建议。

三星电子于 12 月 12 日宣布,他们开发了世界上第一个基于数字存内处理 (PIM,也可称存内计算或存算一体) 芯片(HBM-PIM)的GPU的大规模计算系统。


三星电子高等技术研究院人工智能研究中心副主任崔昌圭(Choi Chang-kyu)在由三星电子主办的2022人工智能(AI)半导体未来技术大会上通过主题演讲披露了新计算技术的发展。他们通过组合来自AMD的96个GPU(MI100)构建了一个大型计算系统,每个GPU都加载了一个HBM-PIM芯片,并成功展示了存内处理 (PIM) 芯片的性能。这是一种存算一体技术,可以显著减少数据在CPU 和 DRAM 之间移动的频度并提升性能。

存算一体技术超越传统冯诺依曼架构

PIM 是指将计算单元与随机存取存储器 (DRAM) 集成在单个芯片上。这项技术有望有助于提高庞大的人工智能 (AI) 的性能。三星使了严格意义上的芯片内数字近存计算来提升AI计算性能。三星 HBM-PIM 芯片与其他公司 HBM 实现的不同之处在于,PIM 芯片上的每个存储块内都包含一个内部处理单元


三星HBM-PIM阵列架构

基于存算一体技术的20nm HBM-PIM(DRAM工艺)使得7nm GPU性能增强2.5倍

根据三星去年在ISSCC发布的学术文章信息披露,该HBM-PIM使用的是三星的20nm DRAM工艺。负责计算的PCU与DRAM 阵列在同一个晶圆平面内,显著性能提升主要来自存算一体技术而非3D 堆叠封装。仅用20nm工艺的PCU进行简单的逻辑计算(DRAM工艺做逻辑计算其实不划算,外周的逻辑晶体管的实际栅长在32nm附近),就使得7nm工艺GPU集群的性能提升到2.5倍。

三星电子使用该系统训练语言模型算法T5(Text-to-Test Transfer Transformer)时,与未使用PIM时相比,性能提升了2.5倍,功耗降低了2.67倍。与仅配备 HBM 的 GPU 加速器相比,配备 HBM-PIM 的 GPU 加速器一年的能耗下降了约 2,100 GWh。三星表示,其 PIM 技术将对能源消耗和环境具有重大影响,可将集群的年能源使用量减少,相当于减少 960,000 吨碳排放

三星HBM-PIM架构图

三星开发的另一个方向是使用 CXL(Compute Express Link)开放标准,用于高速处理器到设备和处理器到内存的接口,从而可以更有效地使用与处理器一起使用的内存和加速器。

CXL 可以与其他技术结合使用,例如 Processing-near-Memory (PNM),以帮助促进内存容量扩展。

与 PIM 一样,它通过使用内存进行数据计算来减少 CPU 和内存之间的数据移动。在 PNM 的情况下,计算功能在更靠近内存的地方执行,以减少 CPU 和内存数据传输之间发生的瓶颈。

三星本月早些时候推出了带有 CXL 的 PNM 技术,用于高容量 AI 模型处理。在测试中,基于 CXL 接口的 PNM 系统在推荐系统或需要高内存带宽的内存数据库等应用中性能翻倍。


相关阅读:
推荐阅读:
高性能计算技术、方案和行业全解(第二版)
InfiniBand架构和技术实战总结(第二版)
RDMA原理分析、对比和技术实现解析

或者获取全店资料打包,后续免费获取全店所有新增和更新。

全店铺技术资料打包(全)


转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。
推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。
全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。

温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“IT技术全店资料打包汇总(全)电子书资料详情

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
在线研讨会:InfiniBand 池化方案与存算分离数据库 | 直播预告AYANEO OS 掌机系统 2023 年上线:基于 Linux 系统,为复古游戏优化熬过“压垮台积电7nm利用率”逆风!英伟达迎来新款GPU大卖,大喊:AI拐点已到全栈自研!易现推出AR软硬一体新方案,打造一体机,引入AIGC宁德时代技术出海,必须小心美国对电池技术的公开抢劫【推广】伊大将领导ACE可进化计算中心,着力于2030年后分布式计算技术开发天数智芯发布通用GPU推理产品智铠100,训推一体加速构建AI自主生态27 年前,中国自研第一台 64 位超级小型计算机,当时世界最先进【首发】亿航生物完成数千万元A+轮融资,打造国际领先的外泌体技术原创研发与临床转化平台这是Meta版ChatGPT雏形?开源、一块GPU就能跑,1/10参数量打败GPT-3一键划重点,微信测试新功能/iPhone 14 Pro放弃GPU大升级/蔚来明年欲超雷克萨斯巴黎,巴黎(8)从微生物基因组挖掘小分子药物,Hexagon获投近8000万美元,拟继续扩展新型计算发现平台U大道日本餐厅旁命案 1男遭人刺中多刀毙命两会 | 重庆农商行谢文辉:以金融一体化为着力点,推进成渝经济一体化巴黎,巴黎(9)2022我飞越三洲(3)华盛顿DC宝藏多多OpenAI的GPT-4和 GPT-5,会是怎么样?AIGC时代,如何在IPU上部署经济且高效的GPT模型?腾讯大股东把9600万股腾讯股票移入香港中央结算系统趋势洞见|存算一体ChatGPT爆火之后,如何抓住新一代信息技术的变革机遇?英特尔GPU大牛投身AI创业/ ChatGPT公布Bug原因/ SpaceX最新估值1400亿美元…今日更多新鲜事在此日本啊,日本(十一)利休之死深度解读AMD的GPU架构ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!中国新冠为什么这么多人发烧?游戏版《西部世界》来了!NPC全由AI操控,行动自如有理想和记忆,基于最新GAEA技术系统打造存算一体:芯片设计瓶颈与挑战【首发】集视科技获远毅资本天使轮投资,为2700万全年龄段弱视患者提供基于XR技术的视觉训练方法澳洲仅不到一半的GP提供bulk billing!专家示警称澳洲医保系统撑不住了!戴尔CTO:企业数字化转型的四大关键点,未来量子计算一定会商品化|36氪专访英伟达发布ChatGPT专用GPU,计算光刻提速40倍!AI的决定性时刻来了“特能聊的 ChatGPT”是智能对话技术的下半场吗?| Q推荐Sherlock收购分子诊断公司,以加快推出基于CRISPR基因编辑技术的手持式诊断测试
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。