Redian新闻
>
GPU平台生态,英伟达CUDA和AMD ROCm对比分析

GPU平台生态,英伟达CUDA和AMD ROCm对比分析

公众号新闻

成熟且完善的平台生态是 GPU 厂商的护城河。相较于持续迭代的微架构带来的技术壁垒硬实力,成熟的软件生态形成的强大用户粘性将在长时间内塑造 GPU厂商的软实力。以英伟达 CUDA 为例的软硬件设计架构提供了硬件的直接访问接口,不必依赖图形 API 映射,降低 GPGPU 开发者编译难度,以此实现高粘性的开发者生态。目前主流的开发平台还包括 AMD ROCm 以及 OpenCL


本文内容来源:AI算力行业深度:AI模型乘风起,GPU掌舵算力大,上篇内容参考“GPU竞争壁垒:微架构和平台生态”。

CUDACompute Unified Device Architectecture),是 NVIDIA 2006 年推出的通用并行计算架构,包含 CUDA 指令集架构(ISA)和 GPU 内部的并行计算引擎。该架构允许开发者使用高级编程语言(例如 C 语言)利用 GPU 硬件的并行计算能力并对计算任务进行分配和管理,CUDA 提供了一种比 CPU 更有效的解决大规模数据计算问题的方案,在深度学习训练和推理领域被广泛使用。



CUDA 除了是并行计算架构外,还是 CPU GPU 协调工作的通用语言。CUDA 编程模型中,主要有 Host(主机)和 Device(设备)两个概念,Host 包含 CPU 和主机内存,Device 包含 GPU 和显存,两者之间通过 PCI Express 总线进行数据传输。在具体的 CUDA 实现中,程序通常划分为两部分,在主机上运行的 Host 代码和在设备上运行的 Device 代码。Host 代码负责程序整体的流程控制和数据交换,而 Device 代码则负责执行具体的计算任务。


一个完整的 CUDA程序是由一系列的设备端函数并行部分和主机端的串行处理部分共同组成的,主机和设备通过这种方式可以高效地协同工作,实现 GPU 的加速计算。



CUDA Host 运行的函数库包括了开发库(Libraries)、运行时(Runtime)和驱动(Driver)三大部分。其中,Libraries 提供了一些常见的数学和科学计算任务运算库,Runtime API 提供了便捷的应用开发接口和运行期组件,开发者可以通过调用 API 自动管理 GPU 资源,而 Driver API 提供了一系列 C 函数库,能更底层、更高效地控制 GPU 资源,但相应的开发者需要手动管理模块编译等复杂任务。


CUDA Device 上执行的函数为内核函数(Kernel)通常用于并行计算和数据处理。Kernel 中,并行部分由 K 个不同的 CUDA 线程并行执行 K 次,而有别于普通的 C/C++函数只有 1 次。每一个 CUDA 内核都以一个声明指定器开始,程序员通过使用内置变量__global__为每个线程提供一个唯一的全局 ID。一组线程被称为 CUDA 块(block)。CUDA 块被分组为一个网格(grid),一个内核以线程块的网格形式执行。每个 CUDA 块由一个流式多处理器(SM)执行,不能迁移到 GPU 中的其他 SM,一个 SM 可以运行多个并发的 CUDA 块,取决于CUDA 块所需的资源,每个内核在一个设备上执行,CUDA 支持在一个设备上同时运行多个内核。



丰富而成熟的软件生态是 CUDA 被广泛使用的关键原因。


1)编程语言:CUDA 从最初的 1.0 版本仅支持 C 语言编程,到现在的 CUDA 12.0 支持 CC++FortranPython 等多种编程语言。此外,NVIDIA 还支持了如 PyCUDAltimesh HybridizerOpenACC 等众多第三方工具链,不断提升开发者的使用体验。


2)库:NVIDIA CUDA 平台上提供了名为 CUDA-X 的集合层,开发人员可以通过 CUDA-X 快速部署如 cuBLANPPNCCLcuDNNTensorRTOpenCV 等多领域常用库。


3)其他:NVIDIA 还为 CUDA 开发人员提供了容器部署流程简化以及集群环境扩展应用程序的工具,让应用程序更易加速,使得CUDA 技术能够适用于更广泛的领域。


ROCm Radeon Open Compute Platform )是 AMD 基于开源项目的 GPU计算生态系统,类似于 NVIDIA CUDAROCm 支持多种编程语言、编译器、库和工具,以加速科学计算、人工智能和机器学习等领域的应用。ROCm还支持多种加速器厂商和架构,提供了开放的可移植性和互操作性。


ROCm 支持HIP(类 CUDA)和 OpenCL 两种 GPU 编程模型,可实现 CUDA ROCm 的迁移。最新的 ROCm 5.0 支持 AMD Infinity Hub 上的人工智能框架容器,包括TensorFlow 1.xPyTorch 1.8MXNet 等,同时改进了 ROCm 库和工具的性能和稳定性,包括 MIOpenMIVisionXrocBLASrocFFTrocRAND 等。



OpenCLOpen Compute Language),是面向异构系统通用并行编程、可以在多个平台和设备上运行的开放标准。OpenCL 支持多种编程语言和环境,并提供丰富的工具来帮助开发和调试,可以同时利用 CPUGPUDSP 等不同类型的加速器来执行任务,并支持数据传输和同步。


此外,OpenCL 支持细粒度和粗粒度并行编程模型,可根据应用需求选择合适模型提高性能和效率。而 OpenCL可移植性有限,不同平台和设备的功能支持和性能表现存在一定差异,与 CUDA相比缺少广泛的社区支持和成熟的生态圈。


下载链接:
AI算力行业深度:AI模型乘风起,GPU掌舵算力大时代
AI大语言模型的原理、演进及算力测算
功率半导体:能源变革大时代,功率器件大市场
半导体专题研究:存储当前趋势分析,AI时代揭开新序章
人工智能之火点燃算力需求,AI服务器市场拆解
人工智能:史上最伟大的科技革命
AI大模型在自动驾驶中应用(2023)
GPT-5后NLP大模型逐步走向收敛,ASIC将大有可为
《70+篇半导体行业“研究框架”合集》
《42份智能网卡和DPU合集》
227份重磅ChatGPT专业报告
GPT4专题:构建模型理解能力,商业落地未来可期
华为昇腾服务器研究框架(2023)
《华为鲲鹏产业链深度研究合集》

推荐阅读:
高性能计算技术、方案和行业全解(第二版)
InfiniBand架构和技术实战总结(第二版)
RDMA原理分析、对比和技术实现解析


或者获取全店资料打包,后续免费获取全店所有新增和更新。

全店铺技术资料打包(全)



申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。


推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
美媒:英伟达CEO拟本月赴华,会见腾讯、字节等高管马化腾转发文章称要“收紧队形”,腾讯公关部表示非内部讲话;英伟达CEO黄仁勋或于6月6日到访上海;比亚迪回应西安工厂起火丨邦早报马斯克再次成世界首富;英伟达CEO黄仁勋计划访华;哪吒汽车否认赴港IPO传闻;百度网盘回应App在苹果应用商店下架...Deerfield/Choate/Hotchkiss/Lawrenceville学术和“爬藤”对比分析,你最关心的都在这里!五十四 平定英伟达发布ChatGPT专用GPU,计算光刻提速40倍!AI的决定性时刻来了一天到晚瞎想出这些个“对华芯片战会对美国科技造成巨大损害”,英伟达CEO为什么这么说?英伟达杀入光刻领域,DPU和GPU重磅更新,首次详谈云服务!GPU竞争壁垒:微架构和平台生态苹果今晨推送新系统/ChatGPT出现泄露聊天记录的风险/英伟达ChatGPT同款超算上云ChatGPT横空出世,AI“翻译官”要突破英伟达CUDA生态,让AI芯片更聪明注意!加拿大卫生部召回Temu平台销售的安全座椅追赶GPT-4的多模态大模型对比分析英伟达CFO抛售股权:或预示股价被高估 “木头姐”称定价超前惊险!紫金矿业旗下金矿又遭袭击!高管涨薪100%?康泰生物回应!英伟达CEO黄仁勋或6月访华走进沙特之三:麦加四种不良贷款出表方式对比分析他宣布,竞选美国总统!事关中国,英伟达CEO警告拜登政府!抗衡微软、谷歌,马斯克要开AI公司了?Meta再裁6000人英伟达CEO黄仁勋已启程返回美国英伟达CEO表示AI填平了数字鸿沟,人人都是程序员Midjourney官方中文内测来了/《塞尔达传说》或改编电影/英伟达CEO个人安保费大增 756%市值暴涨至万亿美元后,英伟达再放大招!推出超级 AI 计算平台:集成 256 个 GH200 芯片、共享内存 144TB英伟达CTO:加密货币对社会没任何好处英伟达发布ChatGPT专用GPU,性能提升10倍,还推出云服务,普通企业也能训练LLM一周重磅日程:苹果大会MR将亮相,英伟达CEO访华英伟达CEO黄仁勋计划访华五十三 训斥淘天集团首战618,一场平台生态的“再创业”市值暴涨至万亿美元后,英伟达再放大招!推出超级AI计算平台:集成256个GH200芯片、共享内存144TBAI服务器成本分析,英伟达疯狂敛财ChatGPT带火AI芯片,赚翻了的英伟达发布新核弹:ChatGPT专用GPU,让推理提速10倍!BB鸭 | 百度网盘遭苹果下架;英伟达CEO黄仁勋本月来中国;全球知名资源网站宣布关闭;三星将为现代汽车供应显示器ByConity与主流开源OLAP引擎(Clickhouse、Doris、Presto)性能对比分析《空港(くうこう)》
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。