英伟达高管科普:什么是GPU?
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank)编译自HPCwire,谢谢。
GPU 常常被比作人工智能的“黄金”,对当今的生成式 AI 时代至关重要。本文旨在解释为什么没有 GPU 就无法实现 AI。让我们从一个简单的处理器任务开始 — 在屏幕上显示图像(如下所示)。
虽然看起来很简单,但这项任务涉及几个步骤:几何变换、光栅化、片段处理、帧缓冲区操作和输出合并。这些概述了 GPU 管道渲染 3D 图形的过程。
在 GPU 管道中,图像被转换为多边形网格表示,如下所示:
单个茶壶图像被转换成由数百个三角形组成的网格结构,每个三角形以相同的方式单独处理。
在处理这个“简单”的任务时,GPU 提供了哪些 CPU 无法提供的功能?高端服务器 CPU 最多可以有 128 个内核,因此 CPU 可以同时处理茶壶中的 128 个三角形。用户看到的是部分渲染的茶壶,随着 CPU 内核完成并选择新的三角形进行渲染,茶壶会慢慢完成。想象一下玩侠盗猎车手 (GTA) 时看到部分渲染的场景——这会破坏体验,甚至让老款贪吃蛇游戏看起来更有趣。
GPU 如何提供完整的 GTA 游戏体验?答案是“并行性”,因为它拥有数万个核心。GPU 可以同时渲染茶壶的所有三角形,因为它有许多线程并行处理每个三角形。本质上,CPU 处理串行计算,而 GPU 则是为并行处理而构建的。
GPU 最初是为了增强 3D 图形渲染而创建的,随着时间的推移,它变得更加通用和可编程。它们通过高级照明和阴影添加了更好的视觉效果和逼真场景的功能,彻底改变了游戏。但它并没有止步于此。开发人员看到了 GPU 尚未开发的潜力。回到我们的茶壶示例,GPU 执行基于矢量的数学计算和矩阵乘法来渲染图像。渲染一个简单的茶壶需要大约 192 字节,而一个包含 100 个对象的复杂 GTA 场景则需要大约 10KB。
GPU 的内置并行性和高吞吐量加速了计算,推动研究人员使用 GPU 进行蛋白质折叠模拟和物理计算等任务。这些早期成果表明,GPU 可以加速图形渲染以外的计算密集型任务,例如神经网络中使用的矩阵和向量运算。尽管神经网络可以在没有 GPU 的情况下实现,但其功能受到可用计算能力的限制。GPU 的出现为有效训练深度和复杂的神经网络提供了必要的资源,推动了深度学习技术的快速发展和广泛采用。
为了使 GPU 能够有效地处理各种任务,Nvidia 开发了不同类型的 GPU 核心,专门用于各种功能:
CUDA 核心:用于通用并行处理,包括渲染图形、科学计算和基本机器学习任务。
Tensor Cores:专为深度学习和人工智能而设计,它们可以加速矩阵乘法等张量运算,这对于神经网络的训练和推理至关重要。
RT 核心:专注于实时光线追踪,提供图形中逼真的灯光、阴影和反射。
这是否意味着 GPU 可以取代 CPU?绝对不是!CPU 就像计算机的大脑,它拥有更少但更强大的核心,能够快速管理单个任务。CPU 关注延迟,反映系统响应时间,而 GPU 关注吞吐量,表示系统容量。GPU 从单纯的图形加速器到在超级计算机中扮演关键角色的历程,标志着技术快速进步和应用不断扩展的故事。机器学习曾经缓慢且不准确,但 GPU 的集成彻底改变了大型神经网络,推动了自动驾驶和图像/物体识别等领域的进步。高性能计算现已成为一项领先的企业技术,很大程度上是由 GPU 推动的。
备注:本文作者Manasi Rashinkar 拥有圣克拉拉大学电子工程硕士学位,目前担任 Nvidia 高级 ASIC 工程师兼时序主管。需要声明的是,本文为 Manasi 本人作品,不代表 Nvidia。
参考链接
https://www.hpcwire.com/2024/07/30/understanding-the-gpu-the-catalyst-of-the-current-ai-revolution/
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3843内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者