英伟达成功的四要素
来源:内容由半导体行业观察(ID:icbank)编译自IEEE,谢谢。
英伟达目前正处于高位。在过去的 10 年里,该公司已经成功地将其芯片在 AI 任务上的性能提高了数千倍,赚得盆满钵满,而且据报道很难获得其最新的 AI 加速 GPU H100。
英伟达是如何走到这一步的?该公司的首席科学家Bill Dally上周在硅谷举行的 IEEE Hot Chips 2023高性能微处理器研讨会上发表主题演讲时,在一张幻灯片中成功地总结了这一切。令人惊讶的是,摩尔定律只是 Nvidia 魔法中的一小部分,而新的数字格式则占了很大一部分。把它们放在一起,你就得到了Dally所说的黄氏定律(Nvidia 首席执行官黄仁勋)。
数字表示:16x
“总的来说,我们获得的最大收益来自更好的数字表示,”Dally告诉工程师。这些数字代表神经网络的关键参数。其中一个参数是权重——模型中神经元与神经元连接的强度——另一个参数是激活——将神经元加权输入的总和相乘,以确定它是否激活,从而将信息传播到下一层。在 P100 之前,Nvidia GPU 使用单精度浮点数字表示这些权重。由IEEE 754 标准定义,它们的长度为 32 位,其中 23 位表示分数,8 位本质上用作分数的指数,1 位表示数字的符号。
但机器学习研究人员很快了解到,在许多计算中,他们可以使用不太精确的数字,而他们的神经网络仍然会得出同样准确的答案。这样做的明显优点是,如果需要处理更少的位,则执行机器学习关键计算(乘法和累加)的逻辑可以变得更快、更小、更高效。(Dally 解释说,乘法所需的能量与位数的平方成正比。)因此,在 P100 中,Nvidia 使用 FP16 将这个数字减少了一半。谷歌甚至推出了自己的版本,名为bfloat16。(区别在于分数位的相对数量(提供精度)和指数位(提供范围)。Bfloat16 的范围位数量与 FP32 相同,因此更容易在两种格式之间来回切换。)
快进到今天,Nvidia 领先的 GPU H100可以使用 8 位数字来完成massive-transformer神经网络的某些部分,例如ChatGPT和其他大型语言模型。然而,英伟达确实发现这并不是一种万能的解决方案。例如,Nvidia 的Hopper GPU架构实际上使用两种不同的 FP8 格式进行计算,一种精度稍高,另一种范围稍大。Nvidia 的特殊之处在于知道何时使用哪种格式。
Dally和他的团队有各种有趣的想法,可以从更少的比特中榨取更多的人工智能。很明显,浮点系统并不理想。主要问题之一是,无论数字大小,浮点精度都相当一致。但神经网络的参数不使用大数字,它们聚集在零附近。因此,Nvidia 的研发重点是寻找有效的方法来表示数字,以便它们在接近零时更加准确。
复杂指令:12.5x
“获取和解码指令的开销是执行简单算术运算的开销的许多倍,”Dally 说。他指出了一种乘法,其消耗的开销是用于计算本身的 1.5 皮焦耳的整整 20 倍。通过将 GPU 设计为在单个指令而不是指令序列中执行大型计算,Nvidia 取得了巨大的进步。达利说,仍然存在开销,但由于指令复杂,它可以通过更多的数学运算来摊销。例如,复杂指令整数矩阵乘法和累加 (IMMA) 的开销仅为数学能量成本的 16%。
摩尔定律:2.5x
维持摩尔定律的进步 需要数十亿美元的投资、一些非常复杂的工程以及一系列国际 焦虑。但它只占 Nvidia GPU 收益的一小部分。公司一贯采用最先进的制造技术;H100 采用台积电的 N5(5 纳米)工艺制造,该芯片代工厂于 2022 年底才开始首次生产下一代 N3。
稀疏度:2x
经过训练后,神经网络中的许多神经元可能一开始就不存在。对于某些网络,“你可以删除一半或更多的神经元而不会损失准确性,”Dally说。它们的权重值为零或非常接近零;所以它们只是不贡献输出,将它们包含在计算中是浪费时间和精力。
让这些网络“稀疏”以减少计算负载是一件棘手的事情。但在H100 的前身A100中,Nvidia 引入了所谓的结构化稀疏性。它的硬件可以强制每四个可能的修剪事件中的两个发生,从而导致新的更小的矩阵计算。
“我们还没有结束稀疏性,”Dally说。“我们需要对激活做一些事情,并且权重也可以更加稀疏。”
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3517期内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
微信扫码关注该文公众号作者