Redian新闻
>
英伟达成功的四要素

英伟达成功的四要素

公众号新闻

来源:内容由半导体行业观察(ID:icbank)编译自IEEE,谢谢。

英伟达目前正处于高位。在过去的 10 年里,该公司已经成功地将其芯片在 AI 任务上的性能提高了数千倍,赚得盆满钵满,而且据报道很难获得其最新的 AI 加速 GPU H100。


英伟达是如何走到这一步的?该公司的首席科学家Bill Dally上周在硅谷举行的 IEEE Hot Chips 2023高性能微处理器研讨会上发表主题演讲时,在一张幻灯片中成功地总结了这一切。令人惊讶的是,摩尔定律只是 Nvidia 魔法中的一小部分,而新的数字格式则占了很大一部分。把它们放在一起,你就得到了Dally所说的黄氏定律(Nvidia 首席执行官黄仁勋)。



数字表示:16x


“总的来说,我们获得的最大收益来自更好的数字表示,”Dally告诉工程师。这些数字代表神经网络的关键参数。其中一个参数是权重——模型中神经元与神经元连接的强度——另一个参数是激活——将神经元加权输入的总和相乘,以确定它是否激活,从而将信息传播到下一层。在 P100 之前,Nvidia GPU 使用单精度浮点数字表示这些权重。由IEEE 754 标准定义,它们的长度为 32 位,其中 23 位表示分数,8 位本质上用作分数的指数,1 位表示数字的符号。


但机器学习研究人员很快了解到,在许多计算中,他们可以使用不太精确的数字,而他们的神经网络仍然会得出同样准确的答案。这样做的明显优点是,如果需要处理更少的位,则执行机器学习关键计算(乘法和累加)的逻辑可以变得更快、更小、更高效。(Dally 解释说,乘法所需的能量与位数的平方成正比。)因此,在 P100 中,Nvidia 使用 FP16 将这个数字减少了一半。谷歌甚至推出了自己的版本,名为bfloat16。(区别在于分数位的相对数量(提供精度)和指数位(提供范围)。Bfloat16 的范围位数量与 FP32 相同,因此更容易在两种格式之间来回切换。)


快进到今天,Nvidia 领先的 GPU H100可以使用 8 位数字来完成massive-transformer神经网络的某些部分,例如ChatGPT和其他大型语言模型。然而,英伟达确实发现这并不是一种万能的解决方案。例如,Nvidia 的Hopper GPU架构实际上使用两种不同的 FP8 格式进行计算,一种精度稍高,另一种范围稍大。Nvidia 的特殊之处在于知道何时使用哪种格式。


Dally和他的团队有各种有趣的想法,可以从更少的比特中榨取更多的人工智能。很明显,浮点系统并不理想。主要问题之一是,无论数字大小,浮点精度都相当一致。但神经网络的参数不使用大数字,它们聚集在零附近。因此,Nvidia 的研发重点是寻找有效的方法来表示数字,以便它们在接近零时更加准确。


复杂指令:12.5x


“获取和解码指令的开销是执行简单算术运算的开销的许多倍,”Dally 说。他指出了一种乘法,其消耗的开销是用于计算本身的 1.5 皮焦耳的整整 20 倍。通过将 GPU 设计为在单个指令而不是指令序列中执行大型计算,Nvidia 取得了巨大的进步。达利说,仍然存在开销,但由于指令复杂,它可以通过更多的数学运算来摊销。例如,复杂指令整数矩阵乘法和累加 (IMMA) 的开销仅为数学能量成本的 16%。


摩尔定律:2.5x


维持摩尔定律的进步 需要数十亿美元的投资、一些非常复杂的工程以及一系列国际 焦虑。但它只占 Nvidia GPU 收益的一小部分。公司一贯采用最先进的制造技术;H100 采用台积电的 N5(5 纳米)工艺制造,该芯片代工厂于 2022 年底才开始首次生产下一代 N3。


稀疏度:2x


经过训练后,神经网络中的许多神经元可能一开始就不存在。对于某些网络,“你可以删除一半或更多的神经元而不会损失准确性,”Dally说。它们的权重值为零或非常接近零;所以它们只是不贡献输出,将它们包含在计算中是浪费时间和精力。


让这些网络“稀疏”以减少计算负载是一件棘手的事情。但在H100 的前身A100中,Nvidia 引入了所谓的结构化稀疏性。它的硬件可以强制每四个可能的修剪事件中的两个发生,从而导致新的更小的矩阵计算。


“我们还没有结束稀疏性,”Dally说。“我们需要对激活做一些事情,并且权重也可以更加稀疏。”

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3517期内容,欢迎关注。

推荐阅读


芯片行业,怎么办?

氮化镓,再起风云

MEMS最新榜单:两极分化,未来可期


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
硬件产品经理:产品成功的四个要素万字长文揭秘英伟达的焦虑与成功方法论 |【经纬低调分享】成功在于远见?英伟达CEO称英伟达5年前把一切都押在了AI上小米汽车已获批?预计2024年量产!年轻人的第一台车来了?雷军:成功的唯一途径是成为前五名之一 ​想要培育成功的孩子吗? 多使用这 4 个 “积极”短语哥大教授“卧底”哈佛、剑桥、斯坦福发现:成功的孩子都有这个特质....李培芳:给孩子好玩的、温暖的、成功的数学。傅首尔:不会拒绝的孩子会吃亏!学会高情商表达,才是通往成功的秘诀~美国入境档案--张承哲,1910年旧金山牛仔裤与大妈气他们眼睛里发着光,希望了解中国是如何成功的荷兰人为什么要造风车?一个成功的销售人员,有五不怕!自然科学基金委首次针对数据要素领域设立专项项目,围绕“数据要素及其流通的基础理论与机制设计”开展资助!小米和华为宣布达成全球专利交叉许可协议;美的楼宇科技与火山引擎达成合作|绿研院日报摄影师,请给自己一个成功的机会……在街头骚乱背后,数据显示法国越来越像一个成功的欧洲大国男人的嘴,骗人的鬼施瓦辛格谈如何把自己的外国口音转为成功要素,他还把共和党当家吗,如何看特朗普“黄氏定律”,英伟达AI成功的秘诀万字长文揭秘英伟达的焦虑与成功方法论宋志平对话朱共山:偏执乐观是企业家成功的奥秘全球哄抢H100!英伟达成GPU霸主,首席科学家揭秘成功四要素英伟达 GeForce RTX 4090 显卡成功超频至 4090MHz+ 刷新记录英伟达特拉维夫AI峰会取消!老黄内部邮件曝出:英伟达员工也被绑架强降雨过后注意饮食安全,做好“四要七不要”2023诺奖得主Katalin Karikó,大数据剖析出其成功的要素成功案例 | 两组家庭同日获批香港人才计划,个性化方案是申请成功的关键查理·芒格:我们的教育太过局限在一个学科,殊不知跨学科技能才是成功的关键年度最绝融资:拿英伟达H100抵押贷款165亿,买更多英伟达GPU扩建10个数据中心矣进宏,CBA首位选秀成功的草根球员烟火气(4)[日签] ​想成功的决心,比其他任何事情都重要扭曲现实,制造幻境:一个成功的主题行情是这样炼成的SpaceX测试时成功点燃全部引擎;科大讯飞刘庆峰:华为GPU可对标英伟达A100;微软更新Office | AI 一周资讯
logo
联系我们隐私协议©2025 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。