Redian新闻
>
英伟达首席科学家:5nm实验芯片用INT4达到INT8的精度,每瓦运算速度可达H100的十倍

英伟达首席科学家:5nm实验芯片用INT4达到INT8的精度,每瓦运算速度可达H100的十倍

公众号新闻
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

32位与16位格式的混合精度训练,正是当前深度学习的主流。

最新的英伟达核弹GPU H100,刚刚添加上对8位浮点数格式FP8的支持。

英伟达首席科学家Bill Dally现在又表示,他们还有一个“秘密武器”

在IEEE计算机运算研讨会上,他介绍了一种实验性5nm芯片,可以混合使用8位与4位格式,并且在4位上得到近似8位的精度。

目前这种芯片还在开发中,主要用于深度学习推理所用的INT4和INT8格式,对于如何应用在训练中也在研究了。

相关论文已发表在2022 IEEE Symposium on VLSI Technology上。

新的量化技术

降低数字格式而不造成重大精度损失,要归功于按矢量缩放量化(per-vector scaled quantization,VSQ)的技术。

具体来说,一个INT4数字只能精确表示从-8到7的16个整数。

其他数字都会四舍五入到这16个值上,中间产生的精度损失被称为量化噪声。

传统的量化方法给每个矩阵添加一个缩放因子来减少噪声,VSQ则在这基础之上给每个向量都添加缩放因子,进一步减少噪声。

关键之处在于,缩放因子的值要匹配在神经网络中实际需要表示的数字范围。

英伟达研究人员发现,每64个数字为一组赋予独立调整过的缩放因子可以最小化量化误差。

计算缩放因子的开销可以忽略不计,从INT8降为INT4则让能量效率增加了一倍。

Bill Dally认为,结合上INT4计算、VSQ技术和其他优化方法后,新型芯片可以达到Hopper架构每瓦运算速度的10倍

还有哪些降低计算量的努力

除了英伟达之外,业界还有更多降低计算量的工作也在这次IEEE研讨会上亮相。

马德里康普顿斯大学的一组研究人员设计出基于Posits格式的处理器核心,与Float浮点数相比准确性提高了多达4个数量级。

Posits与Float相比,增加了一个可变长度的Regime区域,用来表示指数的指数。

对于0附近的较小数字只需要占用两个位,而这类数字正是在神经网络中大量使用的。

适用Posits格式的新硬件基于FPGA开发,研究人员发现可以用芯片的面积和功耗来提高精度,而不用增加计算时间。

ETH Zurich一个团队的研究基于RISC-V,他们把两次混合精度的积和熔加计算(fused multiply-add,FMA)放在一起平行计算。

这样可以防止两次计算之间的精度损失,还可以提高内存利用率。

FMA指的是d = a * b + c这样的操作,一般情况下输入中的a和b会使用较低精度,而c和输出的d使用较高精度。

研究人员模拟了新方法可以使计算时间减少几乎一半,同时输出精度有所提高,特别是对于大矢量的计算。

相应的硬件实现正在开发中。

巴塞罗那超算中心和英特尔团队的研究也和FMA相关,致力于神经网络训练可以完全使用BF16格式完成。

BF16格式已在DALL·E 2等大型网络训练中得到应用,不过还需要与更高精度的FP32结合,并且在两者之间来回转换。

这是因为神经网络训练中只有一部分计算不会因BF16而降低精度。

最新解决办法开发了一个扩展的格式BF16-N,将几个BF16数字组合起来表示一个数,可以在不显著牺牲精度的情况下更有效进行FMA计算

关键之处在于,FMA计算单元的面积只受尾数位影响。

比如FP32有23个尾数位,需要576个单位的面积,而BF16-2只需要192个,减少了2/3。

另外这项工作的论文题目也很有意思,BF16 is All You Need。

参考链接:
[1]
https://spectrum.ieee.org/number-representation
[2]https://ieeexplore.ieee.org/document/9830277
[3]https://ieeexplore.ieee.org/document/9823406

量子位「MEET2023智能未来大会」

倒计时4日,即将线上直播


点这里关注我 👇 记得标星噢 ~


一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
首席科学家曾光:北京新冠感染人数近1800万,全国感染者超6亿英特尔4nm、3nm、1.8nm时间表更新急症室故事6: 那些不作不死的人Tibet was peacefully liberated英伟达 AD106 GPU 跑分曝光:达到 GA104(RTX 3070 Ti)水平每秒1000000000000000000次运算!Cerebras新超级计算机打造世界最大1350万核心AI集群台积电谈5nm后的模拟设计6年技术工程师转行Tesla资深PM!大学生揽下微软与ServiceNow双PM实习Offer|11月产品经理Offer榜华为云发布冷启动加速解决方案:助力Serverless计算速度提升90%+90后首席科学家与他的柔性电子材料远景智能零碳产品首席科学家邱林:中国动力电池出海正面临越来越严苛的产品碳足迹要求有效融合语言模型、图神经网络,文本图训练框架GLEM实现新SOTA硬刚4090,售价腰斩老黄!苏妈发布5nm新旗舰7900XTX量子纠缠,来自X星球的男朋友英伟达 RTX 40 系列笔记本 GPU 的 TGP 和频率曝光,RTX 4090 最高可达 200W首席科学家曾光: 北京新冠感染人数近1800万, 全国感染者超6亿世界最快鞋子:有八个滑轮,步行时速度可达11千米安省的食用蘑菇与毒菇(第一集)腾讯首席科学家张正友对话中科院计算技术所陈熙霖:AI与机器人推进全真互联人类反超 AI:DeepMind 用 AI 打破矩阵乘法计算速度 50 年记录一周后,数学家再次刷新试物说vol.592 | 一张能拆成5片用,这款化妆棉真的划得戳绿研院日报 | 复星向福建省捐赠3000瓶阿兹夫定片用于疫情防控在中国,真正躺平的,是ta新州高铁方案终于有望启动!将连接悉尼和这些城市,速度可达250km/h!不用戴口罩了?有大规模后遗症?中疾控前首席科学家曾光关于疫情的解读(信息量极大)三个月搞出A100的替代芯片,为啥英伟达不想放弃中国市场?英伟达H100横扫MLPerf ,训练性能吊打A100优力勤推出 Oncilla PCIe Gen 4.0 M.2 2280 SSD,速度可达 7400 MB/s神经渲染与AI生成框架结合,5倍提升游戏速度,英伟达是这样做的全球首款Chiplet游戏GPU来了!5nm、高性价比、售价899美元起对吨级物体推进速度可达1030公里/小时!“电磁橇”来了XBB来袭?传播速度可能更快,免疫逃逸能力增加!会导致二次感染?最新解读来了!硬刚4090,售价腰斩老黄!苏妈发布5nm新旗舰7900XTX,光追提升50%台积电更多计划曝光:3nm、2nm和1nmAI求解偏微分方程新基准登NeurIPS,发现JAX计算速度比PyTorch快6倍,LeCun转发:这领域确实很火
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。