Redian新闻
>
100亿参数的语言模型跑不动?MIT华人博士提出SmoothQuant量化,内存需求直降一半,速度提升1.56倍!

100亿参数的语言模型跑不动?MIT华人博士提出SmoothQuant量化,内存需求直降一半,速度提升1.56倍!

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】一个简单的量化操作,让你运行大规模语言模型的GPU需求量直接降低一半!

大型语言模型(LLM)虽然性能强劲,但动辄几百上千亿的参数量,对计算设备还是内存的需求量之大,都不是一般公司能承受得住的。



量化(Quantization)是常见的压缩操作,通过降低模型权重的精度(如32bit降为8bit),牺牲一部分模型的性能来换取更快的推理速度,更少的内存需求。

但对于超过1000亿参数量的LLM来说,现有的压缩方法都无法保持模型的准确率,也无法在硬件上高效地运行。


最近,麻省理工学院和英伟达的研究人员联合提出了一个通用后训练的量化(GPQ, general-purpose post-training quantization)方案SmoothQuant,对大型语言模型可以高效实现8-bit权重,8-bit激活(W8A8)的量化,无需训练也能保持模型的准确率。


论文链接:https://arxiv.org/pdf/2211.10438.pdf

代码链接:https://github.com/mit-han-lab/smoothquant


由于激活相比权重更难量化,SmoothQuant通过数学等价变换将较难量化的激活迁移到权重上,实现了对激活异常值(activation outliers)的平滑处理。

SmoothQuant能够对所有LLM的各种层中权重和激活量化到INT8,包括OPT-175B, BLOOM-176B和GLM-130B。


相比现有方法仅对权重进行靓货,或者对激活进行混合精度的量化,SmoothQuant有更高的硬件效率,实现了1.56倍加速,内存需求仅为原始LLM的一半,并且在准确率上几乎没有损失



SmoothQuant同时具有硬件友好的设计,研究人员将SmoothQuant集成进了LLM服务框架FasterTransformer中,实现了更快的推理速度,相比FP16的精度仅需一半数量的GPU


文章的第一作者肖光烜是MIT EECS的一年级博士生,本科毕业于清华大学计算机科学与技术学院。


导师Song Han是MIT EECS的副教授,博士毕业于斯坦福大学,主要研究方向为高效深度学习,曾提出深度压缩(deep compression)技术,可以将神经网络的尺寸降低一个数量级,而不损失准确率。



SmoothQuant


量化(Quantization)就是把高精度的值映射到更低精度的离散值,在这篇论文中研究人员主要关注对硬件更高效的整数均匀量化(integer uniform quantization),尤其是INT8。



量化操作可以在不同的粒度上执行,如per-tensor量化应用于整个权重矩阵,per-token量化应用于激活中的每个token,per-channel量化应用于权重的每个输出通道。



通过对激活的量化结果进行观察,研究人员总结出了几个模式:


1、量化比权重更难量化。


权重的分布相对更加均匀和平坦,之前的研究结果已经证明将大型语言模型的权重降低到INT8,甚至到INT4对准确率的影响都不大。


2、异常值是激活量化中的主要难点。


激活中的异常值通常比正常值要高出100倍左右,导致没有异常值通道中的量化bits/levels效率很低。



3、异常值固定在某一通道中出现。


异常值只在很小一部分的通道中才会出现,但如果一个通道中有一个异常值,那该异常值可能会在所有的token中出现。



给定一个token中所有通道的方差会很大(一些通道会非常大,但大部分很小),但是给定一个通道在所有token度中的方差会很小(异常值通道会很大)。


由于异常值具有持续出现和每个通道内小方差的特点,那如果对激活执行per-channel量化,其量化误差将会远远小于per-tensor量化。


通过一个简单的实验,其结果再次验证了研究人员的想法,量化到INT8时,per-channel的准确率远远高于per-tensor和per-token量化,和FP16基线准确率相差无几。



研究人员通过使用一个per-channel平滑因子s来将输入激活进行平滑(smooth)。为了保持线性层的数学等价,还需要反向缩放权重。



由于输入X通常是由之前的线性操作生成的(如线性层、层norms等),所以就可以很容易地将平滑因子融合到之前层的参数offline,而且不会产生额外缩放的内核调用开销。对于其他情况,比如当输入来自残差add时,可以向残差分支添加一个额外的缩放。


将量化难度从激活转移到权重


Smooth的目标是选择一个per-channel的平滑因子s,使该逆操作更易于量化。

为了减少量化误差,应该增加所有通道的有效量化比特。当所有通道的最大magnitude相同时,总的有效量化位数将是最大的。


因此,一个最直接的平滑因子选择就是输入中每个通道的最大值,可以保证在划分之后,所有的激活通道都有相同的最大值,从而实现更容易的量化。


但需要注意的是,激活的范围是动态的,对于不同的输入样本是不同的。所以研究人员使用预训练数据集中的校准样本来估计激活通道的规模。


由于这个公式将所有的量化困难迁移给了权重,可以发现在这种情况下,权重的量化误差会很大,导致准确性下降很多。



另一方面,也可以通过选择sj = 1/ max(|Wj |),将所有的量化难度从权重推到激活上。同样,由于激活量化误差过大,模型的性能也不好。因此需要在权重和激活之间分割量化难度,使它们都易于量化。


研究人员引入一个超参数迁移强度α,来控制要从激活迁移到权重的难度。



可以发现,对于大多数模型,例如OPT和BLOOM模型,α=0.5是一个很好的平衡点,可以平均分配量化难度,特别是使用相同的量化器进行权重和激活。


该公式保证了相应通道的权重和激活具有相似的最大值,从而共享相同的量化难度。



对于其他一些激活异常值比较大的模型,例如GLM-130B有30%的异常值,这对激活量化来说比较困难,可以选择一个较大的α(如0.75),将更多的量化难度迁移到权重上。


SmoothQuant应用于Transformer块


线性层占据了LLM模型的大部分参数和计算。在默认情况下,SmoothQuant对Transformer中所有线性层的输入激活进行比例平滑,并用W8A8对线性层进行量化,在注意力计算中启用了BMM运算符的量化。



在流程中,首先用INT8对线性层和注意力层中的BMM等计算量大的运算符的输入和权重进行量化,而对其他轻量级元素的运算,如Softmax和LayerNorm,保持激活为FP16,这样的设计有助于平衡准确性和推理效率。


实验部分


研究人员选择了三个大型语言模型用来评估SmoothQuant,包括OPT, BLOOM和GLM-130B;并使用七个zero-shot任务,包括LAMBADA, HellaSwag, PIQA, WinoGrande, OpenBookQA, RTE, COPA等。


实验结果显示SmoothQuant可以处理非常大的LLM的量化问题,其激活更难量化。



SmoothQuant可以在所有评估数据集上匹配FP16的准确性,而W8A8、ZeroQuant和Outlier Suppression基线产生的结果几乎是随机的。



并且SmoothQuant可以无损地量化所有超过100B参数的开放式LLMs

SmoothQuant的O1和O2级成功地保持了浮点精度,而O3级(per-tensor static)使平均精度下降了0.8%,可能是因为静态收集的统计数据与真实评估样本的激活统计数据之间的差异。


尽管如此,SmoothQuant-O1可以与FP16的准确性相匹配,而SmoothQuant-O3只降低了1%的准确性,明显优于基线。


SmoothQuant不仅对超过100B参数的非常大的LLM有效,而且对较小的LLM也有稳定的效果,SmoothQuant可以在所有规模的OPT模型上工作,并与INT8量化的FP16精度相匹配。



为了展示集成到PyTorch和FasterTransformer中的SmoothQuant-O3的速度提升和内存节省,研究人员我们测量了一次生成一批4个句子的所有隐藏状态的端到端延迟,也就是context阶段的延迟,并记录了这个过程中GPU内存使用的峰值。


由于Huggingface缺乏对模型并行的支持,所以研究人员只测量了SmoothQuant在单个GPU上的PyTorch实现的性能,因此选择了OPT-6.7B、OPT-13B和OPT-30B进行评估。


在FasterTransformer库中,SmoothQuant可以与Tensor Parallelism算法无缝对接,因此研究人员在OPT-13B、OPT-30B、OPT-66B和OPT-175B上测试SmoothQuant的单GPU和多GPU基准。


在NVIDIA A100 80GB GPU服务器上进行的实验结果显示,基于PyTorch实现的推理延迟和峰值内存使用上,SmoothQuant始终比FP16基线快,当序列长度为256时,在OPT-30B上获得了1.51倍的速度提升。



还可以看到一个趋势,即模型越大,加速越明显,但LLM.int8()几乎总是比FP16基线慢,这也是由于混合精度激活表示的巨大开销造成的。


在内存方面,SmoothQuant和LLM.int8()都可以将FP16模型的内存用量几乎减半,而SmoothQuant由于完全使用INT8 GEMM,所以节省的内存稍多。



与FasterTransformer对OPT的FP16实现相比,SmoothQuant-O3在使用单个GPU时可以进一步降低OPT-13B和OPT-30B的执行延迟,最高可达1.56倍。


参考资料:
https://www.reddit.com/r/MachineLearning/comments/z1b2rp/r_smoothquant_accurate_and_efficient_posttraining/


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
我用Lambda表达式写代码,开发速度提高了10倍!【庭院种菜】蘑菇土种菜的潜在危害Intel i3-10100f + ROG B560A motherboard + Cosair 8g ram 3200mhz10亿参数、多项SOTA,智源开源视觉基础模型EVA抖音投放消耗跑不动?一文看懂如何突破账号流量层级腾讯金融云王丰辉:深度用云阶段,客户需求直接,云厂商务必阐述关键价值危险警告!7000亿资金大"逃亡"?美股抛售潮来袭,20000亿"子弹"已撤退!日本"黑天鹅"突袭,影响多大?德邦证券董事长金华龙:金融机构应融合"市场性",坚守"人民性",提升"专业性"训练速度提高最多5.4倍,谷歌提出RL训练新范式ActorQ硬件预算最高直降46倍!低成本上手AIGC和千亿大模型,一行代码自动并行,Colossal-AI再升级马狼,兔狼,黑狼MIT健身神器:穿上就能“透视”肌肉,发力情况看得一清二楚,动作标准度提升15%首个“开源ChatGPT”来了:基于谷歌5400亿参数大模型,华人小哥出品,网友吐槽:这谁能跑?斯坦福/谷歌大脑:两次蒸馏,引导扩散模型采样提速256倍!阿里「杀手锏」级语音识别模型来了!推理效率较传统模型提升10倍,已开源华为开发者贡献 Linux 内核补丁,将核心内核函数速度提升 715 倍Dell inspiron 15-7577(i5-7300hq/8gram/GTX 1060 max-q/256g SSD)工农红军每月有10几塊大洋吗Meta打造首个「蛋白质宇宙」全景图!用150亿参数语言模型,预测了6亿+蛋白质结构多模态再次统一!Meta发布自监督算法data2vec 2.0:训练效率最高提升16倍!Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3Meta千亿参数大模型OPT-IML「升级版」来了,完整模型和代码公布!畅游法国(23)-王国南大门紧跟潮流!Western美女博士提出:作家应该去当网红!3行代码建模,训练速度提升200%?这款时序开源神器PaddleTS太强了!参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」100万亿参数的GPT 4 刷屏AI社区,大概率是假消息bāo huā shēng?bō huā shēng?囪字源考"浮盈"变"实盈"!基金11月分红很"壕",环比暴增100%,这些产品最给力
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。