国际科技财经博客移民网络热点娱乐民生时事公众号

>

港大北航等1bit大模型引热议，IEEE刊物评“解决AI能源需求”！作者亲自解读在此

港大北航等1bit大模型引热议，IEEE刊物评“解决AI能源需求”！作者亲自解读在此

公众号新闻

2024-06-09 07:06

BiLLM团队发自凹非寺
量子位 | 公众号 QbitAI

极限量化，把每个参数占用空间压缩到1.1bit！

IEEE Spectrum专栏，一种名为BiLLM的训练后量化（PTQ）方法火了。

通俗来讲，随着LLM参数规模越来越大，模型计算的内存和资源也面临着更大的挑战。如何把模型变得小巧经济实惠，能塞进手机等设备中？

BiLLM解决的正是这样的一个问题。它使用1bit来近似网络中的大多数参数，使用2bit来表示一些对性能最有影响的权重。

实验测试中，研究人员对OPT模型、Llama系列进行了二值化。

在OPT模型家族上，BiLLM以1.1bit的平均权重大小实现了目前最极限的LLM训练后压缩；在Llama系列模型上，BiLLM在1.08bit下的表现甚至超过了使用全精度的OPT-66B模型。

效率方面，BiLLM能够在单个GPU上半小时内完成7B LLM的二值化。

BiLLM发布当天，便引发了网友对大模型优化的热议，有网友就表示：

量化不是没有代价。Llama3模型的量化效果比Llama2模型要差，量化过程中的质量损失更大。
直觉是，一个训练不足的模型受到量化的影响较小，因为其训练过程并没有充分利用每一个权重。关于Llama的一个关键发现，以及它为何能在其大小范围内表现出色，是因为它们在比文献中所谓的“最佳”状态更大的数据集上训练了更长时间。
综合这些因素，似乎可以得出以下结论：小型模型、大量数据、长时间训练>大型模型+量化。基本上，量化是一种用于缩短长时间训练的损失性的捷径。数据的数量和质量，一如既往是所有这些中最重要。

这项研究由香港大学、苏黎世联邦理工学院、北京航空航天大学联合推出，目前已被ICML 2024接收。

量子位也联系到了作者，给大伙儿解读一下。

LLM权重分布探究

为了应对超低位宽下大语言模型的能力崩溃问题，研究人员对多个预训练大语言模型的权重和其Hessian矩阵（损失的二阶梯度）分布情况进行了初步研究，得到以下观察：

首先，研究人员发现大语言模型的Hessian矩阵表现出极端的长尾分布特性。

这也意味着大多数位置权重的变化对模型的输入输出并不敏感，而少部分元素对于权重的输出非常敏感。

其次，大语言模型中的权重密度遵循不均匀的钟形分布形式。

这种钟形分布在特征方面与高斯分布或拉普拉斯分布非常相似，即大多数权重集中在0附近，整体呈现非均匀的钟形分布。

上述观察表明大多数权重在LLM当中是冗余的，而少部分权重发挥着极其重要的作用；同时，在极端的二值化压缩场景下，这种非均匀钟形分布会产生更大的量化误差。

对此，研究人员对少部分显著权重和大部分非显著权重分别提出了二阶残差逼近和最优钟形分组方法进行量化，在1.1bit的权重下首次实现了LLM的性能保证。

△LLM权重分布现象

显著权重：二阶残差逼近

研究人员发现，显著权重往往积聚在特定的通道当中。

因此， BiLLM采用一种通道级别的分组方式来区分显著权重和非显著权重。这种结构化划分相比于非结构化处理引入的开销可以忽略不计，对硬件部署十分友好。

△显著通道权重二阶残差逼近示意图

由于显著权重的重要性，先前工作往往直接将这部分权重保存为原精度或量化到8-bit来保证LLM的性能。然而，这种方式会导致整体位宽的增加。

为此，研究人员开发了一种用二值化残差逼近方法作用于显著通道的权重。

这一方法通过直接二值化和残差二值化有效降低了显著权重的极端量化误差。与直接保留显着权值为16位或者8位相比，该方法仅通过2位开销存储显着权值，同时有效保护了权重中的重要元素。

非显著权重：最优钟形划分

由于显着通道数量极低，剩余的大部分权重仍然保持着钟形分布。

同时，在排除显着权重影响的情况下变得更加对称。由于二进制量化代表均匀量化的极端形式，直接将钟形分布下的权重舍入到二值权重会带来巨大的的量化误差。

因此研究人员对这部分权重采用了分组二值化的方式，通过自动搜索策略寻找最优的分割点。

此外，研究结果表明，尽管非显着权重并非理想的高斯分布或拉普拉斯分布，但搜索函数的误差曲线仍然表现出凸性，证实了最佳分割点的存在。

△非显著权重分布搜索（左），搜索误差曲线的凸性（右）

同时由于外侧分组的数值方差较大，搜索中总是以较小的比例出现（0.5%～3%）。可以进一步采用稀疏行压缩的策略来进行分组标识，进一步提升细粒度分组方案下的硬件友好性。

实验结果

研究团队在OPT和Llama系列模型上验证了BiLLM性能。此外，考虑到LLM通常需要基于指令进行微调以适应不同的应用环境，实验还报告了Vicuna-7B和Vicuna-13B的量化结果。

BiLLM在平均1.1bit权重时，在多个评价指标上实现了超过GPTQ，PB-LLM等方法在2-bit时的性能，同时在部分模型体积上接近3-bit权重的性能。

结果表明， BiLLM 率先在接近1位的平均比特率下实现了LLM性能保证，推动了LLM无训练量化的边界。

△opt系列困惑度对比结果

△Llama系列困惑度对比结果

△Zero-Shot评测数据集对比结果

BiLLM在Llama-13B和Vicuna-7B上实现了更好对话效果。

论文链接：https://arxiv.org/abs/2402.04291

参考链接：
[1]https://spectrum.ieee.org/1-bit-llm
[2]https://news.ycombinator.com/item?id=40529355

— 完 —

投稿请发邮件到：

[email protected]

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

华人震怒！澳洲中国男子恶评Bondi事件+悉大教授开死者玩笑！凶手父母发声引热议，澳币今天下跌了...字节大模型关键8人首次曝光！中科大北航西安交大校友，还有9000+被引数大佬 “红领巾系法变更”引热议，全国少工委最新回应！财经早参|上着班突发裁员，三小时内解散？监管部门介入；董宇辉永乐宫直播引热议，官方回应；12306回应“男女分车厢”建议惊闻发小被留置，兼说腐败和出身悉尼“最大谎言”被曝光！华女发帖引热议，外国游客懵了：怎么和说的不一样 Science刊登肺靶向基因疗法，治疗囊性纤维化，编辑效果可持续22个月悉尼“最大谎言”曝光！华女发帖引热议，外国游客懵了：怎么和说的不一样？英伟达业绩再超预期，黄仁勋亲自解密英国国王肖像画引热议，对于红色的不安，其实是人类的“超能力”ICML 2024 | 量化大模型退化严重？ETH北航字节推出LoRA新范式逃回国? 中国留学生刷爆百万信用卡引热议，律师表示想逃不容易 “绩效降低一半还多啊，这一波也太狠了”，银行业降薪引热议，我们分析了42家A股上市银行年报发现……重磅！985/211、均分85+才能上港大？！香港大学招生官来了！亲自揭秘隐藏申请秘籍！量化大模型退化严重？ETH北航字节推出LoRA新范式 | ICML 2024 大模型引领软件行业变革，除了拥抱变化，我们还能做些什么？| QCon （古詩英譯）惠崇春江晚景 – （其二）苏轼 TimeGPT首个时序大模型引爆新热点！伊朗真的反美反以吗？【七律】周末打球球场到处是积水有题 simple naive trust-bi-racious marriage 今日arXiv最热大模型论文：大模型都能怎么用？中南大学最新综述：大模型时代的自然语言处理华为悬红200万全球求解难题引热议，网友：虽然不会，但是感觉自己亏了；马斯克的超级算力愿景：xAI将建计算超级工厂训练Grok “美华卷娃”现象论坛引热议，看到网友评论后，我坐不住了欧阳娜娜晒毕业礼引热议，美国大学毕业典礼都啥样？只因这一个瑕疵，澳元价值直接“归零”！澳男网上吐槽引热议，网友纷纷表示不解火车票改签收手续费引热议，12306客服：主要为旅客着想大模型的“瘦身”革命：巨头逐鹿轻量化大模型 | 大模型一周大事 Llama 3低比特量化性能下降显著！全面评估结果来了 | 港大&北航&ETH “沪九条”出台后房价是否已经见底？权威解读在这里逃回国！中国留学生刷爆百万信用卡引热议，律师表示想逃不容易北航等提出超大规模多语言代码评测基准，涵盖40种编程语言南京大学刷掉考研第一名引热议，知道背后原因后，网友们拍手叫好！龙虾$250/kg，一次吃3只！艾博年享用高档午餐引热议，网友：迟早下台产品经理：如何“化零散需求”为“高效解决方案”？

热点事件追踪