Redian新闻
>
Hugging Face 大语言模型优化技术

Hugging Face 大语言模型优化技术

科技

作者 | Sergio De Simone
译者 | 明知山
策划 | 丁晓昀

大语言模型的生产部署存在两个主要的挑战,一个是需要大量的参数,一个是需要处理非常长的用于表示上下文信息的输入序列。Hugging Face 基于他们提供大模型服务的经验分享了一些克服这些障碍的技术。

Patrick von Platen 在文中介绍的 Hugging Face 研究的三种技术是 降低数值精度、使用一种叫作 Flash Attention 的注意力算法,以及使用 专门的推理架构

大语言模型需要大量的 VRAM 来加载,从几十 (bigcode/starcoder) 到数百 GB (Llama、Bloom、GPT3)。第一个优化手段是从float32切换到bfloat16精度:

现在几乎所有的模型都是基于 bfloat16 训练的,如果你的 GPU 支持 bfloat16,就没有理由基于全 float32 精度运行模型。float32 不会给出比训练模型所使用的精度更好的推理结果。

这可以使总体内存消耗减少一半,但可惜的是,在许多情况下仍然需要很大的内存。一种更激进的方法是将模型权重量化为 8 位或 4 位,这已经被证明不会导致显著的性能下降。

量化对于文本生成来说特别有效,因为我们所关心的是选择最有可能的下一个标记集合,而不是下一个标记 Logit 分布的确切值。

这将进一步减少所需的内存,使得在只有 16GB VRAM 的 GPU 上运行较小的模型成为可能,尽管代价是推理时间稍长。

von Platen 写道,使用 Flash Attention 是另一相关键的优化,它是大语言模型用来理解输入标记上下文关系的自注意力层的一种算法,有可能打破输入标记数量的二次增长。

因为该算法太过复杂,无法在这里描述,但可以这么说,它利用了 softmax 规范化统计数据和一些数学手段,在 只需要随输入标记线性增长的内存 的情况下提供相同的输出。推理性能也得益于算法使用了更快的 SRAM 而不是更慢的 GPU VRAM。

在实践中,目前绝对没有理由不使用 Flash Attention。该算法在数学层面给出了相同的输出,并且速度更快,内存效率更高。

在生产环境中部署大语言模型的第三项优化措施是选择正确的架构,让它们能够有效地处理长文本输入。von Platen 写道,最近的研究有助于我们如何对两个很快成为瓶颈的组件做出选择——一个是 _ 位置嵌入 (positional embeddings)_,一个是 _ 键值缓存 _。

位置嵌入通过将每个标记的位置编码为数字表示来帮助语言大模型理解序列顺序。对于需要处理大型文本输入任务的大语言模型,应该使用 RoPE 和 ALiBi 等相对位置嵌入技术进行训练。

RoPE 和 ALiBi 位置编码都可以外推到训练期间未遇到过的输入长度,而事实证明,与 RoPE 相比,外推对于开箱即用的 ALiBi 的效果要好得多。

目前的许多大语言模型中已经在使用这两种算法。

键值缓存可以作为对对话上下文进行编码的一种方法。键值缓存在发生每个新交互时增加一个元素,这比为每个请求编码 / 解码上下文的方法要有效得多。von Platen 详细介绍了两类键值缓存,即 Multi-Query-Attention (MQA) 和 Grouped-Query-Attention(GQA) 。

von Platen 的文章所涵盖的内容不只有本文所概述的这些,他的文章中还提供了实际的例子来证明他的观点,所以请不要错过他的文章。

原文链接

https://www.infoq.com/news/2023/09/hugging-face-optimizing-llms/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐
苹果中国App Store将不允许未备案应用上架;iPhone 15发热严重,问题源于第三方软件?Meta又要裁员了 | Q资讯
微软裁员内幕
Angular 重磅回归
安息吧,元宇宙

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友天津大学熊德意教授团队发布最新综述,全面介绍大语言模型对齐技术北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型继续跟风”Fly in the face of danger“苹果正利用大语言模型改造 Siri / Copilot 或将引入 Win 10 系统 / 南航称系统bug所售低价票有效Hugging Face被限制访问Hugging Face CEO预测:2024年AI行业六大巨变!波士顿大学「鸭嘴兽-70B」登顶Hugging Face大模型排行榜!高效数据集+独特LoRA微调是关键MIT惊人证明:大语言模型就是「世界模型」?吴恩达观点再被证实,LLM竟能理解空间和时间顶尖科学家如何玩转AI?DeepSpeed4Science:利用先进的AI系统优化技术实现科学发现Python 失宠!Hugging Face 用 Rust 新写了一个 ML 框架,现已低调开源生成式 AI 与大语言模型时代的 NVIDIA GPU 生态 | NVIDIA 解决方案与架构技术总监张瑞华演讲预告两行代码解决大语言模型对话局限!港中文贾佳亚团队联合 MIT 发布超长文本扩展技术​ISC 2023第十一届互联网安全大会开幕;多家车企官宣降价;英伟达与AI开源社区Hugging Face合作……APAD: Fly in the face of danger黄仁勋再讲AI:英伟达算力直通Hugging Face,Omniverse加入OpenUSDGitHub 基于大语言模型构建 Copilot 的经验和教训偶遇垂杨柳GPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录吹尽黄沙不见金(七十三):蓝田日暖玉生烟1941-1949年苏中关系中的新疆Hugging Face宣布最受欢迎的AI机构;零一万物上线Yi-34B-Chat微调模型及量化版丨AIGC日报MIT惊人再证大语言模型是世界模型!LLM能分清真理和谎言,还能被人类洗脑Hugging Face获 2.35亿美元D轮融资 | OpenAI推出定制化微调功能 | 英伟达财报逆天 | 那个男人回归X视觉模型+大语言模型:首个支持10K+帧长视频理解任务的新型框架大语言模型真能“理解”语言吗?Hugging Face融资后估值45亿美元!到底凭什么?文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型Hugging Face最受欢迎15大AI机构出炉!清华第五,OpenAI第十,冠军竟是它?哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展AI淘金潮让Hugging Face再获2.35亿美元融资!估值已达45亿,谷歌英伟达亚马逊大手笔投资清华&港大提出LanguageMPC:将大语言模型和MPC相结合的新型类人智驾系统转旧版jcrew 大衣和north face 羽绒服中国客户点名要求non76页综述+300余篇参考文献,天大团队全面介绍大语言模型对齐技术出租房里真假租客 (多图)求助专家帮助我明辨真伪 !智能周报|英伟达二季度营收首超英特尔;美国裁定AI生成的艺术不受版权保护;Arm将上市;Hugging Face估值40亿美元…ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。