Redian新闻
>
使用 IPEX-LLM 加速英特尔®至强®可扩展处理器上的大语言模型推理

使用 IPEX-LLM 加速英特尔®至强®可扩展处理器上的大语言模型推理

公众号新闻

随着生成式 AI 的蓬勃发展,有越来越多的用户希望在英特尔®至强®可扩展处理器上探索大语言模型的应用。英特尔®至强®可扩展处理器配备众多物理核心和充足的内存容量和高带宽,可以有效的支持大语言模型的工作负载需求;同时,英特尔®至强®可扩展处理器的稳定性和可靠性,可以有效保障大语言模型在企业级应用或云服务中的长时间运行。

Intel® LLM Library for PyTorch (IPEX-LLM) 是英特尔开源的大语言模型低比特优化库,可以高效的运行在英特尔®至强®可扩展处理器上。IPEX-LLM 利用第四代英特尔®至强®可扩展处理器提供的 AMX 指令集,以及一系列低比特优化,使业界流行的大语言模型得以流畅运行,体现了在英特尔®至强®可扩展处理器运行大语言模型推理的优异性价比。同时,IPEX-LLM 也无缝支持各种大语言模型社区,优化和方案,例如 Hugging Face, LangChain, LlamaIndex, vLLM, llama.cpp, ollama 等等。

1 IPEX-LLM 在第四代英特尔®至强®可扩展处理器的大语言模型推理性能

使用 IPEX-LLM 可以在第四代英特尔®至强®可扩展处理器上运行当前流行的大语言模型的推理工作。下图展示了一部分模型的实测性能数据。图 1 性能数据基于 IPEX-LLM 低比特 INT4 优化,图 2 性能数据基于 IPEX-LLM BF16 Self-Speculative Decoding 优化。测试配置为输入 1024 个 Token,批处理大小 1,性能数据为每 Token 的延迟时间。

图 1:IPEX-LLM INT4 大语言模型推理延迟

图 2:IPEX-LLM BF16 (with Self-Speculative Decoding) 大语言模型推理延迟

请参考配置和免责声明以获取配置信息。

2 在第四代英特尔®至强®可扩展处理器上搭建和运行大语言模型推理

在第四代英特尔®至强®可扩展处理器上,可以使用 IPEX-LLM 非常轻松的构建大语言模型推理能力。用户可以通过参考快速安装指南以便在第四代英特尔®至强®可扩展处理器上安装和使用 IPEX-LLM。

我们提供了很多可以在第四代英特尔®至强®可扩展处理器上运行的大语言模型示例,用户可以在合适的示例基础上快速开发大语言模型推理应用。在用 IPEX-LLM 开发大语言模型推理应用时,用户可以使用 HuggingFace Transformer 样式的 API,仅需要做最小量的更改,例如使用合适的 import 声明,以及在 from_pretrained 参数中设置 “load_in_4bit=True” 来启用 IPEX-LLM 的低比特优化。具体改动可以参考以下代码示例:

from ipex_llm.transformers import AutoModelForCausalLmodel = AutoModelForCausalLM.from_pretrained('/path/to/model/', load_in_4bit=True).to("xpu")

模型会被自动转换为低比特并加载到执行计算工作的第四代英特尔®至强®可扩展处理器上,在这个过程中,IPEX-LLM 实现的各种基于硬件和软件的优化会被利用,以加速大语言模型的推理性能。

同样,使用 IPEX-LLM 的 BF16 Self-Speculative Decoding 也很简单。用户可以通过在加载模型时指定一个额外参数 speculative=True 来启用该功能。以下是示例代码片段:

from ipex_llm.transformers import AutoModelForCausalLmodel = AutoModelForCausalLM.from_pretrained('/path/to/model/',  optimize_model = True,   torch_dtype = torch.bf16,  load_in_lowbit = “bf16”),  torchscript = True,  speculative=True, #use self-speculative decoding  trust_remote_code=True,   use_cache = True)inputs = tokenizer(prompt, return_tensors='pt')input_ids = inputs.input_ids.to(model.device)attention_mask = inputs.attention_mask.to(model.device)output = model.generate(input_ids,  max_new_tokens=args.n_predict,  attention_mask=attention_mask,  do_sample=False)

在使用 BF16 Self-Speculative Decoding 时,IPEX-LLM 会在幕后自动利用低比特优化后的 INT4 小模型来加速 BF16 模型,从而提高 BF16 模型的推理速度。用户可以查看 IPEX-LLM BF16 Self-Speculative Decoding 的样例代码来获得更多信息。

性能测试

用户可以在第四代英特尔®至强®可扩展处理器上运行大语言模型的性能测试,可以参考 IPEX-LLM 提供的性能测试快速指南 ,以正确的准备硬件和软件环境,以及调整测试脚本以满足用户的测试场景。在执行性能测试前,我们推荐用户使用 IPEX-LLM 的环境检查工具来进一步验证安装和运行环境是否正确设置。environment check utility scripts 。

3 总结

本文介绍了如何使用 IPEX-LLM 在第四代英特尔®至强®可扩展处理器上进行大语言模型推理,以及低比特 INT4 和 BF16 Self-Speculative Decoding 的性能数据。用户可以参考 IPEX-LLM github 和程序样例来获得大语言模型的最新技术内容。

致谢

特别感谢史栋杰,胡雅白,王健,田翔宇对本文的贡献,以及 Padma Apparao 的重要支持。

配置和免责声明

本次数据为截止 2024 年 3 月的测试结果。测试硬件配置:Intel® Xeon® Platinum 8468, 48 cores, HT On, Turbo On, 2-socket, Total Memory 1024GB (16x64GB DDR5 4800 MT/s [4800 MT/s])。系统配置:BIOS 05.02.01, microcode 0x2b0004d0, OS: Ubuntu 22.04.3 LTS, Kernel: 6.2.0-37-generic。软件配置:bigdl-llm 2.5.0b20240313 (prior to migration to ipex-llm), pytorch 2.3.0.dev20240128+cpu, intel-extension-for-pytorch 2.3.0+git004cd72, transformers 4.36.2。性能数据为单路处理器上的测试结果,采用 greedy search 解码方式,输入为 1024 token,输出为 128 token,批处理大小为 1。

实际性能受使用情况、配置和其他因素的差异影响。更多信息请见 www.Intel.cn/PerformanceIndex。性能测试结果基于配置信息中显示的日期进行测试,且可能并未反映所有公开可用的安全更新。详情请参阅配置信息披露。没有任何产品或组件是绝对安全的。具体成本和结果可能不同。英特尔技术可能需要启用硬件、软件或激活服务。英特尔未做出任何明示和默示的保证,包括但不限于,关于适销性、适合特定目的及不侵权的默示保证,以及在履约过程、交易过程或贸易惯例中引起的任何保证。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。© 英特尔公司版权所有。英特尔、英特尔标识以及其他英特尔商标是英特尔公司或其子公司在美国和 / 或其他国家的商标。其他的名称和品牌可能是其他所有者的资产。

今日好文推荐

谷歌大裁员引发元老集体抗议:领导脑袋空空,无能的中层管理团队不断扩大

“真男人就应该用 C 编程”!用 1000 行 C 代码手搓了一个大模型,Mac 即可运行,特斯拉前 AI 总监爆火科普 LLM

德国再次拥抱Linux:数万系统从windows迁出,能否避开二十年前的“坑”?

系统 bug 致百人入狱,砸了 2.8 亿元仍上云失败!二十年了,这家大企业被日本软件坑惨了

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
消息称英特尔 Arrow Lake-S 处理器包含 13 个型号,无 Ultra 3 版本囤奶福利 | 爆款1件8.8折、超长30天安心试...a2®至初®京东超市品牌日攻略来袭!百万宝妈底气之选!免费在线体验Meta LIama 3大语言模型!GpuMall狂送10万代金券!人物 | 所罗门诺夫:大语言模型的先知极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行“汤元”,“白玉”,各有所喜,不同寓意AI早知道|支付宝灰度测试智能助理;苹果开源推出高效语言模型系列 OpenELM微软拟与OpenAI投资1000亿美元建AI超算;Databricks 推出1320亿参数大语言模型 DBRX丨AIGC日报马斯克宣布正式开源大语言模型Grok;人体避免多个精子使一个卵子受精的机制揭示 | 环球科学要闻戴尔推出 Inspiron 灵越 16 二合一笔记本,搭载英特尔酷睿 Ultra 处理器98、长篇家庭伦理小说《嫁接》第二十七章 何去何从(1)LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」苹果发高效语言模型 OpenELM;小米策划 15 万元新车;AI 成功改写人类 DNA | 极客早知道一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%英特尔回应第 13/14 代酷睿处理器稳定性问题英特尔 Arrow Lake 桌面处理器 20 核与 24 核型号现身,确认不搭载超线程技术WWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型美股基本面 - 2024_02_27 * 晨报 * 微博将于3月14日发布2023年第四季度及全年财报。Zoom盘前大涨超10AI早知道|Kimi智能助手升级;Meta开源推出新一代大语言模型Llama3用大语言模型控制交通信号灯,有效缓解拥堵!AI早知道|Apple 发布 MM1多模态大语言模型;xAI 是市场上薪酬最高的人工智能公司华为回应智界 S7 截胡小米 SU7,雷军表态/苹果正在自研设备端大语言模型/「欧洲版OpenAI」洽谈融资5亿NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型个人印象Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型零一万物李谋:当大模型推理遇到算力瓶颈,如何进行工程优化?旅行的尽头是日本(24)隈研吾设计的村上春树图书馆和另一个奇怪的寺庙最新大模型推理优化进展:英伟达、阿里、腾讯和零一万物专家观点解读|AICon库克:苹果将「开辟 AI 新天地」;比特币突破 6 万美元,市场兴奋;百度文心大模型推理成本骤降 99% | 极客早知道统一化数据库:为大语言模型垂域应用奠定基础华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍简单好用!北大、普林斯顿联合提出即插即用的大语言模型加速方法红杉资本入局,马斯克的AI公司接近达成60亿美元融资;苹果发布基于开源训练和推理框架的语言模型OpenELM丨AIGC日报LG gram 14 2024 轻薄本预售: 英特尔酷睿 Ultra5处理器,6499 元
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。