Redian新闻
>
老黄给H100“打鸡血”:英伟达推出大模型加速包,Llama2推理速度翻倍

老黄给H100“打鸡血”:英伟达推出大模型加速包,Llama2推理速度翻倍

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

大模型的推理速度,仅仅一个月就提高了一倍!

英伟达近日官宣给H100推出了“鸡血包”——专用于LLM推理的加速程序。

或许这下可以不用空等明年才能交付的GH200了

GPU的运算能力一直影响着大模型的表现,无论是硬件提供者还是使用者都希望能算得更快些。

而作为大模型背后硬件的最大供应商,英伟达一直在研究怎么给大模型硬件加速。

通过与多家AI公司合作,英伟达终于推出了大模型推理优化程序TensorRT-LLM(暂且简称TensorRT)。

TensorRT不仅能让大模型的推理速度翻番,使用起来也十分方便。

无需深入了解C++和CUDA,也能快速定制优化策略,在H100上更快地跑大模型。

英伟达科学家范麟熙(Jim Fan)转发并评论称,英伟达的“另一项优势”就是可以最大化利用GPU性能的配套软件。

英伟达通过软件给产品打鸡血,仿佛在实践老黄的那句“买的越多省的越多”,但这也并不妨碍有人嫌贵:

除了价格,也有网友对其运行效果提出了质疑:

我们总是看到(宣传中的)多少倍的性能提升,但自己运行Llama 2的时候每秒还是只能处理几十个token。

到底是不是真的有效可能还需要继续检验,我们先来具体了解一下TensorRT。

大模型推理速度翻倍

TensorRT-LLM优化之后的H100,跑大模型到底有多快呢?

英伟达的通告中给出了Llama 2和GPT-J-6B两种模型的数据。

在优化后的H100上,跑Llama 2的推理速度则是A100的4.6倍、八月份未优化版H100的1.77倍。

而GPT-J-6B的推理速度是A100上的8倍、八月未优化版的2倍

TensorRT还提供了开源的模块化Python API,根据不同LLM的需求,可以快速定制优化方案。

这个API将深度学习编译器、内核优化、预/后处理和多节点通信功能集成到了一起。

其中针对GPT(2/3)、Llama等常见模型,还有已经定制好的版本,可以“开箱即用”

通过TensorRT中最新的开源AI内核,开发者还可以对模型自身进行优化,其中就包括了让Transformer大大提速的注意力算法FlashAttention。

那么TensorRT又是如何对LLM推理速度进行优化的呢?

首先要得益于TensorRT对多节点协同工作方式进行了优化

像Llama这样庞大的模型,在单卡上是跑不起来的,需要多块GPU一起跑才能带动。

过去,这一工作需要人们手工把模型拆开来实现。

而有了TensorRT,系统可以自动化地对模型进行拆分,并通过NVLink在多GPU间高效运行。

其次,TensorRT还利用了一种名为动态批处理的优化调度技术。

LLM在推理过程中,实际上是在多次执行模型迭代。

动态批处理技术会将已完成的序列立即踢出,而不是等待整批任务完成后再处理下一组请求。

实际测试中,动态批处理将LLM的GPU请求吞吐量减少了一半,大大降低了运行成本。

另一个关键点则是将16位精度浮点数转换为8位精度,从而降低内存消耗。

FP8与训练阶段的FP16相比消耗的资源更低,同时精确度又高于INT-8,在提高性能的同时不影响模型的准确性。

通过Hopper Transformer引擎,FP16到FP8的转化编译由系统自动完成,无需人工对模型中的任何代码进行修改。

目前,TensorRT-LLM的早鸟版已经可以下载,正式版将于几周内推出并集成到NeMo框架中。

One More Thing

每当大事件出现,总少不了“列文虎克”的身影。

英伟达的公告中提到了“在与Meta等AI头部公司合作”,但没有提及OpenAI。

从这则通告中,就有网友发现了这个华点,并发到了OpenAI论坛上:

让我康康是谁没被老黄cue到(手动狗头)

你还期待老黄带给我们什么样的“惊喜”呢?

参考链接:
https://developer.nvidia.com/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/

「量子位智库·大模型人才沙龙」招募中

「量子位智库·大模型人才沙龙」将于9月下旬在北京中关村举办,欢迎大模型各领域玩家参与~

点击图片了解详情,企业报名可联系活动负责人王琳玉(微信:iris_wang17,请备注企业+姓名)。

沙龙观众通道后续开放,敬请期待~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
英伟达特拉维夫AI峰会取消!老黄内部邮件曝出:英伟达员工也被绑架中国AI平台最新格局出炉!百度综合得分第一,第二梯队竞争激烈,大模型加速云厂商进化老黄又来“抢钱”:英伟达再推超强芯片平台,守住万亿芯片老大擂台重瓣天竺葵,美丽大爆炸Transformer后继有模!MSRA提出全新大模型基础架构:推理速度8倍提升,内存占用减少70%哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展苹果将在iPhone芯片上省数十亿美元/英伟达推出AI超级芯片/万达回应副总裁被带走调查英伟达推出最强生成式AI处理器;研究称ChatGPT回答编程问题的错误率超50%|AIGC周观察第十四期原粒半导体原钢:大模型加速奔向边缘端,AI Chiplet成部署新选择丨GACS 2023H100推理飙升8倍!英伟达官宣开源TensorRT-LLM,支持10+模型MLPerf放榜,中国AI芯片公司再获世界第一!大模型推理三项冠军,性能超越H100别再「浪费」GPU了,FlashAttention重磅升级,实现长文本推理速度8倍提升英伟达生成式AI超级芯片GH200,两倍H100算力,黄仁勋:它会疯狂推理“留学回来就干这个?”澳洲中国留学生回国投身“网红梦”,直播间网友灵魂发问!“给自己打鸡血,病了也要播”GPT-5出世,需5万张H100!全球H100总需求43万张, 英伟达GPU陷短缺风暴5113 血壮山河之武汉会战 富金山战役CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解英伟达H100将在2024年之前售罄!推理GPU根本不够用,AI初创公司急了最近看的几个烧脑的电影老黄赢麻了!英伟达H100订单排到24年,马斯克都坐不住了。。。英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报中科加禾崔慧敏:AI芯片+编译器才是王道!性能提升2~3倍,将推出大模型推理引擎丨GACS 2023《孙子兵法》,中国军师和非洲军阀英伟达3个月卖出800吨H100!老黄竟自曝万亿GPU霸主「三无」策略年度最绝融资:拿英伟达H100抵押贷款165亿,买更多英伟达GPU扩建10个数据中心大华股份发布星汉大模型;苹果AI服务器支出明年或达47.5亿美元;英伟达H100成新型债务资产丨AIGC大事日报幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用专攻芯片设计,英伟达推出定制版大语言模型ChipNeMo!老黄赢麻了!英伟达H100订单排到24年,马斯克都坐不住了PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍山居图英伟达25年路线图惊爆流出!老黄豪赌B100暴打AMD,秘密武器X100曝光老黄「刀法」有变!英伟达下一代RTX 50系显卡细节泄露,代号Blackwell,AMD挑战王者任重道远万达高级副总裁涉贪腐被带走调查;英伟达推出新一代超级芯片平台;碧桂园否认存在逾期未交付情况丨邦早报“第三方加速包抢票没用还易卡单!”官方回应“12306账号出现陌生人信息”:或为登录第三方平台抢票所致
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。