Redian新闻
>
MLPerf放榜,中国AI芯片公司再获世界第一!大模型推理三项冠军,性能超越H100

MLPerf放榜,中国AI芯片公司再获世界第一!大模型推理三项冠军,性能超越H100

公众号新闻



  新智元报道  

编辑:好困 桃子
【新智元导读】MLPerf最新GPT大模型推理测试放榜了!这家国产算力公司再拿世界第一,性能最高可达1.8倍英伟达H100。

随着ChatGPT等AIGC应用掀起大模型浪潮,算力层作为基础设施,成为最先受益的产业。
然而,算力需求大、费用昂贵等问题,已成为企业落地大模型的普通痛点,更可能制约AI向前发展:大模型参数日益增长,而算力供给瓶颈迫在眉睫,二者形成巨大矛盾。
如何探索更好的大模型算力方案,是业界共同关注的焦点。
近日,全球权威测评MLPerf 公布最新推理测评结果,这是MLPerf首度引入GPT大模型推理测试,参与热度再创纪录,收到了来自英伟达、英特尔、谷歌、高通等企业提交的13500多项性能结果。
在MLPerf Inference 3.1中,墨芯人工智能(Moffet AI)S30计算卡在大模型GPT-J(60亿参数)上,单卡、4卡、8卡的算力均获得第一。
这是墨芯在MLPerf上连续第三次卫冕。
此前墨芯曾在MLPerf Inference 2.0与2.1上,连续两届获得第一。

墨芯S30计算卡

墨芯的成绩,为大模型算力方案带来了可行的创新方向。
事实证明:结合AI模型与计算平台的软硬协同创新,能够释放更大的算力潜力。这也再度印证:以稀疏计算为代表的创新技术,将是大模型时代算力发展的关键。
墨芯参加的是MLPerf开放分区,据主办方MLCommons介绍,该分区旨在鼓励创新。因此参赛者可以通过软硬协同等方式,探索对算力的提升。
在MLPerf中的GPT-J大模型上,与4nm制程的H100纯硬件加速方案相比,12nm制程的墨芯S30计算卡通过「原创的双稀疏算法+硬件协同」方式,取得了高达1.8倍的优势。
本次测评的GPT-J模型是生成式AI模型,墨芯S30计算卡在8卡、4卡、单卡模式下,性能分别为170.59,91.57,23.28 (Sample/s),达到英伟达H100性能的1.6倍、1.8倍、1.8倍,展现出墨芯产品在AIGC类任务上的能力。
三度夺冠,大模型算力率先「交卷」,软硬协同持续创新——墨芯的产品实力数次经过MLPerf的严格检验,也探索出大模型算力发展的新路径。

稀疏计算——大模型「潜力股」获得市场认可


墨芯接连的优异成绩,主要得益于基于稀疏化算法的软硬协同设计。
在大模型时代,稀疏计算的重要性不言而喻:AI模型大小与其稀疏化潜力成正比。
也就是说,当模型越大,算法上有更大稀疏的可能性,稀疏计算可加速的幅度也越高。对于一般大型语言模型,稀疏计算可带来数十倍加速。
墨芯独创的双稀疏算法,结合软硬协同设计,使墨芯Antoum®芯片成为全球首款高稀疏倍率AI芯片,支持高达32倍稀疏——这也正是墨芯在本次MLPerf中创新纪录的关键。
模型越大,稀疏计算的优势越明显——尤其是在GPT等大模型参数动辄上百亿、千亿的现状下,这使得墨芯的护城河更为稳固。
墨芯的产品实力与稀疏计算的大势所趋,也获得了业界的认可:墨芯商业化进程接连取得重要突破,助力企业加速AI应用。
就在近日,墨芯正式成为支持Byte MLPerf的供应商之一。

来源:Byte MLPerf网站
项目地址:https://github.com/bytedance/ByteMLPerf/blob/main/README.md
当前,墨芯AI计算平台已能够支持不同参数级别的大模型,包括 BLOOM, OPT, GPT-J,LLaMA,StableDiffusion等。
同时具有高吞吐、低延时、低功耗等特点,缓解算力之困,真正为企业带来「好用」、「用得起」的大模型算力方案。

带来根本性的算力变革,稀疏计算助力大模型发展


墨芯的稀疏计算方案不仅能够缓解当前的算力难题,也为AI的持续发展打开新的空间。
稀疏计算减少了AI模型的计算量,这意味着能让大模型既在参数量上跃升若干个数量级的同时,又不产生过大的计算量,大模型参数增长与算力瓶颈的矛盾有望从根本上得到解决。
同时,由于计算量的减少,大模型的高算力需求、高功耗、高费用等痛点,也一并得到解决,实现「多赢」效果。

墨芯Antoum芯片:全球首款高稀疏倍率AI芯片,支持高达32倍稀疏
连续三届MLPerf的优异成绩,不仅是对墨芯产品实力的证明,也为业界带来新启示:在稀疏计算等技术的助力下,大模型的发展与应用有望迎来更广阔的施展空间,加速AIGC等应用在各行各业遍地开花。

关于MLPerf


MLPerf由图灵奖得主大卫•帕特森(David Patterson)联合谷歌、斯坦福、哈佛大学顶尖学术机构发起成立,是权威性最高、影响力最广的国际AI性能基准测试,以对迅速增长的AI计算需求与性能进行及时的跟踪测评。





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
碾压H100!英伟达GH200超级芯片首秀MLPerf v3.1,性能跃升17%一定要养盆这么美的吊钟海棠哈工大发布大模型思维链推理综述:200+文献全面解析大语言模型思维链推理最新进展三家中国航司再获中美增班!票价如何了?上海到旧金山已低于8000今晚直播 | StructGPT:面向结构化数据的大模型推理框架参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架哈佛蝉联21年世界第一!清华亚洲冠军!2023软科世界大学学术排名出炉!性能超越Llama2-13B,可免费商用,姚星创业公司开源百亿参数通用大模型《百年》&《生死契阔》2023软科世界大学学术排名发布!哈佛蝉联21年世界第一!清华亚洲冠军!阿里云发布通义千问 2.0,性能超 GPT-3.5,加速追赶 GPT-4 | 新闻AMD MI300绝杀英伟达H100?跑GPT-4性能超25%,AI芯片大决战一触即发400万token,大模型推理飙升22倍!清华校友爆火一作,GitHub狂揽1.8k星MSU世界视频编码器大赛放榜,腾讯包揽全场冠军全新双发矢量发动机亮相,成飞专利方案,性能超F35B吹尽黄沙不见金(五十六): 逃出生天芯至科技尹文:拆解架构创新四大路径,打造10倍性价比大模型推理芯片丨GACS 2023弯道超车!歼15B性能超越美军超级大黄蜂,中国军工实现后来居上Graphcore支持Byte MLPerf,为AI生产部署提供性能基准参考华为将推盘古数字人大模型;搜狗原CMO加盟王小川公司;首个线性注意力Transformer大模型推出丨AIGC大事日报长篇小说《如絮》第一百五十九章 旧金山-1967年 避难所基模型12项性能超越GPT-4,商汤语言大模型就等你来用里程碑,彻底超越!中国成世界第一!老黄给H100“打鸡血”:英伟达推出大模型加速包,Llama2推理速度翻倍推理1760亿参数的BLOOMZ,性能时延仅3.7秒 | 最“in”大模型我是不是一个很绝情的人?科研上新 | 大模型推进科研边界;大模型的道德价值对齐;优化动态稀疏深度学习模型;十亿规模向量搜索的高效更新1800亿参数,性能碾压Llama 2,世界最强开源大模型Falcon 180B发布人手一个编程助手!北大最强代码大模型CodeShell-7B开源,性能霸榜,IDE插件全开源Google语言模型反击战!部分性能超越ChatGPT!「StructGPT」面向结构化数据的大模型推理框架中科加禾崔慧敏:AI芯片+编译器才是王道!性能提升2~3倍,将推出大模型推理引擎丨GACS 2023首批AI大模型获批上线,BATH在列;华为Mate 60开售即火,接入盘古大模型;AI操控无人机能力超越人类冠军丨AI周报1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4全球首款3nm芯片塞进电脑,苹果M3炸翻全场!128GB巨量内存,大模型单机可跑,性能最高飙升80%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。