Redian新闻
>
每秒800个token,这颗AI芯片挑战英伟达

每秒800个token,这颗AI芯片挑战英伟达

公众号新闻

👆如果您希望可以时常见面,欢迎标星🌟收藏哦~

来源:内容来自半导体行业观察(ID:icbank)编译自venturebeat,谢谢。

令人惊讶的基准测试结果可能会撼动人工智能推理的竞争格局,初创芯片公司Groq似乎通过一系列转发确认其系统正在以每秒超过 800 个token的速度为Meta 新发布的LLaMA 3 大型语言模型提供服务。


“我们已经对他们的 API 进行了一些测试,该服务绝对不如硬件演示所示的那么快。可能更多的是一个软件问题——仍然对 Groq 得到更广泛的使用感到兴奋,”一直在对 LLaMA 3 性能进行基准测试的工程师 Dan Jakaitis在 X.com 上发帖说


但根据 OthersideAI 联合创始人兼首席执行官 Matt Shumer 在 X.com 上发布的帖子,除了其他几位知名用户之外,Groq 系统还通过 LLaMA 3 模型提供了每秒超过 800 个tiken的闪电般的快速推理速度。如果经过独立验证,这将比现有的云人工智能服务实现重大飞跃。VentureBeat 自己的早期测试表明,这一说法似乎是正确的。 


针对人工智能优化的新型处理器架构


Groq 是一家资金雄厚的硅谷初创公司,一直在开发一种针对矩阵乘法运算进行优化的新型处理器架构,矩阵乘法运算是深度学习的计算核心。该公司的张量流处理器避开了传统 CPU 和 GPU 的缓存和复杂的控制逻辑,转而采用针对 AI 工作负载量身定制的简化、确定性执行模型。


Groq 声称,通过避免通用处理器的开销和内存瓶颈,它可以为人工智能推理提供更高的性能和效率。每秒 800 个token的 LLaMA 3 结果如果成立,将为这一说法提供可信度。


Groq 的架构与 Nvidia 和其他成熟芯片制造商使用的设计有很大不同。Groq 没有为人工智能采用通用处理器,而是构建了张量流处理器来加速深度学习的特定计算模式。


这种“干净的”方法使公司能够去除无关电路并优化人工智能推理的高度重复、可并行工作负载的数据流。Groq 断言,与主流替代方案相比,运行大型神经网络的延迟、功耗和成本显着降低。


对快速高效的人工智能推理的需求


每秒 800 个token的性能相当于每分钟约 48,000 个token,速度足以每秒生成约 500 个单词的文本。这比当今云中传统 GPU 上服务的大型语言模型的典型推理速度快了近一个数量级。


随着语言模型的参数规模增长到数千亿,快速高效的人工智能推理变得越来越重要。虽然训练这些大型模型需要大量计算,但经济高效地部署它们需要能够快速运行它们而不消耗大量电力的硬件。对于聊天机器人、虚拟助理和交互式体验等延迟敏感的应用程序来说尤其如此。


随着该技术得到更广泛的部署,人工智能推理的能源效率也受到越来越多的审查。数据中心已经是电力的重要消耗者,大规模人工智能的计算需求可能会大幅增加电力消耗。能够提供必要的推理性能同时最大限度地降低能耗的硬件将是人工智能大规模可持续发展的关键。Groq 的张量流处理器在设计时就考虑到了这种效率要求,与通用处理器相比,有望显着降低运行大型神经网络的功耗。


挑战Nvidia的统治地位


Nvidia 目前在 AI 处理器市场占据主导地位,其 A100 和 H100 GPU 为绝大多数云 AI 服务提供支持。但像 Groq、 Cerebras、SambaNova和Graphcore这样的一批资金雄厚的初创公司正在通过专门为人工智能构建的新架构来挑战这一主导地位。


在这些挑战者中,Groq 是最积极倡导针对推理和训练的挑战者之一。首席执行官 Jonathan Ross大胆预测,到 2024 年底,大多数 AI 初创公司将使用 Groq 的低精度张量流处理器进行推理。


Meta 发布的 LLaMA 3 被描述为功能最强大的开源语言模型之一,为 Groq 展示其硬件推理功能提供了一个备受瞩目的机会。Meta 声称该模型可与最好的闭源产品相媲美,可能会广泛用于基准测试并部署在许多人工智能应用程序中。


如果 Groq 的硬件能够比主流替代品更快、更高效地运行 LLaMA 3,那么这将支持这家初创公司的主张,并有可能加速其技术的采用。Groq 最近推出了一个新的业务部门,旨在通过云服务和合作伙伴关系让客户更轻松地使用其芯片。


LLaMA 等强大的开放模型与 Groq 等高效的“AI 优先”推理硬件相结合,可以使高级语言 AI 更具成本效益,并可供更广泛的企业和开发人员使用。但英伟达不会轻易放弃其领先地位,其他挑战者也在伺机而动。


可以肯定的是,基础设施建设的竞赛正在展开,这些基础设施能够跟上人工智能模型开发的爆炸性进展,并扩展技术以满足快速扩大的应用范围的需求。以可承受的成本实现近乎实时的人工智能推理可以为电子商务、教育、金融、医疗保健等领域带来变革的可能性。


正如一位 X.com 用户对 Groq 的 LLaMA 3 基准测试声明的反应:“速度 + 低成本 + 质量 = [现在] 使用其他任何东西都没有意义”。未来几个月将会揭晓这个大胆的方程式是否会发挥作用,但很明显,随着新一波架构挑战现状,人工智能的硬件基础远未解决。


请输入标题

https://venturebeat.com/ai/groqs-breakthrough-ai-chip-achieves-blistering-800-tokens-per-second-on-metas-llama-3/

点这里👆加关注,锁定更多原创内容

END


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。



今天是《半导体行业观察》为您分享的第3742期内容,欢迎关注。


推荐阅读


EUV光刻机重磅报告,美国发布

碳化硅“狂飙”:追赶、内卷、替代

芯片巨头,都想“干掉”工程师!

苹果,玩转先进封装

GPU的历史性时刻!

大陆集团,开发7nm芯片

张忠谋最新采访:中国会找到反击方法

EUV光刻的新“救星”

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一次预测多个token,Meta新模型推理加速3倍,编程任务提高17%70B模型秒出1000token,代码重写超越GPT-4o,来自OpenAI投资的代码神器Cursor团队生成式 AI 时代下,这颗骁龙新生代旗舰芯片,有了新的任务一家AI芯片公司浮出水面,英伟达迎来新挑战者北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token浓人,nèng死淡人How a Student’s Fake Exercise Book Broke the Chinese Internet7046 血壮山河之枣宜会战 宜昌溃战 2谁能挑战英伟达?旅行的尽头是日本(19)新宿御苑美股基本面 - 2024_02_21 * 晨报 * 赛诺菲OX40L单抗在中国启动2期临床 针对特应性皮炎。英国1月预算盈余创Llama 3每秒输出800个token逼宫openAI!下周奥特曼生日或放出GPT-5?曾合作王菲、梁朝伟等被誉为“MV女王”的她,用新片挑战女性主导的科幻武侠风再融8亿,以色列退役军人挑战英伟达,中国资本早已布局OpenAI有望在今年夏季推出GPT-5;英伟达推出更强GPU芯片;马斯克宣布正式开源Grok-1|AIGC周观察第三十七期MTK和Intel联手,投资RISC-V芯片新贵!再战英伟达?AMD如何挑战英伟达,苏姿丰这样回答!|万字长文挑战英伟达,AMD官宣年更芯片!新款MI325X重磅发布,比H200快1.3倍next-token被淘汰!Meta实测「多token」训练方法,推理提速3倍,性能大涨10%+均价300万美元?英伟达GH200超级芯片落地9个超算中心,每秒两百亿亿次flop大神Karpathy强推,分词领域必读:自动钓鱼让大模型“发疯”的token,来自Transformer作者创业公司儿时纪事(二)AI芯片里程碑,每秒1000个token苏妈杀疯了:移动端最强NPU算力达50TOPS,最强AI芯片挑战英伟达英伟达股价首次破1000美元!黄仁勋:Token生意将创造100万亿价值英伟达B200成本6000美金?卖40000美金?5亿个token之后,我们得出关于GPT的七条宝贵经验看到二胡先生关于退休到CARMEL, IN的文章,很高兴,那里中餐也很赞的。许家印组织造假被罚4700万;马斯克开源大模型Grok-1;侯毅正式卸任盒马CEO;英伟达推出最强AI芯片...时隔一年Falcon回归!110亿参数5.5万亿token,性能超越Llama 3大模型预测,下一个token何必是文字?一块钱100万token,超强MoE模型开源,性能直逼GPT-4-TurboLlama 3 上线4天,井喷1000多个变种!中文版也有了!Groq上推理速度800token每秒英伟达大秀AI肌肉!最强AI芯片Blackwell问世,算力提升1000倍,地球竟被完整复制…英伟达成全球市值第一公司/华为高管称昇腾 AI 算力已超英伟达 A100/马斯克称未来人形机器人普及程度将是汽车10倍
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。