Redian新闻
>
英特尔Gaudi2加速卡GPT-4详细参数分析

英特尔Gaudi2加速卡GPT-4详细参数分析

公众号新闻
2023 人工智能大会上,据统计,有 24 款大模型新品在大会上发布或升级,发布主体不仅包括互联网龙头企业,也包括移动联通等运营商、创业公司及各大高校。
与国内大模型产品相比,chatGPT 效果依然最优。根据 InfoQ 数据显示,chatGPT 在大模型产品测评中分数最高,综合得分率为 77.13%,国内大模型产品文心一言正迅速追赶,在国内大语言模型中位列第一。
介绍GPT-4 详细参数及英特尔发布 Gaudi2 加速器相关内容,对大模型及 GPU 生态进行探讨和展望。英特尔发布高性价比Gaudi2加速卡GPT4详细参数分析。
与国内大模型产品相比,chatGPT 效果依然最优。根据 InfoQ 数据显示,chatGPT 在大模型产品测评中分数最高,综合得分率为 77.13%,国内大模型产品文心一言正迅速追赶,在国内大语言模型中位列第一。
在这一背景下,市场普遍认为 GPT-4 的模型架构、基础设施、参数设计等具有一定程度的领先。由于官方并未公布 GPT-4 的详细参数,业内人士对 GPT-4 的详细参数进行了推断.
参数量:GPT-4 的大小是 GPT-3 10 倍以上,包含 1.8 万亿个参数;
混合专家模型OpenAI 使用混合专家(MoE)模型,依此保持相应的成本。混合专家模型使用了 16 个专家模型,每个模型大约有 111B 个参数,每次计算将其中两个专家模型通过前向传递的方式将结果进行反馈;
数据集:GPT-4 的训练数据集将多个 epoch 中的 token 计算在内包含约 13万亿个 token
推理:相较于纯密集模型每次前向传递需要大约 1.8 万亿个参数和约 3700TFLOP 的计算量,GPT-4 每次前向传递(生成 1 token)仅利用约 2800 亿个参数和约 560 TFLOP 的计算量;
并行策略:为了在所有 A100 GPU 上进行并行计算,GPT-4 采用了 8 路张量并行,因为这是 NVLink 的极限。除此之外,GPT-4 采用了 15 路流水线并行;
训练成本:OpenAI GPT-4 的训练中使用了大约 2.15e25 FLOPS,使用了约 25,000 A100 GPU,训练了 90 100 天,利用率(MFU)约为32% 36%。假定云端的每个 A100 GPU 的成本大约为每小时 1 美元,那么单次训练的成本将达到约 6300 万美元,如果使用约 8192 H100 GPU进行预训练,用时约为 55 天左右,成本为 2150 万美元,每个 H100 GPU的计费标准为每小时 2 美元;
推理成本:GPT-4 的推理成本是 1750 亿参数模型的 3 倍,这主要是因为GPT-4 的集群规模更大,并且利用率很低。根据测算,在用 128 A100GPU 进行推理的情况下,8k 版本 GPT-4 推理的成本为每 1,000 token0.0049 美分。如果使用 128 H100 GPU 进行推理,同样的 8k 版本 GPT-4推理成本为每 1,000 token 0.0021 美分;
推理架构:推理运行在由 128 GPU 组成的集群上。在不同地点的多个数据中心存在多个这样的集群。推理过程采用 8 路张量并行(tensor parallelism)和16 路流水线并行(pipeline parallelism)。
视觉多模态:独立于文本编码器的视觉编码器,二者之间存在交叉注意力。该架构类似于 Flamingo。这在 GPT-4 1.8 万亿个参数之上增加了更多参数,经过了纯文本的预训练之后,又新增了约 2 万亿个 token 的微调。
由于大模型训练成本较高,性价比问题凸显。7 11 日,Intel 面向国内提出了新的解决方案,推出了第二代 Gaudi 深度学习加速器 Habana Gaudi2Gaudi2深度学习以第一代 Gaudi 高性能架构为基础,多方位性能与能效比提升,加速高性能大语言模型运行。该加速器具备以下性能:

24 个可编程 Tensor 处理器核心(TPCs);

21 100GbpsRoCEv2)以太网接口;

96GB HBM2E 内存容量;

2.4TB/秒的总内存带宽;

48MB 片上 SRAM

集成多媒体处理引擎。


Habana Gaudi2 深度学习加速器和第四代英特尔至强可扩展处理器在 MLPerfTraining 3.0 基准测试上表现优异。

在大语言模型 GPT-3 的评测上,Gaudi2 也展示了其较优的性能。它是仅有的两个提交了 GPT-3 LLM 训练性能结果的解决方案之一(另一个是英伟达H100)。在 GPT-3 的训练上,英特尔使用 384 Gaudi 2 加速器使用 311 分钟训练完成,在 GPT-3 模型上从 256 个加速器到 384 个加速器实现了近线性 95%的扩展。

目前,已有部分厂商推出了基于英特尔 AI 加速卡的产品。在发布活动中,英特尔宣布 Gaudi2 首先将通过浪潮信息向国内客户提供,打造并发售基于 Gaudi2深度学习加速器的浪潮信息 AI 服务器 NF5698G7。其服务器集成了 8 Gaudi2加速卡 HL-225B,还包含两颗第四代英特尔至强可扩展处理器。
下载链接:
310份重磅ChatGPT专业报告(全网最全)
《人工智能AI大模型技术合集》
《70份GPU技术及白皮书汇总》
《70+篇半导体行业“研究框架”合集》
大模型对企业数智化升级与业务经营的影响与应对(2023)
英特尔发布高性价比Gaudi2加速卡GPT4详细参数分析
2023年中国信创产业研究报告


申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。


推荐阅读

更多架构相关技术知识总结请参考“架构师技术全店资料打包汇总(全)(39本全)”相关电子书已经更新至39本,持续更新中。
1、下单“架构师技术全店资料打包汇总(全)”,包含服务器基础知识全解(终极版)pdf及ppt版本,价格仅收239元(原总价399元)。

2、随着电子书数量增加及内容更新,价格会随之增加,所以现在下单最划算,购买后续可享全店内容更新“免费”赠阅。

温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
性价比超H100,英特尔发布中国版Gaudi2 AI加速卡倒计时3天 | 这场有500+大咖集聚的研讨会,详细参会指南来啦!大型语言模型技术公开课上线4讲!直播讲解ChatGPT开源平替、类GPT4低成本定制以及GPT4Tools应统问答室 | 211本科,想去大厂做数据分析,需要做哪些准备呢?来自手握腾讯数分offer南开应统硕士师兄的回答OpenAI 将 GPT-4 引入内容审核;英特尔 54 亿美金收购告吹;宁德时代发布超充电池:充 10 分钟续航 400 公里求职大视野 | 渣硕985,最终拿下字节数据分析岗实习转正(附数分面试问题总结)ChatGPT最强竞品Claude2来了:代码、GRE成绩超越GPT-4,免费可用ChatGPT路线图曝光:没有GPT-5、识图功能要等到明年、GPT-3或将开源支持AI视频处理的高容量流媒体加速卡方案英伟达正准备推出具有 94GB 和 64GB 显存的 H100 Hopper 加速卡1300亿参数,国内首个数学大模型MathGPT上线!多项基准赶超GPT-4错过AI GPU热潮,英特尔能否赶上末班车?54百亿参数大模型进化树重磅更新!85页盘点LLM发展史,附最详细prompt技巧参数是ChaGPT的近6倍!英特尔公布AI大模型Aurora genAI,具备1万亿参数一加 12 详细参数曝光:高通骁龙 8 Gen 3、5400mAh 电池英特尔公布1万亿参数AI模型,比ChatGPT大570%AIDA64 软件现已支持英特尔 14 代酷睿“Raptor Lake Refresh”系列 CPU230730 当前指数分析GPT-4破防啦!用密码和GPT-4聊天,成功绕过了GPT-4的安全机制!港中大(深圳)告诉你方法十八 赶考英特尔发布中国定制版大模型专用芯片Gaudi2,用性价比挑战英伟达|甲子光年WAIC “探宝” | 这块高颜值加速卡,终于藏不住了650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了《三门问题》的权威答案是如何被幻想出来的?谈谈中华帝国的文化内核十七 毕业照650亿参数,8块GPU就能全参数微调!邱锡鹏团队把大模型门槛打下来了!GPT作文能力比拼:GPT3.5、GPT4、百度文心一言、讯飞星火GPT-4参数最新爆料!1.76万亿参数,8个2200亿MoE模型,PyTorch创始人深信不疑走秀连接之上,万物可能:英特尔遇见PT Expo2023新一代直播场景下,视频加速卡在狂奔加速AI推理,探索英特尔® 至强® 可扩展处理器在OCR应用落地方面的实践参数是 ChatGPT 的近 6 倍!英特尔公布 AI 大模型 Aurora genAI,具备 1 万亿参数消息称英特尔 14 代 Raptor Lake Refresh 处理器较 13 代酷睿平均涨价 15%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。