大型语言模型训练加速专场在线研讨会上线,三位专家将主讲AI服务器、训练框架和云上高性能存储架构
在 ChatGPT 和 GPT-4 的轮番引爆下,大型语言模型的时代已经全面开启。
随着从科技巨头,到创业新秀纷纷涌入这一领域,大型语言模型在国内呈现出百花齐放的局面。然而参数规模地不断增大,为大模型训练带来了计算、存储、通信等多方面的挑战。
在上述背景下,9月21日下午两点,「大型语言模型训练加速专场」在线研讨会上线开讲,这也是智东西公开课联合宁畅策划推出的第 1 期在线研讨会。
从9月起,我们将计划推出 10 期在线研讨会,将分别邀请 NVIDIA 嘉宾和一位行业嘉宾,围绕大型语言模型训练加速、自动驾驶、互联网视频分析、科学计算、智算中心等进行专场讲解。
这一期将由宁畅解决方案资深架构师董露露、NVIDIA 解决方案架构师许从良和腾讯云文件存储产品专家杨飞参与主讲,他们将分别围绕主题《AI 服务器:大语言模型发展创新的算力底座》、《利用 NVIDIA NEMO Framework 训练大模型》、《云上高性能存储架构如何加速大模型训练》进行直播讲解。
主题介绍
宁畅解决方案资深架构师董露露:《AI 服务器:大语言模型发展创新的算力底座》
随着 ChatGPT 的火爆,大语言模型(Large Language Model,LLM)也迎来一个井喷式的发展高潮,成为 AI 圈最热门的话题,甚至带动了 GPU 市场的爆发式增长。
本次分享将从 LLM 的发展历程展开,分析显著区别于常规深度学习模型的特点和适用场景,同时介绍国内外当前发展现状和应用情况对未来发展趋势做些研判。最后,也将结合最新的软硬件技术,探讨如何快速落地以形成有效生产力。
NVIDIA 解决方案架构师许从良:《利用 NVIDIA NEMO Framework 训练大模型》
NVIDIA NeMo 是一个端到端的云原生企业框架,供开发人员构建、定制和部署具有数十亿甚至上万亿参数的生成人工智能模型。
NeMo Framework 是一个端到端的框架,包含了数据处理、训练,以及优化部署。在训练上,Nemo Framework 使用 3D 并行技术给大模型的训练提供了加速。另外,Nemo 还提供了多种定制技术,以及自动化配置工具使得用户可以快速找到最优训练配置。
腾讯云文件存储产品专家杨飞:《云上高性能存储架构如何加速大模型训练》
大模型训练中,大量计算节点会同时读取一批数据集,需要尽可能缩短数据加载时长,避免计算节点产生等待。
腾讯云通过自研的 CFS Turbo 高性能文件存储方案,提供100GB/s带宽、1000万 IOPS 的极致性能,并通过持久化客户端缓存技术,将裸金属服务器本地 NVMe SSD 和 Turbo 文件系统构成统一命名空间,实现微秒级延时,解決大模型场景大数据量、高带宽、低延时的诉求,充分满足大模型场景下高性能、大吞吐和海量存储要求。
报名方式
对「大型语言模型训练加速专场」在线研讨会感兴趣的朋友,可以扫描下方二维码添加小助手小石头进行报名。已添加过小石头的老朋友,可以给小石头私信,发送“ 研讨会921”即可报名。
同时为了便于交流,针对「大型语言模型训练加速专场」在线研讨会还将设置专属技术交流群,并邀请三位主讲人入群。想要加入交流群与主讲人认识的朋友,也可以添加小石头进行申请。
点个“在看”和大家一起聊聊
👇👇👇
微信扫码关注该文公众号作者