Redian新闻
>
训练大模型之前,你要了解下向量数据库、算力集群、高性能网络技术底座吗?

训练大模型之前,你要了解下向量数据库、算力集群、高性能网络技术底座吗?

公众号新闻


2022 年 11 月底,OpenAI 发布的 ChatGPT 引发了新一轮的人工智能风暴,大模型成为了各大科技巨头和机构争先竞赛的焦点。

与此同时,大模型技术不断取得突破,参数量迅速从千亿级迈入万亿参数时代。随之而来的是,一些应用工具开始被 AI 重新定义。很多人将大模型看作是通往通用人工智能 AGI 的必经之路。

然而,大模型时代又面临很多难点。一方面随着模型规模的增大,其所需要的算力支持随之增大,这对云上基础设施提出了新的挑战。此外,单体服务器提供的算力也很有限,需要打造大规模、分布式的高性能计算集群。

另一方面,在大模型技术的推动下,数据量呈爆炸式增长,然而很多数据都是非结构化的,想要高效率、低成本地处理数据,还面临很多困难。

面对上述挑战,我们该如何解决?腾讯给出了这些解决方案。针对如何打造云上最强算力集群这一问题,腾讯云推出了高性能计算集群产品 HCC,通过计算、网络、存储一体优化,为 AIGC 大模型训练提供了云上开箱即用的解决方案。

为了解决数据方面面临的难题,腾讯云推出了向量数据库 ( Tencent Cloud VectorDB),这是一款全自研的分布式数据库服务,专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法,单索引支持 10 亿级向量规模,满足毫秒级数据实时更新。Tencent Cloud VectorDB 不仅能为大模型提供精准、强大的支持,还可广泛应用于推荐系统、自然语言处理、计算机视觉、智能客服等 Al 领域,提供高性能 Al 运算、检索能力,数据接入 AI 的效率比传统方案提升 10 倍。

此外,腾讯自研的星脉高性能计算网络利用自研交换机构建了超大规模网络架构,具备业界领先的 1.6Tbps/3.2Tbps RDMA 通信接入带宽,可扩展支持十万卡规模的 GPU 集群。为了充分发挥大规模集群的算力,提升 AI 大模型的训练效率,腾讯针对星脉网络硬件架构定制了高效集合通信库 TCCL 以及端网协同协议栈 Tita。TCCL 通过软、硬件融合的优化方案实现 AI 通信的全局流量规划和拓扑亲和感知,为大模型训练提升 40% 网络负载性能。此外,TCCL 能够辅助运营系统构建端网系统的监控体系,有效减少网络原因导致的业务训练中断问题,保证 GPU 集群的高可靠性和高可用性。

为了让大家更好地了解这些技术,机器之心分别于 8 月 7 日 19:00-20:00、8 月 8 日  19:00-20:00、8 月 9 日  19:00-20:00 邀请到了腾讯云异构计算高级产品经理邹弘宇、腾讯云向量数据库产品经理陈薏竹,腾讯网络架构师李宝嘉带来现场分享。


分享主题:面向大模型,如何打造云上最强算力集群?

嘉宾简介


邹弘宇,腾讯云异构计算高级产品经理,毕业于哥伦比亚大学,熟悉网络、计算机系统、操作系统等领域,是《高性能计算云白皮书》《高性能计算云平台分级标准》联合编撰人。主要负责腾讯云高性能计算解决方案产品策划工作,包括公有云高性能计算集群的硬件矩阵、产品性能优化、产品功能升级等,推动腾讯高性能计算云向弹性灵活、性能极致的方向前进。
 
分享摘要

  • 分布式大模型训练对基础设施的挑战
  • 腾讯云高性能计算集群 HCC 加速方案(计算、存储、网络、加速框架)
  • 云上长稳持久训练的特点
  • 未来高性能计算集群的演进趋势

分享主题:大模型浪潮下的新一代 AI 数据库 —— 腾讯云向量数据库

嘉宾简介


陈薏竹,腾讯云向量数据库产品经理,毕业于中国科学院自动化研究所。
 
分享摘要
 
  • AGI 时代,为什么大模型应用都需要一个向量数据库?
  • 探索 AGI 时代的向量数据库:腾讯云的思考与实践
  • 向量数据库和大模型结合的行业应用案例

分享主题:面向 AI 大模型的高性能网络技术揭秘

嘉宾简介


李宝嘉,腾讯网络架构师,中国科大信息通信工程专业博士,博士期间参与中科院重大预研课题下一代智能网络系统、自适应弹性光网络等课题,发表 7 篇 SCI 论文著作以及 2 个国家专利,同时担任 JLT,JOCN 等期刊的审稿人。2022 年博士毕业后加入腾讯网络平台部,任职数据中心网络架构工程师,目前主要负责 AI 大模型高性能网络架构方案论证和设计、训练框架加速方案优化以及集合通信优化。
 
分享摘要
 
  • 腾讯网络整体介绍
  • AI 大模型时代腾讯网络代际演进
  • 星脉高性能网络研发的背景和挑战
  • 星脉网络整体技术架构解析
  • 未来高性能网络趋势预测
 

直播间:关注机器之心机动组视频号,立即预约直播。

交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。



机器之心 · 机动组


机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动欢迎所有 AI 领域技术从业者加入

  • 点击阅读原文,访问机动组官网,观看往期回顾;

  • 关注机动组服务号,获取每周直播预告

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《心向阳光》&《光明》中日美将俄的爱恨情仇向量数据库再迎新变化!头部公司产品更新引热议,开启大模型落地新范式锐捷可编程网络技术:升级算力网络安全监控运维DPU与智能网卡技术公开课上新!三位技术大牛主讲开源DPU、内生安全智能网卡与DPU云化裸金属向量数据库会是 AI 的“iPhone 时刻”吗?| 《架构师》9月刊开放下载星环科技向量数据库从 0 到 1 技术实践:提升数据处理的精确度是重中之重并非所有向量数据库都生来平等 - 找到属于你的向量数据库没有 “专业” 的向量数据库,大模型就玩不转了吗?与向量数据库 Pinecone 工程经理聊 ChatGPT 插件被黄仁勋和OpenAI接连点名,这家向量数据库公司终迎「iPhone时刻」|年度AI对话回望广武看北京(赵逍关于《广武门 北京城》的创作谈)Zilliz创始人兼首席执行官星爵演讲实录 | 向量数据库:大模型的记忆体北美有的,中国也有了!Zilliz Cloud向量数据库云服务重磅登场智源开放3亿条语义向量模型训练数据, BGE模型持续迭代更新大模型商用新解法:CVP架构崛起,向量数据库破圈腾讯云发布向量数据库产品,AI Native成关键词丨最前线腾讯云大模型领域新动向!向量数据库作为独立产品推出,8月正式上架解锁生成式 AI 潜力:NVIDIA 全栈智能网络技术支撑数据中心的进化大型语言模型训练加速专场在线研讨会上线,三位专家将主讲AI服务器、训练框架和云上高性能存储架构美国的路怒给大模型持久记忆!GitHub 2万星向量数据库云服务升级,国内云产品7月上线讯飞华为重磅联手!大模型+算力集群,AI圈全自主“星箭”组合起飞ChatGPT 都推荐的向量数据库,不仅仅是向量索引邀请您参加IEEE网络技术论坛:基于大型语言模型的组合推理向量数据库内核面临的技术挑战及应对措施AI 原生向量数据库 : 大模型的“黄金搭档”, 能提供“记忆海绵”之江实验室: 如何基于 JuiceFS 为超异构算力集群构建存储层 ?ChatGPT 和 OpenAI 都在用的 Redis,是如何从传统数据库升级为向量数据库的?ChatGPT盛行的当下,向量数据库为大模型配备了一个超级大脑两个多月完成全自研:大模型之争,从 GPU 卷到了向量数据库只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型训练大模型缺少高质量数据?我们找到了一种新的解决方案矢量数据库:企业数据与大语言模型的链接器我在养花的路上,越走越执着
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。