2022 年 11 月底,OpenAI 发布的 ChatGPT 引发了新一轮的人工智能风暴,大模型成为了各大科技巨头和机构争先竞赛的焦点。与此同时,大模型技术不断取得突破,参数量迅速从千亿级迈入万亿参数时代。随之而来的是,一些应用工具开始被 AI 重新定义。很多人将大模型看作是通往通用人工智能 AGI 的必经之路。然而,大模型时代又面临很多难点。一方面随着模型规模的增大,其所需要的算力支持随之增大,这对云上基础设施提出了新的挑战。此外,单体服务器提供的算力也很有限,需要打造大规模、分布式的高性能计算集群。另一方面,在大模型技术的推动下,数据量呈爆炸式增长,然而很多数据都是非结构化的,想要高效率、低成本地处理数据,还面临很多困难。面对上述挑战,我们该如何解决?腾讯给出了这些解决方案。针对如何打造云上最强算力集群这一问题,腾讯云推出了高性能计算集群产品 HCC,通过计算、网络、存储一体优化,为 AIGC 大模型训练提供了云上开箱即用的解决方案。为了解决数据方面面临的难题,腾讯云推出了向量数据库 ( Tencent Cloud VectorDB),这是一款全自研的分布式数据库服务,专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法,单索引支持 10 亿级向量规模,满足毫秒级数据实时更新。Tencent Cloud VectorDB 不仅能为大模型提供精准、强大的支持,还可广泛应用于推荐系统、自然语言处理、计算机视觉、智能客服等 Al 领域,提供高性能 Al 运算、检索能力,数据接入 AI 的效率比传统方案提升 10 倍。此外,腾讯自研的星脉高性能计算网络利用自研交换机构建了超大规模网络架构,具备业界领先的 1.6Tbps/3.2Tbps RDMA 通信接入带宽,可扩展支持十万卡规模的 GPU 集群。为了充分发挥大规模集群的算力,提升 AI 大模型的训练效率,腾讯针对星脉网络硬件架构定制了高效集合通信库 TCCL 以及端网协同协议栈 Tita。TCCL 通过软、硬件融合的优化方案实现 AI 通信的全局流量规划和拓扑亲和感知,为大模型训练提升 40% 网络负载性能。此外,TCCL 能够辅助运营系统构建端网系统的监控体系,有效减少网络原因导致的业务训练中断问题,保证 GPU 集群的高可靠性和高可用性。为了让大家更好地了解这些技术,机器之心分别于 8 月 7 日 19:00-20:00、8 月 8 日 19:00-20:00、8 月 9 日 19:00-20:00 邀请到了腾讯云异构计算高级产品经理邹弘宇、腾讯云向量数据库产品经理陈薏竹,腾讯网络架构师李宝嘉带来现场分享。
邹弘宇,腾讯云异构计算高级产品经理,毕业于哥伦比亚大学,熟悉网络、计算机系统、操作系统等领域,是《高性能计算云白皮书》《高性能计算云平台分级标准》联合编撰人。主要负责腾讯云高性能计算解决方案产品策划工作,包括公有云高性能计算集群的硬件矩阵、产品性能优化、产品功能升级等,推动腾讯高性能计算云向弹性灵活、性能极致的方向前进。- 腾讯云高性能计算集群 HCC 加速方案(计算、存储、网络、加速框架)
分享主题:大模型浪潮下的新一代 AI 数据库 —— 腾讯云向量数据库陈薏竹,腾讯云向量数据库产品经理,毕业于中国科学院自动化研究所。- AGI 时代,为什么大模型应用都需要一个向量数据库?
- 探索 AGI 时代的向量数据库:腾讯云的思考与实践
李宝嘉,腾讯网络架构师,中国科大信息通信工程专业博士,博士期间参与中科院重大预研课题下一代智能网络系统、自适应弹性光网络等课题,发表 7 篇 SCI 论文著作以及 2 个国家专利,同时担任 JLT,JOCN 等期刊的审稿人。2022 年博士毕业后加入腾讯网络平台部,任职数据中心网络架构工程师,目前主要负责 AI 大模型高性能网络架构方案论证和设计、训练框架加速方案优化以及集合通信优化。直播间:关注机器之心机动组视频号,立即预约直播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。
机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。