Redian新闻
>
来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

来自科技进步一等奖的肯定:腾讯破解万亿参数大模型训练难题

公众号新闻
机器之心发布

机器之心编辑部


中国电子学会 2023 科学技术奖授奖名单公布,这次,我们发现了一个熟悉的身影 —— 腾讯 Angel 机器学习平台。

在大模型飞速发展的当下,科学技术奖授予机器学习平台类研究和应用项目,对于模型训练平台的价值和重要性给予了充分的肯定。



科学技术奖授予机器学习平台类研究和应用项目,在大模型飞速发展的当下,对于模型训练平台的价值和重要性给予了充分的肯定。


从深度学习的新一轮浪潮开始,各大公司都已经意识到机器学习平台对于打造人工智能技术的意义,谷歌、微软、英伟达都有自己的机器学习平台,为快速训练人工智能模型提供便捷支持。


2023 年开始,大模型的兴起进一步提升了模型参数量,各大公司都推出参数规模达千亿、万亿大小的模型,这些模型普遍采用深度神经网络模型,存在模型分布式训练难和应用复杂带来的模型设计难两大核心痛点。


为什么是 Angel 机器学习平台?

详解四大核心技术突破


由多名院士等权威专家组成的鉴定委员会认为, 腾讯 Angel 机器学习平台技术复杂度高、研制难度大、创新性强,应用前景广阔,整体技术达到国际先进水平,其中面向 all-to-all 通信的高效缓存调度与管理技术、自适应预采样与图结构搜索技术达到国际领先水平。


腾讯 Angel 平台架构图


腾讯 Angel 机器学习平台采用了分布式参数服务器架构,这种架构的特点是,存储模型参数和执行模型计算,这两种任务在分别的服务器上运行,增加更多服务器就可以支持更大、计算需求更高的模型。


面对海量数据和超大规模模型训练需求 ,腾讯 Angel 机器学习平台在网络通信与缓存、模型存储与调度、多模态模型与融合学习排序以及大规模图模型与结构搜索技术等核心环节取得技术突破。



为了提高训练效率,TB 级机器学习模型通常采用分布式训练方法,需要大量的参数和梯度同步,以 1.8T 模型千卡训练为例,IO 通信量达到 25TB, 耗时占比 53%,此外,加上不同算力集群间的异构网络环境,通信网络延迟不一,这些都对模型训练过程中的通信开销提出了较高的要求。腾讯 Angel 机器学习平台基于腾讯云星脉网络的高效通信与缓存调度管理技术,可有效解决 TB 级模型训练通讯开销大的问题,实现网络通信耗时减少 80%,分布式训练性能达业界主流方案的 2.5 倍。



现有的算力条件下,尽管模型达到 TB 级,而主流 GPU 的显存仍只有 80G,参数存储有瓶颈。针对 TB 级模型训练参数存储难的关键问题, 腾讯 Angel 机器学习平台提出了显存主存统一视角存储管理机制,实现模型存储容量比业界增加 1 倍,训练性能是业界主流方案 2 倍。



大模型要向通用模型发展,离不开对多模态数据的处理支持,不同模态,例如文字、图像、视频等数据的对齐融合理解难度大。在多模态模型的训练上, 腾讯 Angel 机器学习平台针对广告场景,提出多模态融合学习的全链路排序广告推荐技术,助力广告召回率提升 40% 以上。



另外,针对面向推荐系统的图模型训练, 腾讯 Angel 机器学习平台设计了图节点特征自适应图网络结构搜索技术,可自动输出最优结构,解决了 TB 图模型应用中 “图数据挖掘难” 的问题,实现模型训练性能提升 28 倍,与业界比具有最优扩展性。


腾讯 Angel 机器学习平台锻造之路

腾讯混元大模型扩展到万亿规模


作为腾讯人工智能技术的基础平台,腾讯 Angel 平台诞生于 2015 年,支持 PS-Worker 分布式训练, 以及十亿参数 LDA 模型的训练。


2017 年,Angel 框架在 Github 开源,向开发者开放,同时,技术上,Angel 解决了异构网络下的通信问题,性能进一步提升。2019 年,在可扩展图模型多模态理解技术取得突破,解决万亿节点可扩展图模型问题。2021 年,提出 GPU 显存统一视角存储技术,解决大模型 参数存储与性能问题。


在腾讯通用人工智能大模型腾讯混元的打造中,腾讯 Angel 机器学习平台也发挥了重要作用。


2023 年 9 月,腾讯混元大模型正式对外亮相,预训练语料超 2 万亿 tokens,具有强大的中文理解与创作能力、逻辑推理能力,以及可靠的任务执行能力。


面对建设腾讯混元大模型的需求,腾讯 Angel 机器学习平台打造了自研的面向大模型训练和推理的机器学习框架 Angel PTM 和 Angel HCF,支持单任务万卡级别超大规模训练和大规模推理服务部署。实现大模型训练效率提升至主流开源框架的 2.6 倍,千亿级大模型训练可节省 50% 算力成本,升级后支持单任务万卡级别超大规模训练。在推理上,腾讯 Angel 机器学习平台推理速度提高了 1.3 倍,在腾讯混元大模型文生图的应用中,推理耗时从原本的 10 秒缩短至 3 至 4 秒。


此外,Angel 还提供了从模型研发到应用落地的一站式平台,支持用户通过 API 接口或精调等方式快速调用腾讯混元大模型能力,加速大模型应用构建,腾讯会议、腾讯新闻、腾讯视频等超过 400 个腾讯产品及场景均已接入腾讯混元内测。


2024 年 3 月,腾讯混元通过采用混合专家模型 (MoE) 结构,已将模型扩展至万亿级参数规模,推动了性能提升和推理成本下降。作为通用模型,腾讯混元在中文表现上处于业界领先水平,尤其在数学推导、逻辑推理和多轮对话中性能表现卓越。目前,腾讯混元也在积极发展多模态模型,以进一步加强文生图和文生视频能力。


腾讯大量的应用场景,为腾讯 Angel 机器学习平台的落地提供了实验地。除了腾讯混元大模型,腾讯 Angel 机器学习平台也支持了腾讯广告以及腾讯会议等产品,并通过腾讯云服务多个行业和企业客户,助力各行各业的数字化和智能化发展。


以腾讯广告为例,采用腾讯 Angel 机器学习平分布式训练优化、多模态理解图数据挖掘等创新技术,广告业务场景中的多模态大模型训练速度提升 5 倍,模型规模提升 10 倍,实现广告召回率大幅提升。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
北京一福彩店售出21注一等奖,15注二等奖,奖金超亿元!福彩客服回应→当大模型公司都在卷大参数,面壁智能却在尽可能把参数做小马未都保持童心,避免大而空问题 法律是行为的底线,道德是内心的底线,一生要遵循 一开始不要指责,再分析澜舟坚持四两拨千斤:ToB场景落地,10B参数大模型足矣懒倔混什么都是两面性 .离开跟不离开,只是每个人的选择. 合适自己最好.李飞飞团队重磅报告解读AI十大趋势:中国AI专利数全球第一,大模型训练狂烧钱,医学领域AI应用突出 | 大模界号称中文评测超越 GPT-4,百川智能发布超千亿参数大模型 Baichuan 3开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有厚植家国情怀,引领科技创新!这两个一等奖教学成果,带来哪些启示和经验?天道有常(19)未央播报 | 中国10亿参数规模以上大模型数量已超100个 Swift将推出央行数字货币互联平台支持百亿参数大模型、卢伟冰现场官宣小米首发,高通骁龙8s Gen3发布挑战 Transformer 霸权? Yan 架构竟以半价成本实现百万级参数大模型破解大模型安全难题,360推出大模型安全能力框架大模型又开“卷”!万亿参数闭源模型、四千亿开源模型来了北京算力基建实施方案重磅发布!重点支持采购自主可控GPU,要支撑万亿参数大模型训练AI早知道|360安全大模型3.0发布;通义听悟上线音视频问答助手;腾讯混元大模型参数规模扩展至万亿最强开源大模型Llama 3来了!4000亿参数狙击GPT-4,训练数据达Llama 2七倍全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑最神秘国产大模型团队冒泡,一出手就是万亿参数MoE,两款应用敞开玩P70系列有3或4款新品;国内首个开源千亿参数MoE大模型来了,对标马斯克的Grok……英伟达新核弹B200发布,一台服务器顶一个超算,万亿参数大模型30倍推理加速|亮马桥小纪严选最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上傅盛的AI大课(4):企业专用大模型,百亿参数就够了李飞飞团队年度报告揭底大模型训练成本:Gemini Ultra是GPT-4的2.5倍AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型冬樱 - 迟爱 三曝小扎写信“挖角”DeepMind;我国10亿级参数大模型超百个;Stability AI开源代码生成模型丨AIGC大事日报日记告别微软,姜大昕带领这支精英团队攀登Scaling Law,万亿参数模型已有预览版微软拟与OpenAI投资1000亿美元建AI超算;Databricks 推出1320亿参数大语言模型 DBRX丨AIGC日报开源大模型Llama 3王者归来!最大底牌4000亿参数,性能直逼GPT-4AI刘强东007带货,背后大模型也就10亿参数,京东:我家数字人平均水平苹果iOS 18将搭载生成式AI;谷歌Bard最新排名超GPT-4;百川发超千亿参数大模型Baichuan 3丨AIGC大事日报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。