Redian新闻
>
字节参战!火山引擎推出大模型训练云平台,自研DPU实例性能提升3倍

字节参战!火山引擎推出大模型训练云平台,自研DPU实例性能提升3倍

科技

破解ChatGPT/Matter如何驱动家居智能化升级!GTIC 2023全球AIoT智能家居峰会4月28日在AWE同期举行,欢迎报名。

云上智能,火山引擎突围的关键一战。
作者 |  三北
编辑 |  云鹏
智东西4月18日报道,今日,字节跳动旗下火山引擎宣布自研DPU(Data Processing Unit)成功应用,已部署上万台DPU服务器,成为业界少数几家具备自研DPU能力的云厂商。
火山引擎宣布推出三款基于自研DPU的计算实例,分别基于NVIDIA GPU、Intel CPU、AMD CPU,其中NVIDIA GPU计算实例相较上一代实现3倍性能提升。

同时,火山引擎还推出了新版机器学习平台,上线模型效果对比等服务,平台支持单任务GPU万卡集群大模型训练、微秒级延迟网络;推出智能推荐-高速训练引擎,据称支持100GB-1TB超大模型高速训练。

当下正值大模型掀起AI时代的新浪潮,火山引擎试图从算力、平台等各层面为客户提供必要的“入场券”。
火山引擎总裁谭待谈道,国内有数十家做大模型的企业,大多已经在火山引擎云上,包括MiniMax、智谱AI、毫末智行、昆仑万维等知名企业。比如MiniMax据称是首家在公有云上实现千卡训练的公司,于2022年与火山引擎合作推进大模型常态化训练,并推出了超大规模推理平台,据称支撑单日过亿次调用。今日,金山办公WPS AI宣布将嵌入全线协同办公产品,WPS AI采用的正是MiniMax大模型。

可以看到,“火山引擎+MiniMax+WPS”这样的国内大模型实践,正在开辟有别于“微软+OpenAI+Office”的大模型落地新通路。
会上,智东西与部分媒体对火山引擎总裁谭待、字节跳动副总裁杨震原进行的采访。
当智东西问到火山引擎围绕生成式AI在IaaS、PaaS、SaaS领域有什么样的布局时,谭待称,就像记者提到的AWS等云厂商选择与第三方合作(如推出生成式AI平台支持企业调用第三方大模型),火山引擎也是这个思路。火山引擎本身不做大模型,而是服务于大模型创业公司,共同开展对外服务。
火山引擎是字节跳动于2021年6月推出的云服务业务板块,至今逐渐完善了IaaS+PaaS+SaaS云服务体系。敏捷迭代、数据驱动、体验创新是火山引擎的核心战略点,围绕这些要素本次火山引擎还推出了分布式云原生平台、混合云veStack、火山引擎管理驾驶舱Plus、云游戏、创意互动Vlog等不同层面新品。
会上,火山引擎宣布与字节跳动国内业务并池。基于内外统一的云原生基础架构,抖音等业务的空闲计算资源可极速调度给火山引擎客户使用,据称离线业务资源分钟级调度10万核CPU,在线业务资源也可潮汐复用,弹性计算抢占式实例的价格最高可优惠80%以上。

01.
自研DPU落地超万片
计算实例3倍性能提升


天下武功,唯快不破。面向企业敏捷迭代的算力需求,谭待宣布,火山引擎DPU目前已成功应用,在字节内部已部署上万台DPU服务器。
谭待解读道,火山引擎DPU全面加速计算、存储、网络云化,能实现计算“0”损耗、网络性能提升4倍、存储性能提升1倍。2022年7月,火山引擎传出将DPU板卡项目命名为“氦卡”,英文名为HeCard,据称对标阿里云自研的CIPU。

不到一年时间之后,今天,火山引擎宣布推出三款基于自研DPU的计算实例,包括:
1、NVIDIA GPU计算实例,据称相较上一代实现3倍性能提升。
2、Intel CPU计算实例,据称整机性能提升超93%,单核性能提升超13%,小规模(小于12核ECS实例)性能提升超6倍。
3、AMD CPU计算实例,据称整机性能提升超138%,单核性能提高超39%,小规格性能提升达10倍。
多云融合是市场的另一大趋势,但云的分布式挑战广泛存在。
为此,火山引擎推出了一系列新产品,包括:
1、推出分布式云原生平台,基于超20万节点、千万级核支持超大规模验证,提供一致云原生体验,支持低成本多云应用迁移。
2、推出多云CDN平台,据称能促进综合成本降低10%,运维人力减少50%,遇到故障支持秒级切换。
3、推出混合云veStack,通过功能及架构演进,支持汽车、政府、能源等客户的混合云需求。

谭待说,企业需要在数字化时代快速开发、快速迭代,那就需要选择上云,做好多云策略,进而基于云上智能进行创新。
会上,晶泰科技联合创始人兼CEO马健围绕《云上自动化智能化药物研发》主题,分享了基于火山引擎服务的智能化药物研发实践。

02.
支持万卡多模态大模型训练
推出智能推荐高速训练引擎


谭待紧接着谈到了近期热门的大模型。国内知名企业如毫末智行、MiniMax、智谱AI、昆仑万维等都在火山引擎支持下进行多模态大模型训练迭代,覆盖智能驾驶、科研、金融等多个领域。
为了支持通用智能时代的企业创新,本次火山引擎在智能方面释放了两大更新:
1、推出智能推荐-高速训练引擎,软硬一体支持100GB-1TB超大模型高速训练,高可用、可集成,助企业降本增效。
2、升级火山引擎机器学习平台,发布模型效果对比服务,支持单任务GPU万卡集群大模型训练、微秒级延迟网络。

多模态大模型创业公司如何实现敏捷迭代?包括知名大模型企业MiniMax、自动驾驶企业毫末智能及字节自有的抖音平台的相关负责人带来了实践分享,背后都离不开火山引擎提供的服务。
MiniMax联合创始人杨斌谈到了自研大模型的思考与实践,团队自2020年底创业之初考虑的就是技术如何启用、产品如何构建和算力从哪里来的问题,应该是第一家在公有云上实现千卡训练的公司,去年与火山引擎合作做千卡以上的常态化训练,并推出了超大规模推理平台,据称支撑单日过亿次调用,实现了技术与产品的迭代闭环。

字节跳动副总裁杨震原带来了抖音的机器学习实践,他认为,数字化时代更需要定量明确目标,机器学习能找到更优解,这在抖音的效果广告、店铺选品、优惠券发放、运力调度、自动驾驶等方面都有验证。但用好机器学习也面临复杂和昂贵两大问题,为此抖音采用了火山引擎推出的一站式云原生机器学习平台,让训练快速跑起来。
杨震原认为,业务创新需要试错,试错要大胆、敏捷,但试错也一定要控制成本。通过潮汐、混部等方式,火山引擎实现资源的高利用率和极低成本。以抖音推荐系统为例,工程师用15个月的样本训练某个模型,5小时就能完成训练,成本只有5000元。火爆全网的抖音“AI绘画”特效,从启动到上线只用一周多时间,模型由一名算法工程师完成训练。

毫末智行定位于自动驾驶人工智能技术,目前已推出全球首个自动驾驶生成式大模型DriveGPT(雪湖·海若)。毫末智行CEO顾维灏认为,我们可以将自动驾驶分为1.0硬件驱动、2.0软件驱动、3.0数据驱动三个时代,为此公司建立了数据、算法、车端、云端的闭环,并推出了DriveGPT,背后离不开火山引擎专门打造的智算中心提供67亿亿次/秒的高性能运算,以及2T/秒的高性能存储及800G/秒的网络服务。


03.
推出三款数据驱动新品
助力平安银行等数字化转型


在数据驱动方面,本次,火山引擎推出三款新品:
1、火山引擎LAS,助力企业构建Serverless智能湖仓。据称其性能为开源Spark的270%,开源Presto的260%,支持Serverless全托管,比传统方案降低综合成本30%以上。

2、火山引擎Serverless流式计算Flink,基于字节跳动超100亿级QPS实践,稳定性提升超50%,同样支持Serverless化并支持批流一体等多模态计算。
3、 火山引擎管理驾驶舱Plus,支持0代码搭建,实时观测战略目标达成进度,支持小程序、APP等多端覆盖的移动化在线。

会上,平安银行行长特别助理蒋新发以《智能化银行3.0,零售转型新篇章》问题,分享了基于火山引擎数据驱动服务的智能银行实践。

04.
聚焦体验创新
上线6款音视频产品及企业级服务


视频正朝着更高清、更互动、更沉浸方向发展,比如火山引擎在2022年助力了提升世界杯用户体验,累计直播观看达106亿人次。

本次,火山引擎带来六款音视频方面的产品及全新升级,包括推出火山引擎云游戏、创意互动Vlog、AR互动营销方案、RTC-WTN音视频服务,升级数字人产品、音视频云端一体veVOS服务。
除了用户体验,火山引擎还带来了企业用户体验提升产品更新。火山引擎升级企业数字化办公IT基础设施一飞连,据称支持身份、网络、终端一站式IT管理,以及云、网、端一站式办公组网,体系化保证办公安全。

根据官方数据,飞连已覆盖超100万台终端设备,比如小米公司就通过这一服务支持员工数字化办公,提高效率和安全。
此外在生态方面,火山引擎本次还推出了“生意云”,打造生意增长一站式数字化解决方案。


05.
结语:云上智能,火山引擎突围的关键一战


当下,大模型正推动新一波AI浪潮,推动云计算服务的范式发生变化。本次,火山引擎在例行春季发布会上透露了其在自研DPU、计算实例、AI PaaS 平台、数据智能PaaS平台及应用创新等方面的进展,其中有一大部分都契合了当下的通用智能趋势,展现了这家基于强大抖音等集团主业务的云厂商的快速发展的实力。
智能无疑是火山引擎突围成云大厂“新贵”的关键一城。2021年脱胎于字节跳动布局IaaS+PaaS+SaaS完整云服务体系,2022年开始提供“产品+场景”的解决方案,并陆续推出数智平台VeDI等高技术PaaS服务平台,今年,火山引擎的关注点也快速聚焦自身擅长的智能领域,有望为云厂商格局带来重大影响。
 

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)

GTIC峰会预告


破解ChatGPT/Matter如何驱动家居智能化升级!GTIC 2023全球AloT智能家居峰会4月28日在AWE同期举行,欢迎报名。



  


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICLR 2023 | 微软提出自动化模型训练剪枝框架OTO,一站式获得轻量级架构马斯克加入AIGC大战!火速抢购1万张GPU人类首个“反AI联盟”四问AI风险 暂停大模型训练遭遇不同意见H800国内首发!腾讯云推出大模型算力集群,集群算力提升3倍当GPT-4反思自己错了:性能提升近30%,编程能力提升21%Arm新一代架构发布:CPU能效提升40%,GPU性能提升15%提升字节规模化效能的平台化思路|字节跳动平台工程实践每天少使用15分钟手机,可增强免疫、改善睡眠;让GPT-4自我反思:性能提升近30%,编程能力提升21%|本周值得读张柏芝18岁与王菲18岁,看完照片,网友:谢霆锋才是人生赢家刘亦菲豁出去了,就靠一块“三角布“遮羞,分手了“玉女“形象Chrome发布首个WebGPU实现只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!有哪些省内存的大语言模型训练/微调/推理方法?性生活时间是越长越好?关于“时长”,女生有话要说CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型马斯克加入AIGC大战!火速抢购1万张GPU,挖DeepMind墙角...360正式发布自研大模型,周鸿祎:国产大模型追赶GPT4的速度远超想象英伟达发布ChatGPT专用GPU,性能提升10倍,还推出云服务,普通企业也能训练LLM机器学习与因子模型实证:怎么进行模型训练?火山引擎视频云“再升段位”:本次发布的新产品有点儿意思!一个幸福家庭是怎样破碎的第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%微软开源“傻瓜式”类ChatGPT模型训练工具,提速省钱15倍谷歌模型支持手机上跑Stable Diffusion;普华永道砸10亿美元投资AIGC;天翼云将推出大模型丨AIGC大事日报单GPU实现99%ChatGPT性能,「原驼」火了:手机也能微调大模型美国大峡谷,自然奇迹马斯克加入AIGC大战!火速抢购1万张GPU,挖Deepmind墙角Meta连甩AI加速大招!首推AI推理芯片,AI超算专供大模型训练如何破除增长的未知性?火山引擎交出了答卷谷歌将推新版大模型;抖音发布AIGC平台规范;宇视推出行业大模型 | AIGC日报独家丨理想汽车智算中心进展:牵手火山引擎,定址山西灵丘,预计三季度建设完成面向大模型训练,腾讯发布高性能计算集群:整体性能提升3倍防止AI胡说八道!OpenAI公布最新大模型训练方法,监督AI像人类一样思考网易参战!二次元新游《天字七六》曝光、采用Messiah自研引擎
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。