AIGC独角兽官宣联手,支持千亿大模型的云实例发布,“云计算春晚”比世界杯还热闹
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
现在AI最火的方向是什么?那必须是AIGC(AI Generated Content,利用人工智能技术来生成内容)。
AIGC最火的公司是谁?莫过于开源AI作画模型Stable Diffusion背后的StabilityAI。
对于这家新晋独角兽,最近两条动向值得关注:
产品上,Stable Diffusion 2.0正式发布,生成图像质量大幅提升,分辨率也支持到2048x2048甚至更高。
战略上,与亚马逊云科技达成合作,继续构建图像,语言,音频,视频和3D 内容生成模型。
StableDiffusion其实由三部分组成,语言编码器、生成图像信息的扩散模型、以及图像解码器,1.0版本训练阶段足足用了256块英伟达A100,跑了15万个GPU时。
开发像这样的大模型,对于创业公司来说其实困难重重:
数据准备、模型开发、训练调优到部署等,每一个环节都不简单。
训练和推理阶段要兼容不同芯片,还要考虑到与各式各样业务的整合交付。
总之在算法以外还有很多让人头痛的地方,这也就是他们选择与亚马逊云科技合作背后的几点考虑了。
首先是看中Amazon SageMaker,亚马逊云科技的旗舰级托管式机器学习服务,可以帮助开发者轻松快速地准备数据,并大规模地构建、训练、部署高质量机器学习模型。
第二是在亚马逊云科技自研的Trainium训练芯片支持下,训练时间和成本可以减少58%。
最后是在亚马逊云科技帮助下可以把模型开放给更多学生、研究人员、创业公司和企业。
现在Stable Diffusion 2.0还与Amazon SageMaker完成集成,通过其JumpStart服务,用户只需点击下鼠标就可轻松部署预先训练好的模型。
毕竟他们的口号是“要让全球10亿人用上开源模型”。
StabilityAI与亚马逊云科技合作,是在刚刚举办的亚马逊云科技re:Invent大会上宣布,也就是业内常说的“云计算春晚”。
今年大会上也发布了多项内容,从不同方面改进AI开发者的体验。
“云计算春晚”发布了什么AI产品?
首先来看Amazon SageMaker,今年是其发布的第五年,各行各业已有数百万个机器学习模型使用该服务管理,每月进行数千亿次的预测。
今年最重磅的新功能是机器学习治理工具Amazon SageMaker ML Governance,具体来说有3个新工具:
Role Manager,可以在几分钟内为SageMaker 用户定义自定义权限,区分算法工程师、运维工程师等不同角色。
Model Cards,可以发现并自动填充诸如训练作业、训练数据集、模型构件和推理环境等细节,还可以记录模型的详细信息,例如模型的预期用途、风险评级和评估结果。
Model Dashboard,更是可以通过统一的仪表板监控所有部署的模型。
在这些工具帮助下,可以简化访问控制,提高机器学习项目的透明度。
接下来是Amazon SageMaker Data Wrangler再次新增40多种新的数据源,可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。
还有一个有意思的更新,是增加对地理空间数据(Geospatialdata)的机器学习支持,如卫星、地图和位置数据。
具体来说简化了利用地理空间数据创建、训练和模型部署的全过程,还可以在Amazon SageMaker的交互式地图上分析和探索、分享机器学习预测结果。
交通、物流、零售,甚至自然灾害监测等行业都可从中受益。
看过机器学习平台,再来看算力方面,这次的更新重点是对大模型的支持。
最新发布的Amazon EC2 Inf2,针对机器学习推理优化的虚拟机实例,与上一代Inf1相比有4倍吞吐量提升、延迟降低到十分之一。
Inf1对当时常见的中小模型来说恰到好处,但随着大模型逐渐实用化,对更高规格推理实例的需求也在增长。
Inf2专为部署当今最严苛的深度学习模型而设计,是第一个支持分布式推理的Amazon EC2 实例,在自研Inferentia2推理芯片支持下可以运行高达 1,750 亿参数的大模型。
也就是跑个GPT-3级别的大语言模型或者Stable Diffusion这样的图像生成模型等都不在话下。
早些时候,亚马逊云科技还发布了Amazon EC2 Trn1,为机器学习训练打造,与基于GPU的同类产品相比,可节省高达50%的训练成本。
AI开发如何走向规模化?
事实上,亚马逊云科技已建成一套最完整的机器学习和AI服务。
最底层是对CPU、GPU、自研AI加速芯片等不同算力的兼容,以及对各主流深度学习框架的原生支持。
中间Amazon SageMaker,包括机器学习集成开发环境(IDE)、模型调试器、模型监视器、模型分析器(Profiler)、AutoML、特征存储、无代码开发能力以及首个专用的持续集成和持续交付(CI/CD)工具等全面机器学习能力。
最上层还有一系列开箱即用的AI服务,NLP、视觉、语音核心能力,以及面向不同应用场景和行业的专业服务,如自动将语音转换为文本的Amazon Transcribe,以及辅助代码开发的Amazon CodeWhisperer。
靠着这一套完整的AI服务,即使是像Stability AI这样员工仅有100人出头的创业公司,也能做到机器学习开发的规模化、工程化。
实现途径之一是面向云原生开发。
云原生,标准定义是云计算时代一种构建和运行应用程序的方式,充分利用和发挥云计算平台的弹性和自动化优势,结合容器、微服务、无服务器 (Serverless) 等技术来构建现代化应用。
如果还不好理解,不妨“以史为鉴”一下。
传统的软件、APP开发如今已相对成熟,这是因为操作系统承担了很多工作。
包括向下与硬件的沟通工作、向上为上层应用制定好了很多标准和规范,软件开发只需面向特定的操作系统,就可以专注于功能实现。
到了AI时代,AI产品更多以服务的形式跑在云上,云计算平台就要承担起这个承上启下的角色,实现AI开发的标准化。
云原生给AI开发带来的好处,可以总结为几点:
敏捷,靠无服务器 (Serverless) 技术可以将管理基础设施的工作全部交给云服务商,开发者专注于实现业务逻辑。
全面,亚马逊云科技为汽车、金融、制造等多个行业提供解决方案,同时有无代码开发平台Amazon SageMaker Canvas等满足不同水平开发者需求。
高性价比,这方面有专为机器学习训练打造的训练芯片Trainium、推理芯片Inferentia提高性能,配合弹性可扩展的按需云计算资源分配机制。
在此基础上,就可摆脱“小作坊”进一步实现AI的工程化,或者叫MLOps,包括:
建立可重复的训练工作流程以加速模型开发
集中编目机器学习构件,用于模型可再现性和治理
将机器学习工作流程与 CI/CD 管道集成,以加速投入生产
持续监控生产中的数据和模型,以保持质量
Gartner咨询公司将AI工程化列为2022年十二大战略性技术趋势,IDC则预测到2024年60%的企业将MLOps用于机器学习工作流。
除了已有的产品和服务之外,云计算未来的发展更是值得关注。
操作系统为什么倍受重视?因为在那个位置上,每一点微小改进都能带来很大的收益。
云原生AI格局下,云计算基础架构也是如此,每一点创新都能对AI开发效率带来很大的提升。
像这的产品和服务创新,每年底的亚马逊云科技re:Invent大会上都会带来数十款。
亚马逊云科技也连续12年蝉联Gartner云基础设施和平台服务魔力象限领导者,成为这一魔力象限的最长领跑者。
看到这里,对AI开发从工具到基础设施,从验证开发到大规模部署全方位加速创新的时代,你期待吗?
最后,如果你对以上内容想了解更多,可以观看大会精彩回放:
https://www.awsevents.cn/reInvent2022/?s=7982&smid=14975
(复制以上链接或点击阅读原文均可)
— 完 —
点这里👇关注我,记得标星哦~
微信扫码关注该文公众号作者