Redian新闻
>
Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践

Cloudflare 的 ML 和 AI 之旅:MLOps 平台和最佳实践

公众号新闻

作者 | Claudio Masolo
译者 | 马可薇
策划 | Tina

Cloudflare 的博客介绍了他们的 MLOps 平台和大规模运行人工智能(AI)部署的最佳实践。包括 WAF 攻击评分、僵尸管理和全球威胁识别在内的 Cloudflare 的产品,都依赖于不断发展的机器学习(ML)模型。这些模型在增强客户保护和支持服务方面都发挥着关键的作用。Cloudflare 在公司全网中提供  ML 方面取得了无与伦比的规模,突出了稳健 ML 培训方法的重要性。

Cloudflare 的 MLOps 是与数据科学家合作实施的最佳实践。通过 JupyterHub 部署在 Kubernetes 上的 Jupyter Notebooks 为数据探索和模型实验提供了可扩展的协作环境。GitOps 是 Cloudflare MLOps 战略实践的基石,利用 Git 作为管理基础架构和部署流程的单一真相源。ArgoCD  是用于声明式 GitOps,实现了应用程序和基础架构的自动化部署和管理。

公司未来的路线图包括了迁移 JupyterHub 和 Kubeflow 等平台,后者为 Kubernetes 上的机器学习工具流平台,且在近期成为了 CNCF 的孵化项目。这一步是由为 Kubeflow 组件提供分布式配置管理的 deployKF  项目促进。

为了协助数据科学家们使用正确工具,自信且高效地启动项目,Cloudflare 的 MLops 团队提供了模型模板,作为包含示例模型的生产就绪代码库。这些模板目前都是内部模板,但 Cloudflare 计划将其开源。这些模板所涵盖的使用案例包括:

  1. 训练模板: 为 ETL 流程、实验追踪和基于 DAG 的协调进行了配置。

  2. 批推理模板: 为高效处理计划模型进行优化。

  3. 流推理模型: 专为在 Kubernetes 上使用 FastAPI 进行实时推理而定制。

  4. 可解释性模板: 使用 Streamlit 和 Bokeh 等工具生成 dashboard(仪表盘),用于模型的洞察。

MLOps 平台的另一项重要任务是高效地协调 ML 工作流,Cloudflare 根据团队偏好和用例采用了各种协调工具:

  • Apache Airflow一个标准的 DAG 组成其,拥有丰富的社区支持。

  • Argo 工作流以 Kubernetes 原生形式协调微服务类型工作流。

  • Kubeflow 管道专为 ML 工作流定制,强调协调和版本管理。

  • Temporal专注于事件驱动型应用的有状态工作流。

性能的优化需要对工作流的理解和对硬件相应的调整。Cloudflare 强调核心数据中心在工作负载和边缘推理方面的 GPU 利用率,利用普罗米修斯(Prometheus)所提供的指标进行观察和优化。Cloudflare 的成功应用包括了对 ML 流程的简化、管道标准化,以及向缺乏数据科学专业知识的团队介绍项目。

公司的愿景是一个数据科学可以在企业中发挥重要作用的未来,这也是 Cloudflare 投资于人工智能基础设施并与 Meta 等其他公司合作的原因,其中包括在 Cloudflare 平台上向全球提供 LLama2。

查看英文原文:

Cloudflare's Journey in ML and AI: MLOps Platform and Best Practices(https://www.infoq.com/news/2023/12/cloudflare-mlops-platform/)

声明:本文为 InfoQ 翻译,未经许可禁止转载。

今日好文推荐

纯向量数据库和向量插件都有局限,那未来发展有其他方向吗?

系统 bug 致百人入狱,砸了 2.8 亿元仍上云失败!二十年了,这家大企业被日本软件坑惨了

钉钉抢做“中国版 GPT Store”

赔光 OpenAI?!研究人员:版权诉讼不休,其实大模型普遍存在“抄袭”现象

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Google CloudAI 5年工作体验Floorp 浏览器:这是最先进的跨平台 Firefox 衍生品吗? | Linux 中国鸿沟破冰之旅:1979年1月28日—2月5日邓小平访问美国这些年背过的面试题——SpringCloud篇分布式定时调度:xxl-job 最佳实践中东难民之旅:巴勒斯坦与犹太人在阿拉伯国家的命运交错俄罗斯大数据产品ClickHouse炮轰Snowflake,BigQuery,Redshift等一众美国云数仓。。。China’s Pneumonia Outbreak Recedes, but Flu Awaits加拿大白马镇/黄刀镇3-5天北极光之旅:在“北极光首都”观赏罕见红色极光 概率95%!领取北极圈证书和小徽章!8-4月K4/H4​纽约往返美国遗产之旅:11天10晚&12天11晚~首发,纽约州+加拿大+马萨诸塞州+南卡罗来纳州/罗德岛 独立战争250周年AI早知道|传字节成立AI应用新部门Flow;Azure AI云开发平台新增40个大模型微软开源Azure RTOS,并更名为Eclipse ThreadX无高球不高兴分布式锁实现原理与最佳实践中国连锁经营协会:2023CCFA零售业供应链最佳实践案例集ClickHouse 彪悍发言:云数仓死贵死贵的,Snowflake 这种就不应该成为当前主流!Claude 3破译OpenAI邮件密文:人类未来掌握在「谷歌」手中!马斯克怒斥应改名ClosedAI深海之旅:与自由潜水冠军有关的蓝纽森扫大街,迎接爱拍客(APEC)详解 Spring Cloud 版本问题​#准备好屏幕 MV:Mary Sue & psychedelic ensemble. - Stop Playing!巴黎音乐之旅:十一月末传统音乐会攻略,让你轻松感受音乐魅力!玩疯了,坐地中海游轮乐极生悲和有惊无险OpenCloudOS 迁移工具征集中,18 万奖金等你来拿!|开放原子开源大赛过泗洪双沟至高7折酒店任你选!2024春假美国迪士尼梦幻之旅:儿童餐食半价+$50畅玩一整天!MeetinTO打造家庭欢乐假期!苹果 iCloud 的“极端”架构:管理数十亿独立用户数据库!【娱乐】巴黎音乐之旅:11月末传统音乐会攻略,让你轻松感受音乐魅力!年终最后一次盘点!最新最全顶会论文合集(含AAAI24、CVPR、ECCV、NIPS、ACL、ICML等)AWS Cloudshell 现在可以访问 Docker Engine伦敦2月UNCLE合租,仅£369/周;适合UCL/LSE/KCL的Studio仅£304/周;转租更便宜! (1月22日更新)头像|𝐒𝐡𝐚𝐫𝐞·招桃花头像中国连锁经营协会:2023 CCFA零售业供应链最佳实践案例集Does China’s fear of floating exceed its fear of deflation?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。