Redian新闻
>
大型游戏平台 Roblox 通过蜂窝基础设施架构来改进大规模用户游戏体验

大型游戏平台 Roblox 通过蜂窝基础设施架构来改进大规模用户游戏体验

公众号新闻

作者 | Matt Saunders
译者 | 明知山
策划 | 丁晓昀

在线游戏平台和创作系统 Roblox 详细介绍了他们如何提升其基础设施的效率和弹性,满足 7 千多万活跃用户参与沉浸式游戏体验的需求。这篇博 深入探讨了 Roblox 如何实现可靠性承诺、如何应对 2021 年的重大故障以及如何通过持续转型来提升基础设施的效率和弹性。

2021 年 10 月,Roblox 遭遇了持续 73 小时的系统范围的故障,这是由一个数据中心的一个小问题引发的,然后迅速演变成大规模故障。通过事故后分析,团队加大了巩固其基础设施的工作,以应对各种故障因素,如流量峰值、天气条件、硬件故障、软件错误和人为失误。重点是防止单个组件的问题扩散到整个系统,并确保网络或用户持续重试操作不会造成与负载相关的级联故障。

为了应对类似 2021 年 10 月的故障,Roblox 最初在不同区域的数据中心采用主备方式构建了基础设施的副本。这意味着团队可以在主数据中心出现重大故障时将整个系统切换到备份基础设施上。这提供了一种应急的弹性形式,但他们的长期目标是从主备数据中心转变为双活,让两个数据中心同时处理工作负载,实现更高的可靠性和几乎即时的故障切换。

Roblox 还实现了蜂窝基础设施架构,在数据中心内建立强大的“防爆墙”,防止发生整个数据中心范围的故障。蜂窝蜂窝单元或机器集群在单个蜂窝单元内提供冗余和故障控制。Roblox 的目标是将所有服务迁移到蜂窝单元中,以此来增强弹性和高效的工作负载管理,整个蜂窝单元(每个蜂窝单元可能包含 1400 台服务器)可以在必要时进行修复或完全重新配置。这个过程需要确保一致性,要求服务进行容器化,并实现基础设施即代码的理念。Roblox 新的部署工具会自动确保服务跨蜂窝单元分布,从而使服务所有者不必考虑复制问题。

Roblox 将蜂窝单元作为一种防火门,可以将故障限制在一个蜂窝单元内。目标是使蜂窝单元变得可互换,以便在出现问题时更快地恢复。然而,管理蜂窝单元之间的通信存在一些挑战,因为需要防止“死亡查询”,即重试查询会导致级联故障。他们正在部署短期解决方案,例如将计算服务的副本部署到每个计算蜂窝单元中,并在蜂窝单元间平衡流量,以此来缓解这种情况。他们的长期计划包括实现用于服务发现的下一代服务网格以及将依赖请求定向到与原始调用方相同蜂窝单元的方法。这将降低故障从一个蜂窝单元传播到另一个蜂窝单元的风险。70% 的后端流量现在由蜂窝单元提供,他们的最终目标是达到 100%。近 3 万台服务器正在运行蜂窝单元,但这还不到总服务器数量的 10%。

在不中断用户的情况下迁移一个非常繁忙的在线平台的复杂性是巨大的。由于没有大量的资金购买全新的服务器来运行蜂窝基础设施,Roblox 创造性地利用了一小部分备用机器,并策略性地建立了新的蜂窝单元,逐步迁移工作负载,然后重新使用已释放的机器来进行下一次迁移。这在不同的数据中心之间造成了一些理想的蜂窝单元碎片,增加了蜂窝单元内的弹性。Roblox 预计将于 2025 年完成迁移,他们需要强大的工具来部署均衡的服务,并且不会干扰到用户,他们还需要进行详尽的测试,确保在蜂窝架构中运行的新服务的兼容性。

Roblox 的努力取得了成功,但针对蜂窝单元的工作仍在进行中。他们致力于在不断扩展规模的过程中提高效率和弹性。他们的主要成就包括建立第二个数据中心,在主备数据中心创建蜂窝单元,将超过 70%的后端服务流量迁移到蜂窝单元中,以及建立了实现一致性的要求。2023 年 9 月,Roblox 在数据中心启动了双活实验,增强了可靠性并最大限度地缩短故障转移时间。这些成果让他们获得了一个实现全面双活基础设施的计划,确定了改进系统设计的模式。他们一直致力于提升效率和弹性,设想让平台成为数百万用户可靠、高性能的实用工具,并实现实时连接十亿人。

他们的基础设施现在运行在近 14 万 5 千台服务器上(大部分在本地私有混合云中心)——两年内增加了三倍。Roblox 目前正在努力改造基础设施,使平台更具弹性,更加高效,为数百万用户提供服务,为持续的增长和创新奠定基础。

查看英文原文

https://www.infoq.com/news/2024/01/roblox-cellular-infrastructure/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

今日好文推荐

系统 bug 致百人入狱,砸了 2.8 亿元仍上云失败!二十年了,这家大企业被日本软件坑惨了

钉钉抢做“中国版 GPT Store”

赔光 OpenAI?!研究人员:版权诉讼不休,其实大模型普遍存在“抄袭”现象

Redis 之父亲自上手用大模型撸代码:通晓古今的白痴队友,将来可以取代 99% 程序员

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
宏观市场 | “平急两用”公共基础设施建设的投资拉动规模估算韩国热度仅次于Roblox、排休闲第2,这款“养成无底洞”放置手游啥玩法?耶路撒冷3000年和巴勒斯坦4000年3-公元前后犹太人最后的皇族马喀比在 Linux 上提升游戏体验的 7 个有效建议及工具 | Linux 中国突发!少年杀人嫌犯越狱,警方在大学城展开搜查|市长帕克宣布拨款2500万美元改善水利基础设施|SEPTA在14个车站停止现场售票啊?隔壁出现用户游玩《丝之歌》?恶搞游戏《黑枪神悟空》2月5日发售!城市级区块链基础设施启动上线,克而瑞成为首批签约“浦江数链”场景应用建设单位还乡记(二)“双向奔赴”嘉实京东仓储基础设施REIT:一份续租公告引发的连续下跌扼住中国国运的全球七大关键基础设施重大进展,这项国家重大科技基础设施成功升能加速!概念股仅10只暗数据迈入基础设施聚光灯:挖掘潜力与应对挑战俄罗斯基础设施的压力Linux 内核未来将放弃 “过时的图形驱动基础设施” ,旧硬件用户可停留在 6.6 LTS 版本年后仅7个交易日跌去近3成 嘉实京东仓储基础设施REIT发生了什么?华为改进Transformer架构!盘古-π解决特征缺陷问题,同规模性能超LLaMA云边协同潮涌 助推算力基础设施高质量发展搞不懂的美国木质房精选SDE岗位丨Intel、Ciena、Roblox等公司岗位发布!ChatGPT代码生成飙升10%!北大华人一作:细化prompt,大幅改进大模型代码能力韦伯太空望远镜怎么看(2),顺带解释一下暗物质与暗能量四单消费基础设施REITs底层资产对比壹号本游侠 X1 游戏平板即将推出:Ultra 7 155H + 10.95 英寸屏中汽数据:2023中国电动商用车充电基础设施现状评估与2035发展目标及路径研究报告耶路撒冷3000年和巴勒斯坦4000年4-拜占庭时代精选DS岗位 | Lucid Software、Kodiak Robotics、Ust Globa岗位发布!亚洲,开源基础设施的“明日之星”对话宁宇|算力网:构建未来数字基础设施的新思路重磅:刘烈宏首论数据基础设施(附全文)首批消费基础设施REITs“起航”,华润商业REIT正式获批City Slickers: How Shanghai Is Outfoxing Its Raccoon Dog ProblemMAU超15亿YouTube小游戏平台Playables开测,首批30款游戏亮相充满变数,Roblox与玩家的“割裂”亚马逊14亿美元收购iRobot计划被搅黄!iRobot宣布裁员350人叶落蜂窝现——家门口“来”了个马蜂窝
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。