Redian新闻
>
抗住百万级流量并发,快手 + 阿里云混合云弹性调度系统的建设之路

抗住百万级流量并发,快手 + 阿里云混合云弹性调度系统的建设之路

公众号新闻


快手 APP 是一款用户量极大的短视频应用。目前平均日活跃用户达 3.76 亿,平均月活跃用户达 6.73 亿,累计互关用户对数超过 311 亿对,日均互动(包括点赞、评论和转发等)总量达 80 亿次。为了支撑如此庞大的用户规模、业务量级,快手建立了多个庞大的数据中心,海量的服务器集群来承载每日数亿用户的访问。


快手技术面临的挑战,除了用户规模庞大带来的分布式架构的复杂性,更大的挑战来自于直播间秒杀场景,瞬时海量用户的抢购并发极高。直播是快手技术挑战最大的场景,而快手直播电商的秒杀活动为之最,具有并发量大、要求极高的特点。在秒杀活动期间,大量用户会同时访问快手的电商平台,对系统的并发处理能力提出了极高的要求。对于上亿粉丝的大V直播间秒杀期间,单件秒杀商品可能达到数百万件,单品最高秒杀请求达每秒百万次,下单交易链路系统同时支撑每秒百万次的并发。从下图可以看出,大V直播期间的秒杀尖峰与日常相比,提交订单接口的峰值流量是日常的90多倍。

为了应对并发量极高的秒杀场景,快手采用了如下图所示的分布式系统架构、负载均衡技术、缓存技术、消息队列、服务限流排队、热点缓存优化等技术手段,以提高系统的并发处理能力和扩展性;在数据中心能力上,提高服务器的处理能力和可靠性,以确保系统的稳定性和可用性。此外,还加强对系统的监控和运维,及时发现和解决问题,确保系统的高可用性。同时,也不断优化系统的性能,提升用户体验和满意度。

为了解决大促秒杀尖峰时刻的资源不足问题,快手建立了弹性容器云能力。快手的弹性容器云平台基于 Docker 建设的平台,它能够根据业务需求自动扩展和收缩容器实例,以满足高并发和大流量场景下的业务需求。通过使用弹性容器云,快手可以在大促秒杀期间快速扩展容器实例,以应对突然增加的流量和请求。当流量和请求减少时,弹性容器云又可以自动收缩容器实例,以节省资源成本。这种弹性伸缩能力可以帮助快手更好地应对业务的突发变化,提高系统的可靠性和可用性。弹性容器云为快手解决大促秒杀期间的弹性伸缩问题提供了有力的支持。

图:全量使用自建 IDC 资源的电商业务架构

为了应对峰值,快手容器云平台构建了快手 IDC+ 阿里云的混合云架构,通过专线打通双方网络互联互通,利用阿里云丰富的产品能力和弹性优势进行业务“削峰填谷”。阿里云计算资源具备快手弹性和库存优势,为快手容器的弹性和扩展提供了强有力的支持,从而更好地应对峰值,满足高并发和大流量场景下的业务需求。

在扩展公有云资源的过程中,会基于时延和容灾域将相应公有云上不同可用区资源合入到快手内部不同可用区内,并优先将非高频访问缓存类的服务扩容到公有云机房,以优化业务性能。当发生单可用区的故障时,可通过可用区级的快速切流来完成业务恢复。同时为了加速业务的启动耗时,在公有云机房建立了镜像仓库缓存节点,结合 p2p 镜像下载机制,显著加速公有云上的容器实例的启动速度。

图:启用弹性混合云资源的电商业务架构

其中的混合云调度平台,通过打通预算管理、容器资源运营及资源交付等多平台,实现了混合云弹性资源的快速交付,满足业务突发流量的算力资源诉求。整体过程中实现了如下平台能力:

  • 弹性云服务器资源快速纳入容器集群:可实现 10 万核计算资源 30 分钟内接入快手容器云并达到业务可用状态;

  • 快手自建机房与公有云机房资源通过容器集群统一纳管:提供一致化的算力交付,业务侧不感知底层资源差异;

  • 智能化的资源调度策略:平台统一托管资源分配策略,突发流量所需要的业务扩容优先使用云上资源,活动结束缩容优先退还云上资源并自动下线主机;

图:混合云弹性资源交付流程示意图

据了解,阿里云已经连续十来年保障了天猫双 11 的平稳运行,扛住了零点过后的流量峰值,阿里巴巴业务 100% 运行在阿里云上。那么,快手容器云+阿里云的组合模式是否能经受住另一个大促考验呢?

在 2023 年某大 V 大促活动中,快手电商为了应对大 V 秒杀峰值的资源计算需求,快手的弹性容器云快速利用以上打通阿里云的系统,进行了峰值资源的扩容,扩充总量级达到数万核 CPU,将下单的峰值吞吐能力提高了 1 倍,秒杀期间实际峰值流量达到每秒百万次请求,系统各项指标稳定,系统 100% 可用,阿里云顺利通过了快手大促考验,可以平稳支撑快手顶流大 V 大促直播。下图中峰值的请求,即为通过阿里云弹性资源应对的峰值计算资源,解决了短时间内快速弹性扩容、峰值结束后快速缩容的问题,既提高了系统应对峰值的快速伸缩、系统稳定性、高并发诉求,又能大大减少资源的持有成本。

通过【快手容器云 + 阿里云】的技术深度结合,在【快手电商直播秒杀】场景下的大规模首次应用,也论证和验证了快手弹性容器云能力在应对高峰弹性上的实际效果,也为快手未来借助阿里云解决资源成本优势、快速扩缩容提供了坚实的基础,为快手引领直播电商技术的趋势提供了有力的支持。

快手在直播电商技术方面的不断创新和引领,为行业的发展和变革也带来了重要的意义。快手电商直播,应用弹性容器云 + 阿里云的混合云模式应对秒杀,不仅对于快手自身具有重要意义,也为整个行业带来了积极的影响。它引领了直播电商技术的发展趋势,为其他企业提供了借鉴和启示。未来,随着技术的不断进步,快手将继续发挥技术优势,为用户带来更好的购物体验。

今日好文推荐
“MySQL 之父”的 MariaDB 要完蛋了?叫停两款核心产品并裁员 28%,分析师:该行为无异于自毁长城
剑指 Kubernetes!微软发布开源平台 Radius:高效构建、运行云原生应用程序
前端根本不需要构建!“技术邪教” Ruby on Rails 之父再出激进言论引争议
大模型时代下的技术变革:训练、负载、部署、效率、安全……都遇到了新挑战?

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
瞭望访谈 | 国家市场监督管理总局副局长田世宏:走出中国特色质量强国建设之路NeurIPS 2023 | 从分布鲁棒优化角度理解对比学习的鲁棒性和温度系数的意义后流量时代,快手音乐「π」计划如何与行业共创爆款歌曲?阿里停止拆分阿里云;iPhone 明年可与 Android 机通信;网友:千元特斯拉「赛博啤酒」很垃圾 | 极客早知道阿里将继续对阿里云进行分拆上市,传阿里云考虑从国有公司融资至多28亿美元人满为患?澳洲将限制留学生数量并征税 !三分之一澳企或在圣诞节前裁员!但工资最高的行业却严重缺人...那些抵抗住科技巨头猛烈进攻的“小企业” |【经纬低调研究】零念科技,PowerDS确定性调度中间件「护航」智驾安全|年度好产品入围公示阿里云突发严重故障,淘宝、闲鱼、阿里云盘、钉钉“崩”上热搜!历经 2.5 小时恢复张勇正式卸任阿里巴巴、阿里云董事长和 CEO;华为或回归全球手机市场;俞敏洪就东方甄选「切片带货」事件致歉 | 极客早知道逍遥子突然辞去阿里一切职务!之前不再担任董事长,现在阿里云CEO也卸了澳人注意!紧急疫情突然爆发,已波及至4州,全国性调查启动!猴痘正在肆虐,近9万人感染!华人小哥中招,险些失明《花尾渡》(小说) 第十九章 断肠人与新船长ChatGPT被曝“重复漏洞”;华为云推出首个大模型混合云;传Stability AI投资者要求CEO辞职丨AIGC大事日报阿里CEO:阿里云专注AI和公共云,云智能集团仍保持独立公司运作要是我在搞流量运营时,看到这篇亿级流量操盘手的分享,该有多好啊!阿里股价崩了,阿里云紧急叫停,马云家族也要套现了...一文带你了解阿里云云网络的十年演进之路《歌德堡变奏曲1358》阿里不再推进阿里云分拆福岛排水和大肠刺身阿里云林伟:关于大模型时代 AI 工程建设的思考丨GAIR 2023苹果自研5G基带再推迟/阿里暂停拆分阿里云,公布第一批战略级创新业务/抖音回应付费短视频暴涨!澳洲将限制留学生数量并征税,事关每一位留澳学生阿里M7级资深副总裁蔡英华卸任阿里云计算公司董事长、法定代表人当代中小学怪现状:孩子住百万学区房,却挤在厕所吃零食、搞社交…【“骑”乐无穷】D0 做一件想做的事情凤求凰-司马相如 古琴阿里系APP出现集体罢工?阿里云回应;比亚迪经营车险资质正式获批;中国最大闪存芯片制造商长江存储在美起诉美光,涉专利侵权丨邦早报中美应该走出一条互利共赢之路、造福人民之路、惠及世界之路大规模流量下的云边端一体化流量调度体系阿里云 CTO 周靖人:AI 时代,为什么阿里云一定要做开源《小时代》被嘲十年后,郭敬明凭啥还能收割顶级流量?未央播报 | 8月社会融资规模增量为3.12万亿元 阿里巴巴将继续执行阿里云分拆上市计划阿里云Create@ AI创客松招募开启,云栖大会48小时AI Agent开发挑战!有机会获百万云资源
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。