本期会议邀请到来自哔哩哔哩、美图公司、享道出行等在稳定性工程领域有着良好实践的技术专家,一起深入探讨在云原生、智能时代面对复杂应用系统,如何借助稳定性工程来提升系统服务的稳定性等,讨论运维标准化工程和稳定性运营实践、SRE转型实践与可靠性工程实践。以标准化工程实践预防问题,防患未然、化解隐患,更好地提前发现潜在风险,尽量减少故障的发生,降低业务风险。8月3日,欢迎报名!
TF115 SRE自动化工程实践和稳定性运营
为工程师提供顶级交流平台
CCF TF第115期
时间:2023年8月3日 19:00-21:00
(线上会议)
主题:SRE自动化工程实践和稳定性运营
欢迎扫码了解详情,报名线上参会
报名链接:https://conf.ccf.org.cn/TF115在数字化时代,数字化业务迅速发展,随之软件的规模扩展很快,软件系统的复杂性快速增长,即使采用微服务架构、云原生平台,复杂性问题没有得到显著改善,生产环境的稳定性面临着巨大的挑战,从而产生了软件工程的一个新分支:稳定性工程。系统稳定性工程(Site Reliability Engineering,SRE)是一种致力于确保系统稳定性和可靠性的跨职能工程实践。它结合了软件工程和运维运营的最佳实践,旨在提供高效的运维支持,确保系统在面对高负载、故障和变更时仍能保持稳定运行。SRE的作用是通过自动化运维流程、监控系统、故障预测和快速响应来降低系统故障率,并通过持续改进来提高系统的可靠性。SRE团队与开发团队紧密合作,共同负责系统的设计、部署、运维和监控,以确保系统能够满足业务需求并提供优质的用户体验。运维在系统稳定性工程中发挥着重要作用。运维团队负责监控系统的运行状况、处理故障和变更管理。他们通过实时监控和日志分析来发现潜在问题,并采取相应措施来防止故障的发生。运维团队还负责制定和执行灾难恢复计划,以确保系统在面临灾难性故障时能够快速恢复。稳定性运营是系统稳定性工程的核心概念之一。它强调通过系统化的方法来管理和改善系统的稳定性。稳定性运营包括建立监控系统、设置警报、制定故障恢复策略以及进行容量规划等活动。通过稳定性运营,可以提前预测和防止潜在的故障,并及时采取措施来保障系统的稳定性。在系统稳定性工程中,有一些优秀实践可以帮助团队提高系统的稳定性。本期会议邀请到来自哔哩哔哩、美图公司、享道出行等在稳定性工程领域有着良好实践的技术专家,一起深入探讨在云原生、智能时代面对复杂应用系统,如何借助稳定性工程来提升系统服务的稳定性等,讨论运维标准化工程和稳定性运营实践、SRE转型实践与可靠性工程实践。在这次会议中,您会有不少收获:
- 如何建立良好的流程来减少人为错误和提高效率?
- 开发怎样的运维自动化工具或平台来保证系统的可靠性?
- 需要哪些团队提供怎样的支持?
- 如何从被动方式转化为主动方式?
- 如何进行稳定性运营?
......
总之,系统稳定性工程是确保系统稳定运行的关键实践。通过SRE团队的努力,结合运维的作用、稳定性运营和优秀实践,可以提高系统的可靠性和用户满意度。在不断变化的技术环境中,系统稳定性工程是保障业务连续性和用户体验的重要保证。会议安排
TF115:SRE自动化工程实践和稳定性运营 主持人:朱少民 CCF TF软件质量工程SIG主席,同济大学特聘教授 |
时间 | 主题 | 讲者 |
19:00-19:10 | 活动介绍及致辞 | 朱少民 CCF TF软件质量工程SIG主席,同济大学特聘教授 |
19:10-19:40 | 《运维标准化工程实践》 | 谢庆芳 享道出行运维自动化负责人 |
19:40-20:10 | 《B站SRE转型实践与可靠性工程实践》 | 武安闯 哔哩哔哩 SRE负责人 |
20:10-20:40 | 《美图SRE团队的「稳定性运营」实践》 | 石鹏 美图公司高级运维经理 |
20:40-20:55 | 参会者提问互动 | 朱少民、谢庆芳、武安闯、石鹏 |
20:55-21:00 | 活动总结 | 朱少民 CCF TF软件质量工程SIG主席,同济大学特聘教授 |
所属SIG
特邀讲者
主题简介:随着公司规模不断壮大,业务量也飞速增长,生产环境稳定性面临更大的挑战,其中运维稳定性是基础也是保障。每一次运维变更都会加大故障率,最终影响用户满意度。运维变更治理不光要追求稳,还要追求快。对于稳,需要流程化;对于快,需要自动化。变更流程单靠口头表述、文档制定或单纯的记忆,称不上流程化。脚本只是本地维护,人工调用,称不上自动化。一旦有变更,很难同步对齐,就需要工具来承载,实现真正意义上的标准化。工具平台的建设+脚本的统一维护是解决变更混乱的有效方法,不仅能避免出错,还可以高效处理。表面看有益运维,实质是业务价值最大化回馈用户。个人简介:负责享道出行一体化平台建设,偏SRE方向;曾有基础架构中间件、性能、自动化等经验;QECon 技术讲师;GOPS线下沙龙讲师;享道出行线上品牌主播。主题简介:传统运维已无法满足现阶段互联网分布式架构下的可靠性保障,SRE就是终极破局之法吗?SRE该如何转型,转型中需要哪些支持,转型后的可靠性工程如何实践?本次分享就这些问题给大家带来B站SRE的思考、探索与实践,深度介绍我们的可靠性工程框架。
本次演讲提纲如下:
1、传统运维与Google SRE的演进与区别;
2、人、组织、制度为SRE转型保驾护航;
3、SRE转型后如何开展可靠性工程;
4、可靠性工程框架与实战。
听众可从本次分享中收获到:
1、了解运维转型SRE中遇到的困难和如何破局;
2、SRE可靠性工程在互联网公司的实际框架;
3、了解SRE如何解构与落地可靠性工程。个人简介:对SRE高可用架构、技术风险体系建设、质量运营和组织转型有深刻的建设实践和思考;主导B站SRE转型、高可用架构、故障快恢、SLO工程、容量管理体系、多活容灾等专项;从0到1带领B站运维向SRE转型,建设B站可靠性体系;当前专注SRE可靠性体系规划建设和落地实践。主题简介:随着外部环境、行业变革、云原生等技术的不断深化,传统的“被动响应式”的运维方法面临诸多挑战,在很多场景下已经无法满足企业需求。我们迫切地需要转变思路,从“被动响应”转为“主动出击”,将更多的工作内容前置、左移,防患于未然、化风险于无形。同时还需要用更科学的宏观框架来系统地梳理和规划运维工作,并做好各职责目标之间的动态平衡,以此更好地掌控“SRE基本盘”。在此背景之下,美图SRE团队探索了一条攻守兼备的「稳定性运营」之路,做了一些方法的归纳和总结,希望给大家带来一些启发。
拟定大纲:
01 SRE的目标&挑战;
02 指导破局的理论框架;
03「守」稳住基本盘;
04「攻」规划&运营。个人简介:石鹏(东方德胜),2016年加入美图,运维技术专家,美图产品SRE负责人。目前在美图负责社区、商业化、创新、实验室等全线产品的运维保障工作,同时参与公司部分工具平台和基础设施的建设。多次参与或主导过公司基础设施的调整、迁移或改造,在监控、灾备、故障管理、稳定性运营等方面有一定的经验和积累。业界多个技术大会的分享嘉宾、金牌讲师或出品人。SIG主席&会议主席
朱少民
CCF TF软件质量工程SIG主席,同济大学特聘教授个人简介:近三十年来一直从事软件测试、质量管理等工作,先后获得多项省、部级科技进步奖,已出版了二十多部著作和4本译作,代表作主要有《软件质量保证与管理》、《软件测试方法和技术》、《全程软件测试》等,并经常在国内外学术会议或技术大会上发表演讲,曾任思科(中国)软件有限公司QA高级总监、IEEE ICST 2019工业论坛主席、IEEE ICST、QRS和DSA、NASAC程序委员、《软件学报》审稿人等。2、活动采用线上模式:腾讯会议。移动端可在微信小程序中搜索“腾讯会议”登录会议,或下载“腾讯会议”APP登录。客户端请搜索“腾讯会议”下载并登录。3、会议链接和密码将在活动当天通过邮件、短信通知。可点击腾讯会议链接,输入密码参加。4、请于活动前一天12:00前完成报名,及时获取会议链接。5、CCF会员免费参加,非会员99元/次,加入会员可免费参与全年20场线上活动。TF123 | 11月2日 | 软件质量工程SIG | 用户体验工程 |
会员权益
会员免费参加CCF TF全年20场线上活动,优惠价参加14场线下活动,为自己的技术成长做一次好投资,用高性价比获取专业知识的绝佳路径!
长按识别或扫码入会
报名方式
2023年8月3日(周四) 19:00-21:00
长按识别或扫码报名
报名链接:https://conf.ccf.org.cn/TF115
联系方式
邮箱:[email protected]
电话:0512-6590 0856转分机号27
手机:18852405453
合作单位
*本文系量子位获授权刊载,观点仅为作者所有。
— 完 —
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
点击“阅读原文”,报名TF115!