Redian新闻
>
骨灰级运维开发:监控系统,从来不只是运维的事儿 | 极客时间

骨灰级运维开发:监控系统,从来不只是运维的事儿 | 极客时间

公众号新闻

作者 | 秦晓辉

你好,我是秦晓辉。

参加工作的十余年间,我先后就职过百度、小米、金山云、滴滴,做过运维平台的开发、一线运维,也做过运维团队的管理。目前是快猫星云的联合创始人,做的也是监控与稳定性保障相关的工作。

同时我也是监控相关的开源项目 Open-Falcon、Nightingale(夜莺)、Categraf 的核心开发者,你可以试着从社区里找一找我的身影,相信这不是一件难事。

开始今天分享前,先问大家一个问题:哪些人应该学习监控相关的知识?只是运维吗?

其实,每个关注高可用、关注服务稳定性的技术人员都应该学习监控相关的知识。在稳定性保障体系中,核心就是在干一件事,减少故障。我们可以看一下故障的生命周期:

减少故障有两个层面的意思,一个是做好 常态预防,不让故障发生;另一个是如果故障发生,要能尽快止损,减少故障时长。而监控的典型作用,就是帮助我们 发现及定位故障,这两个环节对于减少故障时长至关重要。

运维人员和研发人员是典型的关注稳定性的人,不过侧重点不同。发生故障的时候,运维人员更希望快速找到问题根因,及时止损。而研发人员,更希望能“自证清白”。不管出于何种目的,监控都是不可或缺的工具

其实,监控的作用还有很多,比如用于日常巡检,作为性能调优的数据佐证,提前发现一些设备、中间件不合理的配置。

随着时代的发展,监控也从最开始的一句话需求 - 及时感知系统出现的问题,发展到了希望 预知问题,并且可以洞察业务经营数据,越来越多的诉求让我们逐渐意识到监控的重要作用。

8 年多的社区维护工作中,我解答过很多的监控问题。这些问题让我深深地意识到运维监控领域,缺少一套体系化的内容,把监控这个事情深入浅出地讲透。所以我萌生了写个课程的想法,期望呈现一套 系统的、正确的、尽可能完备的运维监控系统知识手册

也希望你不用再为了寻找一个答案而苦苦搜索,也不必再自己去一块一块地拼凑知识。

课程结合我在监控领域多年的经验和思考,从基础知识讲起、对比介绍 10 大开源监控方案,带你 搭建监控系统,实现 业务、应用、组件、资源 四大场景的监控需求:

课程目前已经更新完成,建议识别上方二维码,试看两篇,判断是否是你需要的内容,再决定是否入手。

监控领域相关的产品很多,整个监控技术体系非常庞杂。不同的监控目标应该选用哪个采集器?机器、中间件、数据库、应用程序分别应该怎么监控?应该着重关注哪些指标?时序数据量很大,应该选用什么样的存储?作为一个公司级的基础设施,需求各异,选用哪一款系统更便于扩展?

关于这些问题的,我也在课程中给予了解答。

课程主要分为 4 部分
 01 基础知识概要介绍

学习监控知识,得先了解为什么,也就是监控是因何产生的,解决了什么问题,有哪些典型的方案,分别有什么优缺点,通用的监控系统架构是怎样的。通过这些内容,你可以了解监控及相关的概念,为接下来的正式学习打好铺垫。

 02 搭建并优化 Prometheus

这个部分我会带你搭建 Prometheus 这个监控系统,剖析它的关键设计,并给出 Prometheus 薄弱环节的解决方案。让你有个感性的认识的同时,帮助你理解监控系统的相关设计。

 03 监控实战,搞定常见的监控需求

操作系统、网络设备、MySQL、Redis、Kafka、ElasticSearch、Kubernetes、应用、日志等所有常见监控的需求统统搞定。这个部分我们讲解各个监控目标是如何采集监控数据的,有哪些指标最为关键。中间穿插一些问题排查手段,并提供配置好的仪表盘,让你开箱即用的同时,知其然并知其所以然。

 04 告警实战,设计良好的告警系统应该具备哪些能力

这个部分的重点就是甄别异常数据并发出告警,包括告警规则、屏蔽规则、抑制规则、订阅规则的管理,还有告警事件的管理以及告警事件触发后的自愈逻辑。

一般监控系统都支持配置告警规则,可以产生告警事件,但是针对告警事件后续的支持偏弱,没有很好的聚合收敛、事件闭环的能力。这个部分主要是为了让你了解告警部分相关的设计逻辑和考量点,帮助你选型这方面的商业产品。当然,如果你后续选择自研,这些思考也会大有裨益。

通过目录来看看具体内容吧:

光读文章可不够,下面的思考题以及大家的讨论同样精彩,相信可以给你新的启发:

不管你是运维工程师,还是业务研发、架构师,抑或者是监控和稳定性系统建设人员,运维监控相关知识都是工作中必不可少的一部分。这个课程可以补齐你在监控领域缺失的“拼图”。

课程原价 ¥99

今日秒杀到手仅 ¥69

如果你是新用户,仅需 ¥59

学完本课程,在监控领域,你的认知一定能超越九成的技术人员,为你的成长之路添一块垫脚石。 

点击「阅读原文」,开始我们的监控之旅吧!

 报告推荐

包含 ChatGPT、Claude、Sage、天工 3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B 等大语言模型产品,四大维度+12个细分维度展现其综合能力,通过技术视角探索大模型产品的编程能力,提升 AGI 创业方向选择、工作实际应用等方面的最新认知。扫码添加InfoQ 小助手,解锁全部资料。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
开源方案“走不通”!运维一百多应用系统,广州银行信用卡中心如何构建自动化实践可观测只是运维?怎么选择产品和搭建体系?快来刷新你的认知无论是自动化运维、数据库运维,大数据运维或云计算运维等,几乎都离不开 LinuxGPT-4时代,如何2周上手AI应用开发?| 极客时间我的妈妈,从来不过「母亲节」NYU学长自爆:上岸中信证券,我靠的不只是运气...3天,手把手教你搭建自己的监控系统(附代码)| 极客时间空降进阿里的 P10 都是什么人?| 极客时间40年难遇GPT时代?这是人人都能抓住的编程新风口 | 极客时间毁掉一段关系的,从来不是三观不合认知陷阱的3大心理学效应:阻止你成长的,从来不是别人主流微服务全链路监控系统实战还是第一次见这么画架构图的,从0开始,稳、准、狠!| 极客时间ChatGPT:从传统运维到智能运维的转型之路如何走?再读《苏东坡传》顿悟:真正能治愈一个人的,从来不是时间,而是经历哭笑不得!加拿大亚裔妹子天天丢鞋:监控曝光小偷竟是...时光里的答案(八十六)“骨灰级”老程序员陈皓突发心梗去世 年仅47岁北大心理学博士:真正自信的孩子,从来不是“夸”出来的(附沟通策略)去不去高精地图,从来不是一个技术问题未来不只是AI,追踪8家被隐藏的科技亮点企业|直播预告路遥《人生》:叫醒人的,从来不是道理,而是磨难我最喜欢的女歌手150+道测试高频面试题详解汇总(附用例模板)| 极客时间能改变你的,从来不是大道理AI 大模型爆发,如何 2 周上手 AI 应用开发?| 极客时间手撸个自己的操作系统,NB!| 极客时间分享Go并发的20+踩坑案例,提升你的实战能力 | 极客时间产品,从来不是公司的核心竞争力Veenee Weenee别傻了!洛杉矶新型骗局:上门安装监控系统,假借手机......拜登顾问团:监控境外非美国人确实侵权,但不可或缺别拿医生不当劳动力 (1)(古詩詞英譯) 蘇堤清明即事 - (南宋)吳惟信用二维的纸折出了三维的宇宙???刘慈欣看了都得来夸夸你!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。