Redian新闻
>
想吃透监控系统,看这个就够了 | 极客时间

想吃透监控系统,看这个就够了 | 极客时间

公众号新闻

你好,我是秦晓辉。

参加工作的十余年间,我先后就职过百度、小米、金山云、滴滴,做过运维平台的开发、一线运维,也做过运维团队的管理。目前是快猫星云的联合创始人,做的也是监控与稳定性保障相关的工作。

同时我也是监控相关的开源项目 Open-Falcon、Nightingale(夜莺)、Categraf 的核心开发者,你可以试着从社区里找一找我的身影,相信这不是一件难事。

8 年多的社区维护工作中,我解答了海量的监控问题。

比如:

  • 指标有哪些类型,哪类指标比较关键?

  • 如何部署一套高可用的监控系统,存储应该如何选型?

  • 如何监控 MySQL、Redis、Kafka、ElasticSearch?

  • 如何监控 Kubernetes 这么复杂的平台?

  • 如何埋点,如何分析日志?

  • 如何做到事件闭环和告警自愈?

  • ......

这些问题让我深深地意识到运维监控领域,缺少一套体系化的课程,把监控这个事情深入浅出地讲透。虽然网上可以搜索到很多碎片化的知识,但是都不成体系,很多甚至还有错误,所以我萌生了写个课程的想法,希望呈现给你一套系统的、正确的、尽可能完备的运维监控系统知识手册。希望你不用再为了寻找一个答案而苦苦搜索,也不必再自己去一块一块地拼凑知识。

课程结合我在监控领域多年的经验和思考,从基础知识讲起、对比介绍 10 大开源监控方案,带你搭建监控系统,实现业务、应用、组件、资源四大场景的监控需求。

课程今日已上线,识别二维码试读

监控是做好软件架构的重要一环

上面提问的这些人当中,大部分是运维工程师、业务研发、架构师,还有监控和稳定性系统建设人员,对他们来说运维监控相关的知识是工作中必不可少的一部分。那是不是其他领域的人就没必要了解监控相关的知识了呢?不是的。

其实,每个关注高可用、关注服务稳定性的技术人员都应该学习监控相关的知识

在稳定性保障体系中,核心就是在干一件事,减少故障:

故障的生命周期

减少故障有两个层面的意思,一个是做好常态预防,不让故障发生;另一个是如果故障发生,要能尽快止损,减少故障时长。而监控的典型作用,就是帮助我们发现及定位故障,这两个环节对于减少故障时长至关重要。

运维人员和研发人员是典型的关注稳定性的人。其实,监控的作用还有很多,比如用于日常巡检,作为性能调优的数据佐证,提前发现一些设备、中间件不合理的配置。之所以能做到这些,是因为所有优秀的软件,都内置了监控数据的暴露方法,让用户可以对其进行观测,了解其健康状况。可被监控和观测,也是我们开发软件时必须考虑的一环

监控是做好软件架构的重要一环

优秀的软件,一定会暴露完备的监控指标,或者用现在时髦的话讲,优秀的软件一定是可观测的

就拿我们常见的数据库中间件来说吧,你会发现虽然大家的指标暴露方式不同,但没有哪个是缺失监控能力的。

监控领域相关的产品很多,整个监控技术体系非常庞杂。不同的监控目标应该选用哪个采集器?机器、中间件、数据库、应用程序分别应该怎么监控?应该着重关注哪些指标?时序数据量很大,应该选用什么样的存储?作为一个公司级的基础设施,需求各异,选用哪一款系统更便于扩展?

如果你也有这些困惑,建议看看《运维监控系统实战笔记》课程。

课程主要分为 4 部分
01 基础知识概要介绍

学习监控知识,得先了解为什么,也就是监控是因何产生的,解决了什么问题,有哪些典型的方案,分别有什么优缺点,通用的监控系统架构是怎样的。通过这些内容,你可以了解监控及相关的概念,为接下来的正式学习打好铺垫。

02 搭建并优化 Prometheus

这个部分我会带你搭建 Prometheus 这个监控系统,剖析它的关键设计,并给出 Prometheus 薄弱环节的解决方案。让你有个感性的认识的同时,帮助你理解监控系统的相关设计。

03 监控实战,搞定常见的监控需求

操作系统、网络设备、MySQL、Redis、Kafka、ElasticSearch、Kubernetes、应用、日志等所有常见监控的需求统统搞定。这个部分我们讲解各个监控目标是如何采集监控数据的,有哪些指标最为关键。中间穿插一些问题排查手段,并提供配置好的仪表盘,让你开箱即用的同时,知其然并知其所以然。

04 告警实战,设计良好的告警系统应该具备哪些能力

这个部分的重点就是甄别异常数据并发出告警,包括告警规则、屏蔽规则、抑制规则、订阅规则的管理,还有告警事件的管理以及告警事件触发后的自愈逻辑。

一般监控系统都支持配置告警规则,可以产生告警事件,但是针对告警事件后续的支持偏弱,没有很好的聚合收敛、事件闭环的能力。这个部分主要是为了让你了解告警部分相关的设计逻辑和考量点,帮助你选型这方面的商业产品。当然,如果你后续选择自研,这些思考也会大有裨益。

通过目录来看看具体内容吧:

不管你是运维工程师,还是业务研发、架构师,抑或者是监控和稳定性系统建设人员,运维监控相关知识都是工作中必不可少的一部分。这个课程可以补齐你在监控领域缺失的“拼图”。

课程原价 ¥99

今日早鸟特惠,到手 ¥69

作为一个多年的监控系统研发人员,我会用深入浅出的方式,带给你一些更专业的思考和原理性的讲解,传授给你一些实战落地的经验,把我十余年所学倾囊相授。学完本课程,在监控领域,你的认知一定能超越九成的技术人员,为你的成长之路添一块垫脚石。

点击「阅读原文」,开始我们的监控之旅吧!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
抄底美股,买多少看这个就够了主流监控系统 Prometheus 学习指南年末TJ Maxx、Ross这些折扣店怎么薅羊毛,看这篇就够了稻盛和夫:一个领导值不值得追随,看这3点就够了从全球半导体十大买家,看中国的就业机会 | 极客时间第二次徒步圣路,750公里葡萄牙之路+英国之路:D01~圣路缘由从0到1,写一个自己的操作系统!| 极客时间关于 ByteHouse 你想知道的一切,看这一篇就够了开春湾区房市回暖?2023湾区买不买房,看这篇就够了…先苦后甜和生日庆祝防治艾滋病,看这篇就够了!建议收藏→诺贝尔奖看中的中国女作家中国愤青摄影展(儿童不宜)新冠抗原自测,看这一篇就够了!职场新人有没有潜力,看这一个能力就够了丨赠书福利关于加拿大自雇移民VS雇主担保移民,看这篇就够了体检,查这几个就够了!了解当下的土耳其,看这部剧就够了用Prometheus监控K8s,从核心原理到告警实操都讲明白了 | 极客时间阳了以后咨询医生最多的问题,看这一篇就够了!两个相爱的人能走多远,看这三点就够了。滑雪季准备去哪儿嗨?DC滑雪人,看这篇就够了!人民日报:你关心的新冠问题的答案,看这篇就够了!宝藏贴!关于美国移民体检,看这篇就够了!2022及之前的173篇原创文章汇总,看这个就够了男人值不值得交往,看这几点就够了圣诞大餐全攻略,看这一篇就够了!氛围感拉满!揭秘正收益秘诀,基金公司独家开发"监控系统"!李文良:积极严苛跟踪基金经理动态倒计时2天 | 收藏!关于FBEC大会的一切,看这篇就够了!不是谦虚,我真的不是这里带娃的天花板!新冠抗原居家自测,看这一篇就够了!(建议收藏)方桌还是圆桌?选餐桌不纠结,看这4点就够了【装修干货】GET明星同款“伪素颜肌”,看这篇就够了!精益求精!如何把“文献综抄”变成高分综述,看这篇就够了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。