Redian新闻
>
专访骨灰级老炮井源:运维行业可能不存在了

专访骨灰级老炮井源:运维行业可能不存在了

公众号新闻

作者 | 秦晓辉
作者的话:我们观察到:国内运维行业,不同的公司做法差异巨大,从业人员水平参差不齐,缺少普遍性行业认知,难以形成合力(这也会让 To B 的产品异常难做,不利于行业整体发展),甚至在部分公司,运维人员处在技术鄙视链最底层,我们希望为行业带来一些新的思路和发展推动力。

这需要很多行业老炮一起,输出观点,共同碰撞,才有可能形成一些先进的共识,形成行业前进的思想旗帜。所以,我们准备策划《运维百家讲坛》这么一档栏目,诚邀 100 个运维总监(或更高)级别的老炮,通过采访或约稿的方式输出他们的观点,给行业一些借鉴。

井老板是我 11 年入行加入百度时的团队大老板,骨灰级老炮,逮着这个机会不容易,把业内常见问题都问了个遍,以飨读者。井老板生性洒脱,嬉笑怒骂皆成文章,道理自在其中。这里是接地气、有高度的《运维百家讲坛》第 1 期,开讲!

嘉宾简介

井源,前百度运维架构师,前小米运维负责人,前美菜 CIO。

有些运维人员反映公司对运维的价值所知甚少,您当年是怎么给公司讲清楚运维的价值的呢?

首先需要和公司讲清楚运维的 岗位职责(运维是干什么、产出什么)和关键指标(度量产出成果),比如工作围绕稳定、安全、高效等方向展开,开展了哪些运维项目,如何主动推进关键指标的达成。

关键指标,不仅仅包含服务可用性,还有比如服务器资源达标率、服务故障数据(故障分类、故障响应时间、平均故障恢复时间、故障告警覆盖率)、服务安全指标、服务资源到位时长等等。

比如搭建一套完善的监控系统:

  • 监控服务器资源使用率,找出使用率不达标的服务器进行回收或资源重新分配,通过虚拟化、容器化等手段提升资源使用率;

  • 梳理告警阈值,规范 P0、P1、P2、P3 告警级别;监控系统提供告警合并、智能定位建议,提供活跃告警聚合,提供时间纬度的告警分析。方便更快的告警响应和故障定位,提升故障响应时间、故障恢复时间等;

  • 服务的告警和预案梳理,缩短平均故障恢复时间,提升故障告警覆盖率。

业内有观点认为云和 Kubernetes 这样的基础设施的崛起会让运维岗位逐渐消亡,您是怎么看待这样的观点呢?

很多年前我们运维团队的口号是 NO Ops,博客是 noops.me。

很早就说过,运维岗位会逐渐消亡,或者部分工作职责会消亡。拿系统运维来举例,以前管理的团队需要服务器工程师、内核工程师、网络工程师、CDN 工程师、机房运维工程师等小 20 人的团队。后来通过引入公有云,团队只有 4 个人,云资源管理员 1 人、CDN 调度工程师 1 人、网络工程师 1 人、内核工程师 1 人,他们只需要管理和调度好第三方公司提供的资源和服务即可。

随着 K8s 和云的普及,以及研发代码工程化的不断成熟,运维在这个过程中的参与度会越来越少。在部署框架成熟的情况下,为了节省运维人力,提升部署效率,二、三级服务的部署已经交给研发自助完成。

随着科技的发展,时代的变化,一个岗位的消亡是很正常的事情,及时做好调整和规划才是思考的重心。

在企业大范围上云的当下大环境里,您觉得运维人员应该做出哪些调整才能更适合当下的人才需求?

在上云的大环境下,运维工程师更应该 面向业务、面向架构,拓展自己的业务范围,成为保障业务稳定的关键人才。如果还是和以前一样,仅仅只关注监控报警,只负责服务部署变更,那么势必会被淘汰。

另一方面,可以往专精的方向走,成为某个领域的专家(监控、大数据、K8s、数据库等等),走运维研发专家的方向。

人生的建议,多寻找一些副业,运维工作只是生活的一小部分。

AIOps 热炒了几年,但是最近明显声量变小了,您觉得企业现阶段应该落地 AIOps 么?应该注意哪些问题?

就拿智能监控为例,看到了很多文案说要通过 AI 预测故障、智能定位。到现在没有看到任何靠谱的案例。在一个服务变更快、依赖关系复杂、故障影响因素多的互联网业务系统中,如果真能通过历史数据,实现故障预测。那还不如去做地震预测,有几千年的地震数据积累,能够产生很大的社会价值。

做 AIOps 的前提,是真的懂 AI,清楚机器学习和神经网络的原理。有多少人工才有多少智能,AIOps 才能不是一个口号。

ChatGPT 这样的 AI 能力您觉得未来是否有可能解决运维行业的问题?

比如在故障管理中,根据故障的设备、数据、描述,通过知识库、历史故障库等等,给出故障可能的辅助建议 (suggestbot)

BTW,如果你已经可以玩转 chatGPT 了,把这个技术投入到其他更能产生价值的领域吧,别老在运维这个领域耗着……

业务程序的部署,到底应该交给研发来做还是应该交给运维来做,在很多公司争论不休,您是怎么看待这个问题呢?

之前提到过,我们二、三级的服务是完全由研发去做,一级服务是运维和研发轮流去做,主要目的主要是让运维清楚当前服务的变化情况而已。运维人员在公司一开始做部署,更多是规范线上环境,规范服务部署方式,从而更好的 研发部署系统,掌控所负责的服务架构

安全问题、流程问题,完全可以通过部署系统去解决。运维就不要守着这个没任何价值,没任何沉淀的工作不放了。

您最想对(运维)行业说的一句话是?为什么?

“物理学没有不存在,只是我们认为的物理学,可能不存在。” 运维行业可能也不存在了,多少运维人的梦想是 AIOps、NOOps,要么自己去干掉这个行业,要么在这个行业被干掉。

工具选型这块,到底是自研,还是使用开源,还是使用商业产品,是如何抉择的?

有能力有时间就使用开源,能力一般时间有限就使用商业产品。有钱有闲还很自负的话,可以尝试下自研。

您所在的公司是否也是多云架构?您觉得多云场景下哪些能力应该依托云厂商哪些能力应该自建?

我们是多云架构。专线或者数据传输的能力,这个需要自建。基于多云之上的公共能力也可以自建,比如监控系统、数据备份系统、部署系统、微服务核心组件等,其他的交给云厂商就好了。

您印象最深的一次故障是什么?对您有何启示?

运维这么多年,遇到的诡异故障太多了,root cause 让你根本想象不到。只能说,故障很难避免,只能设法减少故障的频率、影响面和影响时间。

所以 你的绩效不是故障次数和故障级别,而是故障影响面、故障响应、恢复时间等

面对当下快速发展的基础技术,您对给刚入行和入行已久的运维人员,分别有什么职业规划的建议吗?

比较偏激哈~ 刚入行的,建议尽快转行!入行已久的,转行技术相对困难,已经打上了深深的运维烙印。我见过太多运维人员转行其他技术,多数都是运维研发、运维产品经理的岗位,还是找一下副业吧。

您觉得传统运维和 SRE 的区别是什么?您的团队做出这样的转型,其背后的思考是?

这都 2023 年了,聊这个话题就跟互联网运维弄个 NOC 监控值班一样,开倒车。

如果现在还在考虑要不要转型 SRE、怎么转型 SRE、SRE 的变化这些问题,就跟 5g 时代,还在考虑用 2g,还是 3g……都会被时代所淘汰。

作者简介:

秦晓辉,Open-Falcon、Nightingale 创始研发,极客时间《运维监控系统实战笔记》作者,公众号 SRETalk 主理人,快猫星云创业合伙人,创业方向是稳定性保障方向。如果你有兴趣来论坛输出一些自己的宝贵经验和见解,欢迎联系我,联系方式如下:18612185520(微信同号)。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

97.5%的技术老大对涨薪这事儿比较乐观|InfoQ 研究中心联合TGO 鲲鹏会发布《中国科技领导者画像研究报告 2023》

被ChatGPT带热的最新技术岗:无需编码,年薪超200万

腾讯QQ空间技术总监、47岁T13级前端专家被裁;GPT-4下周发布,支持视频、更具颠覆性;我国拟组建国家数据局 | Q资讯

马斯克被Twitter脆弱的代码“逼疯”,要求全部重写!网友:重构是空降领导了解当前系统最快的方式?

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
惊呆了!加拿大口碑排当地第1的餐馆竟根本不存在!邻居花店老板被游客问烦了!真相是...王建国:城市设计不存在唯一解!你养我小,我养你老22~23岁末年初出行记 2:圣诞日在旅游网站排名第一的餐厅 却根本不存在?!CV不存在了?Meta发布"分割一切"AI模型,CV或迎来GPT-3时刻!CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻招股书称不存在经销商,但保荐工作报告、立项和内核多次提及经销合作模式,创业板IPO金融时报:不存在俄罗斯持久胜利的道路毒性是眼镜蛇的50倍!网友称买到“蓝环章鱼”,相关供应商:不存在,每条章鱼工人要过手四五遍!深圳市监局现场核查物理学不存在了,我们的推文也不存在了联想小新否认轻薄本“计划性报废”质疑:低温锡膏焊接技术不存在可靠性问题关于恢复十年签证的请愿挺着肚子考雅思带孩子移民,我却发现最好的教育并不存在“俄欧关系本质上已不存在”“软着陆”不存在?美联储或“鹰到底”砸崩标普500指数商汤回应AI作图争议/ 推特公司不存在了/ 巴菲特:不确定ChatGPT是否有益…今日更多新鲜事在此挺着肚子备战雅思,终于带二娃奔赴澳洲,我却发现最好的教育并不存在...Costco本周门店实拍:世界是属于买菜的!物理学不存在了,但料理学永远存在!《狂飙》带火的猪脚面,竟然并不存在?张兰前直播运营团队回应20多人集体离职:只是合作关系,不存在内讧物理学差点不存在了?重磅!CV不存在了?CV或迎来GPT-3时刻,Meta发布「分割一切」AI 模型《狂飙》中的京海不存在,但现实里的“京海”人见人爱!字节面试:连接一个不存在的 IP 地址,会发生什么?大脑视觉信号被Stable Diffusion复现图像!“人类的谋略和谎言不存在了” | CVPR2023好吃的,好玩的,好看的~加国购房者苦盼的房市政策消失?20亿买不存在公司的股票?毛家儿女下农村邓家子女走后门"人道主义对西方来说是不存在的"“网上传言不存在”,在泰遇害女留学生亲属发声“这世上根本不存在感同身受,只有冷暖自知”数学不存在了…「元宇宙」之父:不存在「一个」元宇宙,AI 替代不了艺术家被财政部罚没超2.1亿元!德勤回应:不存在任何不诚信的行为
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。