Redian新闻
>
运维总监让我 1 个人管理 4万 台服务器,他是不是在“扯淡”?

运维总监让我 1 个人管理 4万 台服务器,他是不是在“扯淡”?

公众号新闻

相关内容转载自知乎网友评论,不代表本号观点。

知乎上看到一个问题,一个运维可以管理4万台服务器吗?无论是实例还是虚拟机都算,以下摘自知乎的回答:

来自知乎好友“匿名用户”的回答:

10年以上老运维,目前管理着近1000台物理机,三机房托管的,每年新增约100台,报废约20台左右。
以稳定和成本控制为核心,负责IDC上架规划,网络规划,设备采购,上架部署,安装交付,主要工作如下:
每年底至少花一个月时间做预算,包括IDC租赁,带宽,专线,设备需求,过保设备备件……,
设备硬件故障维护,每月大约30起左右设备硬件故障,硬盘及内存是最多的,其余是主板,CPU,风扇类。一些重要业务如数据库类,可能会影响业务。处理步骤目前还没自动化,打算做人不够(在保自动收集日志提交报修,过保直接发机房维护工单)。
采购上架每季度一次,从发起到交付,耗时耗力,交换机光模块够不够,机柜空间是否可以继续上架不超电,跳线怎么尽可能短一点?CPU一直C0机器怎么分布?录取CMDB手工信息有点多……没有自动化系统,机器类别太多了,后续规范下可能会好很多。
资源管控,申请资源后下发权限,特殊类监控需求,资源变更,使用跟踪……没有自动化,在弄全流程资源管理
网络类现在有专门网络管理员了,可以不用管了,这部分工作接入的话需要一部分精力。
哦,我还管各类中间件,就我一个人管,跑去找领导把中间件甩出去了一部分。
就这么说吧,这么多规模的机器,仅仅一个硬件故障,晚上电话告警,即使如硬盘故障有RAID不用处理都要累死人。
每个月工时300左右。如果4W台虚拟机应该会好一点,不过没搞过不知道,以前搞过最大规模虚拟机就3000台,业务比较单一,Puppet搞定了。
链接:https://www.zhihu.com/question/386653243/answer/2117913692


来自知乎好友“小鸟呱呱”的回答:
早些时候不让招外包,HC又有限,就我和另外一个小兄弟一起干
从收到货以后,到硬件拆卸、机器上架、贴标签、搞电源、扩容机房、搞空调、装系统、装服务、更新迭代、系统版本迭代、监控、报警、日志都是我俩自己捣鼓的
可以说从底层的IDC,到系统,到应用都得做,自己还得做运维中台的产品,勉强算得上是全栈运维了
那个时候,实体服务器总数是100多、200不到,算系统的话(因为有虚拟机、docker可以割),大概是500~600台左右,很多资源池里放着没用的空闲机器不算
如果是新机器,那么100~200台实体机的工作量差不多就饱和了
如果是老机器,两人绝对不够
为什么是2个人,不是1个人呢?
做运维的同学都知道一个高可用的概念 —— 写代码可以一个人,做产品可以一个人,搞测试也可以一个人,但运维一定是成双成对的:
这不仅仅是搬服务器一个人扛不动,一摔下去就是几万块的损失;
更重要的是,运维本身就是应急兜底的,我上个厕所的功夫,外部流量下跌了,没人应急,那还有谁来处理?
就算打电话给睡着的owner,也得要有人通知才行呀~
后来去大厂做SRE,300个人的大部门,
不管是哪个团队的SRE,都会被排到值班,捣鼓运维,雅称稳定性保障。
两个大字开头的部门,外加国际,一个部门docker的总数量平摊到人头上也不可能有4W/人,有1W/人就算是不错了
就这样,大家还叫苦连天呢,大半夜的手机都还常常吵醒
不接,钉钉还会打电话提醒的,可烦了
也就导致了SRE脾气普遍不好
话说话来,要知道,SRE可并不负责机房部分哦
除了基础设施的同学以外,大都也只关注应用,已经是少了很多的工作了
可也hold不住,叫苦不迭
链接:https://www.zhihu.com/question/386653243

来自知乎好友“木村·星辰”的回答:
我一个人管6000台物理机。硬件上什么部位报警就换什么,换了不管用就整机送修。
软件上管到开出指定数量的kvm,或者装上指定的docker镜像。
网络上交换机全是trunk,机器上kvm/docker配置到指定的VLAN里;
路由器不管,运营商来处理BGP。机房只扫地不擦灰。
数据迁移有空就自己做,没空就叫业务部门做或者往后拖,自己做也就打包释放一下。
上班时间自由,报警72小时内处理好就行,随便什么时候去。


来自知乎好友“一代天骄”的回答:
说可以的,绝对没接触过4W台服务器。
软件再牛逼,4W台的硬件你维护都要命。
而且4W台服务器你知道要多少机柜吗。
链接:https://www.zhihu.com/question/386653243/answer/1151055733


来自知乎好有“三囧”的回答:
不可能,这个数量的服务器,单纯硬件一个人都管不下来,更别提其他的方面。
4万台服务器,加上配套的交换机、路由器、存储设备、ups电源、空调、安全设备、机房防火设备。这个设备的数量是很恐怖的。
就算单台设备出现问题的概率很小,数量上去以后,出问题几乎成了必然。仅每天处理硬件问题一个人就搞不定。
每个硬件还有使用寿命,等使用寿命到的时候需要更换。到更换的时候,一个人更本搞不定这个数量。设备都是一批一批来的,更换也是一批一批的。让业务停着等你慢慢换设备怎么可能?
这个数量肯定不会是简单的系统,要过等保吧。要按照等保的要求管理机房,不是简单的管个设备能用就行,管理要有制度,要有流程,还要制定安全策略。这些东西就算你是大牛,一个人全能搞定,但是总要花时间的吧,搞一次测评,一两个月就没了。你还有时间管其他的?
我觉得那个评论的人是一个管4万台服务器的团队中的一个人。
至于他是不是有权限管4万台服务器,我是不信的,正常的运维不可能把那么多服务器全权交给一个人。肯定要分权,不同的人管不同的类别的设备,动服务器也要有人审批。
如果说,我是一个管电源的,电源上面插着4万台服务器,我也算管了4万台服务器的话,那当我没说。
链接:https://www.zhihu.com/question/386653243/answer/1259739619


来自知乎好友“karlestira”的回答:
4w台物理机?
光是给领导汇报工作都能X死你了。
另外4w台物理机是个什么概念?常见的纯CPU双路2U机器都得500w功耗,4w台就是20MW,算上各种UPS、空调、存储、网络,可能得去到50MW。商业电一度一块的话这个机房满载一天就是100w往上的电费。
都这么大家伙事了,多雇两个人它不香吗?
链接:https://www.zhihu.com/question/386653243/answer/3243215546

来自知乎好友“zhyllhhaaoo”的回答:
40台都够你喝一壶了。
机房的上架,各种跳线……折磨死你。
4w台,一个人??你莫不是在说相声?
链接:https://www.zhihu.com/question/386653243/answer/3239804004


来自知乎好友“食铁兽”的回答:
鲁棒性
别管几台服务器,4台还是4万台
一个人,连5*8的全勤值守都难以保障
更别说这个人伤病、离职造成的空缺了
必然要一个有一定鲁棒性的团队
链接:https://www.zhihu.com/question/386653243/answer/1152309825

END

官方站点:www.linuxprobe.com

Linux命令大全:www.linuxcool.com

刘遄老师QQ:5604215

Linux技术交流群:2636170

(新群,火热加群中……)

想要学习Linux系统的读者可以点击"阅读原文"按钮来了解书籍《Linux就该这么学》,同时也非常适合专业的运维人员阅读,成为辅助您工作的高价值工具书!


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
软件工程走向“现代化工厂”?谈谈大数据平台软件的企业级部署和运维Vision Pro预售超20万台、服务器被挤爆,苹果能否成功掀起空间计算产业革命?Valentino官宣新任创意总监:Gucci前任创意总监 Alessandro Michele一键开服!阿里云上 3 分钟搞定幻兽帕鲁联机服务器搭建什么情况?单日暴跌75%,艺人管理第一股崩了!700亿同花顺大跳水,股民:今天补跌是最后一跌?家居修理系列:卖房要略(2)金玉其外纽约梅隆银行将为Mackenzie提供中台服务Discord 使用单台服务器服务于 100 万在线 MidJourney 用户美国圣诞季必去的节日集市,快看看纽约这个是不是在你家附近!英伟达新核弹B200发布,一台服务器顶一个超算,万亿参数大模型30倍推理加速|亮马桥小纪严选5分钟,挤爆服务器!起价2.5万,苹果新品被抢空!渡十娘|宝总,你是不是不行?服务器之五大关键组件拆解【波士顿最顶级公寓|Berklee/Suffolk/Emerson|近Newbury|奢华大气|私人管家服务|近绿线地铁】幻兽帕鲁服务器三步迁移,支持图形化管理配置腾讯致歉,多款热门游戏服务器集体崩溃0门槛开服!人工一对一服务,2小时无忧搭建《幻兽帕鲁》个人服务器!为什么移民排队那么长,无证移民是不是在插队?从AI服务器谈HBM、HBM2、HBM3、HBM3e技术《幻兽帕鲁》意外封神后,阿里云们的服务器被玩家买爆了《跌宕起伏心灵煎熬的14天》(5) 【寻找证据】继IE后,年轻人争相确诊“浓淡”5分钟挤爆服务器,18分钟后被抢空!苹果这一新品开订,国内代购价最高达7万元......童年故事(9):吊棒果下戏水忙教育;学习;评价标准;相信未来帮助孩子购买“代画”作品参赛,是在“带坏”孩子|漫话教育波士顿MBTA, 不是在关停就是在关停的路上......《十七帖》读议(四)风起AI服务器,谁才是真正的国产之光?"想杀谁就杀谁"美22岁恶男持刀捅人,4死7伤,路人吓破胆"他给自己定了目标,他是在玩游戏"。回美证批下来之前,是不是离开美国还是不能超过183天呢?|移投路群问答代购价超7万元、服务器被挤爆,苹果Vision Pro真被低估了?管理5个人与管理50个人,有什么区别?服务器基础知识全解(终极版)Timescale 推出无服务器数据库的替代方案,Dynamic PostgreSQL
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。