高强度
故障检修通常遵循一些一般的和不成文的规则。本文根据自己的经验总结了六种不变性规律,希望能为每个人的实际
工作带来好处,仅适用于大多数
情况下,但并非所有情况下。
掌握它的
操作是在追求梦想的人,他们敏锐的嗅觉似乎总是
发现系统故障计算的根本
原因。这种快速
反应能力和精确地取决于在
处理复杂数据中心基础设施问题和个人知识储备多年积累的经验,它的成功是难以
复制的,很清楚,没有机构愿意授予的超自然认证;神的审判。
尽管如此,高强度的故障检修工作
经常遵循一些一般的和不成文的实践规则。在这篇文章中,我将结合我自己的经验总结六个不变的规则,希望能帮助每个人的实际工作。请注意,这些规则只适用于大多数情况下,而不是所有情况下。
1。永远不要
修改当前
连接的
服务器或
网络设备接口。
虽然这种
方法听起来很愚蠢,但有些人会修改用于设备通信的网络接口。这也正是许多失败的根源。虽然这样的处理有时也有,但我们可以消除使用等机制存在的缺陷。
配置在必要的时候,暂时将它连接到其他设备,子网,串行
控制台,或KVM接口的辅助IP。这种方法是必要的这是位于远程办公环境,没有IT人员在IT设备。
有时我会偷一点懒,用一个
脚本来改变Linux设备中的IP,
执行ping测试,并在出现
错误时
取消更改,但这有点可疑。
2。确保所有操作都有
恢复的
空间 只要有可能,一定要为自己的操作准备一个恢复机制,这意味着在处理禁用
磁盘之前,需要备份
目录结构中的所有
文件。虽然它看起来很麻烦,但它可以帮助我们
保存所有潜在的数据。此外,在处理
损坏的
操作系统之前,您可以直接从物理磁盘的RAID 1阵列中获取磁盘。当然,在虚拟机环境中,这一切都会比较简单,只是为了节省快照。
3,记录,记录和录音
所有的规则今天所提到的,这可能是一个最难以理解。可以肯定的是,在一个混乱的空中和地面中心记录的问题和判断的一点是不现实的。但即便如此,我们仍然需要保持一个分析材料为自己的活动结束后,记录执行
步骤和
解决方案。记得保持记录在一个安全的地方,最好是一个维基项目的内联网主办的多复印几份在其他地方。
4,它不相信魔法,但这取决于运气。
正如托马斯·杰斐逊所说,我发现自己越努力,越幸运,幸运女神是我的。同样的道理也适用于IT领域,更多的时间你的投资基础研究,与
路由器的操作更加熟悉,交换机和服务器,就越容易在实时
管理。这样做可以帮助我们发展一个敏锐的嗅觉,做出准确判断的问题,更迅速地作出反应时出现问题。有很多方法可以培养好运气。例如,自动备份网络设备配置的
工具可以帮助你安排方案,几分钟内,但不再需要几个小时当开关无法工作。
5。在修改之前对每个配置文件进行备份
这通常只适用于UNIX服务器和网络设备,因为设备的配置系统的所有方面几乎都存在自己的配置文件。在我们改变敏感的配置,最好是保持一份开关闪光灯或TFTP主机。在UNIX系统中,你只需要保存* conf另一个conf.orig *。
通过这种方式,我们可以在关键时刻轻松地恢复到正常
运行状态的服务——复制文件并重新
启动服务。说的那样简单,但这种方法不能在Windows环境下,与存在的
注册表和Windows系统的
功能大大增加的简单概念的实际复杂性。即便如此,我们仍然可以出口登记表动手修改之前,所以当问题出现时,我们也可以将手中的食物,不在心上。注意:由于Windows注册表是非常关键的,改注册表等于握在手中的服务器的命脉,不那么粗心。
6,监测、监测和重新监测
所谓预防胜于治疗。一周内每周仔细
检查商业环境是非常必要的,我们应该仔细监控数据中心的各个方面,从室内
温度开始,到机架再到服务器。此外,服务器
进程检查和正常运行时间检查等,这是一个漫长而无聊但极其重要的工作。我们还需要进行集中系统日志的所有网络设备的
分类、监控的带宽利用率,温度,磁盘分区的使用和其他重要数据指标,通过趋势和图形工具。所有这些监测机制应该提醒我们,当数据超过合理阈值。
当磁盘分区空间不足,数据库损坏时,一小时内发送的电子邮件或
文本信息可能会帮助我们摆脱噩梦般的紧急超时和系统停机时间,我们没有理由不充分利用数据中心中的监视工具。
今天的规则是总结的,不仅要严格遵守,而且要有更多的理由把它作为一个根深蒂固的指导原则,对于那些对它内涵有深刻理解的技术工人来说,这六条规则就是我们必须坚持的观念。但对其他人来说,他们就像主人一样。