虽然云计算对IT部门带来了惊人的好处,它一直是一个技术平台,由于
管理的不完善,问题总会发生。停电提醒你,实践证明,它可以帮助,但在某些
情况下,还可以扩大人类的
错误的
影响。因此,它是要改变基本的IT规划、管理等手段,
连续监测。因此,如何通过规划避免云
服务中断
安装特定警报
使用少量的投资为重要的基础设施安装特定的警报,确保警报的
声音超过噪音。增加警报
系统升级通知,以确保在问题影响到关键业务之前
解决问题。
每天
检查数据表。
即使是最先进的报警和
报告系统,经验还是最好的管理
工具,特别是当大量的数据混合在一片混乱。
经常看的设备
内存,使用历史数据表的CPU,和接口,允许
管理员建立和
调整以确保
性能数据表
用户积极解决报警阈值之前他们都受到影响。
创建有
目标的示意图
通过监测重要
网络设备的
详细数据的使用是无限的。然而,没有什么可以取代一个大
屏幕的红色警报。创建一个原理图,包含特定
组件的关键网络设备的总体状态。例如,一个60英寸的LED
显示屏是安装在墙上显示
启动/
关闭核心网络设备状态。
人为失误引起的停机时间
控制 迄今为止最严重的停机时间,源于人的错误,和事件的发生是很常见的由于网络问题。每天数百次,大量神秘的
命令行接口(CLI)是使用的命令,一个意想不到的灾难迟早会发生。
配置错误的问题很难解决,所以确保夜间设备配置备份
工作是保证。
创建问
题解决方案
你不需要为每一个可能的问题的详细解决方案列表,但至少你需要准备一个简单的电子表格。合理的可能的问题清单,可以帮助你
识别风险领域和加快团队成员的初始
故障排除
步骤。同时,名单中还包括团队成员的急救接触。无论如何,这是更好的解决问题,在VPN(虚拟专用网络)在上午2点到办公室的第二天和8点。
预防问题的拓展
即使你已经做好了准备,有时停电会发生不可抑制的。为了防止问题的扩大,你需要一个合理的报警管理系统,以确保适当的团队能及时通知。例如,如果一个
文件被
删除,它的生产者将收到问题的时间,这会让你体验到意想不到的变化。