SLA:服务等级协议(简称:SLA,全称:service level agreement)。是在一定开销下为保障服务的性能和可用性,服务提供商与用户间定义的一种双方认可的协定。通常这个开销是驱动提供服务质量的主要因素。

在系统的高可靠性(也称为可用性,英文描述为HA,High Available)里有个衡量其可靠性的标准——X个9,这个X是代表数字3~5。X个9表示在系统1年时间的使用过程中,系统可以正常使用时间与总时间(1年)之比,我们通过下面的计算来感受下X个9在不同级别的可靠性差异。

下面就展示了这几个9的允许中断的时间表:

3个9:(1-99.9%)*365*24=8.76小时,表示该系统在连续运行1年时间里最多可能的业务中断时间是8.76小时。
4个9:(1-99.99%)*365*24=0.876小时=52.6分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是52.6分钟。
5个9:(1-99.999%)*365*24*60=5.26分钟,表示该系统在连续运行1年时间里最多可能的业务中断时间是5.26分钟。

扩展一下:

1个9:(1-90%)*365=36.5天 ,表示该系统在连续运行1年时间里最多可能的业务中断时间是36.5天。
2个9:(1-99%)*365=3.65天,表示该系统在连续运行1年时间里最多可能的业务中断时间是3.65天。
6个9:(1-99.9999%)*365*24*60*60=31秒,表示该系统在连续运行1年时间里最多可能的业务中断时间是31秒。

现在知道我们平常看见购买主机产品上说的99.9%可用是什么意思了吧?
运维常说的 5个9、4个9、3个9 的可靠性,到底是什么鬼?

运维常说的 5个9、4个9、3个9 的可靠性,到底是什么鬼?