故障管理
考试要求: 掌握     
知识路径:  > 大型网站运维  > 大型网站也背景知识  > 大型网站运维的关键技术点  > 运维关键技术点


 
       (1)硬件故障问题。对于成百上千或上万机器的集群,服务器死机、硬件故障概率是非常大的,几乎每时每刻都有服务硬件问题。死机、硬盘损坏、电源故障、内存故障、交换机故障等问题随时可能出现。针对这种情况,我们在设计网站架构时需要充分考虑到这些问题,并将其视为常态;更多地依靠应用的冗余机制来规避这种风险,给系统工程师足够宽裕的处理时间。这就是考验运维工程师及网站架构师的地方了,好的设计能达到Google所描述的自恢复能力,如GFS,糟糕的设计就是一台服务器的死机可能会造成大面积服务的连锁故障反映,直接对用户拒绝响应。
       (2)应用故障问题;可能是某一Bug被触发,或某一性能阈值被超越、攻击等情况不一而定,但重要的一点是要有对这些问题的预防性措施,不能想当然,它不会出问题,如真出问题了,如何应对?这需要运维工程师平时做足功夫,包括应急响应速度、故障处理的科学性、备用方案的有效性等。
 

更多复习资料
请登录电脑版软考在线 www.rkpass.cn

京B2-20210865 | 京ICP备2020040059号-5
京公网安备 11010502032051号 | 营业执照
 Copyright ©2000-2025 All Rights Reserved
软考在线版权所有