|
故障定位是在一个给定的系统中检测、隔离和修理故障的过程。一个网络是一个动态系统,对于一个动态的系统而言,故障定位的主要挑战在于,如何在许许多多的部件中隔离出故障部件。有经验的故障定位人员和网络技术人员遵循一套精心设计的过程来诊断一个问题的来源。
|
|
|
进行故障定位所遵循的规则实际上是在基于一些常识的基础上进行的,例如:
|
|
|
|
|
|
"确定—隔离—解决"这3个步骤在大部分网络中都能够成功地奠定对问题故障定位的基础,如下图所示。
|
|
|
|
|
|
知道出了问题并能够避免,是进行成功故障定位最重要的步骤。大部分网络问题是通过某些现象表现出来的。所以在遇到问题时,要想高效地解决问题,首先必须能对问题进行定位,这就需要设法收集一些与问题有关的线索。需要强调的一点是,在确定问题的实际性质之前,必须知道系统的正常运行特性(即基线)。
|
|
|
|
如果得到一个差错消息,应将屏幕显示的内容记录下来,并将该差错信息写到一个网络差错日志中。差错消息的内容以及差错显示的位置(是显示在服务器上还是显示在客户机上)信息,对于判断该差错发生的位置是一个重要的线索。
|
|
|
所以,一定要在网络配置日志中对每个硬件和软件的改变做详细的记录。一旦把能够观察到的一切现象都收集到了,就可以依赖经验形成一个假设。
|
|
|
|
列举出所有可能导致被监测到的故障现象,然后利用有效的工具剔除各种可能的误报故障,根据最终结果形成一个关于故障的假设。
|
|
|
在故障定位中,经验和专门知识是非常有用的。为了使假设与这些现象相一致,必须熟悉网络问题的类型,才能从正常出现的网络问题中分辨出这些故障现象,同时也需要深入理解运行在该网络上的相关协议和应用程序。
|
|
|
|
确定问题可能的来源后,应该针对不同原因分别进行测试。当决定这样做时,应当能够确定假设的正确性。
|
|
|
|
可以使用几种方法来验证假设的正确性。专家们经常使用的一种方法是"替换法",即用可以正常工作的类似部件来替代怀疑存在问题的部件。在熟悉每个部件的性能以及它们可能引起的后果时,使用这个方法比较有效。
|
|
|
|
针对每个假设进行的实验,必须确定该假设是否正确。如果问题依然存在,则可判断该假设是不正确的。如果问题已经解决了,则表明已经找到了问题的根源。其中最麻烦的一种情况是,当替换掉部件之后,问题依然存在,但外在表现形式却不同。随着积累的经验越来越多,将逐渐知道对于每个可能的实验的结果,其结论会是什么。对于一个具有可能不熟悉的测试结果的实验,应该扩展或修订关于该问题的方法,从而能够更好地将所观察到的测试结果与收集到的现象联系在一起。
|
|
|
故障的定位过程是一个循环的过程。如果一个测试的结果没有得出结论,必须重新详细地分析该问题所表现出的现象,从而形成新的假设。在大多数情况下,需要在重新检查该现象之前,变换一下该问题的环境。
|
|
|
|
一旦隔离出所有故障的部件后,必须对此故障进行修复。围绕有问题的部件进行修理、更换或处理。对于有故障的硬件,唯一的选择就是修理或更换该部件。对于软件,通常可以通过重新安装或删除来修复该问题。
|
|
|