IBM P系列日常管理——服务器的故障分析和处理

                                                      服务器的故障分析和处理

A:系统不能启动

一:系统不能正常启动可能有多种原因引起,硬件或软件。

1:观察系统的启动过程。

2:设备的故障灯是否亮起。

3:异常的声音,如硬盘的怪声。

4:注意LED上显示的代码,这是故障分析最重要的信息

5:主控台上最后显示的信息也很重要,必须记录下来。

二:系统的启动顺序

三:#bootlist –m normal -o

四:#bootlist  -m normal cd0 hdisk0  hdisk1

五:#bootlist –m normal  hdisk0

例:系统的启动(PCI)                                                            

IBM P系列日常管理——服务器的故障分析和处理

1:系统停在Stage1,可能为电源、系统板、CPU、内存等硬件故障。记录故障代码。

2:系统停在Stage2,可能是启动顺序表(bootlist)损坏或I/O子系统故障。可尝试进入SMS菜单检查启动顺序表,并修改。若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。若根本没有SCSI设备可选则链路有问题。

3:系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障。

 

B:系统停在551,555或557

一:发生在系统启动的第三阶段(Stage3),可能是:

1:文件系统损坏

2:文件系统日志(jfslog)损坏

3:Rootvg中有坏硬盘

二:修复方法

1.用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致)

2.启动后选择选项3

             “start  maintenance  mode  for  system  recovery”

                >“Access  a  Root  Volume  Group”

                    > “Access  this  volume  group  and  start  a  shell

                       before  mounting  the  file  system”

 

三:格式化文件系统日志(jfslog)

       #/usr/sbin/logform  /dev/hd8

四:检查修复文件系统

       #fsck  -y  /dev/hd1        (/home 文件系统)

       #fsck  -y  /dev/hd2         (/usr 文件系统)

       #fsck  -y  /dev/hd3         (/tmp 文件系统)

       #fsck  -y  /dev/hd4         (/   文件系统)

       #fsck  -y  /dev/hd5         (/var 文件系统)

    …………

      用exit命令退出,文件系统会自动mount起来。

五:重建bootimage

       # lslv  -m  hd5  找出bootimage所在的硬盘,如hdisk0

       # bosboot  -ad  /dev/hdisk0

       # bootlist  -m  normal  /dev/hdisk0  重建启动顺序表

六:重启动系统

              #shutdown  -Fr

七:如上述步骤不奏效

1:用系统备份带恢复系统。

2:如备份带不能恢复,用诊断光盘(Diagnostic  CDROM)检查是否坏硬盘。

C:主控台不能登录

     字符终端有时会出现不能登录的情形,可先尝试关掉终端,重开。如果不行则可能是getty进程运行不正常。

1:远程telnet登录

2:检查“getty”进程是否运行正常

       #ps  -ef  |grep  console

       root  29170    1  0  jul  24  lft0  0:00  /usr/sbin/getty/dev/console

3:如“getty”正常,查看主控台端口是否正确

       #lscons                查看主控台端口是否正确

       /dev/tty0

       #lsdev  -c  -l  tty0          查看端口是否可用,连线是否正确

       tty0  Available  01-S1-00-00  Asynchronous  Terminal

       #lsattr  -E1  tty0              看端口参数是否正确,如波特率

4:如“getty”没有运行在主控台上,检查/etc/inittab文件有否

       cons:0123456789:respawn:/etc/getty/dev/console

       更正后运行“init Q”命令**主控端口。

5:如getty确实在运行,则可能是终端的硬件问题。

D:CDE图形界面挂死

一:   CDE运行是不要更改网络参数(如:主机名和IP地址)

二:更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。

三:如CDE已经挂死

1:远程telnet登录

2:找出所有dt有关的进程用kill命令杀掉

       #ps  -ef  |grep  dt

……

       #kill  PID

3:检查当前主机名

       #hostname

       tscf50

四:查看主机名是否对应有效的IP地址

   #netstat_i| grep tscf50

    tro#1500 9.185.40 tscf50  506049  0  2822247  0   0

五:更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系

    #smitty tcpip

六:重新启动CDE界面

    #/etc/rc.dt

七:HACMP环境下可把主机名alia到127.0.0.1

    #cat /etc/hosts

    127.0.0.1  loopback localhost tscf50 #loopback  (      )

     name/ addressbvg

 

E:系统  DUMP

一:发生在系统崩溃时,ALX会做dump(系统内存的快照)。

二:此时机器会显示闪动的888 102 XXX 0CX 代码:

1:0c9     系统dump进行中。0c9状态可能会维持超过2分钟,不要关电和按reset,等待dump做完。                      

2:0c0     Dump成功完成,这时可以断电重起.

3:0c2     手动启动dump功能

4:0c4     Dump设备空间不足,只有部分信息保留下来。

5:0c5     不明原因导致dump失败

三:一般dump是由于软件出错引起(888-102-207除外),机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。

 

四:Dump的有关设置、

1:估算系统dump的大小,在系统最繁忙时(内容使用最多)

#sysdumpdev -e

#0453-041 Estimated dump size in bytes: 53477376

#lsps-a

Page space physical volume volume group size used active

Paging00   hdisk0    rootvg  480MB  1  yes

Hd6          hdisk1    rootvg   544MB  1  yes

2:当前的设置

    #sysdumpdev-1

      primary                       /dev/hd6         <---dump的主设备

      secondary                   /dev/sysdumpnull

      copy directory             /var/adm/ras     ß--dump拷贝的目录

      forced copy flag           TURE

      always  allow  dump     TURE

3:Hd6应比估算值稍大。

4:/var/adm/ras是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间拷贝dump 文件。否则机器重启时会提示用户插入磁带。

5:Dump文件名为vmcore.#

6:对PCI机型如要动手做dump,须把“always allow dump”先设成true.

    #sysdumpdev –k

7:Dump打包

      # snap –a –o  /dev/rmt#     或

      # snap –a  -c   把/tmp/ibmsupt目录做成一个压缩文件

                            snap.tar.z如果/tmp文件系统空间不够,

                            可用-d directory 参数指定别的目录代替

                            /tmp/ibmsupt               

 F:诊断程序(diagnostic)的使用

一:Concurrent模式                                                                          

多用户模式下(系统正常运行时)运行硬盘上的诊断程序.如果可能尽量使用模式.

     #diag    运行该命令需要root权限

二:Stand-alone模式

    用硬盘上的诊断程序,在机器启动时钥匙打到service位置(MCA机型)或按F6/6(型).系统启动后自动运行诊断程序.

三:Diagnostic CDROM

    用诊断光盘启动,通常在硬盘无法启动时使用

IBM P系列日常管理——服务器的故障分析和处理

选择诊断或高级诊断进入以下菜单:

    DIAGNOSTIC  MODE  SELECTION   801003

       Move  cursor  to  selection,   then  press enter .

System verification

     this selection will test the system ,but will not analyze the error log. Use this option to

      verify that the machine is functioning correctly after completing a repair or an upgrade

Problem determination   

     This selection tests the system and analyzes the error log if one is available. Use this

     option when a problem is suspected on the machine .

系统检查(system verification)只检查设备的当前状态,并不分析故障记录

问题诊断(problem determination)检查设备并分析故障记录,解决sense数据,出SRN代码PIC机型出现“machine check””check stop”故障,必须在7天内运故障诊断。

 G: 定时的mail报错信息

一:每天定时收到mail报错信息,而所指的硬件确实是好的。这种情况经常发生在系统意外掉电后,或更换设备后没有运行诊断程序。

二:处理方法

1:#diag

2:选高级诊断(Advanced Diagnostics Routines)

3:选系统检查(System Verfication)

4:选mail里所指的设备,如果抱电源、风扇故障,选择sysplanar0 进行检查。

5:如果硬件确实没有问题,诊断程序会提示设备曾经有出错信息,问是否已更改或更正?选中该设备按 F7确认。

6:退出诊断程序,如果还是继续收到mail,通知工程师。

 

IBM P系列日常管理——服务器的故障分析和处理

 

IBM P系列日常管理——服务器的故障分析和处理

 

不在以上原因,建议找厂家服务热线。