IBM P系列日常管理——服务器的故障分析和处理

服务器的故障分析和处理

A：系统不能启动

一：系统不能正常启动可能有多种原因引起，硬件或软件。

1：观察系统的启动过程。

2：设备的故障灯是否亮起。

3：异常的声音，如硬盘的怪声。

4：注意LED上显示的代码，这是故障分析最重要的信息

5：主控台上最后显示的信息也很重要，必须记录下来。

二：系统的启动顺序

三：#bootlist –m normal -o

四：#bootlist -m normal cd0 hdisk0 hdisk1

五：#bootlist –m normal hdisk0

例：系统的启动（PCI）

IBM P系列日常管理——服务器的故障分析和处理

1：系统停在Stage1，可能为电源、系统板、CPU、内存等硬件故障。记录故障代码。

2：系统停在Stage2，可能是启动顺序表（bootlist）损坏或I/O子系统故障。可尝试进入SMS菜单检查启动顺序表，并修改。若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。若根本没有SCSI设备可选则链路有问题。

3：系统停在Stage3，可能是硬盘数据损坏，系统设置文件出错，或I/O子系统故障。

B：系统停在551，555或557

一：发生在系统启动的第三阶段（Stage3），可能是：

1：文件系统损坏

2：文件系统日志（jfslog）损坏

3：Rootvg中有坏硬盘

二：修复方法

1.用系统光盘或系统备份带启动（必须与硬盘中的操作系统版本一致）

2.启动后选择选项3

“start maintenance mode for system recovery”

>“Access a Root Volume Group”

> “Access this volume group and start a shell

before mounting the file system”

三：格式化文件系统日志（jfslog）

#/usr/sbin/logform /dev/hd8

四:检查修复文件系统

#fsck -y /dev/hd1 （/home 文件系统）

#fsck -y /dev/hd2 （/usr 文件系统）

#fsck -y /dev/hd3 （/tmp 文件系统）

#fsck -y /dev/hd4 （/ 文件系统）

#fsck -y /dev/hd5 （/var 文件系统）

…………

用exit命令退出，文件系统会自动mount起来。

五：重建bootimage

# lslv -m hd5 找出bootimage所在的硬盘，如hdisk0

# bosboot -ad /dev/hdisk0

# bootlist -m normal /dev/hdisk0 重建启动顺序表

六：重启动系统

#shutdown -Fr

七：如上述步骤不奏效

1：用系统备份带恢复系统。

2：如备份带不能恢复，用诊断光盘（Diagnostic CDROM）检查是否坏硬盘。

C：主控台不能登录

字符终端有时会出现不能登录的情形，可先尝试关掉终端，重开。如果不行则可能是getty进程运行不正常。

1：远程telnet登录

2：检查“getty”进程是否运行正常

#ps -ef |grep console

root 29170 1 0 jul 24 lft0 0：00 /usr/sbin/getty/dev/console

3：如“getty”正常，查看主控台端口是否正确

#lscons 查看主控台端口是否正确

/dev/tty0

#lsdev -c -l tty0 查看端口是否可用，连线是否正确

tty0 Available 01-S1-00-00 Asynchronous Terminal

#lsattr -E1 tty0 看端口参数是否正确，如波特率

4：如“getty”没有运行在主控台上，检查/etc/inittab文件有否

cons：0123456789：respawn：/etc/getty/dev/console

更正后运行“init Q”命令**主控端口。

5：如getty确实在运行，则可能是终端的硬件问题。

D：CDE图形界面挂死

一： CDE运行是不要更改网络参数（如：主机名和IP地址）

二：更改网卡设置，请先退出CDE图形环境，选择命令行方式登录，在字符界面下更改。

三：如CDE已经挂死

1：远程telnet登录

2：找出所有dt有关的进程用kill命令杀掉

#ps -ef |grep dt

……

#kill PID

3：检查当前主机名

#hostname

tscf50

四：查看主机名是否对应有效的IP地址

#netstat_i| grep tscf50

tro#1500 9.185.40 tscf50 506049 0 2822247 0 0

五：更改主机名或IP地址，使主机名与当前有效的IP地址存在对应关系

#smitty tcpip

六：重新启动CDE界面

#/etc/rc.dt

七：HACMP环境下可把主机名alia到127.0.0.1

#cat /etc/hosts

127.0.0.1 loopback localhost tscf50 #loopback ( )

name/ addressbvg

E：系统 DUMP

一：发生在系统崩溃时，ALX会做dump(系统内存的快照）。

二：此时机器会显示闪动的888 102 XXX 0CX 代码：

1：0c9 系统dump进行中。0c9状态可能会维持超过2分钟，不要关电和按reset,等待dump做完。

2：0c0 Dump成功完成,这时可以断电重起.

3：0c2 手动启动dump功能

4：0c4 Dump设备空间不足，只有部分信息保留下来。

5：0c5 不明原因导致dump失败

三：一般dump是由于软件出错引起（888-102-207除外），机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件，不要选择退出，这样会丢失重要的故障信息。

四：Dump的有关设置、

1：估算系统dump的大小，在系统最繁忙时（内容使用最多）

#sysdumpdev -e

#0453-041 Estimated dump size in bytes: 53477376

#lsps-a

Page space physical volume volume group size used active

Paging00 hdisk0 rootvg 480MB 1 yes

Hd6 hdisk1 rootvg 544MB 1 yes

2：当前的设置

#sysdumpdev-1

primary /dev/hd6 <---dump的主设备

secondary /dev/sysdumpnull

copy directory /var/adm/ras ß--dump拷贝的目录

forced copy flag TURE

always allow dump TURE

3：Hd6应比估算值稍大。

4：/var/adm/ras是默认的dump拷贝目录，比较估算值，保证/var文件系统有足够的剩余空间拷贝dump 文件。否则机器重启时会提示用户插入磁带。

5：Dump文件名为vmcore.#

6：对PCI机型如要动手做dump,须把“always allow dump”先设成true.

#sysdumpdev –k

7：Dump打包

# snap –a –o /dev/rmt# 或

# snap –a -c 把/tmp/ibmsupt目录做成一个压缩文件

snap.tar.z如果/tmp文件系统空间不够,

可用-d directory 参数指定别的目录代替

/tmp/ibmsupt

Ｆ：诊断程序(diagnostic)的使用

一：Concurrent模式

多用户模式下(系统正常运行时)运行硬盘上的诊断程序.如果可能尽量使用模式.

#diag 运行该命令需要root权限

二：Stand-alone模式

用硬盘上的诊断程序,在机器启动时钥匙打到service位置(MCA机型)或按F6/6(型).系统启动后自动运行诊断程序.

三：Diagnostic CDROM

用诊断光盘启动,通常在硬盘无法启动时使用

IBM P系列日常管理——服务器的故障分析和处理

选择诊断或高级诊断进入以下菜单:

DIAGNOSTIC MODE SELECTION 801003

Move cursor to selection, then press enter .

System verification

this selection will test the system ,but will not analyze the error log. Use this option to

verify that the machine is functioning correctly after completing a repair or an upgrade

Problem determination

This selection tests the system and analyzes the error log if one is available. Use this

option when a problem is suspected on the machine .

系统检查（system verification)只检查设备的当前状态，并不分析故障记录

问题诊断（problem determination)检查设备并分析故障记录，解决sense数据，出SRN代码PIC机型出现“machine check””check stop”故障，必须在7天内运故障诊断。

G: 定时的mail报错信息

一：每天定时收到mail报错信息，而所指的硬件确实是好的。这种情况经常发生在系统意外掉电后，或更换设备后没有运行诊断程序。

二：处理方法

1：#diag

2：选高级诊断（Advanced Diagnostics Routines)

3：选系统检查（System Verfication)

4：选mail里所指的设备，如果抱电源、风扇故障，选择sysplanar0 进行检查。

5：如果硬件确实没有问题，诊断程序会提示设备曾经有出错信息，问是否已更改或更正？选中该设备按 F7确认。

6：退出诊断程序，如果还是继续收到mail，通知工程师。

IBM P系列日常管理——服务器的故障分析和处理

IBM P系列日常管理——服务器的故障分析和处理

A：系统不能启动

B：系统停在551，555或557

C：主控台不能登录

D：CDE图形界面挂死

E：系统 DUMP

Ｆ：诊断程序(diagnostic)的使用

G: 定时的mail报错信息

不在以上原因，建议找厂家服务热线。

相关推荐