IBM P系列日常管理——服务器的故障分析和处理
服务器的故障分析和处理
A:系统不能启动
一:系统不能正常启动可能有多种原因引起,硬件或软件。
1:观察系统的启动过程。
2:设备的故障灯是否亮起。
3:异常的声音,如硬盘的怪声。
4:注意LED上显示的代码,这是故障分析最重要的信息
5:主控台上最后显示的信息也很重要,必须记录下来。
二:系统的启动顺序
三:#bootlist –m normal -o
四:#bootlist -m normal cd0 hdisk0 hdisk1
五:#bootlist –m normal hdisk0
例:系统的启动(PCI)
1:系统停在Stage1,可能为电源、系统板、CPU、内存等硬件故障。记录故障代码。
2:系统停在Stage2,可能是启动顺序表(bootlist)损坏或I/O子系统故障。可尝试进入SMS菜单检查启动顺序表,并修改。若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。若根本没有SCSI设备可选则链路有问题。
3:系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障。
B:系统停在551,555或557
一:发生在系统启动的第三阶段(Stage3),可能是:
1:文件系统损坏
2:文件系统日志(jfslog)损坏
3:Rootvg中有坏硬盘
二:修复方法
1.用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致)
2.启动后选择选项3
“start maintenance mode for system recovery”
>“Access a Root Volume Group”
> “Access this volume group and start a shell
before mounting the file system”
三:格式化文件系统日志(jfslog)
#/usr/sbin/logform /dev/hd8
四:检查修复文件系统
#fsck -y /dev/hd1 (/home 文件系统)
#fsck -y /dev/hd2 (/usr 文件系统)
#fsck -y /dev/hd3 (/tmp 文件系统)
#fsck -y /dev/hd4 (/ 文件系统)
#fsck -y /dev/hd5 (/var 文件系统)
…………
用exit命令退出,文件系统会自动mount起来。
五:重建bootimage
# lslv -m hd5 找出bootimage所在的硬盘,如hdisk0
# bosboot -ad /dev/hdisk0
# bootlist -m normal /dev/hdisk0 重建启动顺序表
六:重启动系统
#shutdown -Fr
七:如上述步骤不奏效
1:用系统备份带恢复系统。
2:如备份带不能恢复,用诊断光盘(Diagnostic CDROM)检查是否坏硬盘。
C:主控台不能登录
字符终端有时会出现不能登录的情形,可先尝试关掉终端,重开。如果不行则可能是getty进程运行不正常。
1:远程telnet登录
2:检查“getty”进程是否运行正常
#ps -ef |grep console
root 29170 1 0 jul 24 lft0 0:00 /usr/sbin/getty/dev/console
3:如“getty”正常,查看主控台端口是否正确
#lscons 查看主控台端口是否正确
/dev/tty0
#lsdev -c -l tty0 查看端口是否可用,连线是否正确
tty0 Available 01-S1-00-00 Asynchronous Terminal
#lsattr -E1 tty0 看端口参数是否正确,如波特率
4:如“getty”没有运行在主控台上,检查/etc/inittab文件有否
cons:0123456789:respawn:/etc/getty/dev/console
更正后运行“init Q”命令**主控端口。
5:如getty确实在运行,则可能是终端的硬件问题。
D:CDE图形界面挂死
一: CDE运行是不要更改网络参数(如:主机名和IP地址)
二:更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。
三:如CDE已经挂死
1:远程telnet登录
2:找出所有dt有关的进程用kill命令杀掉
#ps -ef |grep dt
……
#kill PID
3:检查当前主机名
#hostname
tscf50
四:查看主机名是否对应有效的IP地址
#netstat_i| grep tscf50
tro#1500 9.185.40 tscf50 506049 0 2822247 0 0
五:更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系
#smitty tcpip
六:重新启动CDE界面
#/etc/rc.dt
七:HACMP环境下可把主机名alia到127.0.0.1
#cat /etc/hosts
127.0.0.1 loopback localhost tscf50 #loopback ( )
name/ addressbvg
E:系统 DUMP
一:发生在系统崩溃时,ALX会做dump(系统内存的快照)。
二:此时机器会显示闪动的888 102 XXX 0CX 代码:
1:0c9 系统dump进行中。0c9状态可能会维持超过2分钟,不要关电和按reset,等待dump做完。
2:0c0 Dump成功完成,这时可以断电重起.
3:0c2 手动启动dump功能
4:0c4 Dump设备空间不足,只有部分信息保留下来。
5:0c5 不明原因导致dump失败
三:一般dump是由于软件出错引起(888-102-207除外),机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。
四:Dump的有关设置、
1:估算系统dump的大小,在系统最繁忙时(内容使用最多)
#sysdumpdev -e
#0453-041 Estimated dump size in bytes: 53477376
#lsps-a
Page space physical volume volume group size used active
Paging00 hdisk0 rootvg 480MB 1 yes
Hd6 hdisk1 rootvg 544MB 1 yes
2:当前的设置
#sysdumpdev-1
primary /dev/hd6 <---dump的主设备
secondary /dev/sysdumpnull
copy directory /var/adm/ras ß--dump拷贝的目录
forced copy flag TURE
always allow dump TURE
3:Hd6应比估算值稍大。
4:/var/adm/ras是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间拷贝dump 文件。否则机器重启时会提示用户插入磁带。
5:Dump文件名为vmcore.#
6:对PCI机型如要动手做dump,须把“always allow dump”先设成true.
#sysdumpdev –k
7:Dump打包
# snap –a –o /dev/rmt# 或
# snap –a -c 把/tmp/ibmsupt目录做成一个压缩文件
snap.tar.z如果/tmp文件系统空间不够,
可用-d directory 参数指定别的目录代替
/tmp/ibmsupt
F:诊断程序(diagnostic)的使用
一:Concurrent模式
多用户模式下(系统正常运行时)运行硬盘上的诊断程序.如果可能尽量使用模式.
#diag 运行该命令需要root权限
二:Stand-alone模式
用硬盘上的诊断程序,在机器启动时钥匙打到service位置(MCA机型)或按F6/6(型).系统启动后自动运行诊断程序.
三:Diagnostic CDROM
用诊断光盘启动,通常在硬盘无法启动时使用
选择诊断或高级诊断进入以下菜单:
DIAGNOSTIC MODE SELECTION 801003
Move cursor to selection, then press enter .
System verification
this selection will test the system ,but will not analyze the error log. Use this option to
verify that the machine is functioning correctly after completing a repair or an upgrade
Problem determination
This selection tests the system and analyzes the error log if one is available. Use this
option when a problem is suspected on the machine .
系统检查(system verification)只检查设备的当前状态,并不分析故障记录
问题诊断(problem determination)检查设备并分析故障记录,解决sense数据,出SRN代码PIC机型出现“machine check””check stop”故障,必须在7天内运故障诊断。
G: 定时的mail报错信息
一:每天定时收到mail报错信息,而所指的硬件确实是好的。这种情况经常发生在系统意外掉电后,或更换设备后没有运行诊断程序。
二:处理方法
1:#diag
2:选高级诊断(Advanced Diagnostics Routines)
3:选系统检查(System Verfication)
4:选mail里所指的设备,如果抱电源、风扇故障,选择sysplanar0 进行检查。
5:如果硬件确实没有问题,诊断程序会提示设备曾经有出错信息,问是否已更改或更正?选中该设备按 F7确认。
6:退出诊断程序,如果还是继续收到mail,通知工程师。