当前位置：首页 → 问答吧 → rootvg一硬盘损坏后，应用停，系统down及处理过程

rootvg一硬盘损坏后，应用停，系统down及处理过程

时间：2011-05-16

来源：互联网

最近客户坏硬盘比较多。上周遇到一次，今天遇到一次。

上周一次，客户突然说570 oracle应用停了，rootvg一个硬盘损坏。带配件赶到现场，
lsvg -l rootvg
发现有很多LV都stale状态
lsvg -p rootvg
发现hdisk0为missing状态。

errpt
发现hdisk0报错
同时相关的SCSI卡也报错，怪的是，rootvg的另一块盘hdisk1也报错。

处理：
更换了hdisk0。

还有一个没法回答的问题，跑住的oracle(装在rootvg中)停了。坏一块，怎么导致oracle停了呢，镜像都做得很好呀？
查oracle日志，最后的记录是一个日志切换，没有异常日志，就连停库的日志也没有。郁闷。后客户怀疑scsi 卡或hdisk1也有问题。
故障后，客户把应用切换到备机，启动系统到diag 模式，做了一次全面的diag，没有任何报错。开机正常，直到今天去检查也再没发现报错。

rootvg坏了一个盘，系统正常，应用却停了？？？郁闷中。

今天客户又打来电话，说650应用oracle无法访问，hdisk0有报错，估计硬盘损坏。
叫客户输入lscfg -vpl hdisk0，查了一下FRU，是73G 15K硬盘。
查一下备件库，只有146G 10K的盘，订货要两天。
客户同意拿146的盘换，等订的盘到了，再换回来。
带上配件，赶到客户现场，新情况出现了：客户说没法telnet上了。
打开HMC,发现系统发生了dump.
起机，系统启动，发现启动到varyon IPL DEV时，系统突然down下来。
后来，尝试手工使用另一个盘hdisk1启动，情况一样。
再后，手工拔掉坏的那个盘，系统自动启动到了diag模式。再次重启。
系统正常启动。但新的问题又来了，/oracle文件系统无法mount了，于是执行fsck -p /oracle
再mount,提示IO错误。
查lspv -l hdisk0
发现有loglv02没有镜像，正是损坏的那块盘。
查/etc/filesystems，果然/oracle使用的正是loglv02.
知道问题就容易解决了。
mklv,logform就解决了。
上面的hdisk0除了loglv02没有镜像外，还有两个文件系统也没镜像，客户说这两个文件系统的东西想要回来。
于是，关机，把坏的hdisk0重新插回去，起动。
lsvg -p rootvg发现hdisk0为remove状态。于是修改回来：
chvg -v a hdisk0
然后mount那两个文件系统，把数据拷出来，再接下来，就是换盘程序了。

这一次rootvg坏盘，应用停，系统down，可以解释：因为/oracle系统使用loglv没有镜像，在正好损坏的hdisk0上，所以导致应用和系统异常。客户接受。

作者: kuangyl 发布时间: 2011-05-16

不懂LVM镜像的管理员的杰作。。。。。。

作者: 老农发布时间: 2011-05-16

回复 2# 老农
第二个案例应该是LVM镜像没做好。
可第一个案例，系统LVM镜像可好好的。为啥oracle会停呢，而且连日志都没写？不知农哥以前遇到过这种情况吗？难道说也像光纤通道盘的镜像一样，一条通道断了，访问会中断一下，导致oracle崩了？？

作者: kuangyl 发布时间: 2011-05-17

第一个案例，有可能是坏盘导致SCSI通信错。也有可能是镜像后没重启导致（5307之后才不需要），当然，也可能是其他问题。
搞IBM小机的人很多，NB哄哄的人也不少，但真的明白的人没几个。

作者: 老农发布时间: 2011-05-17

回复 4# 老农

听农哥一席话，突然开朗。机房搞过几次供电维护，应该是重启过几次的。
那应该是坏盘导致SCSI通信错的问题了。因为当时系统不但报hdisk0错，也报hdisk1错误，scsi BUS也有不少。当时还怀疑过scsi卡问题，后重启到diag模式搞过一通，能确认没问题。

作者: kuangyl 发布时间: 2011-05-17