+ -
当前位置:首页 → 问答吧 → rootvg一硬盘损坏后,应用停,系统down及处理过程

rootvg一硬盘损坏后,应用停,系统down及处理过程

时间:2011-05-16

来源:互联网

最近客户坏硬盘比较多。上周遇到一次,今天遇到一次。

上周一次,客户突然说570 oracle应用停了,rootvg一个硬盘损坏。带配件赶到现场,
lsvg -l rootvg
发现有很多LV都stale状态
lsvg -p rootvg
发现hdisk0为missing状态。

errpt
发现hdisk0报错
同时相关的SCSI卡也报错,怪的是,rootvg的另一块盘hdisk1也报错。

处理:
更换了hdisk0。

还有一个没法回答的问题,跑住的oracle(装在rootvg中)停了。坏一块,怎么导致oracle停了呢,镜像都做得很好呀?
查oracle日志,最后的记录是一个日志切换,没有异常日志,就连停库的日志也没有。郁闷。后客户怀疑scsi 卡或hdisk1也有问题。
故障后,客户把应用切换到备机,启动系统到diag 模式,做了一次全面的diag,没有任何报错。开机正常,直到今天去检查也再没发现报错。

rootvg坏了一个盘, 系统正常,应用却停了???郁闷中。



今天客户又打来电话,说650应用oracle无法访问,hdisk0有报错,估计硬盘损坏。
叫客户输入lscfg -vpl hdisk0,查了一下FRU,是73G 15K硬盘。
查一下备件库,只有146G 10K的盘,订货要两天。
客户同意拿146的盘换,等订的盘到了,再换回来。
带上配件,赶到客户现场,新情况出现了:客户说没法telnet上了。
打开HMC,发现系统发生了dump.
起机,系统启动,发现启动到varyon IPL DEV时,系统突然down下来。
后来,尝试手工使用另一个盘hdisk1启动,情况一样。
再后,手工拔掉坏的那个盘,系统自动启动到了diag模式。再次重启。
系统正常启动。但新的问题又来了,/oracle文件系统无法mount了,于是执行fsck -p /oracle
再mount,提示IO错误。
查lspv -l hdisk0
发现有loglv02没有镜像,正是损坏的那块盘。
查/etc/filesystems,果然/oracle使用的正是loglv02.
知道问题就容易解决了。
mklv,logform就解决了。
上面的hdisk0除了loglv02没有镜像外,还有两个文件系统也没镜像,客户说这两个文件系统的东西想要回来。
于是,关机,把坏的hdisk0重新插回去,起动。
lsvg -p rootvg发现hdisk0为remove状态。于是修改回来:
chvg -v a hdisk0
然后mount那两个文件系统,把数据拷出来,再接下来,就是换盘程序了。

这一次rootvg坏盘,应用停,系统down,可以解释:因为/oracle系统使用loglv没有镜像,在正好损坏的hdisk0上,所以导致应用和系统异常。客户接受。

作者: kuangyl   发布时间: 2011-05-16

不懂LVM镜像的管理员的杰作。。。。。。

作者: 老农   发布时间: 2011-05-16

回复 2# 老农
第二个案例应该是LVM镜像没做好。
可第一个案例,系统LVM镜像可好好的。为啥oracle会停呢,而且连日志都没写?不知农哥以前遇到过这种情况吗?难道说也像光纤通道盘的镜像一样,一条通道断了,访问会中断一下,导致oracle崩了??

作者: kuangyl   发布时间: 2011-05-17

第一个案例,有可能是坏盘导致SCSI通信错。也有可能是镜像后没重启导致(5307之后才不需要),当然,也可能是其他问题。
搞IBM小机的人很多,NB哄哄的人也不少,但真的明白的人没几个。

作者: 老农   发布时间: 2011-05-17

回复 4# 老农

听农哥一席话,突然开朗。机房搞过几次供电维护,应该是重启过几次的。
那应该是坏盘导致SCSI通信错的问题了。因为当时系统不但报hdisk0错,也报hdisk1错误,scsi BUS也有不少。当时还怀疑过scsi卡问题,后重启到diag模式搞过一通,能确认没问题。

作者: kuangyl   发布时间: 2011-05-17