rootvg一硬盘损坏后,应用停,系统down及处理过程
时间:2011-05-16
来源:互联网
最近客户坏硬盘比较多。上周遇到一次,今天遇到一次。
上周一次,客户突然说570 oracle应用停了,rootvg一个硬盘损坏。带配件赶到现场,
lsvg -l rootvg
发现有很多LV都stale状态
lsvg -p rootvg
发现hdisk0为missing状态。
errpt
发现hdisk0报错
同时相关的SCSI卡也报错,怪的是,rootvg的另一块盘hdisk1也报错。
处理:
更换了hdisk0。
还有一个没法回答的问题,跑住的oracle(装在rootvg中)停了。坏一块,怎么导致oracle停了呢,镜像都做得很好呀?
查oracle日志,最后的记录是一个日志切换,没有异常日志,就连停库的日志也没有。郁闷。后客户怀疑scsi 卡或hdisk1也有问题。
故障后,客户把应用切换到备机,启动系统到diag 模式,做了一次全面的diag,没有任何报错。开机正常,直到今天去检查也再没发现报错。
rootvg坏了一个盘, 系统正常,应用却停了???郁闷中。
今天客户又打来电话,说650应用oracle无法访问,hdisk0有报错,估计硬盘损坏。
叫客户输入lscfg -vpl hdisk0,查了一下FRU,是73G 15K硬盘。
查一下备件库,只有146G 10K的盘,订货要两天。
客户同意拿146的盘换,等订的盘到了,再换回来。
带上配件,赶到客户现场,新情况出现了:客户说没法telnet上了。
打开HMC,发现系统发生了dump.
起机,系统启动,发现启动到varyon IPL DEV时,系统突然down下来。
后来,尝试手工使用另一个盘hdisk1启动,情况一样。
再后,手工拔掉坏的那个盘,系统自动启动到了diag模式。再次重启。
系统正常启动。但新的问题又来了,/oracle文件系统无法mount了,于是执行fsck -p /oracle
再mount,提示IO错误。
查lspv -l hdisk0
发现有loglv02没有镜像,正是损坏的那块盘。
查/etc/filesystems,果然/oracle使用的正是loglv02.
知道问题就容易解决了。
mklv,logform就解决了。
上面的hdisk0除了loglv02没有镜像外,还有两个文件系统也没镜像,客户说这两个文件系统的东西想要回来。
于是,关机,把坏的hdisk0重新插回去,起动。
lsvg -p rootvg发现hdisk0为remove状态。于是修改回来:
chvg -v a hdisk0
然后mount那两个文件系统,把数据拷出来,再接下来,就是换盘程序了。
这一次rootvg坏盘,应用停,系统down,可以解释:因为/oracle系统使用loglv没有镜像,在正好损坏的hdisk0上,所以导致应用和系统异常。客户接受。
上周一次,客户突然说570 oracle应用停了,rootvg一个硬盘损坏。带配件赶到现场,
lsvg -l rootvg
发现有很多LV都stale状态
lsvg -p rootvg
发现hdisk0为missing状态。
errpt
发现hdisk0报错
同时相关的SCSI卡也报错,怪的是,rootvg的另一块盘hdisk1也报错。
处理:
更换了hdisk0。
还有一个没法回答的问题,跑住的oracle(装在rootvg中)停了。坏一块,怎么导致oracle停了呢,镜像都做得很好呀?
查oracle日志,最后的记录是一个日志切换,没有异常日志,就连停库的日志也没有。郁闷。后客户怀疑scsi 卡或hdisk1也有问题。
故障后,客户把应用切换到备机,启动系统到diag 模式,做了一次全面的diag,没有任何报错。开机正常,直到今天去检查也再没发现报错。
rootvg坏了一个盘, 系统正常,应用却停了???郁闷中。
今天客户又打来电话,说650应用oracle无法访问,hdisk0有报错,估计硬盘损坏。
叫客户输入lscfg -vpl hdisk0,查了一下FRU,是73G 15K硬盘。
查一下备件库,只有146G 10K的盘,订货要两天。
客户同意拿146的盘换,等订的盘到了,再换回来。
带上配件,赶到客户现场,新情况出现了:客户说没法telnet上了。
打开HMC,发现系统发生了dump.
起机,系统启动,发现启动到varyon IPL DEV时,系统突然down下来。
后来,尝试手工使用另一个盘hdisk1启动,情况一样。
再后,手工拔掉坏的那个盘,系统自动启动到了diag模式。再次重启。
系统正常启动。但新的问题又来了,/oracle文件系统无法mount了,于是执行fsck -p /oracle
再mount,提示IO错误。
查lspv -l hdisk0
发现有loglv02没有镜像,正是损坏的那块盘。
查/etc/filesystems,果然/oracle使用的正是loglv02.
知道问题就容易解决了。
mklv,logform就解决了。
上面的hdisk0除了loglv02没有镜像外,还有两个文件系统也没镜像,客户说这两个文件系统的东西想要回来。
于是,关机,把坏的hdisk0重新插回去,起动。
lsvg -p rootvg发现hdisk0为remove状态。于是修改回来:
chvg -v a hdisk0
然后mount那两个文件系统,把数据拷出来,再接下来,就是换盘程序了。
这一次rootvg坏盘,应用停,系统down,可以解释:因为/oracle系统使用loglv没有镜像,在正好损坏的hdisk0上,所以导致应用和系统异常。客户接受。
作者: kuangyl 发布时间: 2011-05-16
不懂LVM镜像的管理员的杰作。。。。。。
作者: 老农 发布时间: 2011-05-16
回复 2# 老农
第二个案例应该是LVM镜像没做好。
可第一个案例,系统LVM镜像可好好的。为啥oracle会停呢,而且连日志都没写?不知农哥以前遇到过这种情况吗?难道说也像光纤通道盘的镜像一样,一条通道断了,访问会中断一下,导致oracle崩了??
第二个案例应该是LVM镜像没做好。
可第一个案例,系统LVM镜像可好好的。为啥oracle会停呢,而且连日志都没写?不知农哥以前遇到过这种情况吗?难道说也像光纤通道盘的镜像一样,一条通道断了,访问会中断一下,导致oracle崩了??
作者: kuangyl 发布时间: 2011-05-17
第一个案例,有可能是坏盘导致SCSI通信错。也有可能是镜像后没重启导致(5307之后才不需要),当然,也可能是其他问题。
搞IBM小机的人很多,NB哄哄的人也不少,但真的明白的人没几个。
搞IBM小机的人很多,NB哄哄的人也不少,但真的明白的人没几个。
作者: 老农 发布时间: 2011-05-17
回复 4# 老农
听农哥一席话,突然开朗。机房搞过几次供电维护,应该是重启过几次的。
那应该是坏盘导致SCSI通信错的问题了。因为当时系统不但报hdisk0错,也报hdisk1错误,scsi BUS也有不少。当时还怀疑过scsi卡问题,后重启到diag模式搞过一通,能确认没问题。
听农哥一席话,突然开朗。机房搞过几次供电维护,应该是重启过几次的。
那应该是坏盘导致SCSI通信错的问题了。因为当时系统不但报hdisk0错,也报hdisk1错误,scsi BUS也有不少。当时还怀疑过scsi卡问题,后重启到diag模式搞过一通,能确认没问题。
作者: kuangyl 发布时间: 2011-05-17
相关阅读 更多
热门阅读
-
office 2019专业增强版最新2021版激活秘钥/序列号/激活码推荐 附激活工具
阅读:74
-
如何安装mysql8.0
阅读:31
-
Word快速设置标题样式步骤详解
阅读:28
-
20+道必知必会的Vue面试题(附答案解析)
阅读:37
-
HTML如何制作表单
阅读:22
-
百词斩可以改天数吗?当然可以,4个步骤轻松修改天数!
阅读:31
-
ET文件格式和XLS格式文件之间如何转化?
阅读:24
-
react和vue的区别及优缺点是什么
阅读:121
-
支付宝人脸识别如何关闭?
阅读:21
-
腾讯微云怎么修改照片或视频备份路径?
阅读:28