HA - 起搏器 - 在X sec/min/hour之后有没有办法自动清除失败的动作?

问题描述:

我在Centos7 当我的资源的一个失败使用起搏器+ Corosync /停止I/M得到一个失败的动作消息:HA - 起搏器 - 在X sec/min/hour之后有没有办法自动清除失败的动作?

Master/Slave Set: myoptClone01 [myopt_data01] 
    Masters: [ pcmk01-cr ] 
    Slaves: [ pcmk02-cr ] 
myopt_fs01  (ocf::heartbeat:Filesystem): Started pcmk01-cr 
myopt_VIP01 (ocf::heartbeat:IPaddr2):  Started pcmk01-cr 
ServicesResource  (ocf::heartbeat:RADviewServices):  Started pcmk01-cr 

Failed Actions: 
* ServicesResource_monitor_120000 on pcmk02-cr 'unknown error' (1): call=141, status=complete, exitreason='none', 
    last-rc-change='Mon Jan 30 10:19:36 2017', queued=0ms, exec=142ms 

有没有办法自动清洗X秒后失败的操作/分钟/小时?

查看'failure-timeout'资源选项。如果在failure-timeout的值内没有发生特定资源的进一步故障,这将自动清除失败的操作。

我相信在cluster-recheck-interval期间会计算failure-timeout。这意味着,即使您将故障超时配置为1分钟,也可能需要15分59秒的时间来使用Pacemaker默认的15分钟群集重新检查间隔清除失败的操作。

的更多信息:

http://clusterlabs.org/doc/en-US/Pacemaker/1.1/html/Pacemaker_Explained/s-failure-migration.html

http://clusterlabs.org/doc/en-US/Pacemaker/1.1/html/Pacemaker_Explained/s-resource-options.html