A fault tolerant availability meter includes agents for stand-alone
computers and each node of a cluster. The agents monitor availability with
timestamps and report uptime and downtime events to a server.
Additionally, agents on nodes of a cluster monitor cluster, node and
package availability and cluster configuration changes and report these
event to the server. Events are stored locally on the stand-alone
computers and nodes, and additionally, on the server. Events are tracked
with a sequence numbers. If the server receives an out-of-sequence event,
an agent-server recovery procedure is initiated to restore the missing
events from either the agents or the server. The server may generate
availability reports for all monitored entities, including one or more
stand-alone computers and one or more clusters of computers. Availability
is distinguished by planned and unplanned downtime. Furthermore,
unavailable and unreachable systems are identified.
Um medidor tolerante da disponibilidade da falha inclui agentes para computadores autônomos e cada nó de um conjunto. Os agentes monitoram a disponibilidade com timestamps e relatam eventos uptime e do downtime a um usuário. Adicionalmente, os agentes em nós de um monitor do conjunto aglomeram-se, as mudanças da disponibilidade do nó e do pacote e de configuração do conjunto e relatam a estes o evento ao usuário. Os eventos são armazenados localmente nos computadores e nos nós autônomos, e adicionalmente, no usuário. Os eventos são seguidos com números de seqüência. Se o usuário receber um evento da para fora-$$$-SEQÜÊNCIA, um procedimento de recuperação do agente-usuário está iniciado para restaurar os eventos faltantes dos agentes ou do usuário. O usuário pode gerar relatórios da disponibilidade para todas as entidades monitoradas, including um ou mais computador autônomo e um ou mais conjuntos dos computadores. A disponibilidade é distinguida pelo downtime de planeamento e unplanned. Além disso, os sistemas unavailable e unreachable são identificados.