Computer systems and methods of data processing are disclosed in which
hierarchical levels of fault/event management are provided that
intelligently monitor hardware and software and proactively take action in
accordance with a defined fault policy. A fault policy based on a defined
hierarchy ensures that for each particular type of failure the most
appropriate action is taken. In one embodiment, a master Software
Resiliency Manager (SRM) serves as the top hierarchical level fault/event
manager, with one or more slave SRMs serving as the next hierarchical
level fault/event manager. The software applications resident on each
board can also include sub-processes (e.g., local resiliency managers or
LRMs) that serve as the lowest hierarchical level fault/event managers.
On révèle des systèmes informatiques et les méthodes d'informatique dans lesquelles les niveaux hiérarchiques de la gestion de fault/event sont à condition que surveilliez intelligemment le matériel et le logiciel et agissiez proactivement selon une politique définie de défaut. Une politique de défaut basée sur une hiérarchie définie s'assure que pour chaque type particulier d'échec la mesure la plus appropriée est prise. Dans une incorporation, un directeur principal d'élasticité de logiciel (SRM) sert de directeur hiérarchique supérieur du niveau fault/event, avec l'un ou plusieurs portion slave de SRMs en tant que prochain directeur hiérarchique du niveau fault/event. Les applications de logiciel résidentes sur chaque conseil peuvent également inclure des sous-processus (par exemple, les directeurs locaux ou le LRMs d'élasticité) ce servir de plus bas directeurs hiérarchiques du niveau fault/event.