Hierarchical fault management in computer systems page

Computer systems and methods of data processing are disclosed in which hierarchical levels of fault/event management are provided that intelligently monitor hardware and software and proactively take action in accordance with a defined fault policy. A fault policy based on a defined hierarchy ensures that for each particular type of failure the most appropriate action is taken. In one embodiment, a master Software Resiliency Manager (SRM) serves as the top hierarchical level fault/event manager, with one or more slave SRMs serving as the next hierarchical level fault/event manager. The software applications resident on each board can also include sub-processes (e.g., local resiliency managers or LRMs) that serve as the lowest hierarchical level fault/event managers.

On révèle des systèmes informatiques et les méthodes d'informatique dans lesquelles les niveaux hiérarchiques de la gestion de fault/event sont à condition que surveilliez intelligemment le matériel et le logiciel et agissiez proactivement selon une politique définie de défaut. Une politique de défaut basée sur une hiérarchie définie s'assure que pour chaque type particulier d'échec la mesure la plus appropriée est prise. Dans une incorporation, un directeur principal d'élasticité de logiciel (SRM) sert de directeur hiérarchique supérieur du niveau fault/event, avec l'un ou plusieurs portion slave de SRMs en tant que prochain directeur hiérarchique du niveau fault/event. Les applications de logiciel résidentes sur chaque conseil peuvent également inclure des sous-processus (par exemple, les directeurs locaux ou le LRMs d'élasticité) ce servir de plus bas directeurs hiérarchiques du niveau fault/event.