A computer system having a fault-tolerance framework in an extendable
computer architecture. The computer system is formed of clusters of nodes
where each node includes computer hardware and operating system software
for executing jobs that implement the services provided by the computer
system. Jobs are distributed across the nodes under control of a
hierarchical resource management unit. The resource management unit
includes hierarchical monitors that monitor and control the allocation of
resources. In the resource management unit, a first monitor, at a first
level, monitors and allocates elements below the first level. A second
monitor, at a second level, monitors and allocates elements at the first
level. The framework is extendable from the hierarchy of the first and
second levels to higher levels where monitors at higher levels each
monitor lower level elements in a hierarchical tree. If a failure occurs
down the hierarchy, a higher level monitor restarts an element at a lower
level. If a failure occurs up the hierarchy, a lower level monitor
restarts an element at a higher level. Each of the monitors includes
termination code that causes an element to terminate if duplicate elements
have been restarted for the same job. The termination code in one
embodiment includes suicide code whereby an element will self-destruct
when the element detects that it is an unnecessary duplicate element.
Ένα συγκρότημα ηλεκτρονικών υπολογιστών που έχει ένα πλαίσιο ελάττωμα-ανοχής σε μια με δυνατότητα επέκτασης αρχιτεκτονική υπολογιστών. Το συγκρότημα ηλεκτρονικών υπολογιστών διαμορφώνεται των συστάδων των κόμβων όπου κάθε κόμβος περιλαμβάνει το υλικό υπολογιστών και το λογισμικό λειτουργικών συστημάτων για την εκτέλεση των εργασιών που εφαρμόζουν τις υπηρεσίες που παρέχονται από το συγκρότημα ηλεκτρονικών υπολογιστών. Οι εργασίες διανέμονται στους κόμβους υπό έλεγχο μιας ιεραρχικής διοικητικής μονάδας των πόρων. Η διοικητική μονάδα των πόρων περιλαμβάνει τα ιεραρχικά όργανα ελέγχου ότι όργανο ελέγχου και ελέγχει την κατανομή των πόρων. Στη διοικητική μονάδα των πόρων, ένα πρώτο όργανο ελέγχου, σε πρώτο επίπεδο, ελέγχει και διαθέτει τα στοιχεία κάτω από το πρώτο επίπεδο. Ένα δεύτερο όργανο ελέγχου, σε δεύτερο επίπεδο, ελέγχει και διαθέτει τα στοιχεία στο πρώτο επίπεδο. Το πλαίσιο είναι με δυνατότητα επέκτασης από την ιεραρχία των πρώτων και δεύτερων επιπέδων στα πιό υψηλά επίπεδα όπου όργανα ελέγχου σε πιό υψηλά επίπεδα στοιχεία κάθε επιπέδων οργάνων ελέγχου χαμηλότερα σε ένα ιεραρχικό δέντρο. Εάν μια αποτυχία εμφανίζεται κάτω από την ιεραρχία, ένα όργανο ελέγχου πιό υψηλού επιπέδου ξαναξεκινά ένα στοιχείο σε χαμηλότερο επίπεδο. Εάν μια αποτυχία εμφανίζεται επάνω η ιεραρχία, ένα χαμηλότερο όργανο ελέγχου επιπέδων ξαναξεκινά ένα στοιχείο σε πιό υψηλό επίπεδο. Κάθε ένα από τα όργανα ελέγχου περιλαμβάνει τον κώδικα λήξης που αναγκάζει ένα στοιχείο για να ολοκληρώσει εάν τα διπλά στοιχεία έχουν ξαναξεκινήσει για την ίδια εργασία. Ο κώδικας λήξης σε μια ενσωμάτωση περιλαμβάνει τον κώδικα αυτοκτονίας με το οποίο ένα στοιχείο αυτοκαταστροφή όταν ανιχνεύει το στοιχείο ότι είναι ένα περιττό διπλό στοιχείο.