Methods, systems, and devices are provided for managing resources in a
computing cluster. The managed resources include cluster nodes themselves,
as well as sharable resources such as memory buffers and bandwidth credits
that may be used by one or more nodes. Resource management includes
detecting failures and possible failures by node software, node hardware,
interconnects, and system area network switches and taking steps to
compensate for failures and prevent problems such as uncoordinated access
to a shared disk. Resource management also includes reallocating sharable
resources in response to node failure, demands by application programs, or
other events. Specific examples provided include failure detection by
remote memory probes, emergency communication through a shared disk, and
sharable resource allocation with minimal locking.
Οι μέθοδοι, τα συστήματα, και οι συσκευές παρέχονται για τη διαχείριση των πόρων σε μια συστάδα υπολογισμού. Οι διοικούμενοι πόροι περιλαμβάνουν τους κόμβους συστάδων οι ίδιοι, καθώς επίσης και τους κοινόχρηστους πόρους όπως οι απομονωτές μνήμης και οι πιστώσεις εύρους ζώνης που μπορούν να χρησιμοποιηθούν από έναν ή περισσότερους κόμβους. Η διαχείριση των πόρων περιλαμβάνει την ανίχνευση των αποτυχιών και οι πιθανές αποτυχίες από το λογισμικό κόμβων, υλικό κόμβων, διασυνδέουν, και διακόπτες δικτύων περιοχής συστημάτων και λήψη μέτρων για να αντισταθμίσουν τις αποτυχίες και να αποτρέψουν τα προβλήματα όπως η ασυντόνιστη πρόσβαση σε έναν κοινό δίσκο. Η διαχείριση των πόρων περιλαμβάνει επίσης την αναδιανομή των κοινόχρηστων πόρων σε απάντηση στην αποτυχία κόμβων, των απαιτήσεων από τα προγράμματα εφαρμογής, ή άλλων γεγονότων. Τα συγκεκριμένα παραδείγματα παρεχόμενα περιλαμβάνουν την ανίχνευση αποτυχίας από τους μακρινούς ελέγχους μνήμης, την επικοινωνία έκτακτης ανάγκης μέσω ενός κοινού δίσκου, και την κοινόχρηστη κατανομή των πόρων με το ελάχιστο κλείδωμα.