A multiprocessor computer system continues operation after the failure of a
cooling device coupled to a central processing unit (CPU). In accordance
with the present invention, an impending failure of a cooling device is
detected, and all user and operating system processes are moved from the
affected CPU coupled to the failing cooling device to one or more other
CPUs. The system state is then altered so that interrupts are no longer
received and processed by the affected CPU, and all memory caches
associated with the affected CPU are flushed back to main memory to ensure
cache coherency. At this point, the CPU is either powered-down, or placed
in a low-power mode that allows the CPU to operate without the cooling
device, while the processes that were removed from the suspended CPU
continue executing on other CPUs. After the cooling device has been
replaced and is operating normally, the CPU can be powered back up,
interrupts can be enabled, and the CPU can once again execute user and
operating system processes.
Ένα συγκρότημα ηλεκτρονικών υπολογιστών πολυεπεξεργαστών συνεχίζει τη λειτουργία μετά από την αποτυχία μιας δροσίζοντας συσκευής που συνδέεται με μια μονάδα κεντρικής επεξεργασίας (ΚΜΕ). Σύμφωνα με την παρούσα εφεύρεση, μια επικείμενη αποτυχία μιας δροσίζοντας συσκευής ανιχνεύεται, και όλες οι διαδικασίες χρηστών και λειτουργικών συστημάτων κινούνται από την επηρεασθείσα ΚΜΕ που συνδέεται με την αποτυχούσα δροσίζοντας συσκευή σε ένα ή περισσότερα άλλα CPUs. Το κράτος συστημάτων αλλάζουν έπειτα έτσι ώστε διακόπτει δεν παραλαμβάνεται πλέον και υποβάλλεται σε επεξεργασία από την επηρεασθείσα ΚΜΕ, και όλες οι κρύπτες μνήμης που συνδέονται με την επηρεασθείσα ΚΜΕ ξεπλένονται πίσω στην κύρια μνήμη για να εξασφαλίσουν συνοχή κρύπτης. Σε αυτό το σημείο, η ΚΜΕ είναι είτε τροφοδοτώ-κατεβάζει, είτε τοποθετημένος σε έναν χαμηλής ισχύος τρόπο που επιτρέπει στην ΚΜΕ για να λειτουργήσει χωρίς τη δροσίζοντας συσκευή, ενώ οι διαδικασίες που αφαιρέθηκαν από την ανασταλμένη ΚΜΕ συνεχίζουν σε άλλο CPUs. Αφότου έχει αντικατασταθεί η δροσίζοντας συσκευή και λειτουργεί κανονικά, η ΚΜΕ μπορεί να τροφοδοτηθεί πίσω επάνω, διακόπτει μπορεί να επιτραπεί, και η ΚΜΕ μπορεί άλλη μια φορά να εκτελέσει τις διαδικασίες χρηστών και λειτουργικών συστημάτων.