A complete and consistent set of checkpoint files is captured and
identified for use in restarting a parallel program. When each process of
a parallel program takes a checkpoint, it creates a checkpoint file. The
checkpoint file is named, and a part of that name includes a version
number for the checkpoint file. When a parallel program is to be
restarted, each process of the parallel program identifies its most
current valid checkpoint file. It provides the version number of this file
to a coordinating process. The coordinating process then decides which
version of the checkpoint files is valid and complete for all of the
processes of the parallel program participating in restart. Once this
version number is determined, it is forwarded to the processes and the
processes restore themselves using its corresponding checkpoint file
having that particular version number.
Ένα πλήρες και συνεπές σύνολο αρχείων σημείων ελέγχου συλλαμβάνεται και προσδιορίζεται για τη χρήση στο καινούριο ξεκίνημα ενός παράλληλου προγράμματος. Όταν κάθε διαδικασία ενός παράλληλου προγράμματος παίρνει ένα σημείο ελέγχου, δημιουργεί ένα αρχείο σημείων ελέγχου. Το αρχείο σημείων ελέγχου ονομάζεται, και ένα μέρος εκείνου του ονόματος περιλαμβάνει έναν αριθμό έκδοσης για το αρχείο σημείων ελέγχου. Όταν ένα παράλληλο πρόγραμμα πρόκειται να ξαναξεκινηθεί, κάθε διαδικασία του παράλληλου προγράμματος προσδιορίζει το πιό τρέχον έγκυρο αρχείο σημείων ελέγχου της. Παρέχει τον αριθμό έκδοσης αυτού του αρχείου σε μια συντονίζοντας διαδικασία. Η συντονίζοντας διαδικασία αποφασίζει έπειτα ποια έκδοση των αρχείων σημείων ελέγχου είναι έγκυρη και πλήρης για όλες τις διαδικασίες του παράλληλου προγράμματος που συμμετέχει στο καινούριο ξεκίνημα. Μόλις καθοριστεί αυτός ο αριθμός έκδοσης, διαβιβάζεται στις διαδικασίες και οι διαδικασίες αποκαθίστανται χρησιμοποιώντας το αντίστοιχο αρχείο σημείων ελέγχου της που έχει εκείνο τον ιδιαίτερο αριθμό έκδοσης.