Diagnosing crashes in distributed computing systems

Mechanisms are provided for preserving data wherein one or more nodes in a distributed computing system experiences an error. In one embodiment, when an error occurs, an error event is identified. Based on this error event, a set of identified execution units is suspended and a set of identified data is collected. All suspended execution units are then released, i.e., allowed to continue execution at the point where the units were suspended. The data collected during suspension is then used to diagnose the cause of the error.
De mechanismen worden verstrekt voor het bewaren van gegevens waarin één of meerdere knopen in een verdeeld gegevensverwerkingssysteem een fout ervaart. In één belichaming, wanneer een fout voorkomt, wordt een foutengebeurtenis geïdentificeerd. Gebaseerd op deze foutengebeurtenis, wordt een reeks geïdentificeerde uitvoeringseenheden opgeschort en een reeks geïdentificeerde gegevens wordt verzameld. Alle opgeschorte uitvoeringseenheden worden dan vrijgegeven, d.w.z., toegestaan om uitvoering op het punt voort te zetten waar de eenheden werden opgeschort. Het gegeven dat tijdens opschorting wordt verzameld wordt dan gebruikt om de oorzaak van de fout te diagnostiseren.

Web www.patentalert.com

< Latency-based statistical multiplexing

< Extended error correction for SEC-DED codes with package error detection ability

> Automatic software production system

> Method for converting a UML rendering of an RSM-based metamodel to a UML rendering of MOF-based metamodel

~ 00096