Methods, systems, and devices are provided for managing resources in a
computing cluster. The managed resources include cluster nodes themselves,
as well as sharable resources such as memory buffers and bandwidth credits
that may be used by one or more nodes. Resource management includes
detecting failures and possible failures by node software, node hardware,
interconnects, and system area network switches and taking steps to
compensate for failures and prevent problems such as uncoordinated access
to a shared disk. Resource management also includes reallocating sharable
resources in response to node failure, demands by application programs, or
other events. Specific examples provided include failure detection by
remote memory probes, emergency communication through a shared disk, and
sharable resource allocation with minimal locking.
Методы, системы, и приспособления обеспечены для управляя ресурсов в вычисляя группе. Управляемые ресурсы вклюают узлы группы сами, также,как sharable ресурсы such as буфера памяти и кредиты ширины полосы частот которые могут быть использованы one or more узлами. Управление ресурсами вклюает обнаруживать отказы и по возможности отказы средством программирования узла, оборудованием узла, соединяют, и переключатели сети зоны системы и шаги принимать для того чтобы compensate for отказы и предотвратить проблемы such as uncoordinated доступ к, котор делят диску. Управление ресурсами также вклюает reallocating sharable ресурсы in response to отказ узла, требует программами применения, или другими случаями. Специфически обеспеченные примеры вклюают обнаружение отказа дистанционными зондами памяти, аварийную связь через, котор делят диск, и sharable распределение ресурсов с минимальный фиксировать.