RMS para sistemas distribuidos

By netog No comments

RMS son las siglas en inglés de Resource Management System, lo que significa Sistema de Gestión de Recursos. Un RMS es un componente vital para los sistemas distribuidos críticos, en los cuales se busca aumentar la confiabilidad del sistema general.

Cuando se tiene un sistema distribuído existen muchos elementos que podrían fallar. En algunos casos una falla de un componente podría hacer que todo el sistema falle y en otros casos se podría limitar el problema a la pérdida temporal de alguna funcionalidad. El objetivo de un RMS es permitir que el sistema distribuido se encuentre disponible el mayor tiempo posible pese a los problemas que podrían presentarse.

Problemas

Es evidente decir que un software creado puede tener bugs no detectados que generen la caída de alguna funcionalidad o de todo el sistema en el peor de los casos. Las metodologías de control de calidad en la creación de los proyectos de software buscan minimizar este problema.

Por más perfecto que pueda ser el software del sistema siempre existen componentes ajenos que podrían ocasionar fallas: alimentación eléctrica, fallas de componentes de hardware, falla de sistema de enfriamiento del local, etc. La vida real siempre presentará inconvenientes de manera constante.

Cuando se tiene un sistema crítico se desea que el sistema tenga la capacidad de repararse a si mismo cuando una falla es detectada. Esto puede sonar bastante complicado, pero en buena medida es posible hacerlo.

Soluciones

El uso de un RMS permite tener un sistema con mayor confiabilidad gracias a las siguientes funciones:

  • Monitoreo de la salud de hardware de todo el sistema
  • Monitoreo de la salud del software de todo el sistema
  • Planeamiento de alocación de recursos
  • Proceso para controlar las caídas de algún componente individual del sistema
  • Generaciones de alarmas y alertas para los administradores del sistema
  • Generaciones de bitácoras de eventos importantes que puedan ser analizadas luego para determinar causas de los problemas

Investigaciones en estos campos se han incrementado con el mayor uso de sistemas distribuidos en los últimos años. Áreas de conocimiento como sistemas militares, sistemas bancarios, etc. han contribuido con algunas de estas investigaciones.

Para implementar un sistema RMS se debe considerar su existencia desde el diseño original del sistema distribuido crítico. Existen aplicaciones comerciales y open source que pueden servir de referencia para el uso de esta tecnología.

Un ejemplo que vale la pena ver es el sistema CARDAMOM, otorgado en Open Source por Thales.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.