Niveles de Disponibilidad de Data Centers
septiembre 18, 2024
Arturo Perez

El sentido de un data center es salvaguardar la información y los procesos de las empresas para que sean utilizados en cualquier momento y desde cualquier dispositivo. Hoy en día, hasta las empresas más pequeñas requieren de sistemas ERP o sistemas contables que realicen varias transacciones con listas de clientes para saber que cotizaciones están activas, que perspectivas de negocios hay a futuro y en general, conocer el estado de la empresa, en el presente, su pasado próximo y como podrán ser sus operaciones y ventas en un futuro cercano.

Es por eso que los data centers cobran una gran relevancia, por tratarse precisamente de ese “cerebro” que la empresa tiene y de la cual dependen.

Dicho data center debe estar siempre activo y disponible, razón por la cual existen métricas, un poco estadísticas, para determinar cuál es la probabilidad de falla y el tiempo de la misma, y con esta cantidad de minutos/horas/días de downtime, poder estimar el impacto negativo en la operación de los clientes.

¿Tan solo imaginen que el data center de una aerolínea tenga una falla de 1 hora? ¿Qué pasaría con sus operaciones? ¿Y qué ocurre si es una agencia de coches que no puede facturar o vender ningún coche? ¿Perdería clientes y ventas? Por supuesto que sí. En todos los ámbitos es muy relevante poder entender hasta donde valoramos que el data center se encuentre siempre en línea.

Hace varios años atrás, se hablaba mucho de las normas para la construcción de data centers como la TIA 942 – B; en donde se daban las mejores prácticas para la construcción de un data center; pero dichas normas a veces carecían de un análisis de disponibilidad más avanzado, que pudiera predecir donde podría haber una falla, y lo más importante, como anticiparnos a ella por medio de una alta disponibilidad.

Por esa necesidad, surge una empresa como el Uptime Institute, quienes implementan un modelo de calificación de la disponibilidad de un data center, dependiendo de la arquitectura (como se acomodan lógica y estructuralmente los componentes), para crear una clasificación de niveles o Tiers, que establecen grados de disponibilidad para cada data center.

Inicialmente es utilizado por los grandes hiper data centers para garantizar que su operación, no solamente sea a prueba de muchas fallas, sino también como un gancho de ventas cuando se comparan con sus competidores y poderle garantizar a sus clientes que no hay nada que temer.

¿Pero qué implica para el resto de los clientes interesados en conocer cuál es eslabón débil en sus operaciones? La importancia radica en que, al entender la arquitectura de lo que se denominan Tier II, Tier III o Tier IV, se pueden hacer planes de mejora continua, de forma que todos los data centers se acerquen al ideal, pero también conociendo su costo presupuestal para llegar al nivel más alto.

Cada nivel TIER define un grado de disponibilidad en la infraestructura crítica de un data center, como son el suministro de energía, el suministro de enfriamiento y el más importante, el capital humano.

A continuación, se muestra la tabla de disponibilidad de un data center y el tiempo que estadísticamente se considera que podría estar fuera de línea:

Pero, ¿de dónde salen estos cálculos? Básicamente, son estadísticos empezando por el nivel de disponibilidad de 1 equipo.

Un UPS, un aire acondicionado de precisión, un transformador o un tablero eléctrico, son susceptibles a fallas, cada uno tiene algo que se denomina el MTBF – Tiempo medio entre fallas; con lo cual es el nivel más básico de disponibilidad a la cual se le denomina N. Este N corresponde a un equipo por lo que si este equipo falla, todo el data center quedaría fuera de operación hasta corregir dicha falla en cualquiera de sus componentes críticos.

Si se compara el MTBF entre un minisplit y un aire de precisión, hay grandes diferencias, tanto así, que el autor no encontró el MTBF de un minisplit, porque no se destila.

Y, ¿qué pasaría si tuviera 2 aires de precisión?

Esto implica que la probabilidad de falla ya no es N, sino 2N, con lo cual las probabilidades de falla se multiplican y por ende, es mucho más baja.

Y, ¿si tengo 4 aires de precisión?

Si se daña el tablero o la transferencia que alimentaba a los dos aires (que es el eslabón débil en ese caso), entonces empiezo a mejorar mi disponibilidad; pero el costo de la implementación ya no sería el costo de 1 solo aire de precisión, sino de 4, agregando la complejidad eléctrica.

 Y siguiendo con el mismo ejemplo, es muy diferente tener 1 aire de precisión, que tener 4; sobre todo para el personal de mantenimiento, porque tienen que estar al pendiente de prestar el servicio de preventivo para 4 aires en vez de 1.

Precisamente para eso se han creado los TIER, de forma que se pueda entender que tanta infraestructura y arquitectura es necesaria para prevenir fallas, o inclusive seguir operando cuando se tiene que prestar mantenimiento, por ejemplo, que se deban apagar equipos o reemplazar componentes; pero el data center deba seguir funcionando.

 Para más información, el Uptime Institute tiene varios cursos en los cuales, enseñan las arquitecturas necesarias para poder analizar el grado de disponibilidad de cada TIER bien sea Tier II, Tier III o el nivel más alto, TIER IV.

Es importante destacar que en este artículo hacemos referencia a equipos; sin embargo, estadísticamente se sabe que la mayoría de las caídas de un data center se debe más a fallas humanas que a malfuncionamientos de la infraestructura, 75% de las fallas para ser más preciso.