Pérdida de Control por Incremento de Temperatura en Centros de Cómputo Una revisión a los desafíos de enfriamiento de ambientes de misión crítica de alta densidad de generación de calor Documento 105 2128 W. Braker Lane, BK12 Austin, Texas 78758-4028 w w w. a c t i v e p o w e r. c o m Objetivo Este documento trata del impacto sobre los sistemas mecánicos en el evento de una falla de energía en un medio de alta densidad de generación de calor, como ocurre en los centros de cómputo de misión crítica. El documento proveerá una visión sobre las implicaciones de la pérdida del enfriamiento del equipo crítico de IT y cuánto tiempo le toma al equipo entrar en modo automático de apagado por alta temperatura. 2 Introducción Las investigaciones realizadas en abril de 2007 por el Aperture Research Institute sugieren que alrededor del 22.3% de las caídas repentinas de los centros de cómputo son causadas por el recalentamiento de los servidores que entran en modo de autoprotección por temperatura. Esto no es ficción ni está reservado a casos de centros de cómputo de ultra alta densidad, como los que actualmente se encuentran en construcción. El apagado de servidores en forma automática, como medida de autoprotección por sobre temperatura es de común ocurrencia para centros de cómputo y cuartos de servidores de todos los tamaños y esto ocurre, típicamente, durante un evento de corte de la energía comercial, en donde los UPS (Sistemas Ininterrumpidos de Potencia) continúan alimentando de energía a los equipos de cómputo pero el sistema de enfriamiento no funciona. Dinámica del Sistema Mecánico Los UPS están a cargo de alimentar a los servidores con energía regulada e ininterrumpida. Desafortunadamente no es práctico alimentar los sistemas acondicionadores de aire del UPS por algunas razones como son: • Un sistema de enfriamiento típico de un centro de cómputo consume tanta o más potencia que el sistema de servidores que alimenta el UPS. • La característica que representa la carga de motores de las unidades condensadoras y enfriadoras, que continuamente ciclan entre los estados de encendido y apagado, representarían para el UPS una carga tipo escalón, que puede disparar al UPS y perder la carga que tiene conectada. • Como resultado de los dos puntos anteriores el UPS adicional o el sobredimensionamiento de la existente para los equipos de IT implicaría un precio prohibitivo para esta solución. Los Centros de Cómputo grandes típicamente tienen una planta en Standby que se acopla al UPS y permite su operación continua durante los eventos en que la energía comercial falla aún por varias horas o días. Cuando la planta está disponible el sistema de enfriamiento será típicamente respaldado por esa fuente de energía. Sea que exista planta o no, el resultado es similar, esto es: La carga de los servidores se mantiene en funcionamiento mediante el UPS mientras que dura el corte de energía y el sistema de aire acondicionado estará fuera de servicio hasta que la planta de emergencia esté disponible para alimentar la carga crítica de todo el sistema. Una vez que la energía haya sido restaurada a los equipos acondicionadores de aire, estos temporizarán sus arranques según el control del equipo y éste puede demorarse hasta 15 minutos ya que el arranque será escalonado, unidad por unidad, para no recargar la planta; esto es algo parecido a arrancar un carro desde su condición de cero km/h con el cambio colocado en la posición de cuarta lo cual no es una buen idea. De hecho pueden transcurrir entre 10 y 15 minutos desde que se normalizó la energía a las unidades de aire acondicionado hasta que éstas inicien su ciclo de arranque. Esta operación se realiza para evitar las caídas de voltaje intermitentes y para asegurarse que la planta esté realmente lista. Dependiendo del número de unidades enfriadores será la demora para arrancar el sistema ya que cada unidad deberá ser arrancada una por una, hasta que el sistema de enfriamiento quede operando a plena carga. 3 Figura 1: Diagrama simplificado de causa efecto durante un corte de energía comercial con soporte de una máquina convencional. El proceso puede tomar entre 10 h 15 minutos dependiendo del tipo y tamaño del sistema; todo esto ocurre mientras que los servidores están siendo alimentados y generando calor sin que exista enfriamiento. Desafortunadamente un gabinete de servidores blade de 15 kW puede llegar a su límite de capacidad térmica en un tiempo de 60 minutos. Apagado Automático de Protección de Servidores La necesidad de enfriamiento ha alcanzado un punto en donde ya no se contará en horas ni en minutos el tiempo posible de operación sin enfriamiento, sino sólo en segundos. Un servidor típico de montaje en rack ya incorpora dentro de sus características un sistema de administración del aspecto térmico. Este sistema se asegura de que el servidor no sufra daños permanentes en el evento de un rápido incremento de la temperatura. El comité técnico 9.9 de ASHRAE (La sociedad de ingenieros de calor, refrigeración y aire acondicionado) recomienda que la temperatura de entrada esté entre los 20 y los 25 grados Celsius (68-.67 grados Fahrenheit) lo cual es respaldado por los vendedores de equipos y sus cláusulas de garantía. 4 Figura 2: Especificaciones ambientales para equipos de centros de cómputo (Comité Técnico 9.9 de ASHRAE). Las fluctuaciones de temperatura no deben ser mayores a 5 grados Celsius en un lapso de 60 minutos. Las fluctuaciones y exposición constante a temperaturas fuera de estos límites degradarán la vida útil del equipo de IT; además, las investigaciones del instituto Uptime han demostrado que cuando las temperaturas se salen de estos límites la rata de falla alcanza el 400% respecto a las condiciones normales de falla. La serie de puntos de temperatura sobre los cuales se deben tomar acciones especiales varían de fabricante en fabricante. Sin embargo, el punto de temperatura para la emisión del primer nivel de alarma esta predeterminado a 55 grados Celsius. El segundo nivel de límite crítico es de 65 grados Celsius. El servidor, mediante su sistema operativo, nuevamente alertará al usuario y si no se toma acción alguna y la temperatura se mantiene por encima de los 65 grados Celsius, durante 20 segundos o más, entonces el sistema operativo iniciara un apagado automático que posiblemente conducirá a la pérdida de la información que esté en proceso. Es importante anotar que la temperatura medida dentro del servidor es sustancialmente mayor que la temperatura ambiente del recinto. Figura 3: Representación gráfica simplificada del apagado automático por temperatura La información adquirida de los servidores en funcionamiento ha mostrado que típicamente la temperatura interna de los servidores excede entre 30 y 35 grados Celsius a la temperatura ambiente; sin embargo, la acumulación de polvo en los disipadores puede hacer que esta diferencia sea aún mayor. Como regla general se puede concluir que una temperatura interna en un servidor de 65 grados Celsius, en un data center bien diseñado, corresponde a una temperatura ambiente en el centro de cómputo de unos 35 a 40 grados Celsius. Figura 4: Ejemplo de la acumulación significativa del polvo en el disipador de calor. 5 Los equipos de almacenamiento de la información tienen un umbral de temperatura menor debido a sus partes móviles y especialmente a la rotación de los discos. Para el caso de los equipos de almacenamiento, la investigación realizada por Hitachi Data Systems ha demostrado que la degradación de la confiabilidad de los drivers es un desafío a largo plazo. El estudio concluyó que las temperaturas que fluctúan en más de 5 grados Celsius causan una desgasificación de los lubricantes de los motores de giro que conducen a un 15% de fallas en los próximos 30 días. Según la mayoría de los estándares, las unidades de almacenamiento de información son más críticos que los mismos servidores debido a su elevada rata de retención de datos. Figura 5: Confiabilidad de los drivers (Hitachi Data Systems). Figura 6: Ejemplo de un disco duro De otro lado, el rango de tolerancia de temperatura para los equipo de red es algo mayor al de los servidores debido a que su diseño contempla el uso en sitios remotos desatendidos, en cuartos eléctricos y centros de cómputo acondicionados. 6 Incremento en la Temperatura de los Pasillos Fríos Vale la pena observar que varios estudios sobre el ambiente óptimo de centros de cómputo sugieren que la recomendación de ASHRAE TC 9.9, referente a los límites entre 20 y 25 grados Celsius, pueden ser incrementados hasta los 30-35 grados Celsius. La mayor motivación para esta sugerencia es obtener un ahorro significativo en la energía requerida por los equipos de aire acondicionado para remover el calor de los equipos. La mayoría de los equipos servidores están diseñados para operar a temperaturas entre 10 y 35 grados Celsius aunque ninguno de los OEM de servidores ha avalado ningún rango de temperaturas que se salga de la banda ya aceptada. La información colectada en este reporte soporta las recomendaciones de ASHRAE TC 9.9 de conservar la banda entre 20 y 25 grados Celsius pero cualquier incremento sobre esta banda reduciría significativamente el tiempo de reacción requerido durante un evento de falla de energía y la subsiguiente caída del sistema de enfriamiento. “Cuando la temperatura aumenta, la velocidad de las reacciones químicas también aumentan. Los eventos de oxidación, de daños de alimentos se aceleran cuando las condiciones de temperatura aumentan, si se compara con lo que ocurre en las condiciones de menor temperatura. Como resultado de esta situación se ha generalizado el concepto de que para muchas reacciones que ocurren a temperatura ambiente, un incremento de 10 grados Celsius repercute en que las ratas de reacción se incrementan en un 100%.” Svante Arrhenius, Premio Nobel de química de 1903 y fundador de la ciencia físico química Pérdida del Control de la Temperatura Se han realizado varios estudios sobre hechos ocurridos en la vida real respecto al apagado por sobre temperatura, iniciado en forma automática por los sistemas operativos durante un corte de energía. Algunos factores que influyen en que el centro de cómputo o partes de él de vean afectados, particularmente por la pérdida de enfriamiento, son los siguientes: • Tamaño volumétrico del cuarto. Cuanto más alto sea el techo, mayor será el calor que se elevará y se acumulará debajo del techo, en lugar de acumularse en los pasillos. • Carga de trabajo del servidor. Si la carga de trabajo del servidor es baja también lo será la producción de calor, lo cual extenderá el margen de tiempo. • Ventiladores del CRAC (Aire Acondicionado del Centro de Cómputo) alimentados del UPS. Si los ventiladores del CRAC continúan funcionando, aunque los serpentines no remuevan el calor, el margen de tiempo se aumentará. La gráfica siguiente muestra la inercia térmica de nueve puntos de referencias seleccionados durante una investigación realizada por el instituto Uptime, Emerson Corp., misiones criticas EYP y Active Power, Inc. cuyas tendencias se trazan en un gráfico que asocia a los nueve puntos de referencia. 7 Figura 7: La matriz representa los puntos seleccionados. Muestra el aumento en temperatura Celsius registrado durante el periodo anterior a la entrada del equipo de IT en modo La columna de la derecha indica el incremento de temperatura normalizado en grados Celsius por segundo para cada densidad de carga en vatios/Rack en grados de apagado por temperatura. Figura 8: El gráfico es una representación visual de la matriz de la Figura 7. Representa el incremento de temperatura por segundo en grados Celsius según sean las densidades de carga. La función de la línea representada corresponde a y= 0.00005X – 0.0381 y puede ser aplicada en forma aproximada para medir la densidad en vatios / Rack para obtener una indicación del tiempo para que un servidor dado llegue a emitir el comando automático de apagado, por protección de temperatura, como resultado de la pérdida del sistema de enfriamiento. 8 Figura 9: El cuadro representa el incremento de la temperatura en función del tiempo (Segundos) según sea la densidad de carga en los gabinetes (Vatios por Gabinete) en el evento de una pérdida del enfriamiento. Se asume que la temperatura base es de 20 grados Celsius. Modelo Computacional de Dinámica de Fluidos (CFD) El modelaje mediante el CFD es utilizado extensamente en la industria de los Centros de Cómputo para mostrar, en forma exacta, cómo se comportará un determinado fluido bajo ciertas circunstancias (en este caso el aire en un data-center). Las temperaturas son mostradas en una escala de colores en la cual el azul corresponde a los sitios más fríos y el rojo a los más calientes. La Figura 10 muestra cómo se vería en operación un Centro de Cómputo que ha sido correctamente diseñado. Figura 10: Vista lateral cubriendo desde abajo del piso y teniendo en el centro al pasillo caliente. 9 Las Figuras 11 y 12 muestran lo que ocurre en un recinto lleno de gabinetes operando con una carga de 5,000 vatios/gabinete. El tiempo de la toma corresponde a 120 segundos después de haber perdido el enfriamiento Figura 11: Vista de un sistema con carga de 5,000 vatios por gabinete, después de 120 segundos de haber perdido el enfriamiento. Figura 12: Vista de un sistema con carga de 5,000 vatios por gabinete, después de 10 120 segundos de haber perdido el enfriamiento. Las Figuras 13 y 14 muestran el mismo sistema de 5,000 vatios /gabinete después de 240 segundos de haber perdido el enfriamiento lo cual tiene un efecto devastador sobre la temperatura ambiente del cuarto del Centro de Cómputo. Figura 13: Sistema con carga de 5,000 vatios por gabinete después de 240 segundos de haber perdido el enfriamiento Figura 14: Sistema con carga de 5,000 vatios por gabinete después de 240 segundos de haber perdido el enfriamiento 11 Cómo Reducir el Riesgo de Perdida de Control de Temperatura en los Data Centers El método más sencillo para reducir el riesgo de exponerse a un caso de pérdida del control de temperatura en un Centro de Cómputo, por causa de un corte de energía, es reducir el tiempo utilizado para la normalización del suministro de energía al sistema de enfriamiento. Una manera de lograr esto es reducir el tiempo de espera del generador para recibir el comando de arranque. Para evitar el fenómeno llamado arranque fantasma, cuando el arranque de la planta es inicializado aunque la energía ya haya sido restaurada segundos después del apagón inicial, el sistema de arranque debe ser configurado en forma adecuada. Según la EPRI (Instituto de Investigación sobre la Energía Eléctrica), aproximadamente el 99% de los apagones duran menos de 10 segundos; esto significa que la temporización debería estar entre 5 y 10 segundos. En un sistema debidamente diseñado para sistemas de misión crítica el generador diésel deberá arrancar y asumir la carga en un tiempo típico entre los 5 y 6 segundos después de recibir el comando de arranque. La sincronización de grupos generadores múltiples en configuración de redundancia o capacidad pueden extender aún más el tiempo para la toma de carga. Sin embargo, el uso de controladores digitales para el arranque de plantas puede reducir y controlar el tiempo de toma de carga con más exactitud de la que se logra en máquinas que operan solitarias. Un controlador digital de generador provee un arranque más rápido ya que tiene en cuenta el ángulo del cigüeñal en la medida en que la máquina se desacelera. El controlador digital, conociendo el ángulo del cigüeñal en el momento del arranque, pude controlar la inyección durante el próximo arranque y así puede disminuir los tiempos de arranque y tiempo de toma de la carga. Figura 15: Muestra de un controlador digital para moto generadores Diésel. Figure 16: Diagrama simplificado de causa - durante un corte de energía con un sistema de arranque rápido de la planta de emergencia. 12 efecto Mediante el cambio del rango combinado de tiempo de entre 100 y 120 segundos para la normalización de un sistema de enfriamiento, que es lo especificado en los sistemas convencionales de hoy, al nuevo rango de entre 10 y 15 segundos, se logra reducir perceptiblemente la temperatura ambiente y por tanto el riesgo de pérdida de control del sistema de enfriamiento en los centros de cómputo. Como ejemplo utilicemos la ecuación de la Figura 9 para un gabinete lleno de servidores con una carga de 10.000 vatios, el cual aumentará su temperatura en 0.4619 grados Celsius por segundo durante un evento de pérdida del sistema de enfriamiento. Si se utiliza el lapso de tiempo de 120 segundos para la normalización de la energía al sistema de enfriamiento, la temperatura aumentará en 55 grados Celsius, lo cual llevará al sistema muy por encima de los límites de temperatura admisibles. Sin embargo, si se realiza el cálculo con el tiempo de 15 segundos, el incremento de temperatura se reducirá a tan solo 6.9 grados Celsius lo que representa una mejora del 87% con respecto al caso considerado inicialmente para la misma arquitectura térmica del centro se cómputo. Como tema de discusión se podrá decir que este cambio se podría realizar sin problema aún en las instalaciones existentes; sin embargo existe un punto aún más importante y es: ¿Por qué existe la aceptación de que un tiempo en soporte en baterías de UPS de 15 minutos es lo más recomendable? En la medida en que las densidades de carga continúen incrementándose, más claro será que este tiempo de soporte está sobre dimensionado por varias razones: 1. Asumir que se requiere de 15 minutos para realizar un apagado ordenado del sistema es completamente irrelevante ya que, por definición, un apagado del sistema después de ese tiempo es intolerable para la mayoría de los negocios. 2. Una tolerancia de 15 minutos para realizar un segundo intento de arranque de la planta no tiene sentido porque en muy raras circunstancia se da que un sistema de emergencia, que no arranca dentro de los cinco o seis segundos, como es el caso del arranque de los carros, si arrancará 15 minutos más tarde; lo más probable es que en ese nuevo intento tampoco arrancará. Para resaltar una experiencia podemos mencionar que durante el apagón ocurrido el 24 de julio del 2007 en 365 Main, Inc., en la localidad de San Francisco, la planta falló en su arranque automático y solamente 37 minutos después fue posible lograr un arranque manual. 3. El incremento de temperatura en un centro de cómputo durante un tiempo de soporte por baterías del UPS, únicamente para la carga de sistemas, produciría un incremento de temperatura en el ambiente que tendría efectos devastadores sobre los equipos de cómputo. Aún, un Centro de cómputo con una carga tan baja como 2.000 vatios/ gabinete tendrá un incremento de temperatura de 55 grados Celsius, esto aplicando la información de la Figura 9. Otro dato: existe el reporte de lo ocurrido en la empresa Rackspace, Inc., el 12 de noviembre de 2007 cuando se produjo un apagón en su Datacenter de Dallas. Durante el arranque de las unidades de enfriamiento se presentó un rápido incremento de la temperatura que los llevó a apagar todas las cargas para mitigar el incremento descontrolado de la temperatura ambiente del Centro de cómputo. 13 Conclusión De acuerdo con los datos del mundo real y el modelado en laboratorio realizado para dar soporte a este documento, se puede concluir que un arranque rápido que tome entre 10 y 15 segundos, y no el lapso de tiempo de entre 100 y 120 segundos común en arquitecturas actuales, es la solución ideal para evitar el incremento descontrolado de la temperatura de los centros de cómputo. Adicionalmente, un control más ajustado de las temperaturas del ambiente del Centro de Cómputo evita la degradación a largo plazo de la confiabilidad de los elementos giratorios y servidores causados por la expansión y contracción excesiva de las partes móviles de los equipos. La práctica comúnmente aplicada de tener un respaldo en baterías para el centro de cómputo de 15 minutos está siendo desafiada por los nuevos estándares ya que se considera completamente irrelevante el tema del apagado ordenado, ante la falla de energía, ya que el efecto térmico hace imposible disponer del tiempo para este tipo de apagado y, además, la posibilidad de una segunda opción de arranque exitoso de un sistema de emergencia está muy lejos de ser posible en el mundo real. REFERENCES American Society of Heating, Refrigerating and Air-Conditioning Engineers, Inc., Technical Committee 9.9 “Mission Critical Facilities, Technology Spaces and Electronic Equipment” http://tc99.ashraetcs.org/ Aperture Research Institute, “Data Center Professionals Turn to High-Density Computing as Major Boom Continues,” June 2007 http://www.aperture.com/about/aperture_research_institute.php Opengate Data Systems http://www.opengatedata.com/ Hitachi Data Systems http://www.hitachidatasystems.com/ Electric Research Power Institute (EPRI) http://www.epri.com/ The Uptime Institute http://www.uptimeinstitute.org/ Institute of Electrical and Electronics Engineers, Inc. (IEEE) http://www.ieee.org/ 14 ComAp Creative Engineering. http://www.comap.cz/ © ® TM 2015 Active Power, Inc. All rights reserved. WP-105-ES