Pérdida de Control por Incremento de Temperatura

Anuncio
Pérdida de Control por Incremento de Temperatura en Centros de Cómputo
Una revisión a los desafíos de enfriamiento de ambientes de
misión crítica de alta densidad de generación de calor
Documento 105
2128 W. Braker Lane, BK12
Austin, Texas 78758-4028
w w w. a c t i v e p o w e r. c o m
Objetivo
Este documento trata del impacto sobre los sistemas mecánicos en el evento de una falla de
energía en un medio de alta densidad de generación de calor, como ocurre en los centros de
cómputo de misión crítica. El documento proveerá una visión sobre las implicaciones de la
pérdida del enfriamiento del equipo crítico de IT y cuánto tiempo le toma al equipo entrar en
modo automático de apagado por alta temperatura.
2
Introducción
Las investigaciones realizadas en abril de 2007 por el Aperture Research Institute sugieren
que alrededor del 22.3% de las caídas repentinas de los centros de cómputo son causadas por
el recalentamiento de los servidores que entran en modo de autoprotección por temperatura.
Esto no es ficción ni está reservado a casos de centros de cómputo de ultra alta densidad,
como los que actualmente se encuentran en construcción. El apagado de servidores en forma
automática, como medida de autoprotección por sobre temperatura es de común ocurrencia
para centros de cómputo y cuartos de servidores de todos los tamaños y esto ocurre,
típicamente, durante un evento de corte de la energía comercial, en donde los UPS (Sistemas
Ininterrumpidos de Potencia) continúan alimentando de energía a los equipos de cómputo
pero el sistema de enfriamiento no funciona.
Dinámica del Sistema Mecánico
Los UPS están a cargo de alimentar a los servidores con energía regulada e ininterrumpida.
Desafortunadamente no es práctico alimentar los sistemas acondicionadores de aire del UPS
por algunas razones como son:
• Un sistema de enfriamiento típico de un centro de cómputo consume tanta o más
potencia que el sistema de servidores que alimenta el UPS.
• La característica que representa la carga de motores de las unidades condensadoras
y enfriadoras, que continuamente ciclan entre los estados de encendido y apagado,
representarían para el UPS una carga tipo escalón, que puede disparar al UPS y perder
la carga que tiene conectada.
• Como resultado de los dos puntos anteriores el UPS adicional o el sobredimensionamiento
de la existente para los equipos de IT implicaría un precio prohibitivo para esta solución.
Los Centros de Cómputo grandes típicamente tienen una planta en Standby que se acopla
al UPS y permite su operación continua durante los eventos en que la energía comercial falla
aún por varias horas o días. Cuando la planta está disponible el sistema de enfriamiento será
típicamente respaldado por esa fuente de energía. Sea que exista planta o no, el resultado
es similar, esto es: La carga de los servidores se mantiene en funcionamiento mediante el
UPS mientras que dura el corte de energía y el sistema de aire acondicionado estará fuera de
servicio hasta que la planta de emergencia esté disponible para alimentar la carga crítica de
todo el sistema. Una vez que la energía haya sido restaurada a los equipos acondicionadores
de aire, estos temporizarán sus arranques según el control del equipo y éste puede demorarse
hasta 15 minutos ya que el arranque será escalonado, unidad por unidad, para no recargar
la planta; esto es algo parecido a arrancar un carro desde su condición de cero km/h con el
cambio colocado en la posición de cuarta lo cual no es una buen idea. De hecho pueden
transcurrir entre 10 y 15 minutos desde que se normalizó la energía a las unidades de aire
acondicionado hasta que éstas inicien su ciclo de arranque. Esta operación se realiza para
evitar las caídas de voltaje intermitentes y para asegurarse que la planta esté realmente lista.
Dependiendo del número de unidades enfriadores será la demora para arrancar el sistema
ya que cada unidad deberá ser arrancada una por una, hasta que el sistema de enfriamiento
quede operando a plena carga.
3
Figura 1: Diagrama simplificado de causa efecto durante un corte de energía
comercial con soporte de una máquina convencional.
El proceso puede tomar entre 10 h 15 minutos dependiendo del tipo y tamaño del sistema;
todo esto ocurre mientras que los servidores están siendo alimentados y generando calor
sin que exista enfriamiento. Desafortunadamente un gabinete de servidores blade de 15 kW
puede llegar a su límite de capacidad térmica en un tiempo de 60 minutos.
Apagado Automático de Protección de Servidores
La necesidad de enfriamiento ha alcanzado un punto en donde ya no se contará en horas
ni en minutos el tiempo posible de operación sin enfriamiento, sino sólo en segundos. Un
servidor típico de montaje en rack ya incorpora dentro de sus características un sistema de
administración del aspecto térmico. Este sistema se asegura de que el servidor no sufra daños
permanentes en el evento de un rápido incremento de la temperatura.
El comité técnico 9.9 de ASHRAE (La sociedad de ingenieros de calor, refrigeración y aire
acondicionado) recomienda que la temperatura de entrada esté entre los 20 y los 25 grados
Celsius (68-.67 grados Fahrenheit) lo cual es respaldado por los vendedores de equipos y sus
cláusulas de garantía.
4
Figura 2: Especificaciones ambientales para equipos de centros de cómputo (Comité Técnico 9.9 de ASHRAE).
Las fluctuaciones de temperatura no deben ser mayores a 5 grados Celsius en un lapso de
60 minutos. Las fluctuaciones y exposición constante a temperaturas fuera de estos límites
degradarán la vida útil del equipo de IT; además, las investigaciones del instituto Uptime han
demostrado que cuando las temperaturas se salen de estos límites la rata de falla alcanza el
400% respecto a las condiciones normales de falla. La serie de puntos de temperatura sobre los
cuales se deben tomar acciones especiales varían de fabricante en fabricante. Sin embargo,
el punto de temperatura para la emisión del primer nivel de alarma esta predeterminado a
55 grados Celsius. El segundo nivel de límite crítico es de 65 grados Celsius. El servidor,
mediante su sistema operativo, nuevamente alertará al usuario y si no se toma acción alguna y
la temperatura se mantiene por encima de los 65 grados Celsius, durante 20 segundos o más,
entonces el sistema operativo iniciara un apagado automático que posiblemente conducirá a
la pérdida de la información que esté en proceso. Es importante anotar que la temperatura
medida dentro del servidor es sustancialmente mayor que la temperatura ambiente del recinto.
Figura 3: Representación gráfica simplificada del
apagado automático por temperatura
La información adquirida de los servidores en funcionamiento ha mostrado que típicamente la
temperatura interna de los servidores excede entre 30 y 35 grados Celsius a la temperatura
ambiente; sin embargo, la acumulación de polvo en los disipadores puede hacer que esta
diferencia sea aún mayor. Como regla general se puede concluir que una temperatura interna
en un servidor de 65 grados Celsius, en un data center bien diseñado, corresponde a una
temperatura ambiente en el centro de cómputo de unos 35 a 40 grados Celsius.
Figura 4: Ejemplo de la acumulación significativa
del polvo en el disipador de calor.
5
Los equipos de almacenamiento de la información tienen un umbral de temperatura menor
debido a sus partes móviles y especialmente a la rotación de los discos. Para el caso de
los equipos de almacenamiento, la investigación realizada por Hitachi Data Systems ha
demostrado que la degradación de la confiabilidad de los drivers es un desafío a largo plazo.
El estudio concluyó que las temperaturas que fluctúan en más de 5 grados Celsius causan una
desgasificación de los lubricantes de los motores de giro que conducen a un 15% de fallas en
los próximos 30 días. Según la mayoría de los estándares, las unidades de almacenamiento de
información son más críticos que los mismos servidores debido a su elevada rata de retención
de datos.
Figura 5: Confiabilidad de los drivers
(Hitachi Data Systems).
Figura 6: Ejemplo de un disco duro
De otro lado, el rango de tolerancia de temperatura para los equipo de red es algo mayor al
de los servidores debido a que su diseño contempla el uso en sitios remotos desatendidos, en
cuartos eléctricos y centros de cómputo acondicionados.
6
Incremento en la Temperatura de los Pasillos Fríos
Vale la pena observar que varios estudios sobre el ambiente óptimo de centros de cómputo
sugieren que la recomendación de ASHRAE TC 9.9, referente a los límites entre 20 y 25 grados
Celsius, pueden ser incrementados hasta los 30-35 grados Celsius. La mayor motivación para
esta sugerencia es obtener un ahorro significativo en la energía requerida por los equipos de
aire acondicionado para remover el calor de los equipos. La mayoría de los equipos servidores
están diseñados para operar a temperaturas entre 10 y 35 grados Celsius aunque ninguno de
los OEM de servidores ha avalado ningún rango de temperaturas que se salga de la banda ya
aceptada. La información colectada en este reporte soporta las recomendaciones de ASHRAE
TC 9.9 de conservar la banda entre 20 y 25 grados Celsius pero cualquier incremento sobre
esta banda reduciría significativamente el tiempo de reacción requerido durante un evento de
falla de energía y la subsiguiente caída del sistema de enfriamiento.
“Cuando la temperatura aumenta, la velocidad de las reacciones químicas también
aumentan. Los eventos de oxidación, de daños de alimentos se aceleran cuando
las condiciones de temperatura aumentan, si se compara con lo que ocurre en
las condiciones de menor temperatura. Como resultado de esta situación se
ha generalizado el concepto de que para muchas reacciones que ocurren a
temperatura ambiente, un incremento de 10 grados Celsius repercute en que las
ratas de reacción se incrementan en un 100%.”
Svante Arrhenius, Premio Nobel de química de 1903 y fundador de la ciencia físico química
Pérdida del Control de la Temperatura
Se han realizado varios estudios sobre hechos ocurridos en la vida real respecto al apagado
por sobre temperatura, iniciado en forma automática por los sistemas operativos durante un
corte de energía. Algunos factores que influyen en que el centro de cómputo o partes de él de
vean afectados, particularmente por la pérdida de enfriamiento, son los siguientes:
• Tamaño volumétrico del cuarto. Cuanto más alto sea el techo, mayor será el calor que
se elevará y se acumulará debajo del techo, en lugar de acumularse en los pasillos.
• Carga de trabajo del servidor. Si la carga de trabajo del servidor es baja también lo será
la producción de calor, lo cual extenderá el margen de tiempo.
• Ventiladores del CRAC (Aire Acondicionado del Centro de Cómputo) alimentados del
UPS. Si los ventiladores del CRAC continúan funcionando, aunque los serpentines no
remuevan el calor, el margen de tiempo se aumentará.
La gráfica siguiente muestra la inercia térmica de nueve puntos de referencias seleccionados
durante una investigación realizada por el instituto Uptime, Emerson Corp., misiones criticas
EYP y Active Power, Inc. cuyas tendencias se trazan en un gráfico que asocia a los nueve
puntos de referencia.
7
Figura 7: La matriz representa los puntos seleccionados. Muestra el aumento en temperatura
Celsius registrado durante el periodo anterior a la entrada del equipo de IT en modo
La columna de la derecha indica el incremento de temperatura
normalizado en grados Celsius por segundo para cada densidad de carga en vatios/Rack
en grados
de apagado por temperatura.
Figura 8: El gráfico es una representación visual de la matriz de la Figura 7. Representa el
incremento de temperatura por segundo en grados
Celsius según sean las densidades de carga.
La función de la línea representada corresponde a y= 0.00005X – 0.0381 y puede ser aplicada
en forma aproximada para medir la densidad en vatios / Rack para obtener una indicación
del tiempo para que un servidor dado llegue a emitir el comando automático de apagado, por
protección de temperatura, como resultado de la pérdida del sistema de enfriamiento.
8
Figura 9: El cuadro representa el incremento de la temperatura en función del tiempo
(Segundos) según sea la densidad de carga en los gabinetes (Vatios por Gabinete) en el evento
de una pérdida del enfriamiento. Se asume que la temperatura base es de 20 grados Celsius.
Modelo Computacional de Dinámica de Fluidos (CFD)
El modelaje mediante el CFD es utilizado extensamente en la industria de los Centros de
Cómputo para mostrar, en forma exacta, cómo se comportará un determinado fluido bajo
ciertas circunstancias (en este caso el aire en un data-center). Las temperaturas son mostradas
en una escala de colores en la cual el azul corresponde a los sitios más fríos y el rojo a los
más calientes. La Figura 10 muestra cómo se vería en operación un Centro de Cómputo que
ha sido correctamente diseñado.
Figura 10: Vista lateral cubriendo desde abajo del piso y teniendo en el centro al pasillo caliente.
9
Las Figuras 11 y 12 muestran lo que ocurre en un recinto lleno de gabinetes operando con una
carga de 5,000 vatios/gabinete. El tiempo de la toma corresponde a 120 segundos después
de haber perdido el enfriamiento
Figura 11: Vista de un sistema con carga de 5,000 vatios por gabinete,
después de
120 segundos de haber perdido el enfriamiento.
Figura 12: Vista de un sistema con carga de 5,000 vatios por gabinete,
después de
10
120 segundos de haber perdido el enfriamiento.
Las Figuras 13 y 14 muestran el mismo sistema de 5,000 vatios /gabinete después de
240 segundos de haber perdido el enfriamiento lo cual tiene un efecto devastador sobre la
temperatura ambiente del cuarto del Centro de Cómputo.
Figura 13: Sistema con carga de 5,000 vatios por gabinete después de 240 segundos de haber
perdido el enfriamiento
Figura 14: Sistema con carga de 5,000 vatios por gabinete después de 240 segundos de haber
perdido el enfriamiento
11
Cómo Reducir el Riesgo de Perdida de Control de Temperatura
en los Data Centers
El método más sencillo para reducir el riesgo de exponerse a un caso de pérdida del control de
temperatura en un Centro de Cómputo, por causa de un corte de energía, es reducir el tiempo
utilizado para la normalización del suministro de energía al sistema de enfriamiento. Una
manera de lograr esto es reducir el tiempo de espera del generador para recibir el comando
de arranque. Para evitar el fenómeno llamado arranque fantasma, cuando el arranque de
la planta es inicializado aunque la energía ya haya sido restaurada segundos después del
apagón inicial, el sistema de arranque debe ser configurado en forma adecuada. Según la
EPRI (Instituto de Investigación sobre la Energía Eléctrica), aproximadamente el 99% de los
apagones duran menos de 10 segundos; esto significa que la temporización debería estar
entre 5 y 10 segundos. En un sistema debidamente diseñado para sistemas de misión crítica
el generador diésel deberá arrancar y asumir la carga en un tiempo típico entre los 5 y 6
segundos después de recibir el comando de arranque.
La sincronización de grupos generadores múltiples en configuración de redundancia o
capacidad pueden extender aún más el tiempo para la toma de carga. Sin embargo, el uso
de controladores digitales para el arranque de plantas puede reducir y controlar el tiempo
de toma de carga con más exactitud de la que se logra en máquinas que operan solitarias.
Un controlador digital de generador provee un arranque más rápido ya que tiene en cuenta
el ángulo del cigüeñal en la medida en que la máquina se desacelera. El controlador digital,
conociendo el ángulo del cigüeñal en el momento del arranque, pude controlar la inyección
durante el próximo arranque y así puede disminuir los tiempos de arranque y tiempo de toma
de la carga.
Figura 15: Muestra de un controlador digital
para moto generadores
Diésel.
Figure 16: Diagrama simplificado de
causa
-
durante un corte de energía con un sistema de
arranque rápido de la planta de emergencia.
12
efecto
Mediante el cambio del rango combinado de tiempo de entre 100 y 120 segundos para
la normalización de un sistema de enfriamiento, que es lo especificado en los sistemas
convencionales de hoy, al nuevo rango de entre 10 y 15 segundos, se logra reducir
perceptiblemente la temperatura ambiente y por tanto el riesgo de pérdida de control del sistema
de enfriamiento en los centros de cómputo. Como ejemplo utilicemos la ecuación de la Figura
9 para un gabinete lleno de servidores con una carga de 10.000 vatios, el cual aumentará su
temperatura en 0.4619 grados Celsius por segundo durante un evento de pérdida del sistema
de enfriamiento. Si se utiliza el lapso de tiempo de 120 segundos para la normalización de la
energía al sistema de enfriamiento, la temperatura aumentará en 55 grados Celsius, lo cual
llevará al sistema muy por encima de los límites de temperatura admisibles. Sin embargo, si
se realiza el cálculo con el tiempo de 15 segundos, el incremento de temperatura se reducirá
a tan solo 6.9 grados Celsius lo que representa una mejora del 87% con respecto al caso
considerado inicialmente para la misma arquitectura térmica del centro se cómputo.
Como tema de discusión se podrá decir que este cambio se podría realizar sin problema aún en
las instalaciones existentes; sin embargo existe un punto aún más importante y es: ¿Por qué
existe la aceptación de que un tiempo en soporte en baterías de UPS de 15 minutos es lo más
recomendable? En la medida en que las densidades de carga continúen incrementándose,
más claro será que este tiempo de soporte está sobre dimensionado por varias razones:
1. Asumir que se requiere de 15 minutos para realizar un apagado ordenado del sistema
es completamente irrelevante ya que, por definición, un apagado del sistema después
de ese tiempo es intolerable para la mayoría de los negocios.
2. Una tolerancia de 15 minutos para realizar un segundo intento de arranque de la planta
no tiene sentido porque en muy raras circunstancia se da que un sistema de emergencia,
que no arranca dentro de los cinco o seis segundos, como es el caso del arranque de los
carros, si arrancará 15 minutos más tarde; lo más probable es que en ese nuevo intento
tampoco arrancará. Para resaltar una experiencia podemos mencionar que durante
el apagón ocurrido el 24 de julio del 2007 en 365 Main, Inc., en la localidad de San
Francisco, la planta falló en su arranque automático y solamente 37 minutos después
fue posible lograr un arranque manual.
3. El incremento de temperatura en un centro de cómputo durante un tiempo de soporte
por baterías del UPS, únicamente para la carga de sistemas, produciría un incremento
de temperatura en el ambiente que tendría efectos devastadores sobre los equipos
de cómputo. Aún, un Centro de cómputo con una carga tan baja como 2.000 vatios/
gabinete tendrá un incremento de temperatura de 55 grados Celsius, esto aplicando
la información de la Figura 9. Otro dato: existe el reporte de lo ocurrido en la empresa
Rackspace, Inc., el 12 de noviembre de 2007 cuando se produjo un apagón en su
Datacenter de Dallas. Durante el arranque de las unidades de enfriamiento se presentó
un rápido incremento de la temperatura que los llevó a apagar todas las cargas para
mitigar el incremento descontrolado de la temperatura ambiente del Centro de cómputo.
13
Conclusión
De acuerdo con los datos del mundo real y el modelado en laboratorio realizado para dar
soporte a este documento, se puede concluir que un arranque rápido que tome entre 10 y
15 segundos, y no el lapso de tiempo de entre 100 y 120 segundos común en arquitecturas
actuales, es la solución ideal para evitar el incremento descontrolado de la temperatura de
los centros de cómputo. Adicionalmente, un control más ajustado de las temperaturas del
ambiente del Centro de Cómputo evita la degradación a largo plazo de la confiabilidad de los
elementos giratorios y servidores causados por la expansión y contracción excesiva de las
partes móviles de los equipos.
La práctica comúnmente aplicada de tener un respaldo en baterías para el centro de cómputo
de 15 minutos está siendo desafiada por los nuevos estándares ya que se considera
completamente irrelevante el tema del apagado ordenado, ante la falla de energía, ya que
el efecto térmico hace imposible disponer del tiempo para este tipo de apagado y, además,
la posibilidad de una segunda opción de arranque exitoso de un sistema de emergencia está
muy lejos de ser posible en el mundo real.
REFERENCES
American Society of Heating, Refrigerating and Air-Conditioning Engineers, Inc., Technical
Committee 9.9 “Mission Critical Facilities, Technology Spaces and Electronic Equipment”
http://tc99.ashraetcs.org/
Aperture Research Institute, “Data Center Professionals Turn to High-Density Computing as
Major Boom Continues,” June 2007
http://www.aperture.com/about/aperture_research_institute.php
Opengate Data Systems
http://www.opengatedata.com/
Hitachi Data Systems
http://www.hitachidatasystems.com/
Electric Research Power Institute (EPRI)
http://www.epri.com/
The Uptime Institute
http://www.uptimeinstitute.org/
Institute of Electrical and Electronics Engineers, Inc. (IEEE)
http://www.ieee.org/
14
ComAp Creative Engineering. http://www.comap.cz/
© ® TM
2015 Active Power, Inc. All rights reserved.
WP-105-ES
Descargar