Ventiladores instalados al revés: cuando el flujo de aire va en la dirección equivocada

¿Te fue útil?

La mayoría de los incidentes térmicos no empiezan con humo. Empiezan con un gráfico que parece “un poco raro”, un chasis que se siente extrañamente caliente por el extremo equivocado y un puñado de errores de disco que todos quieren culpar a “un lote malo”.

Los ventiladores instalados al revés son un tipo especial de traición: el servidor aún arranca, las luces siguen parpadeando y el rack sigue zumbando—solo que el flujo de aire se está peleando a sí mismo como dos departamentos con hojas de ruta distintas.

Qué hacen realmente los ventiladores al revés (y por qué no es solo “menos refrigeración”)

Es tentador pensar que un ventilador al revés simplemente reduce el flujo de aire. Si fuera así de simple, todos “añadiríamos más ventiladores” y asunto arreglado. La fea verdad es que el flujo en la dirección equivocada cambia la presión, la recirculación y la trayectoria que los componentes esperan que tome el aire. En otras palabras: no solo pierdes refrigeración; creas una nueva arquitectura térmica que nadie diseñó.

El flujo de aire es un circuito, no una vibra

Los servidores y chasis de almacenamiento se construyen alrededor de un gradiente de presión: el lado de entrada con mayor presión estática, el de salida con menor presión, con los componentes colocados a lo largo del camino. Disipadores, deflectores, sellos de espuma y “conductos” existen para asegurar que el aire use su tiempo limitado en algo útil (pasar por superficies calientes) en lugar de tomar la ruta escénica (cortocircuitando por los bordes).

Invierte los ventiladores y se invierte el gradiente. Ahora el chasis intenta inhalar desde el pasillo caliente y exhalar hacia el pasillo frío, o peor, hace ambas cosas según qué módulos estén invertidos. Puedes crear fácilmente zonas donde el aire se estanca y otras donde se mueve rápido pero en la dirección equivocada—destruyendo las suposiciones que guiaron el diseño de la placa, la orientación de las aletas del disipador y la gestión de cables.

Los ventiladores al revés suelen parecer “bien” hasta que no lo están

Muchos sistemas tienen margen térmico suficiente como para parecer estables en reposo o con carga ligera. Luego llega una verificación, una reconstrucción, una compactación, una ventana de backup, un job de análisis sorpresa o una actualización del kernel que cambia el comportamiento de boost. Las temperaturas suben. El firmware aumenta las RPM de los ventiladores. Pero ahora esos RPM adicionales intensifican la recirculación y mezclan aire caliente y frío.

La firma clásica es esta: mayores velocidades de ventilador, temperaturas más altas, y estrangulamiento térmico o errores de disco que escalan con la carga. Eso no es “mal silicio”. Es un sistema que aprieta más un control que ha sido cableado al revés.

Broma corta #1: Un ventilador al revés es la única vez en que “ingeniería inversa” es literal y sigue siendo una mala idea.

Por qué el almacenamiento sufre primero

El almacenamiento es brutalmente honesto respecto a la temperatura. Discos, HBAs, controladores SSD y backplanes no se preocupan por tu optimismo. Los discos giratorios tienden a aumentar tasas de error y reducir rendimiento cuando se calientan; los SSD se estrangulan agresivamente; los backplanes pueden calentarse lo suficiente como para desestabilizar conectores con el tiempo. Si inviertes el flujo de aire en un chasis de almacenamiento, puede que no lo mates de inmediato—pero sí acortarás la vida útil y aumentarás fallos intermitentes que hacen perder tiempo a los operadores.

Cuando un ventilador está invertido, el sistema puede estar peor que con “un ventilador faltante”

Con un ventilador faltante, normalmente obtienes una reducción predecible del flujo y una alarma clara. Con un ventilador invertido, puedes crear un “soplador” local que roba aire de zonas vecinas, succionando el escape caliente de vuelta hacia la cavidad de entrada. Eso puede calentar los sensores de entrada, disparar una curva de ventilador más alta y entrar en una espiral ruidosa y caliente.

Datos interesantes y contexto histórico

Estos son los detalles que hacen el problema más predecible (y un poco más molesto), porque llevamos tiempo lidiando con la dirección del flujo de aire.

  1. El flujo de frente a atrás se volvió el estándar de facto en gran parte por los diseños de pasillo caliente/pasillo frío y la gestión de cables; el “frente” es donde están las personas y donde se intercambian piezas.
  2. El equipo de telecomunicaciones históricamente usó direcciones de flujo mixtas (frente a atrás, lado a lado, incluso de abajo hacia arriba) según las restricciones de la central, lo que hoy todavía persigue racks con proveedores mixtos.
  3. Existen SKUs de “flujo inverso” a propósito para algunos switches de red (comunes en ciertos diseños de rack), lo que significa que dos dispositivos visualmente similares pueden querer direcciones opuestas.
  4. La dirección del ventilador suele indicarse con flechas moldeadas en la carcasa del ventilador—flechas plásticas diminutas que desaparecen bajo la suciedad y el pánico.
  5. Muchos módulos de ventilador tienen llaves mecánicas, pero no todos; algunos chasis aceptan una bandeja de ventiladores en cualquier dirección porque el conector encaja de ambas formas. Eso no es una característica. Es una trampa.
  6. La presión estática importa más que el CFM en servidores densos; disipadores de alta finura y filtros necesitan presión, no solo números de flujo en aire abierto.
  7. Los centros de datos antiguos solían funcionar sin contención, confiando en el volumen masivo de aire frío; los objetivos modernos de eficiencia redujeron esa “indulgencia gratuita”, haciendo que el flujo equivocado sea más castigador.
  8. Las guías de temperatura de discos se endurecieron con el tiempo cuando los fabricantes correlacionaron temperaturas sostenidas altas con tasas de fallo; los operadores aprendieron por las malas que “está dentro de especificación” no es un salvavidas.
  9. Los sensores térmicos se acercaron a los puntos calientes a lo largo de las generaciones (CPU, VRM, DIMM, entrada, salida), aumentando la sensibilidad al mal comportamiento del flujo de aire—y aumentando la falsa confianza cuando solo se vigila el sensor “incorrecto”.

Guía rápida de diagnóstico (primero/segundo/tercero)

Si sospechas de ventiladores al revés, no empieces ajustando curvas de ventilador. Así es como conviertes una falla física en una larga y embarazosa hoja de cálculo. Comienza con comprobaciones rápidas que revelen si tu flujo de aire es físicamente coherente.

Primero: confirma la dirección del flujo y la presión en el mundo real

  • Siente el flujo de aire en los extremos del chasis (la entrada debería ser el lado frío, la salida el lado caliente). Si la salida se siente fría, algo va mal o estás en el pasillo equivocado.
  • Usa una tira de papel o una cinta cerca del frontal y de las rejillas traseras para ver la dirección. Lo de baja tecnología vence a las suposiciones.
  • Comprueba las flechas y los números de pieza del cajetín de ventiladores con el modelo del chasis. No confíes en “encaja”.
  • Busca paneles ciegos y deflectores. Los cortes en los paneles pueden crear recirculación que simula ventiladores invertidos.

Segundo: verifica sensores y respuesta de control

  • Compara temperaturas de entrada y salida. En un sistema sano, la salida debería estar más caliente que la entrada bajo carga.
  • Revisa RPM de ventiladores vs tendencia de temperatura. Si los ventiladores suben de revoluciones pero las temperaturas no mejoran, probablemente el camino del flujo esté roto.
  • Busca puntos calientes localizados (VRM, DIMM, backplane, HBA). El flujo invertido a menudo “enfría” CPUs pero cocina todo lo demás, o viceversa.

Tercero: confirma las consecuencias a nivel de componente

  • Temperaturas de discos y contadores SMART te indican si la ruta de almacenamiento está sufriendo.
  • Indicadores de estrangulamiento térmico (CPU, SSD) confirman impacto en el rendimiento.
  • Registros de eventos (BMC SEL, logs del kernel) muestran sobretemperaturas y fallos de ventilador persistentes.

Pasa de la realidad física a los sensores y luego a las consecuencias. El orden inverso hace perder tiempo porque estarás depurando síntomas en lugar del flujo de aire.

Tareas prácticas: comandos, salidas, decisiones (12+)

Estas tareas están orientadas a servidores Linux con BMC/IPMI habituales, discos NVMe, SATA/SAS y pilas de almacenamiento comunes. El punto no es la herramienta exacta; es el patrón: confirmar sensores, confirmar comportamiento, confirmar impacto y luego arreglar la causa física.

Task 1: Read IPMI sensor data (temperatures, fans)

cr0x@server:~$ ipmitool sensor
Inlet Temp       | 23.000     | degrees C  | ok
Exhaust Temp     | 28.000     | degrees C  | ok
CPU1 Temp        | 62.000     | degrees C  | ok
FAN1             | 12400.000  | RPM        | ok
FAN2             | 12100.000  | RPM        | ok
FAN3             | 3000.000   | RPM        | ok

Qué significa: Un ventilador es mucho más lento que los otros. Si esto es una bandeja redundante, podrías tener un ventilador fallido o un ventilador girando contra la presión porque está invertido/obstruido.

Decisión: Si un ventilador es “ok” pero dramáticamente diferente, inspecciona físicamente esa bahía primero; no asumas que el firmware lo está “balanceando”.

Task 2: Pull the BMC system event log (SEL) for overtemp/fan events

cr0x@server:~$ ipmitool sel elist | tail -n 12
1a2b | 01/22/2026 | 10:13:05 | Temperature #0x01 | Upper Non-critical going high | Asserted
1a2c | 01/22/2026 | 10:13:07 | Fan #0x03 | Lower Critical going low | Asserted
1a2d | 01/22/2026 | 10:13:40 | Temperature #0x01 | Upper Non-critical going high | Deasserted

Qué significa: La temperatura cruzó brevemente un umbral y un ventilador en específico bajó. Una falla de flujo intermitente (bandeja suelta, obstrucción, módulo invertido) puede verse así.

Decisión: Si las alarmas térmicas correlacionan con anomalías de ventilador, deja de ajustar y comienza a revisar el asiento de la bandeja, orientación del ventilador y deflectores.

Task 3: Compare inlet/exhaust delta under load

cr0x@server:~$ ipmitool sensor | egrep -i 'Inlet Temp|Exhaust Temp|CPU1 Temp'
Inlet Temp       | 24.000     | degrees C  | ok
Exhaust Temp     | 25.000     | degrees C  | ok
CPU1 Temp        | 78.000     | degrees C  | ok

Qué significa: La CPU está caliente, pero la salida apenas más caliente que la entrada. Eso sugiere que el flujo no está llevando el calor fuera (recirculación, bypass, ventiladores invertidos, deflectores ausentes).

Decisión: Trata “bajo delta de salida con temperaturas altas en componentes” como una bandera roja para fallo del camino de flujo.

Task 4: Verify CPU thermal throttling and frequency behavior

cr0x@server:~$ sudo turbostat --Summary --quiet --show "PkgTmp,Bzy_MHz,Busy%" --interval 5 --num_iterations 3
PkgTmp  Bzy_MHz  Busy%
84      2197     62.31
92      1804     64.02
95      1699     61.88

Qué significa: La temperatura del paquete sube mientras la frecuencia efectiva baja. Eso es estrangulamiento clásico.

Decisión: Si el estrangulamiento aparece después de un cambio hardware o una visita de servicio, sospecha cambios en la dirección/orientación del flujo antes de culpar regresiones de código.

Task 5: Check NVMe drive temperatures and thermal events

cr0x@server:~$ sudo nvme smart-log /dev/nvme0n1
temperature                         : 78 C
available_spare                     : 100%
percentage_used                     : 2%
critical_warning                    : 0x00
thermal_management_t1_trans_count   : 12
thermal_management_t2_trans_count   : 3

Qué significa: El NVMe está caliente y ha entrado en gestión térmica varias veces.

Decisión: Si los contadores de transición térmica NVMe aumentan tras un intercambio de bandeja de ventiladores, trátalo como una mala configuración de flujo/presión hasta que se demuestre lo contrario.

Task 6: Check SATA/SAS disk temperatures and health

cr0x@server:~$ sudo smartctl -a /dev/sda | egrep -i 'Temperature_Celsius|Reallocated_Sector_Ct|Reported_Uncorrect'
194 Temperature_Celsius     0x0022   048   040   000    Old_age   Always       -       52
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       2

Qué significa: El disco opera a 52°C y tiene algunos reportes sin corregir. El calor no siempre causa errores directamente, pero le encanta hacer ruidosas las situaciones marginales.

Decisión: Si varios discos tienden a calentarse juntos, mira el flujo del chasis y la refrigeración del backplane, no los discos individuales.

Task 7: Check ZFS pool status for heat-correlated errors

cr0x@server:~$ sudo zpool status -v
  pool: tank
 state: DEGRADED
status: One or more devices has experienced an error resulting in data corruption.
action: Restore the file in question if possible.
  scan: resilvered 2.14T in 03:21:44 with 0 errors on Thu Jan 22 09:58:12 2026
config:

        NAME                        STATE     READ WRITE CKSUM
        tank                        DEGRADED     0     0     0
          raidz2-0                  DEGRADED     0     0     0
            sda                     ONLINE       0     0     0
            sdb                     ONLINE       0     0     0
            sdc                     ONLINE       0     0     3
            sdd                     ONLINE       0     0     0
            sde                     ONLINE       0     0     0
            sdf                     ONLINE       0     0     0

errors: Permanent errors have been detected in the following files:
        tank/data/backup-2026-01-21.tar

Qué significa: Errores de suma de verificación en un disco específico. El calor puede empujar un enlace marginal (expansor SAS, conector del backplane) más allá del punto crítico, especialmente si el flujo está invertido y el backplane se calienta.

Decisión: No RMAes todo de inmediato. Arregla la refrigeración primero, luego vuelve a probar y comprueba si los errores cesan.

Task 8: Check kernel logs for thermal and PCIe link issues

cr0x@server:~$ sudo dmesg -T | egrep -i 'thermal|thrott|overheat|pcie.*error|nvme.*reset' | tail -n 20
[Tue Jan 22 10:12:58 2026] CPU0: Core temperature above threshold, cpu clock throttled
[Tue Jan 22 10:13:02 2026] nvme nvme0: I/O 123 QID 5 timeout, reset controller
[Tue Jan 22 10:13:09 2026] pcieport 0000:00:1c.0: AER: Corrected error received: id=00e0

Qué significa: Estrangulamiento térmico más reinicios NVMe y errores PCIe corregidos. El calor puede desestabilizar la integridad de señal marginal, especialmente en chasis densos donde el flujo es direccional por diseño.

Decisión: Cuando veas térmico + ruido en PCIe/NVMe juntos, trata la refrigeración como sospechosa prioritaria, no como una ocurrencia tardía.

Task 9: Inspect and log fan control mode (common on many BMCs)

cr0x@server:~$ sudo ipmitool raw 0x30 0x45 0x00
 01

Qué significa: Específico del proveedor, pero a menudo “01” indica control automático de ventiladores. Si alguien forzó modo manual, el sistema podría no responder a una falla real de flujo.

Decisión: Asegura que el control de ventiladores esté en un modo sensato antes de interpretar el comportamiento térmico. Pero no uses el modo de ventilador como parche para un flujo invertido.

Task 10: Check for missing blanking panels and open bays (rack-level airflow integrity)

cr0x@server:~$ sudo dmidecode -t chassis | egrep -i 'Manufacturer|Type|Serial'
Manufacturer: AcmeRack
Type: Rack Mount Chassis
Serial Number: RACK-CHASSIS-88721

Qué significa: Esto es solo identificación, pero es parte del trabajo disciplinado: documentas el tipo de chasis y luego verificas que tienes los módulos de ventilador y paneles ciegos correctos para ese chasis.

Decisión: Si no puedes identificar de forma inequívoca el chasis y los números de pieza de la bandeja de ventiladores, estás adivinando. Deja de adivinar.

Task 11: Use lm-sensors to cross-check on-host sensors vs BMC

cr0x@server:~$ sudo sensors
coretemp-isa-0000
Adapter: ISA adapter
Package id 0: 92.0°C  (high = 90.0°C, crit = 100.0°C)
Core 0:       90.0°C  (high = 90.0°C, crit = 100.0°C)

nct6798-isa-0290
Adapter: ISA adapter
fan1:        12150 RPM
fan2:        11980 RPM
temp1:        25.0°C
temp2:        62.0°C

Qué significa: Los sensores en el host confirman que la CPU está por encima del umbral “alto” mientras que “temp1” (a menudo cerca de la entrada/placa) está baja. Esa separación puede ocurrir con flujo invertido o bypass donde el sensor de entrada permanece frío pero los puntos calientes se cocinan.

Decisión: Siempre compara sensores BMC vs OS. Si discrepan mucho, puedes estar midiendo en el lugar equivocado—o el flujo está evitando los puntos calientes.

Task 12: Check power and performance throttling evidence

cr0x@server:~$ sudo journalctl -k --since "1 hour ago" | egrep -i 'throttle|thermal|powercap' | tail -n 30
Jan 22 10:12:58 server kernel: CPU0: Core temperature above threshold, cpu clock throttled
Jan 22 10:13:01 server kernel: thermal thermal_zone0: critical temperature reached(105 C), shutting down

Qué significa: Estás coqueteando con un apagado automático. Si tuviste suerte y aún no se apagó, no sigas “probando”.

Decisión: Reduce la carga inmediatamente y arregla el flujo. Los apagados térmicos bajo carga raramente son “aleatorios”. Son la física cobrando su deuda.

Task 13: Quick check for rack inlet conditions (environmental context)

cr0x@server:~$ sudo ipmitool sensor | egrep -i 'Inlet Temp|Exhaust Temp'
Inlet Temp       | 31.000     | degrees C  | ok
Exhaust Temp     | 33.000     | degrees C  | ok

Qué significa: La entrada ya está caliente. Incluso un flujo correcto puede tener dificultades. Si tus ventiladores están invertidos, en efecto estás alimentando el chasis con el peor aire del rack.

Decisión: Si la entrada es alta, prioriza la salud del flujo del centro de datos (contención, posición de baldosas, setpoints CRAC) y asegúrate de que la dirección de flujo del chasis coincida con el diseño del pasillo.

Task 14: Identify fan module part numbers (inventory discipline)

cr0x@server:~$ sudo dmidecode -t baseboard | egrep -i 'Manufacturer|Product Name|Serial'
Manufacturer: ExampleSystems
Product Name: X11DPH-T
Serial Number: BSN-7C18A11

Qué significa: Puedes vincular la plataforma a BOMs y piezas de servicio conocidas. Esto evita errores de “la bandeja encaja así que debe ser correcta”.

Decisión: Usa la ID de plataforma para validar la dirección/número de pieza de la bandeja de ventiladores. Si compras ventiladores “equivalentes”, considéralo un cambio de compatibilidad.

Tres micro-historias del mundo corporativo

Micro-historia #1: El incidente causado por una suposición equivocada

Tenían un rack mixto: varios nodos de cómputo de propósito general y un par de switches top-of-rack que soportaban flujo estándar y flujo inverso. Alguien pidió módulos de ventilador de reemplazo para los switches. La factura decía “compatible”. Llegaron los módulos. Encajaron. Los LEDs parecían normales. Nadie preguntó en qué dirección “compatible” significaba.

Una semana después, el sistema de monitorización comenzó a pitar sobre el aumento de temperaturas de entrada en los nodos de cómputo debajo del switch. El de guardia hizo lo habitual: comprobó setpoints CRAC, verificó que las baldosas no estuvieran bloqueadas, y luego silenció la alerta porque “es verano y todo está más caliente”. Al día siguiente, uno de los servidores de almacenamiento empezó a registrar timeouts NVMe durante la carga pico. El rendimiento bajó. El equipo de aplicaciones abrió tickets. Todos se miraron con recelo.

Facilities insistió en que la temperatura del pasillo frío estaba dentro del objetivo. El equipo de cómputo insistió en que los servidores “estaban diseñados para 35°C de entrada”. El equipo de almacenamiento señaló los temperaturas SMART y dijo, correctamente, que los discos no se preocupan por la comodidad de nadie. El problema real fue simple: el switch, ahora con módulos de ventilador de flujo inverso, soplaba escape caliente en el pasillo frío y succionaba aire del pasillo frío al caliente. Era una pequeña resistencia térmica con una colocación perfecta para daño máximo.

Una vez que alguien comprobó físicamente el flujo en el switch y vio la dirección equivocada, la solución tomó minutos: módulos correctos, confirmar flechas, volver a asentar. Las temperaturas se normalizaron. El informe del incidente fue corto y doloroso: la suposición equivocada fue “si encaja, está bien”. Esa suposición debe ir a la basura.

Micro-historia #2: La optimización que salió mal

Otra compañía tenía una flota de almacenamiento que siempre sonaba fuerte. Siempre fuerte. Alguien decidió “optimizar acústica y energía” forzando una curva de ventilador más plana vía ajustes BMC. La idea: reducir RPM a temperaturas moderadas, dejar que el sistema coaste y sólo aumentar en umbrales más altos. Parecía bien en laboratorio. Incluso en producción funcionó por un tiempo.

Luego, un técnico de campo reemplazó un módulo de ventilador fallido en un chasis. El módulo de reemplazo era correcto para el modelo, pero el técnico lo instaló girado 180 grados. Encajó. El conector se enganchó. El ventilador giró. Nadie recibió una alarma porque las RPM estaban presentes y dentro del rango esperado. El sistema ahora funcionaba con un ventilador peleando contra los otros, creando una distorsión local de presión justo donde el backplane necesitaba flujo estable.

La curva “optimizada” empeoró la situación. Porque el sistema estaba intencionadamente con menos margen, no había suficiente presión para superar el caos creado por el módulo invertido. Las temperaturas subieron, pero no lo bastante rápido como para disparar el umbral de rampa más alto. Los discos funcionaron calientes durante horas. Finalmente, una reconstrucción comenzó tras un reemplazo rutinario de disco, la carga aumentó y el chasis cruzó a una zona donde los SSD se estrangularon y los HDDs empezaron a registrar errores medios.

Revirtieron la curva de ventilador y reemplazaron el módulo invertido. La lección no fue “nunca ajustes curvas de ventilador”. La lección fue: no elimines margen a menos que tu proceso de instalación hardware sea aburridamente confiable. Cuando la capa física es desordenada, la optimización es sólo una forma más elegante de fallar.

Micro-historia #3: La práctica aburrida pero correcta que salvó el día

Hay un equipo con el que me gustó trabajar porque son alérgicos a las heroísmos. Su regla: cada vez que se abre un chasis, hay un cierre de dos personas: uno hace el trabajo, el otro verifica dirección del flujo, deflectores y paneles ciegos. No es glamoroso. También es la razón por la que duermen tranquilos.

Durante una expansión planificada, instalaron una tanda de nodos de almacenamiento idénticos. Un nodo, tras burn-in, mostró comportamiento extraño: la temperatura de salida estaba sospechosamente cerca de la de entrada, pero la CPU estaba más caliente que sus pares. Su checklist obligó a una inspección física antes de cualquier “tuning de software”. La segunda persona notó algo sutil: se había dejado fuera un deflector de espuma y un módulo de ventilador no estaba completamente asentado. No estaba invertido, solo mal enganchado, permitiendo que el aire tomara un atajo alrededor de las partes calientes.

Arreglaron el asentamiento e instalaron el deflector correcto. El perfil térmico del nodo volvió a alinearse con el resto de la flota. Ningún incidente. Ningún pager. Ningún drama. Lo registraron como un casi fallo y actualizaron su checklist de staging con una referencia fotográfica para ese deflector específico.

Esa es la práctica aburrida: verificar la ruta física del flujo como parte del control de cambios. No hace un postmortem emocionante. Ese es el punto.

Modelos de flujo de aire que importan en racks y chasis

1) Frente-a-atrás vs atrás-a-frente: elige uno por diseño de pasillo

En la mayoría de centros de datos, el pasillo frío está al frente de los racks y el pasillo caliente al posterior. Los servidores esperan tomar aire frío por delante y expulsar aire caliente por detrás. Si despliegas un dispositivo atrás-a-frente en ese diseño, peleará con la sala. Aun así podrías “enfriarlo” si la sala está sobreprovisionada, pero calentarás el pasillo equivocado y envenenarás la entrada de todo lo cercano.

Mezclar direcciones de flujo dentro de un mismo rack es posible, pero requiere diseño deliberado: contención, conductos o segregación. “Posible” no es “aceptable”. A menos que disfrutes explicarle a finanzas por qué la factura de refrigeración subió mientras la disponibilidad cayó.

2) Presión estática y por qué le importa a tu chasis

Disipadores densos, jaulas de discos y filtros necesitan presión. Un ventilador girando en sentido contrario no solo mueve menos aire; puede desbaratar zonas de presión que empujan el aire por áreas restrictivas. Por eso ves resultados extraños: temperaturas de CPU parecen correctas (porque un ventilador cercano sopla sobre la CPU), pero VRMs y DIMMs se calientan (porque el conducto previsto colapsó).

3) Recirculación: el asesino silencioso

La recirculación ocurre cuando el aire de escape vuelve a la entrada sin enfriarse. Ocurre a nivel de rack (el aire caliente se curva por el lateral o la parte superior) y dentro del chasis (el aire caliente hace un lazo alrededor de una pared de ventiladores por huecos, paneles faltantes o ventiladores invertidos).

Una buena forma de pensarlo: si tu sistema está reciclando su propio escape, estás operando un calefactor que escribe datos.

Broma corta #2: La recirculación es como reutilizar posos de café—técnicamente haces café, pero nadie queda contento.

4) Bucles de control: por qué las RPM pueden engañarte

El control de ventiladores es un bucle de realimentación: sensores impulsan PWM, los ventiladores cambian flujo, el flujo cambia temperaturas, las temperaturas cambian lecturas de sensores. Invierte el flujo o rompe el camino y el bucle se vuelve inestable. Verás oscilaciones: ventiladores suben y bajan, las temperaturas pican y bajan, y la máquina suena como si intentara despegar. Eso no es personalidad; es un sistema de control respondiendo a un mundo que ya no coincide con su modelo.

5) Suposiciones de flujo específicas de almacenamiento

Los chasis de almacenamiento suelen asumir que el aire entra por la zona de bahías de discos, fluye sobre los cuerpos de los discos, luego sobre backplanes y controladores y sale. Si inviertes eso, puedes estar enfriando primero los controladores mientras privas a los discos, o tirando aire caliente de la zona de controladores hacia la bahía de discos. En cualquier caso, terminas con los discos como sumidero térmico de todo lo demás, lo cual no es deseable para la fiabilidad a largo plazo.

Una cita (idea parafraseada)

Gene Kranz (idea parafraseada): Sé duro y competente—actúa según lo que el sistema te dice, no según lo que esperas que sea verdad.

Errores comunes: síntoma → causa raíz → solución

Esta sección es intencionalmente específica. Son patrones que puedes comparar con tu propio lío.

1) Ventiladores a altas RPM y las temperaturas siguen subiendo

Síntoma: Las RPM de los ventiladores llegan cerca del máximo; las temperaturas de CPU/DIMM/VRM siguen subiendo; el delta de salida se mantiene bajo.

Causa raíz: El camino del flujo está roto: módulo de ventilador invertido, deflector faltante, cubiertas de ranuras PCI abiertas o cortocircuito alrededor de la pared de ventiladores.

Solución: Inspección física: verifica orientación de la bandeja (flechas), que todos los módulos coincidan con el número de pieza, que los deflectores estén instalados y que los paneles ciegos estén presentes. Solo después valida modo de control de ventiladores y colocación de sensores.

2) La temperatura de entrada parece normal, pero VRMs y DIMMs se calientan

Síntoma: Sensores de “entrada” y “ambiente” leen bien; la CPU puede estar bien; sensores VRM/DIMM alcanzan umbrales de advertencia.

Causa raíz: Bypass de aire dentro del chasis: ventilador invertido en una zona, espuma de conducto faltante, un manojo de cables bloqueando un conducto o una bandeja de ventiladores no asentada completamente.

Solución: Abre el chasis (en ventana de mantenimiento): revisa deflectores, busca huecos alrededor de la pared de ventiladores, verifica que el cableado no bloquee el conducto. Reasienta las bandejas. Confirma tras la corrección comprobando el delta de salida bajo carga.

3) Discos se calientan tras una visita de servicio “rutinaria”

Síntoma: Temperaturas de discos suben 5–15°C sobre la línea base de la flota; aparecen errores SMART; las reconstrucciones tardan más.

Causa raíz: Módulo de ventilador intercambiado por variante de flujo equivocada, o panel/obturador de bahía faltante, provocando que el aire salte sobre los cuerpos de los discos.

Solución: Verifica SKUs de ventiladores correctos; reinstala paneles ciegos de discos; asegúrate de que el frontal/filtro esté instalado correctamente. Compara temperaturas de discos entre bahías—si solo una columna está caliente, sospecha obstrucción localizada o ventilador invertido cerca de esa zona.

4) Comportamiento “intercambiado” del pasillo caliente/frío del rack

Síntoma: El pasillo frío se siente más cálido de lo usual; el pasillo caliente se percibe mezclado; racks vecinos muestran temperaturas de entrada más altas.

Causa raíz: Un único dispositivo de flujo inverso (switch o appliance) instalado en un pasillo con diseño estándar, empujando escape al pasillo frío.

Solución: Mueve el dispositivo al diseño de rack apropiado o reemplázalo por la variante de flujo correcta. Añade etiquetado claro en las caras de los dispositivos: “AIRFLOW: FRONT->BACK” o “BACK->FRONT”.

5) Alarmas térmicas ocurren solo por la noche / durante jobs por lotes

Síntoma: El día parece bien; los jobs nocturnos disparan sobretemp; los ventiladores gritan; el rendimiento se desploma.

Causa raíz: Refrigeración marginal debida a ventilador invertido o deflector faltante; la carga lo empuja sobre el límite cuando la utilización sube.

Solución: No reprogrames el job como “arreglo”. Corrige la falla de flujo y luego vuelve a ejecutar la carga. Considera añadir alertas de margen térmico basadas en tendencias, no solo en umbrales puntuales.

6) Reemplazo de ventilador “arregla” el ruido pero no el problema

Síntoma: Reemplazas un ventilador ruidoso; el sistema sigue caliente; el ruido regresa.

Causa raíz: El ruido era el sistema compensando problemas del camino de flujo. Reemplazar un ventilador restaura tu atención, no tu física.

Solución: Revisa toda la orientación de la pared de ventiladores y el sellado. Si un módulo está invertido, el resto correrá más duro y más fuerte.

Listas de verificación / plan paso a paso

Plan paso a paso para un incidente sospechoso de ventilador al revés

  1. Estabiliza al paciente: reduce la carga, pausa reconstrucciones/scrubs, mueve tráfico si es posible. El daño térmico es acumulativo y no lineal.
  2. Confirma la orientación del pasillo: identifica pasillo frío y pasillo caliente para el rack. No asumas; las etiquetas mienten.
  3. Chequeo físico de flujo: verifica dirección de entrada/salida en los extremos del chasis usando una cinta/tirita y tu mano. Si la dirección contradice lo esperado, detente.
  4. Inspecciona módulos de ventilador: comprueba flechas moldeadas, etiquetas de número de pieza y orientación. Verifica que todos los módulos coincidan y estén completamente asentados.
  5. Revisa deflectores y paneles ciegos: paneles de bahía, cubiertas de ranuras PCIe, conductos internos, sellos de espuma. La “mierda plástica” faltante suele ser la causa raíz.
  6. Registra sensores antes y después: captura temperaturas de entrada/salida/CPU/VRM/DIMM y RPM de ventiladores. Quieres evidencia antes/después, no impresiones.
  7. Restaura control automático: asegura que el control de ventiladores del BMC esté en un modo sensato (típicamente automático) a menos que tengas una razón documentada.
  8. Valida bajo carga: ejecuta una carga controlada y confirma que el delta de salida y las temperaturas de componentes se estabilizan. No declares victoria en reposo.
  9. Vigila discos y PCIe: verifica que los contadores térmicos NVMe dejen de aumentar rápidamente; revisa dmesg por reinicios; revisa temperaturas SMART.
  10. Cierra el ciclo: actualiza el runbook con fotos de la orientación correcta del ventilador, registra números de pieza y añade un paso de validación térmica post-mantenimiento.

Lista de prevención para instalaciones y visitas de servicio

  • Etiqueta la dirección del flujo en el exterior del chasis (frontal y trasera). Haz que sea imposible de ignorar.
  • Mantén una lista de números de pieza aprobados por modelo de chasis, incluidas variantes de dirección de flujo.
  • Requiere verificación por una segunda persona tras cualquier reemplazo de bandeja de ventiladores o apertura de chasis.
  • Mantén paneles ciegos y tapones de bahía en stock; la falta de estos es una falla recurrente de “lo dejamos para después”.
  • Después del trabajo, ejecuta una prueba de carga de 10–15 minutos y captura delta entrada/salida más sensores de puntos calientes.
  • Establece temperaturas base de discos por modelo en tu monitorización; alerta sobre desviaciones, no solo valores absolutos.
  • Audita racks por dispositivos con flujo mixto trimestralmente, especialmente después de refrescos de red.

Preguntas frecuentes

1) ¿Cómo puedo saber si un ventilador está instalado al revés sin abrir el chasis?

Comprueba la dirección del flujo en las rejillas de entrada y salida con una tira de papel/cinta y luego compara temperaturas de entrada y salida bajo carga. Si la salida no está más caliente, sospecha de un camino de flujo roto.

2) ¿Los servidores no tienen protecciones que prevengan daños?

Tienen protecciones que evitan catástrofes inmediatas: estrangulamiento y apagado. No previenen degradación del rendimiento, aumento de tasas de error o desgaste a largo plazo por temperaturas sostenidas altas.

3) ¿Por qué el sistema informa “ventilador OK” si el ventilador está al revés?

Muchos sistemas solo validan RPM y presencia eléctrica. Un ventilador al revés puede girar a las RPM esperadas mientras mueve aire en la dirección equivocada o lucha contra la presión del sistema.

4) ¿Un solo ventilador invertido puede realmente causar errores en discos?

Sí, especialmente en almacenamiento denso donde la refrigeración está ductada. Un módulo invertido puede distorsionar la presión, crear puntos calientes cerca de backplanes y elevar temperaturas de discos lo suficiente como para aumentar reintentos y timeouts.

5) ¿El flujo atrás-a-frente alguna vez es correcto?

Absolutamente. Algunos equipos de red y racks especializados están diseñados para ello. La regla no es “frente-a-atrás siempre”, es “haz coincidir el flujo del dispositivo con el diseño de la sala y del rack, de forma consistente”.

6) ¿Debería compensar aumentando RPM o cambiando curvas de ventilador?

No como solución primaria. Puedes aumentar velocidades temporalmente para ganar tiempo, pero si la dirección/ruta del flujo es incorrecta, pagarás más ruido y energía mientras sigues recalentando los componentes equivocados.

7) ¿Cuál es el mejor sensor para alertar sobre este problema?

Usa una combinación: temperatura de entrada, temperatura de salida y al menos un punto caliente (package CPU, VRM, DIMM o temperaturas de backplane/discos). Alerta por deltas y tendencias anómalas, no solo por un umbral único.

8) ¿Cómo evito mezclar direcciones de flujo en un rack durante el crecimiento?

Inventaría la dirección de flujo como atributo de primera clase en el CMDB o en el inventario de activos, etiqueta físicamente los dispositivos y exige verificación de flujo en las revisiones del elevación de rack.

9) ¿Qué pasa si mi rack no tiene un claro diseño de pasillo caliente/frío?

Entonces estás viviendo de suerte térmica prestada. Estandariza la dirección de flujo por rack y añade contención o al menos paneles ciegos y disciplina de cableado. Si no, los ventiladores invertidos serán solo uno de tus problemas.

10) ¿Son siempre fiables las flechas moldeadas de flujo en los ventiladores?

Usualmente sí, pero no confíes en una sola pista. Verifica con flechas y con el flujo real en las rejillas del chasis. Si las flechas y la realidad discrepan, confía en la realidad e investiga un posible desajuste de pieza.

Conclusión: próximos pasos que realmente puedes hacer

Los ventiladores instalados al revés no son un caso raro. Son un resultado predecible de piezas hot‑swap, SKUs mixtos de flujo y personas trabajando rápido en salas ruidosas. La solución no es “capacitar más a la gente”. La solución es hacer que la instalación correcta sea difícil de equivocarse y que la instalación equivocada sea fácil de detectar.

Haz esto a continuación:

  1. Añade etiquetas de dirección de flujo en cada cara y parte trasera de los dispositivos que importan (especialmente switches y almacenamiento).
  2. Actualiza el runbook con una validación térmica post-mantenimiento: registra delta entrada/salida, RPM de ventiladores y temperaturas de discos bajo una prueba corta de carga.
  3. Exige corrección por número de pieza para módulos y bandejas de ventiladores. “Compatible” no es una especificación.
  4. Alerta sobre anomalías (delta de salida demasiado bajo, temperaturas de discos desviándose de la base, transiciones térmicas NVMe en aumento) para detectar esto antes de que sea incidente.
  5. Mantén paneles ciegos y deflectores en stock y trata la falta de ellos como un riesgo serio, porque lo es.

Si tomas un solo consejo categórico: no depures física con perillas de software. Cuando el flujo de aire va por el camino equivocado, la vía más corta a la fiabilidad es la literal: arregla la dirección.

← Anterior
CSS para contenido Markdown: valores predeterminados sensatos que no rompen producción
Siguiente →
Proxmox “puerto del bridge sin enlace”: Solución rápida para cables, switches y controladores

Deja un comentario