Por qué las GPU se calientan: una explicación simple y memorable

octubre 22, 2025 • febrero 3, 2026 • Lectura: 30 min • Views: 0

¿Te fue útil?

Si alguna vez has visto tu GPU subir hasta 80–90°C y pensaste “esto no puede ser sano”, no eres exagerado. El calor es el impuesto que pagas por el rendimiento. A veces es un impuesto normal. A veces es una señal de que el sistema se está degradando silenciosamente.

En producción, las GPU calientes no son cuestión de estilo. Son un problema de fiabilidad, un problema de rendimiento y, de vez en cuando, un problema de “por qué este nodo se reinició a las 3 a.m.”. Hagamos la física intuitiva y luego convirtámosla en una guía práctica que realmente puedas ejecutar.

La explicación clara: espacio diminuto, potencia enorme, matemáticas brutales

Las GPU se calientan por la misma razón que las cocinas ocupadas: mucho trabajo en una pequeña área, con energía que entra constantemente y solo unas pocas salidas por las que esa energía puede salir.

Al nivel más simple:

Entra potencia eléctrica. Tu GPU puede consumir 200–600 vatios bajo carga.
Casi toda se convierte en calor. No “algo”. Casi toda. La salida útil es el cálculo, pero el cálculo no sale de la caja como energía; sale como resultados. La potencia aún se transforma en calor.
El calor debe moverse a través de una cadena de materiales. Silicio → encapsulado → interfaz térmica (pasta/pads) → placa fría del disipador → aletas → aire (o líquido) → sala → HVAC.
Cualquier eslabón débil eleva las temperaturas corriente arriba. Los sistemas térmicos son colas. Si la salida se atasca, todo el sistema se calienta.

Aquí está lo que la gente olvida: una GPU moderna de gama alta es un dispositivo de alta densidad de potencia. No es solo “600 W”. Es “600 W en un área de punto caliente del tamaño de la palma”, con picos locales que importan más que el promedio.

Otra forma de recordarlo: las CPU son corredores de velocidad con supuestos de refrigeración integrados en chasis y estándares de socket. Las GPU son trenes de carga con un calefactor atornillado al costado. Misma electricidad, diferente empaquetado y realidad de flujo de aire.

Broma breve #1: Una GPU es básicamente una calculadora muy cara que también actúa como calefactor de habitación—tu factura de electricidad solo quiere ser apreciada.

Qué significa “funcionar caliente” (y qué números importan)

“Mi GPU está a 85°C” no es suficiente información para diagnosticar nada. Necesitas saber qué sensor, qué hace la carga de trabajo y si la GPU está reduciendo rendimiento (throttling).

Las temperaturas importantes

Temperatura del núcleo de la GPU: la clásica “temp de GPU” que muestran la mayoría de herramientas. Útil, pero a menudo ya no es el primer limitador.
Temperatura de punto caliente / unión: el punto más caliente medido en el die. Esto suele alcanzar límites primero, especialmente con contacto imperfecto o pasta envejecida.
Temperatura de unión de la memoria (especialmente GDDR6X): la memoria puede funcionar más caliente que el núcleo y provocar throttling. Puedes tener un núcleo “bien” y aun así tener problemas.
Temperaturas de VRM / etapas de potencia: los componentes de regulación de voltaje se calientan con alta corriente. Son los verdugos no reconocidos de la fiabilidad.
Temperatura de entrada/ambiente: la temperatura del aire que entra al cooler de la GPU, no la temperatura “en algún punto de la sala”. Un aumento de 5°C en la entrada es grave.

Qué significa “demasiado caliente” en la práctica

Las GPU están diseñadas para funcionar calientes. Los fabricantes saben que el silicio soporta altas temperaturas de unión. Pero “diseñado para” y “bueno para tu flota” son cosas distintas. En tarjetas de consumo, ver temperaturas del núcleo entre los 70s y mediados de 80°C bajo carga sostenida puede ser normal según el modelo y el flujo de aire. En piezas de centro de datos, el comportamiento depende del diseño de refrigeración (los disipadores pasivos dependen del flujo del chasis).

Lo que debería importarte operacionalmente:

Throttling: la reducción de rendimiento porque se alcanzan límites de temperatura o potencia.
Tasas de error: errores ECC de memoria, errores PCIe, reinicios de controlador, fallos de aplicación.
Márgenes de estabilidad: una GPU que “está bien” a 22°C ambiente puede ser desastre a 30°C en un día caliente o con filtros parcialmente obstruidos.
Envejecimiento de componentes: las temperaturas más altas aceleran los mecanismos de desgaste. Tus sueños de MTBF mueren lentamente y luego de golpe.

Una cita para mantener las prioridades claras: “La esperanza no es una estrategia.” — General Gordon R. Sullivan

Por qué las GPU se calientan más que las CPU en la práctica

No hay una sola razón. Es una pila de razones que se alinean como fichas de dominó malas.

1) Las GPU persiguen el rendimiento con paralelismo masivo

Una CPU tiene unos pocos núcleos complejos optimizados para decisiones de baja latencia. Una GPU tiene miles de unidades de ejecución más simples diseñadas para hacer el mismo tipo de trabajo sobre grandes conjuntos de datos. Ese paralelismo es excelente para gráficos y aprendizaje automático. También significa muchos transistores conmutando a la vez. Conmutar cuesta energía. La energía se convierte en calor.

2) Operan cerca de sus límites de potencia y térmicos por diseño

Las GPU modernas usan algoritmos de boost agresivos: subirán frecuencia y voltaje hasta que alcancen un límite—temperatura, potencia o restricciones de fiabilidad de voltaje. No compras una “GPU de 3.0 GHz”. Compras un sistema de control que explora el límite de lo que la refrigeración y la entrega de potencia permiten.

3) La potencia de placa incluye más que el núcleo

Las discusiones sobre CPU suelen centrarse en la potencia del encapsulado. La “potencia de placa” de la GPU incluye memoria, VRM y otros componentes. El disipador debe lidiar con múltiples fuentes de calor, no solo con un die empaquetado bajo un cooler en un socket.

4) Las suposiciones de refrigeración frecuentemente son incorrectas

Las CPU de servidor viven en un mundo donde el flujo de aire del chasis está diseñado para ellas. Las GPU a menudo se montan en cajas “suficientemente buenas”, se colocan junto a otra GPU y se les pide que respiren a través de un cable plano y del optimismo de alguien.

5) Las cargas de trabajo son sostenidas

Los juegos son picos y variaciones. Las sesiones de entrenamiento y las canalizaciones de inferencia pueden mantener una GPU a alta utilización durante horas o días. Ocurre saturación térmica. Un disipador que parece suficiente durante 10 minutos puede fallar en el minuto 45.

6) La densidad de calor es la villana, no los vatios absolutos

Un dispositivo de 300 W distribuido en un área grande puede ser más fácil de enfriar que un dispositivo de 250 W con un punto caliente diminuto. La temperatura del hotspot es donde la pasta térmica, la presión de montaje y la conducción a microescala se convierten en tu límite de rendimiento.

Hechos e historia interesantes que explican el calor actual

Los problemas térmicos no aparecieron porque los ingenieros se descuidaron. Aparecieron porque las GPU ganaron y empezamos a pedirles que hicieran de todo.

Los aceleradores 3D tempranos eran dispositivos de potencia modesta. Las tarjetas add-in de finales de los 90 consumían una fracción de la energía moderna; muchas usaban pequeños disipadores y ventiladores porque la densidad de potencia era baja.
Los conectores de alimentación dedicados para GPU se popularizaron a medida que aumentó la potencia de placa. El paso más allá de lo que la ranura PCIe podía suministrar con seguridad forzó nuevos estándares de conectores y nuevos modos de fallo (incluyendo, sí, conectores fundidos cuando las tolerancias y el manejo son malos).
Los “shader cores” unificaron tuberías gráficas—y facilitaron el cómputo general. Este cambio arquitectónico ayudó a habilitar el cómputo en GPU; más cómputo significó mayor consumo sostenido.
CUDA (2007) popularizó GPGPU. Cuando los desarrolladores pudieron tratar a las GPU como dispositivos de cómputo, las cargas dejaron de ser “gráficos intermitentes” y se convirtieron en “hornos matemáticos 24/7”.
HBM mostró la disposición de la industria a mover la memoria cerca. La High Bandwidth Memory apila memoria cerca de la GPU con una interfaz ancha. Mejora el ancho de banda y puede cambiar dónde se concentra el calor y cómo se enfría.
GDDR6X aumentó la densidad de potencia de la memoria. Señalización más rápida puede significar módulos de memoria más calientes, haciendo que las temperaturas de unión de la memoria sean a menudo un limitador en algunas tarjetas de consumo.
Las GPU de centro de datos impulsaron la refrigeración pasiva con fuerza. Muchas GPU de servidor dependen del flujo de aire del chasis en lugar de ventiladores integrados; si el servidor no está diseñado para ello, las temperaturas se disparan.
Los algoritmos de boost se volvieron más audaces con el tiempo. Las GPU modernas se potencian oportunistamente hasta alcanzar límites, lo que significa que “funciona caliente” a menudo es literalmente la estrategia de operación prevista.
Los diseños multi-GPU crearon interferencia térmica. Colocar tarjetas de alta potencia adyacentes puede hacer que el escape de una tarjeta se convierta en la entrada de otra, lo que es básicamente canibalismo térmico.

La ruta del calor: del transistor al aire de la sala

Cuando alguien dice “mi GPU está caliente”, tu trabajo es preguntar: ¿dónde está la resistencia térmica?

Paso 1: La potencia se genera en el die

La potencia dinámica está dominada por la actividad de conmutación y el voltaje. Sin meterte en ecuaciones, la verdad operativa clave es: los cambios de voltaje cuestan más que los cambios de frecuencia. Un pequeño aumento de voltaje puede causar un incremento desproporcionado de potencia, y el calor lo sigue.

Paso 2: El calor se difunde por el encapsulado

El calor debe salir del silicio y moverse a través del paquete y el spreader térmico (si existe). Las imperfecciones aquí no son reparables por el usuario, pero se manifiestan como “hotspot mucho más alto que el núcleo”, especialmente bajo carga.

Paso 3: La interfaz térmica es una capa que hace o rompe todo

La pasta térmica y los pads llenan huecos microscópicos. Si la pasta se seca, un pad es demasiado grueso o la presión de montaje es desigual, obtienes una firma clásica: la temperatura del hotspot sube rápido mientras la temperatura media del núcleo parece “más o menos aceptable”.

Paso 4: El disipador debe mover el calor al aire

Aquí importan la densidad de aletas, la presión del ventilador y el polvo. Un disipador solo es tan bueno como el flujo de aire a través de él. El aire que pasa por las aletas es flujo real; el que las rodea es flujo de marketing, no refrigeración.

Paso 5: La caja y la sala deben evacuar el calor

Si la caja recircula el escape, el cooler de la GPU se ve obligado a usar aire de admisión más caliente. Mismo disipador, peor delta-T, temperaturas más altas. En un datacenter, si la separación pasillo frío/pasillo caliente es deficiente, tu entrada “fría” se convierte en “arrepentimiento tibio”.

Broma breve #2: El diagnóstico térmico es como el trabajo de un detective, excepto que el culpable siempre es “el flujo de aire”, y siempre tenía una coartada.

Guía de diagnóstico rápido: encuentra el cuello de botella en minutos

Este es el orden que ahorra tiempo. El objetivo es determinar si estás limitado por temperatura, potencia, flujo de aire/ambiente o confusión de sensores/telemetría.

Primero: confirma que la GPU realmente está reduciendo rendimiento (no solo “caliente”)

Revisa relojes y utilización bajo carga.
Revisa las razones de throttling (térmico, potencia, voltaje, fiabilidad).
Decisión: si no está reduciendo rendimiento y la estabilidad es buena, quizá estés persiguiendo un número, no un problema.

Segundo: compara núcleo vs hotspot vs memoria

Si el hotspot está muy por encima del núcleo, sospecha mal contacto/pasta/presión de montaje o una región de carga localizada.
Si la unión de la memoria lidera, sospecha refrigeración de memoria (pads, flujo de aire, diseño del backplate) o presión de memoria en la carga de trabajo.
Decisión: arregla el limitador dominante, no el número más visible.

Tercero: verifica la entrada/ambiente y la realidad del flujo de aire

Mide la temperatura del aire de entrada donde la GPU respira.
Valida RPM de ventiladores y comportamiento de la curva de ventilador.
Decisión: si la entrada es alta o el flujo está obstruido, no repastes todavía. Mueve aire primero.

Cuarto: revisa comportamiento de potencia y capacitores

Mira el consumo, el límite de potencia y rendimiento por vatio.
Decisión: en muchos casos de producción, un pequeño límite de potencia provoca una gran caída de temperatura con mínima pérdida de rendimiento.

Quinto: revisa problemas a nivel plataforma

Errores PCIe, CPU que reduce rendimiento causando subutilización de la GPU (y patrones térmicos extraños), reinicios de driver.
Decisión: si el nodo es inestable, trata el “calor” como síntoma, no como causa raíz.

Tareas prácticas con comandos: qué ejecutar, qué significa, qué decides

Estas son comprobaciones reales que puedes ejecutar en un host Linux con GPUs NVIDIA. Las salidas mostradas son representativas. Tus campos exactos varían por driver y modelo de GPU. El punto es qué lees y qué haces a continuación.

Task 1: Snapshot de térmicas, relojes y potencia de la GPU en una vista

cr0x@server:~$ nvidia-smi
Tue Jan 13 10:22:41 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------|
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf           Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|  0  NVIDIA A10                      On  | 00000000:3B:00.0 Off   |                    0 |
| 30%   78C  P2              143W / 150W  |  10980MiB / 23028MiB   |     92%      Default |
+-----------------------------------------+------------------------+----------------------+

Qué significa: Temp 78°C a 92% de utilización, potencia cerca del límite. El estado de rendimiento P2 sugiere que está en modo de alto rendimiento. Ventilador al 30% podría ser conservador.

Decisión: Si el rendimiento es estable y no hay throttling, esto puede ser aceptable. Si ves throttling frecuente, sube la curva de ventilador o reduce el límite de potencia.

Task 2: Observa cambios en vivo para detectar patrones de throttling

cr0x@server:~$ watch -n 1 nvidia-smi --query-gpu=timestamp,temperature.gpu,utilization.gpu,clocks.sm,power.draw,pstate --format=csv
timestamp, temperature.gpu, utilization.gpu, clocks.sm, power.draw, pstate
2026/01/13 10:23:00, 79, 95, 1695, 149.22, P2
2026/01/13 10:23:01, 81, 96, 1695, 149.80, P2
2026/01/13 10:23:02, 83, 96, 1620, 149.90, P2

Qué significa: Los relojes bajan a medida que sube la temperatura mientras la potencia se mantiene fija. Eso suele indicar gestión térmica o de fiabilidad.

Decisión: Confirma la razón del throttling a continuación. Si es térmico, mejora la refrigeración o limita la potencia. Si es por límite de potencia, ajusta el límite o acéptalo.

Task 3: Pregunta al driver por qué se limita el rendimiento

cr0x@server:~$ nvidia-smi -q -d PERFORMANCE | sed -n '1,120p'
==============NVSMI LOG==============
Timestamp                                 : Tue Jan 13 10:23:10 2026
Driver Version                            : 550.54.14
CUDA Version                              : 12.4

Performance State                         : P2
Clocks Throttle Reasons
    Idle                                  : Not Active
    Applications Clocks Setting           : Not Active
    SW Power Cap                          : Active
    HW Slowdown                           : Not Active
    Thermal Slowdown                      : Not Active
    Sync Boost                            : Not Active
    SW Thermal Slowdown                   : Not Active

Qué significa: Estás limitado por potencia, no por temperatura. La GPU hace lo que se le indica: obedecer el límite.

Decisión: Si necesitas más rendimiento, eleva el límite de potencia (y asegúrate de tener margen en refrigeración/PSU). Si necesitas operación más fría, mantén o reduce el límite y ajusta para perf/W.

Task 4: Registrar temperaturas y potencia a lo largo del tiempo para correlación (observabilidad económica)

cr0x@server:~$ nvidia-smi --query-gpu=timestamp,temperature.gpu,power.draw,utilization.gpu,clocks.sm --format=csv -l 5 -f /tmp/gpu_telemetry.csv
# Monitoring GPU 00000000:3B:00.0.
# Logging to /tmp/gpu_telemetry.csv

Qué significa: Obtienes una serie temporal que puedes graficar o comparar entre ejecuciones “buenas” y “malas”.

Decisión: Si la temperatura se incrementa lentamente hasta un meseta, probablemente sea flujo de aire/ambiente. Si la temperatura sube de golpe, la interfaz/contacto o el control del ventilador podrían ser el problema.

Task 5: Verifica si el driver permite el comportamiento de ventilador que crees

cr0x@server:~$ nvidia-settings -q GPUFanControlState -q GPUTargetFanSpeed
  Attribute 'GPUFanControlState' (server:0[gpu:0]): 0.
  Attribute 'GPUTargetFanSpeed' (server:0[gpu:0]): 30.

Qué significa: Estado de control de ventilador 0 normalmente significa control automático. El objetivo es 30% (pero el real puede diferir).

Decisión: Si las temperaturas son altas y el ventilador se mantiene bajo, activa control manual (si la política lo permite) o ajusta la curva de ventilador en firmware/software.

Task 6: Verifica RPM reales del ventilador y si está fallando

cr0x@server:~$ nvidia-smi --query-gpu=fan.speed,temperature.gpu --format=csv
fan.speed, temperature.gpu
30 %, 83

Qué significa: El ventilador está funcionando, pero no sabemos si 30% es suficiente.

Decisión: Si la GPU está limitando por temperatura, aumenta la velocidad del ventilador y vuelve a probar. Si la velocidad del ventilador es alta pero las temperaturas siguen elevadas, sospecha obstrucción del flujo de aire, aletas del disipador sucias o mal contacto térmico.

Task 7: Revisa térmicas de la CPU y throttling (porque la plataforma miente)

cr0x@server:~$ sudo sensors
coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  92.0°C  (high = +100.0°C, crit = +105.0°C)
Core 0:        89.0°C
Core 1:        91.0°C

nvme-pci-0100
Adapter: PCI adapter
Composite:    +68.9°C  (low  = -40.1°C, high = +84.8°C, crit = +89.8°C)

Qué significa: El paquete de la CPU está muy caliente y cerca de throttling. Esto puede distorsionar el comportamiento de la GPU (menor tasa de alimentación, diferente utilización, ciclos térmicos extraños).

Decisión: Arregla el flujo de aire del chasis y la refrigeración de la CPU también. Un incidente térmico de GPU suele ser un incidente de flujo de aire de nodo completo.

Task 8: Verifica la salud del enlace PCIe (errores pueden disfrazarse de “GPU actuando raro”)

cr0x@server:~$ sudo lspci -s 3b:00.0 -vv | sed -n '1,80p'
3b:00.0 VGA compatible controller: NVIDIA Corporation Device 2236 (rev a1)
	Subsystem: NVIDIA Corporation Device 147e
	LnkCap: Port #0, Speed 16GT/s, Width x16
	LnkSta: Speed 16GT/s, Width x16
	DevSta: CorrErr+ NonFatalErr- FatalErr- UnsupReq-

Qué significa: Se están registrando errores corregibles. No es una catástrofe inmediata, pero es señal. El calor puede empeorar enlaces marginales.

Decisión: Si ves errores corregibles que aumentan junto con altas temperaturas, mejora la refrigeración y vuelve a asentar hardware durante mantenimiento. Si los errores persisten, considera problemas de placa/slot.

Task 9: Confirma que no haya una obstrucción simple del flujo de aire (el clásico “por qué estamos así”)

cr0x@server:~$ sudo lsblk -o NAME,HCTL,SIZE,MODEL
NAME HCTL        SIZE MODEL
sda  0:0:0:0   447.1G Samsung SSD 860
nvme0n1         1.8T  SAMSUNG MZVL21T0HCLR-00B00

Qué significa: Esto no es un comando de flujo de aire. Es un recordatorio: no te cegues en la GPU. NVMe a 69°C y CPU a 92°C sugiere que el flujo de aire del chasis está subdimensionado o bloqueado.

Decisión: Inspecciona filtros, paredes de ventiladores, enrutado de cables, paneles cegadores y si el servidor está instalado en un rack con ingesta de pasillo frío adecuada.

Task 10: Revisa logs del kernel por eventos térmicos o del driver GPU

cr0x@server:~$ sudo journalctl -k -b | egrep -i 'nvrm|pcie|thermal|throttl' | tail -n 20
Jan 13 10:20:11 server kernel: nvidia-modeset: Allocated GPU:0 (GPU-2d3a...)
Jan 13 10:22:58 server kernel: NVRM: Xid (PCI:0000:3b:00): 79, GPU has fallen off the bus.
Jan 13 10:23:00 server kernel: pcieport 0000:00:03.1: AER: Correctable error received: 0000:3b:00.0

Qué significa: “Fallen off the bus” y errores AER son indicadores serios de estabilidad. El calor puede ser un contribuyente, pero la integridad de potencia, el asentado PCIe o el firmware también pueden ser responsables.

Decisión: Trátalo como un incidente: reduce la carga, aumenta la refrigeración, verifica margen de PSU, vuelve a asentar la GPU, actualiza firmware/driver y considera reemplazo de hardware si se repite.

Task 11: Mide consumo de la GPU y aplica un límite de potencia sensato

cr0x@server:~$ sudo nvidia-smi -pl 130
Power limit for GPU 00000000:3B:00.0 was set to 130.00 W from 150.00 W.

Qué significa: Acabas de reducir la potencia máxima de la placa. Normalmente esto reduce temperaturas rápidamente.

Decisión: Ejecuta tu carga y compara rendimiento. Si pierdes 2–5% y ganas 10°C y estabilidad, es un intercambio que aceptas en producción sin discusión.

Task 12: Confirma que el límite de potencia se aplicó y observa térmicas tras el cambio

cr0x@server:~$ nvidia-smi --query-gpu=temperature.gpu,power.draw,clocks.sm,utilization.gpu --format=csv
temperature.gpu, power.draw, clocks.sm, utilization.gpu
74, 129.12, 1620, 96

Qué significa: La temperatura bajó desde los bajos 80s a mediados de 70s mientras la utilización sigue alta. Los relojes pueden ser ligeramente más bajos, pero estables.

Decisión: Mantén el límite como política para este entorno térmico o úsalo como solución temporal mientras arreglas el flujo de aire.

Task 13: Comprueba si el modo persistente está activado (reduce churn, mejora previsibilidad)

cr0x@server:~$ sudo nvidia-smi -pm 1
Enabled persistence mode for GPU 00000000:3B:00.0.
All done.

Qué significa: El driver mantiene la GPU inicializada, lo que puede reducir picos de latencia y transiciones extrañas de potencia/reloj entre trabajos.

Decisión: En nodos de producción compartidos, el modo persistente suele mejorar la previsibilidad. Si tu modelo de seguridad o multiinquilino lo prohíbe, documenta el intercambio.

Task 14: Valida que tu proceso no esté causando calor innecesario (utilización descontrolada)

cr0x@server:~$ nvidia-smi pmon -c 1
# gpu        pid  type    sm   mem   enc   dec   command
# Idx          #   C/G     %     %     %     %   name
    0      28741     C    92    40     0     0   python

Qué significa: Un solo proceso está impulsando alto uso de SM. Puede ser esperado. También significa que el calor es impulsado por la carga, no por un “misterioso proceso en segundo plano”.

Decisión: Si esto debería estar inactivo, termina o reprograma el trabajo. Si es intencional, ajusta límites de potencia/curvas de ventilador y asegúrate de capacidad de flujo de aire.

Task 15: Revisa cuellos de botella del lado CPU que causan comportamiento GPU intermitente (y térmicas extrañas)

cr0x@server:~$ mpstat -P ALL 1 3
Linux 6.8.0 (server) 	01/13/2026 	_x86_64_	(64 CPU)

10:25:01 AM  CPU    %usr   %nice    %sys %iowait   %irq   %soft  %steal  %idle
10:25:02 AM  all   92.11    0.00    6.44    0.73   0.00    0.11    0.00   0.61

Qué significa: La CPU está muy cargada. Si la canalización de la GPU depende de preprocesamiento por CPU, podrías obtener una utilización GPU muy intermitente, lo que crea comportamiento extraño de ventiladores (los ventiladores tardan en seguir los picos) y ciclos térmicos.

Decisión: Perfila la canalización. Externaliza el preprocesamiento, aumenta la capacidad CPU o suaviza la programación por lotes para estabilizar la carga térmica.

Task 16: Verifica que los límites de cgroups/contenedores no creen comportamiento térmico accidental

cr0x@server:~$ systemd-cgls --no-pager | head -n 25
Control group /:
-.slice
├─system.slice
│ ├─docker.service
│ │ ├─4121 /usr/bin/dockerd -H fd://
│ │ └─...
│ └─ssh.service
└─user.slice
  └─user-1001.slice
    └─user@1001.service
      └─app.slice

Qué significa: Estás viendo la colocación de la carga. Los incidentes térmicos a veces provienen de colocación de trabajos: dos trabajos “medios” de GPU coinciden en el mismo nodo y lo convierten en una tostadora.

Decisión: Ajusta restricciones de programación (un trabajo GPU pesado por nodo) o aplica límites de potencia por clase de trabajo.

Tres minihistorias corporativas desde las trincheras térmicas

Mini-historia 1: El incidente causado por una suposición errónea

El equipo recibió un lote nuevo de servidores GPU—mismo modelo de chasis que el trimestre anterior, misma GPU, mismo diseño de rack. El runbook de despliegue fue “copiar/pegar”. Siempre lo es hasta que deja de serlo.

En horas, los trabajos de entrenamiento empezaron a fallar de forma que parecía software: errores CUDA aleatorios, reinicios puntuales de driver y de vez en cuando el host registraba errores correctables de PCIe. Nada gritaba “sobrecalentamiento” porque las temperaturas del núcleo no eran exageradas—mediados de 70s, a veces 80°C. El comandante del incidente se centró en versiones y rollbacks.

Después de demasiado tiempo y no suficiente café, alguien comprobó las temperaturas de unión de la memoria. Eran feas. No “calientes”, feas. La suposición errónea fue que la “temp de GPU” en los dashboards reflejaba el sensor limitante real. No lo hacía. La memoria estaba limitando fuertemente y luego el driver fallaba bajo estrés sostenido.

La causa raíz resultó ser mundana: el proveedor había revisado la especificación del pad de memoria a mitad de ciclo, y los pads preinstalados en este lote tenían compresión ligeramente distinta. No era una conspiración. Era realidad de la cadena de suministro. El contacto no era bueno, la memoria se calentó y las tasas de error subieron bajo cargas sostenidas.

La solución fue igualmente mundana: re-pad durante una ventana de mantenimiento controlada, además de un límite temporal de potencia. La solución a largo plazo fue procedimental: basar todos los sensores relevantes (núcleo, hotspot, memoria) y alertar por deltas, no solo por temperatura absoluta del núcleo.

Mini-historia 2: La optimización que salió mal

Otra compañía, otro problema. Pagaban mucho por colocación y querían reducir consumo. Alguien propuso un “modo eficiencia”: reducir velocidades de ventiladores del datacenter y subir el punto de ajuste del pasillo frío un par de grados. El proveedor dijo que estaba dentro de especificación. A la gerencia le encantó porque mostró ahorros inmediatos.

Al principio, nada explotó. De hecho, las temperaturas del núcleo parecían solo un poco más altas. Así que el cambio se desplegó ampliamente. Luego empezó lo raro: regresiones intermitentes de rendimiento. No fallos totales—esos son fáciles. Fue tiempos de época más lentos, sobrecargas esporádicas de trabajos y fallos ocasionales de SLA.

La vuelta de tuerca vino por un detalle: el comportamiento de boost de la GPU es un sistema de control. Subir la temperatura de entrada reduce el margen térmico. Las GPUs pasaron más tiempo en estados de gestión térmica, con relojes que rebotaban. La utilización media seguía alta, pero el rendimiento efectivo cayó. Mientras tanto, la mayor temperatura en estado estable aumentó la tasa de errores correctables de memoria en ciertos nodos, lo que provocó reintentos upstream. “Optimización de potencia” se convirtió en “impuesto al cómputo”.

El rollback no fue total. El equipo mantuvo parte del cambio, pero solo después de segmentar: algunos racks tenían mejor flujo y contención y podían soportar los nuevos puntos de ajuste con límites de potencia. Otros no. La lección no fue “nunca optimices”. Fue “optimiza con barreras y telemetría que refleje rendimiento, no solo temperatura”.

Mini-historia 3: La práctica aburrida pero correcta que salvó el día

Una startup que ejecutaba inferencia GPU tenía un hábito que parecía demasiado básico para importar: cada nodo nuevo pasaba por una quema de 30 minutos con una carga estandarizada, y registraban una línea base para temp de núcleo, hotspot, unión de memoria, velocidad del ventilador y potencia en estado estable.

Seis meses después, empezaron a ver algunos nodos funcionando 8–12°C más calientes bajo el mismo trabajo. Nada estaba “roto” todavía, pero había deriva. Porque tenían líneas base, no discutieron qué es “normal”. Tenían recibos.

El equipo sacó un nodo y encontró las aletas del disipador parcialmente obstruidas—no con dramáticos ovillos de polvo, solo una capa fina que redujo el flujo de aire lo suficiente para importar. Otro nodo tenía un cable internamente mal enroutado que impedía la entrada de aire cerca de la GPU. Cosas aburridas.

Limpiaron, corrigieron el enrutado, volvieron a ejecutar la quema y reinsertaron los nodos. Sin incidentes. Sin mantenimiento de emergencia. Sin páginas de fin de semana. La parte glamorosa del SRE es escribir automatización ingeniosa. La parte que te mantiene empleado es detectar la degradación aburrida antes de que se convierta en fallo.

Errores comunes: síntoma → causa raíz → solución

1) Síntoma: “La temp de la GPU está bien, pero el rendimiento es inconsistente”

Causa raíz: La temperatura del hotspot o de la unión de la memoria está limitando, no la temperatura del núcleo.

Solución: Monitoriza hotspot y temperaturas de memoria. Mejora refrigeración de memoria (pads, flujo de aire), ajusta curvas de ventilador o aplica límite de potencia para reducir densidad térmica.

2) Síntoma: “Las temperaturas suben instantáneamente cuando empieza la carga”

Causa raíz: Mal contacto térmico (pasta seca, presión de montaje desigual, pads desplazados) o retraso en respuesta del ventilador.

Solución: Confirma la respuesta del ventilador bajo carga escalonada; si los ventiladores responden pero la temperatura se dispara, planifica repaste/re-pad con grosor y torque correctos. No adivines tamaños de pad.

3) Síntoma: “Una GPU en una caja multi-GPU siempre está más caliente”

Causa raíz: Recirculación térmica o efectos de colocación (tarjeta superior tomando el escape, entrada bloqueada).

Solución: Reordena tarjetas si es posible, añade conductos/paneles cegadores, aumenta flujo de aire del chasis o aplica límites de potencia por slot. Trata el flujo de aire del rack como parte del sistema.

4) Síntoma: “Los ventiladores son ruidosos y las temperaturas siguen altas”

Causa raíz: Aletas del disipador obstruidas, mala presión del chasis o bypass de flujo de aire (el aire toma el camino fácil alrededor de las aletas).

Solución: Limpia aletas y filtros, asegura shrouds/paneles cegadores correctos, verifica separación entrada/salida. El flujo de aire sin dirección es solo turbulencia.

5) Síntoma: “Reinicios de driver / errores Xid durante trabajos intensivos”

Causa raíz: Puede ser térmico, inestabilidad en la entrega de potencia, problemas PCIe o hardware marginal que solo falla en caliente.

Solución: Correlaciona logs con temperaturas/potencia. Reduce límite de potencia, mejora refrigeración, revisa asentado PCIe y errores AER, actualiza firmware/driver y pon en cuarentena hardware inestable.

6) Síntoma: “La GPU corre más caliente después de cambiar la caja o hacer ‘limpieza’”

Causa raíz: La gestión de cables bloqueó una entrada, faltan paneles cegadores o ventiladores orientados incorrectamente.

Solución: Valida físicamente la dirección del flujo de aire. Usa humo/streamers si es necesario. Vuelve a colocar paneles cegadores. No confíes en la estética por encima del flujo de aire.

7) Síntoma: “Las temperaturas son estables, pero el rendimiento bajó tras ajuste”

Causa raíz: Límite de potencia o curva de ventilador demasiado agresivos que mantienen bajas temperaturas pero obligan a relojes inferiores.

Solución: Ajusta para rendimiento por vatio. Aumenta el límite de potencia gradualmente observando razones de throttling y rendimiento, no solo temperatura.

8) Síntoma: “Solo falla en días calientes / alta ambiente”

Causa raíz: Falta de margen. El sistema de refrigeración está en el límite; pequeños cambios en la entrada lo desbordan.

Solución: Construye margen: baja límite de potencia, aumenta flujo de aire, mejora contención, programa cargas pesadas en periodos más frescos si estás limitado.

Listas de verificación / plan paso a paso

Paso a paso: estabilizar un nodo GPU caliente (orden seguro para producción)

Confirma throttling y limitador: usa nvidia-smi -q razones de throttling; identifica térmico vs potencia vs otra cosa.
Revisa dispersión de sensores: núcleo vs hotspot vs unión de memoria (si está disponible). Identifica el indicador líder.
Revisa condiciones de entrada: valida ventiladores del chasis, filtros y temperatura de ingesta del rack.
Aplica un límite de potencia temporal: reduce 10–20% y observa impacto en rendimiento.
Aumenta la curva de ventilador si está permitido: busca temperaturas estables, no oscilación.
Busca señales de estabilidad: logs del kernel para Xid, errores AER, reinicios inesperados.
Limpia y vuelve a probar: filtros, disipadores y obstrucciones. Re-ejecuta la misma carga para comparar.
Planifica mantenimiento correctivo: repaste/re-pad solo después de que flujo de aire y potencia estén en condiciones; házlo en una ventana controlada.
Documenta una línea base: registra temperaturas/potencia/relojes en estado estable para detectar deriva más tarde.

Checklist: qué capturar en un ticket de incidente

Modelo de GPU, versión de driver, firmware si es relevante
Descripción de la carga (patrón de utilización, duración, tamaño de lote)
Temp de núcleo, temp de hotspot, temp de unión de memoria (y qué herramienta lo leyó)
Consumo de potencia, límite de potencia, pstate, relojes
Razones de throttling desde nvidia-smi -q
Velocidad del ventilador y estado de ventiladores del chasis
Ubicación de medición de la temperatura de entrada
Logs del kernel para eventos Xid/AER/térmicos
Resultados antes/después de una prueba con límite de potencia

Checklist: decisiones que suelen vencer al “repastear todo”

Aplica límite de potencia primero si necesitas estabilidad inmediata.
Arregla el flujo de aire segundo (ayuda a todo en el nodo).
Sólo después considera repastear/re-padear—porque es invasivo, variable y fácil de hacer mal.
Alerta por deltas y razones de throttling, no solo por un umbral único de temperatura.

Preguntas frecuentes (FAQ)

1) ¿Es normal que una GPU funcione a 80–85°C?

A menudo, sí—dependiendo del modelo de GPU, diseño del cooler, temperatura ambiente y carga. “Normal” significa “sin throttling, estable y dentro de los límites del fabricante”. En producción, aún quieres margen.

2) ¿Cuál es la diferencia entre temperatura de GPU y temperatura hotspot/junción?

La temperatura de GPU suele ser un sensor representativo o promedio del núcleo. Hotspot/junción es la lectura máxima en el die. El hotspot detecta mala pasta, presión de montaje mala y densidad de calor local.

3) ¿Por qué mi temperatura de unión de memoria es más alta que la del núcleo?

Porque la memoria es su propia fuente de calor y a veces tiene peor contacto de refrigeración. Tráfico de memoria de alta banda y ciertos tipos de GDDR pueden funcionar muy calientes. Si la unión de memoria lidera, tienes un problema de refrigeración de memoria, no del núcleo.

4) ¿Debería undervoltear o limitar la potencia de mi GPU?

Limitar la potencia suele ser el movimiento más seguro y repetible en producción: establece un límite, mide rendimiento y conserva el mejor punto perf/W. Undervolt puede funcionar, pero es más frágil frente a la variación del silicio y cambios de driver/firmware.

5) Mis ventiladores GPU están al 100% y las temperaturas siguen altas—¿qué ahora?

Eso normalmente significa que el flujo de aire no pasa por las aletas del disipador (obstrucción, bypass, mala shroud), la entrada/ambiente es demasiado caliente o la interfaz térmica es mala. Limpieza y verificación del flujo vienen antes del repasteo.

6) ¿Por qué los sistemas multi-GPU funcionan más calientes aunque cada GPU esté “dentro de especificación”?

Porque el flujo de aire y la recirculación a nivel de sistema importan. El escape de una tarjeta se convierte en la entrada de otra. Los ventiladores del chasis pueden no estar dimensionados para la carga térmica combinada. “Dentro de especificación” por componente no garantiza un sistema combinado estable.

7) ¿El throttling térmico daña la GPU?

El throttling térmico es un mecanismo protector; intenta evitar daños. El riesgo es que operes cerca de los límites, aumentando la probabilidad de inestabilidad y acelerando el envejecimiento con el tiempo.

8) ¿Por qué a veces empeora el rendimiento después de mejorar la refrigeración?

Si tu “mejora” cambió curvas de ventilador o límites de potencia demasiado agresivos, podrías haber reducido relojes o aumentado throttling por límite de potencia. Valida con razones de throttling y métricas de rendimiento, no solo temperatura.

9) ¿Cuál es el cambio más efectivo para reducir la temperatura de la GPU rápidamente?

En muchas flotas reales: reducir el límite de potencia en 10–20%. Es inmediato, reversible y a menudo cuesta menos rendimiento del que esperarías. Luego arregla el flujo de aire para recuperar margen.

Conclusión: próximos pasos que realmente mueven la aguja

Las GPU se calientan porque convierten mucha potencia eléctrica en cálculo dentro de un pedazo de silicio diminuto, y el calor tiene que escapar a través de una larga cadena de materiales y supuestos de flujo de aire “bastante buenos”. Cuando esa cadena se debilita en cualquier punto—pasta, pads, aletas, ventiladores, chasis, rack, HVAC—obtienes temperaturas más altas, throttling y eventualmente inestabilidad.

Haz esto a continuación, en orden:

Deja de adivinar: revisa razones de throttling y los sensores correctos (núcleo, hotspot, unión de memoria).
Compra estabilidad con un límite de potencia: prueba una reducción del 10–20% y mide impacto en rendimiento.
Haz que el flujo de aire sea aburrido y correcto: limpia, desbloquea, coloca shrouds y valida la temperatura de entrada donde la GPU realmente respira.
Establece líneas base de todo: registra temperaturas/potencia/relojes en estado estable para detectar deriva antes de que te llamen.
Sólo entonces haz trabajo invasivo: repastear/re-padear durante mantenimiento, con materiales correctos y procedimiento repetible.

El calor no es una falla moral. Es contabilidad. Tu trabajo es equilibrar las cuentas: vatios entrantes, calor saliente, rendimiento entregado y fallos prevenidos.