Almohadillas térmicas: la solución de $10 que puede cambiar toda una GPU

¿Te fue útil?

Tu GPU está “bien” hasta que deja de estarlo. Un día un trabajo de entrenamiento comienza a caer inexplicablemente. Un juego que antes se mantenía en más de 1900 MHz de pronto coquetea con 1200. Los ventiladores gritan, los tiempos de fotograma se disparan y tu panel de monitorización se convierte en una escena del crimen.

El culpable a menudo no es el silicio, ni los drivers, ni la fuente de alimentación. Es esa cosa blanda de $10 que olvidaste que existía: las almohadillas térmicas. Y cuando tienen el grosor equivocado, la dureza equivocada, están desalineadas, secas o simplemente agotadas, pueden sabotear una tarjeta por lo demás sana con la misma discreción que un cron mal configurado.

Qué hacen realmente las almohadillas térmicas (y qué no hacen)

Un disipador de GPU no es una sola superficie. Es un pequeño ecosistema: el dado del GPU (o el paquete), los chips de memoria alrededor, etapas VRM, inductores, a veces una backplate, y un conjunto de disipador que no puede tocar perfectamente todas esas piezas a la vez.

La pasta térmica es para huecos muy finos y alta presión de apriete: dado del GPU al cold plate. Las almohadillas térmicas son para huecos imperfectos y mayores y apilamientos desiguales: ICs de memoria al disipador, componentes VRM a una placa secundaria, a veces el contacto con la backplate.

Las almohadillas hacen dos trabajos:

  • Rellenar el hueco entre un componente caliente y la superficie del disipador que no es perfectamente coplanar.
  • Transmitir calor a través de un material con una resistencia térmica aceptable mientras se mantiene estable mecánicamente.

Lo que las almohadillas no hacen bien:

  • Compensar una presión incorrecta. Si la almohadilla es demasiado gruesa, puede impedir que el cold plate haga contacto con el dado. Eso es una “solución” desastrosa.
  • Superar la pasta en el dado. Las almohadillas casi siempre rinden peor que una pasta decente para el contacto primario del dado.
  • Salvarte de un mal flujo de aire. Si la caja/ductería es un tostador, las almohadillas son solo una mejor manera de cocinar de forma uniforme.

El modelo mental clave: no compras “W/mK”. Compras menor resistencia térmica total en tu geometría específica. La conductividad térmica es una especificación; el apilamiento es la verdad.

Hechos interesantes y un poco de historia

Un puñado de puntos de contexto que ayudan a entender mejor el trabajo con almohadillas térmicas modernas:

  1. Los materiales de interfaz térmica (TIM) despegaron con el empaquetado denso de electrónica. Cuando los disipadores dejaron de ser bloques simples y se convirtieron en ensamblajes de múltiples contactos, las almohadillas pasaron a ser el “impuesto de tolerancias de fabricación”.
  2. GDDR6X convirtió las temperaturas de la memoria en un problema común. Generaciones anteriores también se calentaban, pero GDDR6X y su densidad de potencia volvieron la “VRAM caliente” en “tu tarjeta está limitando por la memoria”.
  3. Los sensores de “hotspot” cambiaron cómo vemos la refrigeración. Las GPUs modernas exponen telemetría de unión/hotspot que revela problemas de contacto local, no solo la temperatura media del dado.
  4. Las backplates no fueron originalmente dispositivos térmicos. Muchas comenzaron como piezas estructurales y estéticas; diseños posteriores las usan como dispersores de calor con almohadillas.
  5. La dureza de la almohadilla importa tanto como el grosor. Dos almohadillas de 2.0 mm con diferente compresibilidad pueden comportarse como grosores distintos bajo el mismo par de apriete.
  6. Las almohadillas de fábrica se eligen a menudo por rendimiento de montaje, no por máximo rendimiento térmico. Los fabricantes optimizan para “funciona en cada unidad de la línea”, no para “las mejores temperaturas posibles en tu tarjeta específica”.
  7. Las almohadillas térmicas envejecen. Los ciclos térmicos y el tiempo pueden endurecerlas, reducir su conformidad y degradar el contacto—especialmente cerca de los VRM.
  8. Los diseños de los partners de placa varían enormemente. Dos tarjetas con el mismo GPU pueden tener mapas de pads, distribuciones VRM y placas de contacto completamente diferentes.

Por qué las almohadillas pueden cambiar toda una GPU

En sistemas de producción, pequeños puntos de fricción crean interrupciones desproporcionadas. En una GPU, las almohadillas térmicas son uno de esos puntos de fricción. Se colocan entre componentes críticos y lo único que les impide asarse: el disipador.

Si el dado de tu GPU está bien pasteado pero las almohadillas de la memoria son incorrectas, tu rendimiento aún puede hundirse. ¿Por qué? Porque las tarjetas modernas reducirán velocidad por el límite que ocurra primero: potencia, temperatura, límites de fiabilidad de voltaje, unión de memoria, temperaturas VRM, o incluso deltas de hotspot que implican mal contacto.

Los resultados más comunes de “la GPU cambió por completo” después de un repad adecuado son aburridos y medibles:

  • La unión de la memoria baja lo suficiente para detener el estrangulamiento inducido por la memoria.
  • El delta de hotspot se reduce porque el disipador queda correctamente asentado tras corregir el apilamiento de pads.
  • Los ventiladores se calman porque el controlador ya no persigue temperaturas locales fuera de control.
  • Los relojes se estabilizan porque la tarjeta se mantiene dentro de sus envolventes térmicas y eléctricas.

Las almohadillas también son la manera más fácil de arruinar accidentalmente el comportamiento térmico de una tarjeta. No existe un “mejor grosor universal”. Solo existe “el grosor que permite que el cold plate asiente correctamente mientras memoria/VRM hacen buen contacto”.

Broma #1 (corta, relevante): Una almohadilla térmica es como una invitación a reunión—si es demasiado gruesa nadie puede acercarse lo suficiente para hacer el trabajo real.

La física, sin las matemáticas fingidas

El flujo de calor a través de una almohadilla está dominado por la resistencia térmica. A grandes rasgos, almohadilla más gruesa = más resistencia, a menos que la alternativa sea un hueco de aire (el aire es un aislante fantástico y una elección terrible para enfriar la VRAM).

Pero no puedes elegir el grosor libremente. Estás constreñido por:

  • Tolerancias de altura de los componentes (paquetes de memoria, chokes, MOSFETs).
  • Planitud del disipador y variación de mecanizado.
  • Par de apriete de los tornillos y presión de los resortes.
  • Compresibilidad de la almohadilla y fluencia con el tiempo.

Así que la “solución de $10” no es “poner almohadillas más gruesas.” Es “restaurar el contacto correcto en todo el apilamiento.”

Qué significa realmente “mejores almohadillas”

El marketing ama los números W/mK. La ingeniería práctica ama los resultados. En mi experiencia, “mejores almohadillas” suele significar una o más de las siguientes:

  • Grosor correcto (lo más importante).
  • Material más conforme que se comprime para ajustarse a pequeñas variaciones sin levantar el cold plate.
  • Instalación más limpia: colocación correcta, sin arrugas, sin almohadillas desplazadas que no cubren el chip.
  • Material fresco que no se ha endurecido por años de ciclos térmicos.

Guion de diagnóstico rápido (encuentra el cuello de botella rápido)

Cuando una GPU rinde menos o es inestable, puedes perder horas “ajustando” límites de potencia y undervolts. No lo hagas. Primero determina qué te está limitando realmente.

Primero: identifica el limitador (térmico vs potencia vs software)

  1. Revisa relojes y razones de estrangulamiento bajo carga. Si los relojes caen mientras la utilización es alta, probablemente estés alcanzando un límite.
  2. Revisa hotspot y temperaturas de memoria (si están expuestas). Un delta alto de hotspot o una alta unión de memoria es una señal clásica de problemas de pad/contacto.
  3. Revisa el comportamiento de los ventiladores. Si los ventiladores suben al máximo pero la temperatura del núcleo parece “bien”, eso suele indicar hotspot/memoria/VRM jalando del hilo.

Segundo: aisla qué superficie está fallando en el contacto

  1. Delta de hotspot grande (hotspot mucho más alto que la temp del GPU): sospecha mal contacto del dado o disipador no asentado por grosor de almohadillas.
  2. Unión de memoria alta con núcleo razonable: sospecha almohadillas de memoria, colocación de pads o transferencia por backplate.
  3. Caídas/crasheos bajo carga transitoria (no sostenida): sospecha térmicas de VRM o estabilidad de entrega de potencia, que las almohadillas pueden influenciar indirectamente.

Tercero: decide si necesitas repaste, repad, cambios de flujo de aire o los tres

  • Solo repaste cuando el delta de hotspot indica problemas de contacto en el dado y las temperaturas de memoria están bien.
  • Solo repads cuando las temperaturas de memoria/VRM son altas y el contacto del núcleo es sano.
  • Ambos cuando el disipador se va a retirar de todos modos en una tarjeta vieja, o cuando sospechas que las almohadillas están levantando el disipador.
  • Flujo de aire/ductería cuando todo mejora con el panel lateral abierto o con asistencia de ventilador externo.

El orden importa porque el modo de fallo importa. Arreglar lo equivocado y puedes empeorar lo correcto.

Herramientas y métricas que importan

No necesitas una cámara térmica para tomar buenas decisiones (aunque son divertidas). Necesitas telemetría consistente y una carga repetible.

Métricas a vigilar

  • Temperatura GPU: estado térmico general del núcleo, pero no suficiente por sí sola.
  • Temperatura de hotspot/junción: revela calidad de contacto y calentamiento localizado.
  • Temperatura de unión de memoria: especialmente en tarjetas que la exponen; fuertemente ligada a la eficacia de las almohadillas.
  • Velocidad y duty del ventilador: indica lo que el controlador está reaccionando a.
  • Relojes y voltaje: muestra estrangulamientos y estabilidad.
  • Consumo de potencia: confirma si estás limitado por potencia o por temperatura.
  • Contadores de errores: Xid, ECC (si está presente), reinicios de driver—estos pueden correlacionar con sobrecalentamiento de memoria/VRM.

Una cita sobre confiabilidad (idea parafraseada)

Idea parafraseada de John Allspaw: la confiabilidad viene de entender el comportamiento normal e instrumentar sistemas para ver cuándo la realidad diverge.

Eso aplica perfectamente aquí: establece tu “normal” y luego busca divergencias cuando cambia la carga.

Tareas prácticas: comandos, salidas y decisiones (12+)

Estas son intencionalmente operacionales. Cada tarea incluye: un comando, qué significa la salida y la decisión que tomas a partir de ella. Los comandos están enfocados a Linux, porque la producción suele ser así.

Task 1: Confirmar la GPU y la pila de drivers

cr0x@server:~$ nvidia-smi
Wed Jan 21 10:17:02 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf           Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 3080        Off |   00000000:01:00.0  On |                  N/A |
|  72%   76C    P2              320W / 340W |    8900MiB / 10018MiB |     98%      Default |
+-----------------------------------------+------------------------+----------------------+

Significado: Confirma modelo, versión del driver y utilización/potencia de referencia. Esto te dice si estás cerca del límite de potencia y si la carga es real.

Decisión: Si ves baja utilización y bajos relojes, no culpes a los térmicos todavía—busca primero un cuello de botella por software. Si ves alta utilización y los relojes bajan, continúa con las comprobaciones térmicas.

Task 2: Registrar temperaturas, relojes y potencia cada segundo durante una carga conocida

cr0x@server:~$ nvidia-smi --query-gpu=timestamp,temperature.gpu,clocks.sm,clocks.mem,power.draw,fan.speed,utilization.gpu --format=csv -l 1
timestamp, temperature.gpu, clocks.sm, clocks.mem, power.draw, fan.speed, utilization.gpu
2026/01/21 10:17:10, 77, 1710, 9501, 323.45, 74, 99
2026/01/21 10:17:11, 78, 1695, 9501, 327.10, 76, 99
2026/01/21 10:17:12, 78, 1545, 9501, 310.02, 78, 99

Significado: Los relojes que bajan mientras la utilización se mantiene alta suelen indicar un limitador (térmico, voltaje o potencia).

Decisión: Si el consumo de potencia baja con los relojes mientras la temperatura sube lentamente, probablemente estás alcanzando un umbral térmico o un límite por hotspot/memoria. Siguiente: revisa hotspot y temperaturas de memoria si es posible.

Task 3: Extraer telemetría detallada de sensores (incluyendo hotspot/mem si está expuesto)

cr0x@server:~$ nvidia-smi -q -d TEMPERATURE,CLOCK,PERFORMANCE
==============NVSMI LOG==============

Temperature
    GPU Current Temp            : 78 C
    GPU Shutdown Temp           : 93 C
    GPU Slowdown Temp           : 83 C
    GPU Max Operating Temp      : 83 C

Clocks
    Graphics                    : 1545 MHz
    SM                          : 1545 MHz
    Memory                      : 9501 MHz

Performance State
    Performance State           : P2

Significado: “Slowdown temp” es una pista. Si estás cerca y los relojes están bajando, probablemente estás limitado por una temperatura que al driver le importa.

Decisión: Si se alcanza slowdown a temperaturas de núcleo relativamente moderadas, sospecha hotspot/memoria/VRM en lugar del núcleo promedio.

Task 4: Comprobar registros del kernel en busca de reinicios de GPU y eventos térmicos

cr0x@server:~$ sudo dmesg -T | egrep -i "nvrm|xid|thermal|throttle" | tail -n 20
[Wed Jan 21 10:15:42 2026] NVRM: Xid (PCI:0000:01:00): 31, pid=18422, Ch 00000008, intr 00000000
[Wed Jan 21 10:15:43 2026] NVRM: GPU at PCI:0000:01:00: GPU has fallen off the bus.
[Wed Jan 21 10:16:10 2026] thermal thermal_zone0: throttling, current_temp=92000

Significado: Eventos Xid y “fallen off the bus” pueden ser inestabilidad por potencia, drivers o térmicos. Si se correlaciona con carga alta y temperaturas elevadas, la refrigeración se vuelve sospechosa.

Decisión: Si ves Xids repetidos bajo carga después de meses de estabilidad, revisa térmicos (pads/contacto VRM) antes de perseguir fantasmas de drivers.

Task 5: Revisar estado del enlace PCIe (mal asiento puede imitar “inestabilidad térmica”)

cr0x@server:~$ sudo lspci -s 01:00.0 -vv | egrep -i "LnkSta|SltSta|Errors|Speed|Width"
LnkSta: Speed 16GT/s, Width x16
SltSta: AttnBtn- PwrCtrl- MRL- AttnInd- PwrInd- HotPlug- Surprise- Interlock- NoCompl+
Errors: Correctable- Non-Fatal- Fatal- Unsupported-

Significado: Confirma que el enlace está estable y negociado correctamente. Problemas de PCIe pueden causar reinicios que parecen problemas térmicos.

Decisión: Si la velocidad/anchura del enlace fluctúa o aparecen errores, no abras el disipador primero—recoloca la tarjeta, inspecciona cables de alimentación y valida la ranura.

Task 6: Inspeccionar utilización de GPU vs cuello de botella de CPU

cr0x@server:~$ mpstat -P ALL 1 3
Linux 6.5.0 (server) 	01/21/2026 	_x86_64_	(32 CPU)

10:17:35 AM  CPU    %usr   %nice    %sys %iowait   %irq  %soft  %steal  %idle
10:17:36 AM  all   35.12    0.00    4.01    0.12   0.00   0.31    0.00  60.44
10:17:36 AM    7   99.00    0.00    1.00    0.00   0.00   0.00    0.00   0.00

Significado: Un CPU al 99% mientras la utilización GPU es inconsistente puede indicar un cuello de botella de CPU o un problema del hilo único que alimenta la GPU.

Decisión: Si la CPU es el limitador, el trabajo de almohadillas no te dará nada. Arregla el pipeline primero.

Task 7: Confirmar control de ventiladores y si la GPU está en un perfil conservador

cr0x@server:~$ nvidia-settings -q GPUFanControlState -q GPUTargetFanSpeed
  Attribute 'GPUFanControlState' (server:0[gpu:0]): 0.
  Attribute 'GPUTargetFanSpeed' (server:0[gpu:0]): 74.

Significado: Estado de control de ventilador 0 es automático. La velocidad objetivo del ventilador indica que el controlador está intentando gestionar activamente los térmicos.

Decisión: Si los ventiladores están bajos mientras las temperaturas suben, puede haber un problema de control de ventiladores. No culpes a las almohadillas hasta que el comportamiento de los ventiladores tenga sentido.

Task 8: Somete la GPU a una carga consistente (compute) y observa estabilidad

cr0x@server:~$ sudo apt-get install -y stress-ng
Reading package lists... Done
Building dependency tree... Done
stress-ng is already the newest version (0.15.06-1ubuntu1).
cr0x@server:~$ stress-ng --cpu 16 --timeout 60s --metrics-brief
stress-ng: info:  [20133] dispatching hogs: 16 cpu
stress-ng: info:  [20133] successful run completed in 60.01s

Significado: Esto no estresa la GPU; estabiliza el comportamiento del lado CPU para que tu carga de GPU no se muera o sea irregular.

Decisión: Si los térmicos de la GPU solo se ven mal cuando la CPU también está cargada, puede que tengas flujo de aire de caja o interacción de calor de la PSU, no solo almohadillas.

Task 9: Medir “delta de hotspot” cuando esté disponible (proxy vía sensores)

cr0x@server:~$ sudo apt-get install -y lm-sensors
Reading package lists... Done
Building dependency tree... Done
lm-sensors is already the newest version (1:3.6.0-7ubuntu1).
cr0x@server:~$ sensors
nvme-pci-0200
Adapter: PCI adapter
Composite:    +47.9°C  (low  = -273.1°C, high = +84.8°C)

acpitz-acpi-0
Adapter: ACPI interface
temp1:        +62.0°C

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +71.0°C

Significado: Muchos sistemas no expondrán hotspot de GPU vía lm-sensors; eso está bien. Usa nvidia-smi y los registros de tu aplicación.

Decisión: Si la plataforma en general corre caliente, tu trabajo de enfriamiento GPU es más difícil. Aborda la admisión/escape antes del trabajo quirúrgico con pads.

Task 10: Validar límite de potencia y si estás estrangulando por potencia

cr0x@server:~$ nvidia-smi -q -d POWER | egrep -i "Power Limit|Enforced|Default|Min|Max"
    Power Limit                  : 340.00 W
    Default Power Limit          : 340.00 W
    Enforced Power Limit         : 340.00 W
    Min Power Limit              : 100.00 W
    Max Power Limit              : 370.00 W

Significado: Confirma que no estás accidentalmente limitado. En flotas corporativas, alguien a menudo “temporalmente” bajó límites de potencia y lo olvidó.

Decisión: Si el límite de potencia está muy por debajo del valor por defecto, arregla eso antes de abrir hardware. Si la potencia es normal y los relojes aún bajan con temperaturas en ascenso, sigue investigando térmicos.

Task 11: Vigilar el rendimiento a nivel de aplicación durante un evento térmico

cr0x@server:~$ tail -n 8 /var/log/gpu-job.log
step=1840 imgs/sec=1210 gpu_util=99% sm_clock=1710 mem_clock=9501 temp=77
step=1841 imgs/sec=1198 gpu_util=99% sm_clock=1695 mem_clock=9501 temp=78
step=1842 imgs/sec=1042 gpu_util=99% sm_clock=1545 mem_clock=9501 temp=78
step=1843 imgs/sec=1035 gpu_util=99% sm_clock=1545 mem_clock=9501 temp=79

Significado: El rendimiento baja al mismo ritmo que el reloj SM. Eso no es “lentitud aleatoria.” Es un limitador.

Decisión: Si el rendimiento se correlaciona fuertemente con la temperatura, tienes un problema de control térmico que resolver, y las almohadillas son un sospechoso principal cuando memoria/hotspot están implicadas.

Task 12: Verificar que el sistema no esté acumulando calor por curvas de ventilador o control del chasis

cr0x@server:~$ sudo ipmitool sdr type fan
FAN1         | 4200 RPM          | ok
FAN2         | 4100 RPM          | ok
FAN3         | 1900 RPM          | ok
FAN4         | 1800 RPM          | ok

Significado: En servidores, los ventiladores del chasis pueden estar en un perfil silencioso que deja a las GPUs sin aire fresco.

Decisión: Si los ventiladores del chasis están bajos mientras las GPUs están calientes, arregla la política de ventiladores de la plataforma primero. Repadding no vencerá a un chasis que se niega a mover aire.

Task 13: Crear una línea base después de cambios con una captura consistente

cr0x@server:~$ mkdir -p ~/gpu-thermal-baselines
cr0x@server:~$ nvidia-smi --query-gpu=timestamp,temperature.gpu,clocks.sm,power.draw,fan.speed,utilization.gpu --format=csv -l 2 | head -n 10 | tee ~/gpu-thermal-baselines/baseline.csv
timestamp, temperature.gpu, clocks.sm, power.draw, fan.speed, utilization.gpu
2026/01/21 10:20:10, 44, 210, 24.12, 30, 0
2026/01/21 10:20:12, 45, 210, 24.05, 30, 0
2026/01/21 10:20:14, 45, 210, 24.01, 30, 0

Significado: Un archivo de referencia te da evidencia “antes/después”. De lo contrario te basarás en sensaciones, lo cual no es una métrica.

Decisión: No hagas trabajo de almohadillas sin una línea base. Si no puedes demostrar la mejora, no puedes saber si introdujiste un nuevo riesgo.

Elegir almohadillas: grosor, dureza, conductividad y realidad

El grosor manda

La decisión número uno es el grosor. No la marca. No W/mK. El grosor.

¿Por qué? Porque el grosor determina si obtienes contacto en absoluto y si reduces accidentalmente la presión sobre el dado. El dado del GPU es implacable: si el cold plate no queda bien asentado, el hotspot sube, los relojes bajan y has cambiado un problema de memoria por uno de núcleo.

Orientación práctica:

  • Comienza con mapas de grosores conocidos para tu variante exacta de placa cuando sea posible. “Mismo modelo de GPU” no es “misma PCB”.
  • Si debes medir, mide las almohadillas viejas y verifica con pruebas de impresión (más abajo). Las almohadillas usadas pueden estar comprimidas o deformadas, así que trata la medición como punto de partida, no como evangelio.
  • No mezcles grosores al azar. Si una sección queda más gruesa, podrías levantar otra superficie de contacto.

Dureza/compresibilidad: la variable oculta

Las almohadillas no son solo grosor; son resortes con conductividad térmica. Las almohadillas duras resisten la compresión, lo cual puede ser bueno para mantener contacto en componentes altos, pero arriesgado para el asentamiento del dado. Las más blandas se conforman mejor, pero pueden “fluir” con el tiempo y reducir la presión constante.

Cuando ves informes de resultados muy distintos usando “el mismo grosor”, la dureza suele ser la razón.

Conductividad térmica (W/mK) no es mentira, solo incompleta

Mayor W/mK puede ayudar, pero solo si:

  • la almohadilla realmente contacta ambas superficies,
  • se comprime correctamente,
  • no introduce un hueco mayor en otro lugar.

Además: las hojas de datos suelen probarse bajo compresión y condiciones de temperatura específicas. Tu GPU es un laboratorio caótico con presión desigual, micro-huecos y limitaciones de flujo de aire.

Almohadilla vs pasta espesa: sabe lo que estás intercambiando

La pasta o putty térmica (relleno de huecos) se ha hecho popular porque se conforma fácilmente a superficies irregulares y puede reducir el riesgo de “grosor incorrecto”. Puede ser excelente para VRM/formas raras.

Inconvenientes:

  • Más desordenada, más difícil de re-trabajar limpiamente.
  • Puede migrar si se aplica en exceso.
  • La estabilidad a largo plazo varía según el compuesto y los ciclos térmicos.

Si administras GPUs en producción donde la repetibilidad importa más que los puntos en internet, las almohadillas siguen siendo la elección predecible—cuando tienes el grosor correcto.

Cuando la backplate forma parte del sistema térmico

Algunas tarjetas dependen de almohadillas en la backplate para sacar calor de la memoria o de la parte trasera de la PCB. Si esas almohadillas faltan o son demasiado delgadas, pierdes una superficie de dispersión de calor. Si son demasiado gruesas, puedes deformar la PCB y crear nuevos problemas de contacto en el frente.

La deformación de la PCB no es solo estética. Las placas deformadas cambian la distribución de presión, lo que puede aumentar el delta de hotspot incluso si tu pasta es perfecta.

Broma #2 (corta, relevante): Las almohadillas térmicas envejecen como la leche, no como el vino—si tienes suerte, notas el olor antes del fallo.

Listas de verificación / plan paso a paso (repaste + repad sin arrepentimientos)

Checklist pre-vuelo: decide si siquiera debes abrir la tarjeta

  • Recolecta líneas base: temperaturas, relojes, ventilador, potencia bajo una carga repetible (ver tareas arriba).
  • Confirma el limitador: ¿es la unión de la memoria, el delta de hotspot o simplemente el flujo de aire del chasis?
  • Confirma la variante: modelo exacto del partner de placa y revisión si es posible.
  • Acepta la compensación de garantía: si no puedes asumir el riesgo, no lo hagas. La producción no se preocupa por tu curiosidad.
  • Programa tiempo de inactividad: trátalo como una ventana de mantenimiento.

Herramientas y suministros (mínimos pero correctos)

  • Precauciones ESD (muñequera o al menos puesta a tierra disciplinada).
  • Puntas de destornillador correctas (no redondees tornillos pequeños y luego improvises como un villano).
  • Alcohol isopropílico y paños sin pelusa.
  • Pasta térmica para el dado (un compuesto conocido y estable).
  • Almohadillas térmicas en los grosores correctos; compra extras.
  • Calibrador (útil) y un cuaderno para mapear las almohadillas.

Paso a paso: desmontaje con mentalidad SRE

  1. Apaga, desconecta y descarga. Retira la tarjeta, etiquétala y toma fotos mientras trabajas. Las fotos son tu plan de reversión.
  2. Quita el disipador de forma pareja. Afloja los tornillos en patrón cruzado. Intentas evitar estrés desigual en la PCB.
  3. Documenta ubicaciones y grosores de almohadillas. Crea un “mapa de pads” en tus notas: almohadillas de memoria, VRM, backplate, y cualquier punto raro.
  4. Inspecciona las almohadillas viejas. Busca áreas brillantes sin contacto, secciones rotas (desplazadas) o material quebradizo/endurecido (envejecido).
  5. Limpia la pasta y los residuos. Retira la pasta vieja del dado y del cold plate con cuidado. Limpia residuos de almohadillas donde sea necesario sin raspar componentes.

Paso a paso: instalar nuevas almohadillas sin levantar el cold plate

  1. Corta las almohadillas limpiamente. Un poco más pequeñas que la huella del chip suele ser más seguro que sobresalir y interferir con otras superficies.
  2. Coloca las almohadillas con precisión. Los chips de memoria deben estar completamente cubiertos. Las almohadillas VRM deben cubrir los componentes previstos; no “puentes” hacia condensadores a menos que el diseño lo espere.
  3. Atíente las películas protectoras. Retira ambos lados. Dejar una produce una capa aislante con excelentes vibras y pésimos térmicos.
  4. Aplica pasta en el dado. Usa un método fiable (capa fina o pequeña gota central según la viscosidad y el tamaño del dado). El objetivo es cobertura completa sin exceso que se salga.
  5. Prueba en seco e impresión (recomendado). Antes del montaje final, asienta ligeramente el disipador y luego quítalo para inspeccionar marcas de compresión de las almohadillas y la distribución de la pasta. Buscas “contacto en todas partes” y “cold plate asentado”.
  6. Montaje final con disciplina de torque. Aprieta en patrón cruzado en incrementos pequeños. Si los tornillos tienen resortes, comprímelos de forma pareja.

Checklist post-vuelo: demostrar la solución

  • Comprobación de arranque e inactividad: verifica que los ventiladores giren, no haya artefactos, ni problemas de drivers.
  • Prueba de carga: ejecuta la misma carga que la línea base. Captura la misma telemetría.
  • Compara deltas: temperatura de núcleo, delta de hotspot (si está disponible), temperaturas de memoria, relojes bajo carga, velocidad de ventilador para el mismo rendimiento.
  • Soak de estabilidad: 30–60 minutos. Los problemas térmicos suelen aparecer después del soak, no en el primer minuto.

Tres microhistorias corporativas (realistas y dolorosas)

1) Incidente causado por una suposición errónea: “Mismo modelo de GPU significa mismo grosor de pad”

Un equipo con el que trabajé tenía una flota mixta de GPUs compradas en varios trimestres. Mismo nombre de GPU en papel, mismo vendedor, misma imagen de driver. Alguien notó que las temperaturas de la unión de memoria subían en un subconjunto de nodos y sugirió una campaña de repad. Sensato. El mantenimiento preventivo es más barato que un tiempo de inactividad sorpresa.

Ordenaron almohadillas basadas en un mapa de grosores publicado para “esa GPU”. Las primeras tarjetas mejoraron. La confianza aumentó. La implementación se aceleró, porque a los humanos les encanta una narrativa de éxito y odian esperar.

Luego un lote distinto empezó a fallar la validación: el hotspot subió, los relojes bajaron, y un sistema empezó a reiniciarse en carga. Los gráficos eran insultantes: la memoria parecía mejor, pero el núcleo ahora limitaba antes que antes.

La causa raíz no fue un misterio. El lote posterior tenía una placa de disipador y apilamiento de componentes ligeramente diferentes. El grosor “universal” levantó el cold plate lo suficiente como para reducir la presión sobre el dado y crear un problema de delta de hotspot. La memoria estaba más fría; el núcleo era ahora el factor limitante.

La solución fue lenta y poco glamorosa: detener el despliegue, identificar revisiones de placa, construir un mapa de grosores por revisión y retrabajar las tarjetas ya intervenidas que ahora estaban peor. La lección no fue “nunca repadear”. Fue “nunca asumas equivalencia mecánica por un nombre de marketing”.

2) Optimización que salió mal: “W/mK máximo en todas partes”

En otra empresa, un ingeniero preocupado por el rendimiento decidió estandarizar un material premium de alta conductividad para todo: VRAM, placa VRM, backplate, incluso donde la fábrica usaba almohadillas más blandas. La meta era noble: reducir velocidades de ventilador y mejorar relojes sostenidos.

En el banco de pruebas, la primera tarjeta se veía bien en una prueba corta. Los ventiladores estaban más tranquilos. Las temperaturas de memoria bajaron un poco. El cambio fue declarado un triunfo y repetido en un pequeño lote.

Dos semanas después, tickets de soporte: inestabilidad intermitente en entrenamientos largos. Nada obvio en la temperatura del núcleo. Un par de nodos lanzaron reinicios de driver tras horas, no minutos. El equipo hizo lo que suelen hacer: culpó al software primero. Reconstruyeron imágenes, fijaron versiones de driver, cambiaron cables e incluso cuestionaron las líneas de la PSU.

El problema real fue mecánico. Las almohadillas “premium” eran significativamente más duras. Bajo el mismo par, no se comprimían como las originales, lo que cambió la distribución de presión. El contacto del dado estuvo “ok” al principio, pero tras ciclos térmicos repetidos, el micro-movimiento y la fluencia lo empeoraron. El delta de hotspot aumentó y el estrés térmico local aumentó la probabilidad de errores.

La solución no fue abandonar materiales mejores; fue respetar el sistema. Cambiaron a una almohadilla más conforme para zonas específicas y usaron pads de alta conductividad solo donde el hueco y la presión eran adecuados. El rendimiento volvió, y también la estabilidad. La optimización falló porque optimizó una ficha técnica, no un ensamblaje mecánico.

3) La práctica aburrida pero correcta que salvó el día: “Linea base, cambiar una cosa, validar”

Un equipo enfocado en confiabilidad tenía una política: no mantenimiento térmico sin un artefacto antes/después. Cada nodo tenía un script simple que capturaba telemetría nvidia-smi bajo una carga estandarizada. El archivo aterrizaba en un lugar central. No era elegante, pero era consistente.

Un día, un técnico repadeó una tarjeta y la GPU empezó a rendir menos. No discutieron si “se sentía más lenta”. Sacaron la línea base y compararon. Los relojes post-cambio estaban 10–15% más bajos a la misma utilización, con mayor velocidad de ventilador. Ese es un cambio fallido, no “variación”.

Porque tenían el artefacto, la reversión fue sencilla: abrir la tarjeta otra vez, inspeccionar las marcas de contacto y corregir el grosor de una zona que impedía el asentamiento completo del cold plate. Tras la corrección, la telemetría coincidió con la línea base original y las temperaturas de memoria mejoraron un poco.

La política parecía burocrática hasta que no lo fue. Todo el incidente terminó en una tarde en lugar de una semana de arqueología en foros y apuestas con drivers. El proceso aburrido ahorró tiempo real, que es la única métrica que importa durante un incidente.

Errores comunes: síntomas → causa raíz → solución

1) Temperaturas de memoria peores después de repad

  • Síntomas: La unión de memoria sube más rápido que antes; los ventiladores se aceleran; el rendimiento cae tras el soak térmico.
  • Causa raíz: Almohadillas que no contactan el disipador (demasiado finas), película protectora dejada, almohadilla desplazada fuera del chip, o almohadilla cortada demasiado pequeña dejando un borde gap.
  • Solución: Reabre e inspecciona marcas de compresión; verifica la eliminación de la película; confirma que la huella de la almohadilla cubre totalmente el IC de memoria; ajusta el grosor por zona.

2) Delta de hotspot del núcleo aumenta tras repad

  • Síntomas: La temperatura del núcleo parece “bien”, pero el hotspot es mucho más alto; los relojes se estrangulan antes; la impresión de la pasta parece desigual.
  • Causa raíz: Almohadillas demasiado gruesas o duras, levantando el cold plate o reduciendo la presión de montaje sobre el dado.
  • Solución: Reduce el grosor de las almohadillas o cambia a almohadillas más conformes; vuelve a apretar en patrón cruzado; realiza una prueba de impresión para confirmar el asiento.

3) Crashs aleatorios después de 20–60 minutos

  • Síntomas: Inestabilidad en ejecuciones largas; reinicios de driver; no hay apagado térmico inmediato.
  • Causa raíz: Estrés térmico en VRM debido a mal contacto de almohadillas en MOSFETs/placas, o deformación de PCB causando calentamiento localizado.
  • Solución: Verifica la colocación y cobertura de almohadillas VRM; asegúrate del grosor correcto; revisa si la almohadilla de la backplate está demasiado gruesa causando arqueo.

4) Ventiladores más ruidosos pero temperaturas sin cambios

  • Síntomas: Mismas temperaturas con mayor duty de ventilador; aumento de ruido; poca mejora en rendimiento.
  • Causa raíz: Mejoraste un camino (por ejemplo, memoria a backplate) pero el camino limitante es el flujo de aire del chasis; o el disipador está obstruido/polvoriento.
  • Solución: Limpia las aletas del disipador; arregla admisión/escape; considera ductería; verifica que los ventiladores del chasis no estén en modo silencioso.

5) La pasta “se sale” rápidamente después de un repad

  • Síntomas: Buenas temperaturas por un día, peor una semana después; el delta de hotspot aumenta gradualmente.
  • Causa raíz: Presión desigual o movimiento excesivo por almohadillas que actúan como resortes rígidos; ciclos térmicos desplazan la pasta fuera del centro del dado.
  • Solución: Corrige la compresibilidad de las almohadillas; usa una pasta estable; verifica consistencia de la presión de montaje; evita apretar en exceso que deforme el ensamblaje.

6) “Todo está más frío” pero el rendimiento sigue bajo

  • Síntomas: Temperaturas mejoraron, sin embargo los relojes no se recuperan.
  • Causa raíz: Límite de potencia o curva voltaje/frecuencia, o la carga cambió; a veces un ajuste de driver o firmware se alteró durante la ventana de mantenimiento.
  • Solución: Revisa límites de potencia, configuración de la aplicación y razones de estrangulamiento; compara con las líneas base previas al cambio.

Preguntas frecuentes

1) ¿Realmente “se gastan” las almohadillas térmicas?

Sí. Los ciclos térmicos pueden endurecer las almohadillas, reducir su conformidad y degradar el contacto. No se evaporan, pero dejan de comportarse como buenos rellenadores de huecos.

2) ¿Siempre debo reemplazar las almohadillas cuando repasto?

Si la tarjeta es antigua o ya la tienes abierta, a menudo sí—porque reutilizar almohadillas perturbadas es jugar a la ruleta con el contacto. Si la tarjeta es nueva y las almohadillas están intactas, puedes solo repastear, pero ten cuidado de no rasgar o desplazar pads durante el desmontaje.

3) ¿Mayor W/mK siempre es mejor?

No automáticamente. Una almohadilla con un W/mK algo menor que se comprime correctamente y preserva el contacto del dado puede rendir mejor que una “mejor” que levanta el disipador.

4) ¿Cómo sé el grosor correcto de almohadilla para mi GPU?

Idealmente: un mapa de grosores para tu revisión exacta de placa. Si debes medir: usa las almohadillas originales como punto de partida y confirma con pruebas de impresión para asegurar contacto y asentamiento.

5) ¿Las almohadillas incorrectas pueden dañar la GPU?

Indirectamente, sí—causando sobrecalentamiento sostenido de memoria o VRMs, o deformando la PCB y estresando soldaduras con el tiempo. El riesgo inmediato es estrangulamiento e inestabilidad; el riesgo a largo plazo es desgaste que no ves.

6) ¿Por qué mi temperatura de núcleo parece bien pero aún así me estrangulan?

Porque la “temperatura del núcleo” a menudo no es el sensor más caliente. Hotspot y unión de memoria pueden alcanzar límites primero. Un mal contacto puede crear hotspots locales que las temperaturas promedio ocultan.

7) ¿Necesito almohadillar la backplate?

Solo si el diseño lo espera o puedes verificar que mejora la dispersión de calor sin deformar la placa. Almohadillar la backplate al azar puede crear más problemas de los que soluciona.

8) ¿Almohadillas o putty térmico para VRAM?

Las almohadillas son más limpias y repetibles si conoces el grosor. El putty es más tolerante para huecos desiguales pero más sucio y más variable a largo plazo. En flotas, la repetibilidad suele ganar.

9) ¿Cuál es un “buen” delta de hotspot?

Varía según GPU y diseño del disipador, pero deltas grandes suelen señalar problemas de contacto. Si tu delta salta significativamente tras mantenimiento, asume que hiciste algo mal y vuelve a revisar el asentamiento.

10) ¿Cuánto debo probar en soak después de repadear?

Al menos 30 minutos bajo carga estable, y idealmente una ejecución más larga que coincida con tu carga real. Muchas fallas aparecen después de que todo el ensamblaje se calienta y se estabiliza.

Conclusión: próximos pasos prácticos

Las almohadillas térmicas no son una mejora mágica. Son una interfaz mecánica que decide si la memoria y los VRM de tu GPU comparten un disipador o se defienden solos.

Si ves altas temperaturas de unión de memoria, ejecuciones largas inestables o un delta de hotspot que no tiene sentido, trata las almohadillas como un sospechoso de primera clase. Pero hazlo como operaciones, no como hobby: establece una línea base, cambia una cosa, valida y mantén un plan de reversión.

  1. Captura una línea base bajo una carga repetible (temperaturas, relojes, potencia, ventilador).
  2. Identifica el limitador (núcleo, hotspot, memoria, VRM, flujo de aire, potencia).
  3. Si las almohadillas están implicadas, consigue grosores correctos para la revisión de tu placa.
  4. Repastea/repadea con pruebas de impresión y disciplina de torque.
  5. Demuestra el resultado con la misma captura de telemetría con la que empezaste.

Lo mejor de hacer esto bien es que se siente aburrido. Así sabes que es de grado producción.

← Anterior
Correo: «Dirección del destinatario rechazada»: por qué usuarios válidos siguen rebotando
Siguiente →
MariaDB vs PostgreSQL en un VPS de 8GB: cómo escalar clientes de forma segura

Deja un comentario