Desastres con metal líquido: la mejora que acaba en factura de reparación

¿Te fue útil?

Repastas para que el equipo funcione más frío. Luego la máquina no arranca, o arranca y estrangula aún más que antes, o “funciona” hasta que, un mes después, los ventiladores rugen y los fotogramas se traban. No solo actualizaste la refrigeración: abriste un modo de fallo que se comporta como un error de almacenamiento intermitente: difícil de reproducir, caro de diagnosticar y perfectamente cronometrado para golpear cuando más necesitas el sistema.

El metal líquido es la ganancia “fácil” más seductora en térmicas de entusiastas: brillante, científica y a menudo eficaz. También multiplica riesgos. En términos de producción, es un cambio que aumenta rendimiento mientras reduce el margen de seguridad—salvo que lo trates como un material peligroso con un manual, no como pasta dental.

Por qué el metal líquido falla (y por qué parece estar bien al principio)

Los materiales de interfaz térmica (TIM) de metal líquido —típicamente aleaciones a base de galio— pueden transferir calor extremadamente bien en comparación con pastas comunes. Ese es el argumento de venta. La realidad operativa es que son conductores eléctricos, mojan superficies de formas que la pasta no lo hace, y reaccionan con ciertos metales. Esa combinación los hace comportarse menos como un consumible y más como un químico de baja viscosidad que quiere explorar.

La mayoría de los “desastres con metal líquido” no son fuegos artificiales instantáneos. Son fallos de combustión lenta:

  • Una pequeña gota migra durante semanas de ciclos térmicos y finalmente hace puente entre dos pads.
  • La corrosión galvánica devora silenciosamente una interfaz de disipador hasta que la presión de contacto cambia y las temperaturas aumentan.
  • Se forman películas de óxido, la aleación se espesa y el contacto se degrada—conduciendo a estrangulamiento que parece una regresión de firmware.

También es una tormenta perfecta de factores humanos. Las actualizaciones con metal líquido suelen hacerse tarde por la noche, con prisa, con confianza de YouTube y expectativas de tiempo de actividad de producción. Ahí es cuando obtienes la causa raíz clásica de outage: “cambio + sin plan de reversión”.

Toma de posición: si el sistema es crítico—estación de trabajo para plazos, portátil para viajes, nodo de homelab que aloja tus copias—el metal líquido solo se justifica si también puedes justificar los controles: aislamiento, contención, calendario de inspección y una ruta documentada para volver a la pasta convencional.

Un chiste, porque hace falta alivio: el metal líquido es como una mejora de rendimiento gratis que viene con un DLC sorpresa llamado “Solución Avanzada de Problemas”.

La física que lo hace atractivo

Los valores de conductividad térmica para TIMs a base de galio a menudo se citan en decenas de W/m·K. Las pastas estándar a base de silicona pueden ser mucho más bajas. Las diferencias en el mundo real varían con la presión de montaje, planitud del die, calidad del IHS y diseño del disipador. Pero el metal líquido puede reducir absolutamente las temperaturas de carga—a veces de forma dramática—especialmente en CPUs con die desnudo o delidded y en algunos diseños de portátil.

Las propiedades que lo hacen arriesgado

  • Conductor: una mancha sobre componentes SMD puede provocar cortocircuitos en señales o rieles de alimentación.
  • Baja viscosidad: bajo presión y ciclos térmicos, puede desplazarse.
  • Químicamente activo: el galio puede atacar el aluminio y puede formar aleaciones con algunas superficies.
  • Humedecimiento de superficies: se extiende y se adhiere a superficies metálicas, lo cual es excelente para la transferencia de calor y pésimo para la limpieza.

Hechos e historia: cómo llegamos aquí

Algo de contexto importa, porque muchas malas decisiones vienen de tratar el metal líquido como si fuera simplemente “mejor pasta”. No lo es. Aquí hay hechos concretos y puntos históricos que deberían cambiar cómo lo manejas:

  1. El galio se funde cerca de la temperatura ambiente (alrededor de 30°C), por eso es líquido en entornos operativos normales y algo sólido en una sala fría.
  2. El galio ataca agresivamente el aluminio al difundirse en él y debilitarlo. Por eso los disipadores de aluminio y los metales líquidos a base de galio son una mala combinación.
  3. El niquelado se usa ampliamente en disipadores de cobre y superficies del IHS porque ofrece una barrera más estable y reduce la reacción directa comparado con el cobre desnudo.
  4. El delidding se volvió mainstream porque algunas generaciones de CPU usaban TIM interno que limitaba la transferencia de calor; los entusiastas lo reemplazaron para bajar temperaturas y mejorar comportamiento de boost.
  5. Los OEMs de portátiles empezaron a enviar metal líquido en modelos selectos para gestionar térmicas en chasis delgados—probando que puede ser fiable cuando se diseña con contención y QA, no cuando se aplica en una mesa de cocina.
  6. El rendimiento térmico no es monótono con “más TIM”; demasiado puede aumentar el pump-out y el riesgo de migración sin mejorar la calidad del contacto.
  7. El ciclo térmico es una prueba mecánica: la expansión/contracción repetida del die, IHS y disipador puede mover materiales lentamente. Por eso “funcionó dos semanas” no es evidencia de éxito.
  8. Muchos problemas “misteriosos” post-repaste están relacionados con el montaje: presión desigual, tolerancias de separador o un espaciador olvidado pueden causar peores temperaturas que antes, con metal líquido o sin él.
  9. Los daños por ESD y los derrames de metal líquido se confunden porque ambos pueden aparecer como un no-arranque repentino tras manipulación; la diferencia es que el metal líquido a menudo deja residuos visibles si sabes dónde mirar.

Una idea para llevar al banco, parafraseada y atribuida a Gene Kranz: lo duro y competente vence a lo ingenioso cuando las cosas van mal. Esa es la cultura de fiabilidad en una línea.

Modos de fallo que convierten “más frío” en “RMA”

1) Cortocircuitos eléctricos: el obvio que aún se te escapa

El metal líquido es conductor. No necesita puente grandes. Una pequeña cantidad entre pads SMD adyacentes puede crear fallos intermitentes—bucles de arranque, USB inestable, errores WHEA aleatorios, artefactos en GPU. La intermitencia es lo que lo hace caro: no puedes confiar en un solo arranque limpio.

Dónde tiende a ir:

  • Por el borde del paquete CPU/GPU hacia pasivos cercanos.
  • Bajo el labio del spreader o en áreas de retención del socket.
  • Sobre componentes VRM cerca del die porque la presión del disipador lo “exprime” hacia afuera.

Por qué lo diagnosticas mal: porque el sistema a veces arranca, y los logs culpan a controladores, firmware o “error de hardware desconocido”. Los cortos son aburridos. Rara vez se identifican por sí mismos con cortesía.

2) Corrosión galvánica e incompatibilidad de materiales

Galio y aluminio es el emparejamiento clásico de “no hagas esto”. Pero incluso con cobre puedes obtener cambios superficiales: manchas, aleado, rugosidad. El niquelado ayuda. No es una barrera mágica si es tenue, está rayada o mal adherida.

Patrón de fallo: las temperaturas empeoran lentamente, los ventiladores suben más, vuelves a aplicar pasta y ves la superficie picada: te das cuenta de que no estás “manteniendo”, estás consumiendo el disipador.

3) Pump-out, secado y películas de óxido

El metal líquido puede formar óxidos. También puede redistribuirse bajo presión y ciclos térmicos. El parche de contacto que importaba—directamente sobre los puntos calientes—puede adelgazar mientras el material migra hacia afuera. Resultado: la temperatura “promedio” puede parecer aceptable, pero el delta de punto caliente aumenta y la CPU estrangula antes.

4) Fallo de contención en portátiles: la gravedad y el movimiento son reales

Los escritorios están quietos. Los portátiles viajan. Se giran, se empaquetan, se golpean, se calientan en una mochila, se enfrían en una bandeja. El entorno mecánico es más agresivo. Las implementaciones OEM de metal líquido en portátiles suelen incluir diques de espuma, sellantes o barreras conformes. Si aplicas metal líquido sin contención, estás apostando tu placa base contra la turbulencia de una aerolínea.

5) Presión de montaje y errores de torque: el asesino sigiloso

Muchos “problemas de metal líquido” son en realidad problemas de montaje. Si no aprietas los tornillos en patrón de cruz, o faltas un tornillo con resorte, obtienes presión desigual. El metal líquido entonces “parece” presente pero la transferencia de calor es pobre porque la interfaz no es uniforme.

6) Métricas de éxito engañosas: “temperaturas de reposo más bajas” no es una victoria

Las temperaturas de reposo pueden mejorar mientras la estabilidad bajo carga empeora. Las métricas correctas son potencia sostenida del paquete, frecuencias bajo carga y delta punto caliente-promedio. Trátalo como ingeniería de rendimiento: necesitas una carga repetible y una línea base.

Segundo y último chiste: el metal líquido es la única mejora donde “está funcionando más frío” puede significar “está a punto de no funcionar nunca”.

Tres microhistorias corporativas desde el frente

Microhistoria #1: El incidente causado por una suposición errónea

Un equipo de medios tenía varios portátiles de gama alta para edición en sitio. Siempre estaban calientes, siempre ruidosos, y los editores se quejaban de que las exportaciones se ralentizaban a mitad de render. Un técnico de TI bien intencionado—listo, manos a la obra, con ganas—sugirió metal líquido como solución. La suposición era simple: “esto es solo una pasta térmica mejor”.

La repasta se hizo con cuidado, al menos para estándares de aficionado. Las temperaturas bajaron el primer día. El editor estaba encantado. Dos semanas después, durante un evento con cliente, el portátil se reinició tres veces bajo carga y luego se negó a arrancar. La unidad de repuesto tuvo una falla similar al día siguiente.

En el banco, la placa mostró diminutos residuos metálicos cerca de las etapas de potencia de la GPU. No una fuga. Un destello. Suficiente. Los ciclos térmicos más el movimiento habían favorecido la migración. Bajo el microscopio quedó claro: un pequeño puente entre componentes adyacentes que no deberían haberse unido.

La suposición errónea no fue “el metal líquido funciona”. Fue asumir que un método de consumo se transfiere limpiamente a una flota de viaje. El costo no fue solo placas. Fue riesgo en el evento, confianza del cliente y el tiempo no planificado de depuración de fallos intermitentes que parecen software.

La solución fue política: no más metal líquido en dispositivos móviles salvo que el OEM lo diseñara, y cualquier remediación térmica debía incluir contención y un intervalo de inspección programado. El equipo también estandarizó undervolting y límites de potencia primero—menos atractivo, más fiable.

Microhistoria #2: La optimización que salió mal

Un pequeño clúster de cómputo usaba torres de clase workstation para builds CI y pruebas asistidas por GPU. Alguien notó que bajo carga sostenida, las temperaturas del paquete CPU eran altas y las frecuencias caían. Hubo presión para exprimir más rendimiento sin comprar más nodos. Metal líquido más delid apareció en una pizarra, rodeado dos veces.

La “optimización” funcionó—al principio. Las ejecuciones de benchmark mejoraron. Los gráficos se veían bien. Todos siguieron con su trabajo. Tres meses después, la inestabilidad en nodos comenzó: excepciones de máquina aleatorias, dispositivos PCIe que desaparecían del bus, reinicios al azar. Las fallas eran lo bastante raras para ser ignoradas, luego lo bastante frecuentes para arruinar la fiabilidad de builds.

Perseguían controladores. Actualizaron BIOS. Cambiaron RAM. Incluso sospecharon de la UPS. Finalmente, durante un desmontaje, hallaron que el metal líquido se había migrado ligeramente más allá del área prevista, y la placa fría del disipador mostraba manchas tenues y contacto desigual. La interfaz no era catastrófica; era inconsistente. Bajo ciertos estados térmicos, el sistema alcanzaba condiciones de error que parecían entrega de potencia marginal.

Acabaron volviendo a pasta convencional de alta calidad, añadiendo un mejor cooler y limitando la potencia sostenida del paquete para mantener el rendimiento consistente. El rendimiento cayó un poco, pero la tasa de fallos bajó mucho. Ese es el intercambio que quieres en producción: rendimiento predecible vence al rendimiento pico.

La lección no fue “nunca optimices”. Fue “optimiza el sistema completo”. Si aumentas rendimiento pero incrementas la varianza, creaste un impuesto de fiabilidad que se pagará con intereses.

Microhistoria #3: La práctica aburrida pero correcta que salvó el día

Un grupo de investigación tenía un par de estaciones de trabajo de sobremesa para simulaciones de larga duración. Uno de los ingenieros quiso probar metal líquido para reducir ruido y mejorar relojes sostenidos. El líder de TI no lo prohibió por completo. En cambio, lo trataron como un cambio controlado en un entorno de producción.

Documentaron la línea base: temperaturas sostenidas bajo carga, curvas de ventilador, relojes, potencia de paquete y métricas de estabilidad. Prepararon un kit de reversión: alcohol isopropílico, paños sin pelusa, cinta Kapton, recubrimiento conformal, pasta convencional y tornillería de repuesto. También exigieron un procedimiento de dos personas: uno aplica, otro inspecciona con magnificación antes del reensamblaje.

Tras la aplicación, ejecutaron un calendario de burn-in: múltiples ciclos térmicos, pruebas de estrés largas y una comprobación de reapriete después del enfriamiento. También pusieron recordatorio en calendario para inspeccionar a las dos semanas y de nuevo a los dos meses. Era tedioso y parecía excesivo.

En la inspección de las dos semanas, encontraron el inicio de migración hacia el borde del IHS—nada dramático, pero suficiente para justificar retrabajo y mejor sellado. Porque la estación no estaba “muerta” aún, la reparación fue económica: limpiar, reaplicar correctamente, añadir contención y seguir.

La práctica aburrida salvó el día: métricas de base, inspección por pares y rechecados programados. Es la misma mentalidad que evita outages de almacenamiento: no confías en un cambio hasta que sobrevive al tiempo y a la carga.

Guion de diagnóstico rápido (primeras/segundas/terceras comprobaciones)

Cuando una máquina falla tras una “mejora” con metal líquido, tu trabajo es encontrar el cuello de botella rápido y decidir si tratas con térmicas, alimentación o un cortocircuito eléctrico. Aquí el orden práctico que minimiza tiempo perdido.

Primero: establece si es estrangulamiento térmico o inestabilidad

  • Revisa banderas de throttling y temperaturas bajo una carga conocida. Si el sistema se mantiene estable pero las frecuencias bajan, estás en territorio térmico/firmware.
  • Si obtienes reinicios, WHEA/MCE o dispositivos que se desconectan, sospecha problemas eléctricos o contacto marginal que provoca fallos transitorios.

Segundo: inspecciona los registros en busca de firmas de error de hardware

  • Patrones WHEA/MCE, errores PCIe AER, reseteos de GPU y pistas de pérdida súbita de energía.
  • Eventos de apagado térmico frente a resets por watchdog.

Tercero: haz una inspección física antes de “afinar” software

  • Si ves residuo fuera del parche de contacto previsto, detente. Límpialo correctamente y revierte a un estado seguro.
  • Revisa la presión del disipador, orden de tornillos, separadores y barreras de aislamiento.

Puntos de decisión

  • Solo throttling térmico: vuelve a comprobar montaje, cobertura y límites de potencia; considera volver a pasta si la varianza es alta.
  • Inestabilidad intermitente: asume contaminación conductora hasta que se demuestre lo contrario; limpia e inspecciona con magnificación.
  • No arranca: pruebas mínimas de encendido, luego desmontaje. No “intentes otra vez” repetidamente y hornees el problema.

Tareas prácticas: comandos, salidas y decisiones (12+)

Estas son tareas de campo que puedes ejecutar en estaciones/servidores Linux para decidir si tratas throttling térmico, limitación de potencia o fallos de hardware provocados por una interfaz defectuosa. Cada tarea incluye: comando, salida de ejemplo, qué significa y qué decisión tomar a continuación.

Tarea 1: Confirmar throttling térmico de CPU en registros del kernel

cr0x@server:~$ sudo dmesg -T | egrep -i "thrott|thermal|temperature" | tail -n 20
[Mon Jan 22 09:41:12 2026] CPU0: Core temperature above threshold, cpu clock throttled (total events = 41)
[Mon Jan 22 09:41:12 2026] CPU0: Package temperature above threshold, cpu clock throttled (total events = 41)
[Mon Jan 22 09:52:10 2026] thermal thermal_zone0: critical temperature reached, shutting down

Significado: Tienes evidencia explícita del kernel de throttling térmico y posiblemente de apagado térmico.

Decisión: Deja de “optimizar” software. Inspecciona montaje/contacto y verifica la ruta de refrigeración (ventiladores, polvo, contacto del disipador). Considera volver a pasta si no puedes garantizar contención.

Tarea 2: Buscar errores de machine check (MCE) que sugieran hardware eléctrico/marginal

cr0x@server:~$ sudo journalctl -k -b | egrep -i "mce|machine check|hardware error|whea" | tail -n 30
Jan 22 09:33:18 server kernel: mce: [Hardware Error]: CPU 7: Machine Check: 0 Bank 27: b200000000070005
Jan 22 09:33:18 server kernel: mce: [Hardware Error]: TSC 0 ADDR fef1c140 MISC d012000100000000
Jan 22 09:33:18 server kernel: mce: [Hardware Error]: PROCESSOR 2:a20f12 TIME 1705912398 SOCKET 0 APIC 14 microcode 0xffffffff

Significado: Errores de hardware bajo carga suelen aparecer aquí. Tras una repasta, esto puede ser causado por sobrecalentamiento, pero también por cortocircuitos/contaminación o mal contacto que causa fallos transitorios.

Decisión: Si los errores se correlacionan con picos de temperatura, trátalo como térmico. Si aparecen a temperaturas moderadas o durante movimiento, sospecha migración/cortocircuito de metal líquido. Planea un desmontaje/limpieza.

Tarea 3: Verificar comportamiento de frecuencia de la CPU durante una carga

cr0x@server:~$ lscpu | egrep "Model name|CPU max MHz|CPU MHz"
Model name:                           Intel(R) Core(TM) i9-12900K
CPU MHz:                              4890.123
CPU max MHz:                          5200.0000

Significado: Instantánea útil como comprobación rápida de “está atascada baja?”.

Decisión: Si la CPU MHz permanece muy por debajo de lo esperado bajo carga, pasa a monitorización sostenida (tareas siguientes) y confirma si la causa es límite de potencia o térmica.

Tarea 4: Monitorizar temperaturas y estado de throttling (Intel) con turbostat

cr0x@server:~$ sudo turbostat --Summary --quiet --interval 2 --num_iterations 5
Avg_MHz  Busy%  Bzy_MHz  TSC_MHz  PkgTmp  PkgWatt
  4123    92.1    4476     4200      97     189.4
  4010    91.8    4361     4200      99     190.2
  3720    93.0    3998     4200     100     189.9
  3560    94.2    3779     4200     100     189.7
  3490    94.5    3686     4200     100     189.6

Significado: Temperatura del paquete anclada cerca de 100°C con caída de frecuencia sugiere throttling por límite térmico.

Decisión: Reasentar el cooler y verificar aplicación de TIM. Si es un portátil, considera limitar potencia como mitigación hasta que puedas retrabajar el metal líquido con seguridad.

Tarea 5: Monitorizar temperaturas CPU AMD (ejemplo) vía sensors

cr0x@server:~$ sensors
k10temp-pci-00c3
Adapter: PCI adapter
Tctl:         +95.5°C
Tdie:         +95.5°C

nvme-pci-0100
Adapter: PCI adapter
Composite:    +54.9°C

Significado: CPU muy caliente; NVMe normal. Eso apunta a refrigeración de la CPU, no a “todo el chasis está hirviendo”.

Decisión: Revisa presión del disipador, operación de ventilador/bomba y cobertura del TIM. Si las temperaturas son anormales respecto a la línea base, sospecha problemas de montaje o degradación del TIM.

Tarea 6: Confirmar comportamiento de ventiladores y bomba

cr0x@server:~$ sensors | egrep -i "fan|pump"
cpu_fan:      2480 RPM
sys_fan1:     1320 RPM
aio_pump:     2980 RPM

Significado: Ventiladores y bomba giran. Esto no prueba flujo, pero descarta un header muerto.

Decisión: Si las térmicas siguen mal, mira el contacto/interfaz antes de culpar primero a la curva de ventilador.

Tarea 7: Buscar reseteos de GPU o spam PCIe AER que acompañen cortos o inestabilidad

cr0x@server:~$ sudo journalctl -k -b | egrep -i "aer|pcie|nvrm|amdgpu|gpu reset" | tail -n 30
Jan 22 10:05:44 server kernel: pcieport 0000:00:1c.0: AER: Corrected error received: 0000:01:00.0
Jan 22 10:05:44 server kernel: pcieport 0000:00:1c.0: AER: PCIe Bus Error: severity=Corrected, type=Physical Layer
Jan 22 10:05:47 server kernel: NVRM: Xid (PCI:0000:01:00): 79, GPU has fallen off the bus.

Significado: La GPU “se cayó del bus”. Tras trabajo con metal líquido cerca del die/VRM, trata esto como posible contaminación o problema de montaje/presión, no solo un capricho de drivers.

Decisión: Inspección física inmediata. No sigas con estrés; puedes empeorar el daño.

Tarea 8: Comprobar si el sistema alcanza límites de potencia (a menudo confundido con “mala pasta”)

cr0x@server:~$ sudo turbostat --quiet --Summary --interval 1 --num_iterations 3 | cat
Avg_MHz  Busy%  Bzy_MHz  PkgTmp  PkgWatt
  3600    95.0    3780      82     125.0
  3590    95.3    3771      83     125.0
  3610    95.1    3792      83     125.0

Significado: Meseta estable de vatios con temperaturas moderadas puede indicar limitación por potencia en lugar de throttling térmico.

Decisión: Si las temperaturas están bien pero el rendimiento está capped, ajusta límites de potencia en BIOS o gestión de energía del OS en vez de rehacer el TIM.

Tarea 9: Verificar governor y perfil de energía de CPU (deriva común post-mantenimiento)

cr0x@server:~$ cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor
powersave

Significado: Estás en powersave. Eso puede parecer “problemas térmicos” porque los relojes no se mantienen.

Decisión: Cambia a performance para pruebas y luego elige la política intencionalmente.

cr0x@server:~$ sudo cpupower frequency-set -g performance
Setting cpu: 0
Setting cpu: 1
Setting cpu: 2
Setting cpu: 3

Significado: El governor cambió para condiciones de prueba.

Decisión: Vuelve a ejecutar la carga. Si el rendimiento regresa sin picos de temperatura, tu “problema de metal líquido” era deriva de política.

Tarea 10: Ejecutar una prueba de estrés controlada en CPU y vigilar temperaturas (no improvises)

cr0x@server:~$ sudo apt-get install -y stress-ng
Reading package lists... Done
Building dependency tree... Done
The following NEW packages will be installed:
  stress-ng
cr0x@server:~$ stress-ng --cpu 0 --timeout 60s --metrics-brief
stress-ng: info:  [4120] setting to a 60 second run per stressor
stress-ng: info:  [4120] dispatching hogs: 16 cpu
stress-ng: info:  [4120] successful run completed in 60.01s
stress-ng: info:  [4120] metrics: 12345.67 bogo ops/s

Significado: Ahora tienes una carga repetible de 60 s para comparar antes/después.

Decisión: Combínala con turbostat/sensors. Si alcanzas límites térmicos instantáneamente, es montaje/TIM/disipador. Si es estable, sigue investigando.

Tarea 11: Revisar errores SMART/NVMe (porque problemas térmicos pueden cascada)

cr0x@server:~$ sudo smartctl -a /dev/nvme0n1 | egrep "Temperature:|Critical Warning|Media and Data Integrity Errors|Error Information Log Entries"
Critical Warning:                   0x00
Temperature:                        55 Celsius
Media and Data Integrity Errors:    0
Error Information Log Entries:      0

Significado: NVMe está sano. Esto descarta la narrativa de “todo se está sobrecalentando”.

Decisión: Enfócate en la interfaz CPU/GPU y áreas VRM locales—donde se trabajó con metal líquido.

Tarea 12: Revisar patrones de reinicios y pérdidas de energía

cr0x@server:~$ last -x | head -n 12
reboot   system boot  6.6.9-rt     Mon Jan 22 10:12   still running
shutdown system down  6.6.9-rt     Mon Jan 22 10:10 - 10:12  (00:02)
reboot   system boot  6.6.9-rt     Mon Jan 22 09:58 - 10:10  (00:12)
reboot   system boot  6.6.9-rt     Mon Jan 22 09:41 - 09:58  (00:17)

Significado: Múltiples tiempos de actividad cortos sugieren resets. Si se alinean con eventos de carga, sospecha apagado térmico o fallo de hardware.

Decisión: Correlaciona con timestamps de journalctl. Si no hay apagado limpio registrado, sospecha pérdida abrupta de energía (corto/protección VRM) o corte térmico duro.

Tarea 13: Comprobar zonas térmicas ACPI (útil en portátiles)

cr0x@server:~$ for z in /sys/class/thermal/thermal_zone*/type; do echo "$z: $(cat $z)"; done
/sys/class/thermal/thermal_zone0/type: x86_pkg_temp
/sys/class/thermal/thermal_zone1/type: acpitz
cr0x@server:~$ for t in /sys/class/thermal/thermal_zone*/temp; do echo "$t: $(cat $t)"; done
/sys/class/thermal/thermal_zone0/temp: 98000
/sys/class/thermal/thermal_zone1/temp: 45000

Significado: El paquete CPU está a 98°C mientras la zona ACPI está normal. Eso localiza de nuevo el problema en la refrigeración de la CPU, no en el ambiente.

Decisión: Trátalo como interfaz/montaje. Si esto ocurre tras aplicar metal líquido, planifica desmontaje y verifica contención y cobertura.

Tarea 14: Validar que los ventiladores no estén siendo limitados por un perfil

cr0x@server:~$ systemctl status thermald --no-pager
● thermald.service - Thermal Daemon Service
     Loaded: loaded (/lib/systemd/system/thermald.service; enabled; preset: enabled)
     Active: active (running) since Mon 2026-01-22 09:11:03 UTC; 1h 2min ago

Significado: thermald está activo; en algunos sistemas puede influir en el comportamiento térmico.

Decisión: No desactives la seguridad térmica permanentemente. Para depuración puedes comparar comportamiento con/sin utilidades del fabricante, pero la solución es física si la interfaz está mal.

Errores comunes: síntoma → causa raíz → solución

Esta es la sección que desearía que más gente leyera antes de abrir el chasis.

Síntoma: Las temperaturas mejoraron una semana y luego empeoraron más que antes

Causa raíz: Migración/pump-out o formación de película de óxido que reduce el contacto efectivo en puntos calientes; a veces combinado con presión desigual.

Solución: Desmontaje, limpieza completa, reaplicar con cantidad mínima y distribución adecuada, añadir contención (dique de espuma, sellante apropiado a la plataforma), verificar torque uniforme en patrón de cruz. Si no puedes implementar contención, vuelve a pasta de alta calidad.

Síntoma: Reinicios aleatorios bajo carga, sin logs claros de software

Causa raíz: Contaminación conductora que causa cortocircuitos intermitentes; disparos de protección VRM que parecen pérdida de potencia.

Solución: Deja de intentar arrancar repetidamente. Desmonta e inspecciona con magnificación alrededor de los bordes del die y pasivos/VRMs cercanos. Limpia a fondo; si el residuo llegó a áreas de paso fino, considera limpieza ultrasónica profesional en lugar de raspar.

Síntoma: El sistema arranca, pero la GPU “se cae del bus” o muestra artefactos

Causa raíz: Metal líquido migrado hacia componentes SMD cerca del paquete de la GPU; o contacto desigual del disipador causando inestabilidad de puntos calientes.

Solución: Inspección física y retrabajo. También verifica la presión de montaje y cualquier almohadilla térmica faltante que soporte el plano del disipador.

Síntoma: No arranca después de repaste; ventiladores giran, sin pantalla

Causa raíz: Rieles cortocircuitados cerca de CPU/GPU o contaminación bajo el soporte de retención; alternativamente daño por ESD durante la manipulación.

Solución: Inspecciona primero por residuos visibles de metal líquido (es la causa reversible más fácil). Limpia. Si no hay residuo y no hay progreso, pasa a diagnóstico a nivel de placa.

Síntoma: Temperaturas CPU bien, pero rendimiento limitado y relojes bajos

Causa raíz: Políticas de límite de potencia, actualizaciones de firmware que reinician PL1/PL2, o cambios en el governor del OS—no relacionados con metal líquido.

Solución: Confirma ajustes de gestión de energía, límites en BIOS y governor. Solo rehacer TIM si las temperaturas son realmente el factor limitante.

Síntoma: Superficie del disipador se ve manchada/picada tras la limpieza

Causa raíz: Reacción/aleado con cobre desnudo o niquelado comprometido; posible exposición de aluminio si el disipador no es compatible.

Solución: No sigas aplicando metal líquido a una superficie dañada. Reemplaza el disipador o vuelve a pasta. Si hay aluminio implicado, detén inmediatamente y reemplaza componentes según sea necesario.

Síntoma: El portátil funciona en la mesa, falla después de viajar

Causa raíz: Movimiento más ciclo térmico movió el metal líquido más allá del límite previsto; contención ausente o inadecuada.

Solución: Retrabaja con contención adecuada o vuelve al método aprobado por OEM. Trata el metal líquido en móviles como un caso especial, no como una costumbre de sobremesa.

Listas de verificación / plan paso a paso

Lista de decisión: ¿deberías usar metal líquido en absoluto?

  • ¿La superficie de contacto del disipador está niquelada? Si no puedes confirmarlo, asume riesgo.
  • ¿Hay aluminio en la ruta de contacto? Si sí, no uses metal líquido a base de galio.
  • ¿El dispositivo es móvil (portátil) o se manipula frecuentemente? Si sí, exige contención e inspecciones—o no lo hagas.
  • ¿Puedes tolerar tiempo de inactividad? Si no, no introduzcas un modo de fallo que no puedas reparar rápidamente.
  • ¿Tienes magnificación y suministros de limpieza adecuados? Si no, no estás equipado.

Lista de preparación: qué tener en el banco

  • Correa ESD y un espacio de trabajo limpio y bien iluminado
  • Alcohol isopropílico alto porcentaje, paños sin pelusa, bastoncillos
  • Cinta Kapton (resistente al calor) para enmascarar/aislar
  • Recubrimiento conformal o barrera aislante apropiada (depende de la plataforma)
  • Destornilladores correctos, conciencia de torque y mapa de tornillos (las fotos cuentan)
  • Pasta convencional para reversión
  • Un plan de pruebas de estrés conocido y métricas de referencia

Paso a paso: aplicación más segura de metal líquido (escritorio o portátil reparable)

  1. Línea base primero: registra temperaturas sostenidas bajo carga, relojes y ruido. Si no mides, solo haces ingeniería por sensaciones.
  2. Desmonta despacio: fotografía cada capa. Especialmente la colocación y el grosor de almohadillas térmicas.
  3. Limpia completamente: elimina la pasta vieja y cualquier residuo. No dejes fibras; se convierten en mechas.
  4. Enmascara la zona de peligro: usa cinta Kapton alrededor del área del die/IHS para reducir riesgo de contacto accidental. En paquetes de die desnudo, protege SMD cercanos.
  5. Añade contención: diques de espuma o diques estilo OEM donde proceda. El objetivo es mantener el material donde pertenece a través de ciclos y movimiento.
  6. Aplica cantidad mínima: una capa fina y controlada. Si parece un charco, es un charco.
  7. Extiende intencionalmente: garantiza cobertura en el área de contacto sin empujarlo hacia afuera. Evita “esparcir hasta el borde”.
  8. Montaje con disciplina: aprieta en patrón de cruz, gradualmente, para uniformar presión. No aprietes totalmente una esquina primero.
  9. Chequeo inicial de encendido: arranca en BIOS o OS y monitoriza temperaturas inmediatamente. Apaga si las temperaturas suben anormalmente rápido.
  10. Burn-in por ciclos térmicos: ejecuta pruebas de estrés controladas con periodos de enfriamiento para simular ciclos reales.
  11. Reinspecciona: si la plataforma lo permite, abre de nuevo tras ciclos iniciales para confirmar que no hay migración. Este paso detecta problemas mientras aún son baratos.
  12. Establece un intervalo de mantenimiento: si usas metal líquido, acepta que puede necesitar inspección/retrabajo más pronto que la pasta.

Paso a paso: respuesta a derrames y contaminación (no improvises)

  1. Apaga inmediatamente. Retira AC y batería si es posible.
  2. No sigas intentando arrancar. Ciclos de encendido repetidos pueden convertir un corto recuperable en daño de componente.
  3. Desmonta e aísla. Accede directamente al área afectada; no lo esparzas más.
  4. Eliminación mecánica primero: usa bastoncillos y limpieza cuidadosa para levantar el material; evita empujarlo a huecos.
  5. Limpieza con solvente segundo: isopropílico para contaminación circundante; ten en cuenta que el metal líquido no “se disuelve” como la pasta—la limpieza suele ser mecánica.
  6. Inspecciona con magnificación. Mira bordes de paquetes, componentes VRM y áreas de conectores.
  7. Sólo tras limpiar: reensambla y realiza pruebas de encendido mínimas con monitorización.
  8. Si hay residuo bajo componentes o en paso fino: escala a limpieza/reparación profesional. Aquí no debe vivir el orgullo.

Preguntas frecuentes

¿El metal líquido es siempre mejor que la pasta térmica?

No. Puede reducir temperaturas, pero aumenta el riesgo: conductividad, migración y reacciones materiales. “Mejor” depende de tu tolerancia al mantenimiento y a los modos de fallo.

¿Puede el metal líquido dañar mi disipador?

Sí, especialmente si hay aluminio involucrado (no lo hagas). En cobre puedes ver manchas o cambios superficiales; el niquelado ayuda pero no es invencible.

¿Por qué mis temperaturas empeoraron tras aplicar metal líquido?

Normalmente una de tres cosas: demasiado material causando mal asentamiento/migración, presión de montaje desigual, u oxidación/migración que reduce el contacto en puntos calientes. Una mala aplicación puede ser peor que una pasta decente.

¿Cuál es la mayor señal de que tengo un corto por metal líquido?

Caídas intermitentes, reinicios súbitos bajo carga, desaparición de la GPU del bus o un no-arranque tras la repasta—especialmente si las temperaturas no son extremas. La inspección visual suele encontrar una pequeña mancha brillante cerca de componentes SMD.

¿Es seguro el metal líquido en portátiles?

Puede ser seguro cuando el OEM diseñó contención en el ensamblaje del cooler. El metal líquido DIY en portátiles sin contención es una maniobra de alto riesgo porque los portátiles se mueven y rotan.

¿Con qué frecuencia debo rehacer el metal líquido?

No hay un calendario universal. Algunas configuraciones duran mucho; otras se degradan rápido. Si eliges metal líquido, comprométete a inspecciones periódicas, especialmente tras ciclos térmicos iniciales y viajes.

¿Debo usar recubrimiento conformal o cinta Kapton?

Para paquetes de die desnudo y áreas densas de SMD: sí, alguna forma de aislamiento/contención es sensata. La cinta Kapton es común para enmascarar; el recubrimiento conformal puede añadir una barrera pero debe aplicarse con cuidado y dejar curar.

Mi sistema estrangula a 80–85°C. ¿Es problema de metal líquido?

No necesariamente. Límites de potencia, curvas de firmware de ventilador y sensores de punto caliente pueden provocar comportamiento conservador. Confirma con turbostat/sensors y logs antes de rehacer trabajo de hardware.

¿Puedo limpiar el metal líquido con alcohol isopropílico?

El alcohol ayuda a limpiar suciedad circundante y residuos de pasta, pero la limpieza del metal líquido suele ser mecánica: limpieza cuidadosa/levantado. Si está bajo componentes, el alcohol no lo arreglará mágicamente.

¿Es el undervolting una alternativa más segura?

A menudo, sí. Reducir potencia reduce calor con menos riesgo mecánico y eléctrico. Para fiabilidad tipo producción, undervolting/limitación de potencia suele ser la primera palanca a tirar.

Siguientes pasos que realmente puedes hacer

Si estás considerando metal líquido, trátalo como una solicitud de cambio, no como un hobby de fin de semana:

  • Mide una línea base (temperaturas, relojes, potencia sostenida) antes de tocar nada.
  • Decide si tu plataforma merece el riesgo: los equipos de sobremesa son más sencillos; los portátiles exigen contención e inspecciones.
  • Usa el guion de diagnóstico rápido si ya aplicaste y algo falla—no persigas primero controladores.
  • Adopta la reversión como característica: conserva pasta convencional y estate dispuesto a revertir si aumenta la varianza o inestabilidad.
  • Escribe lo que cambiaste y cuándo. Tu yo futuro estará cansado y poco impresionado por misterios.

El metal líquido puede ser una herramienta legítima. También puede ser una factura de reparación con pasos extra. Si quieres el rendimiento, gánatelo con proceso: contención, inspección y métricas. Así evitas que una “mejora de refrigeración” se convierta en un informe de incidente.

← Anterior
Ubuntu 24.04 OOM killer: comprobarlo, arreglarlo y evitar repeticiones
Siguiente →
Pruebas de pérdida de energía en ZFS: cómo validar la seguridad sin perder datos

Deja un comentario