Fuentes de alimentación para GPUs modernas: cómo evitar problemas

¿Te fue útil?

Si alguna vez has visto una máquina con GPU reiniciarse en medio de un entrenamiento—o peor, apagarse por completo como si alguien hubiera desenchufado el cable—ya conoces la verdad:
las GPUs modernas no «consumen energía». Ellas negocian, pican y castigan suposiciones.

Lo doloroso no es comprar una PSU más grande. Lo doloroso es pensar que los vatios son toda la historia y luego descubrir que tu conector, cable, distribución de raíles
o margen para transitorios es el verdadero cuello de botella. Arreglemos eso de forma operativa: medible, repetible y lo bastante aburrido como para ser confiable.

Qué cambió: por qué las GPUs modernas estresan los sistemas de potencia

En los viejos tiempos—digamos, «GPU de gama media + PSU para gaming + ambiente»—el dimensionamiento de potencia era sobre todo aritmética. Sumabas los TDP, añadías un margen de seguridad y listo.
Las GPUs de hoy son otro animal. Cambian la carga rápidamente (milisegundos), funcionan más cerca de los límites del hardware para optimizar rendimiento por vatio,
y su entrega de potencia se consolida cada vez más en pocos conectores de alta corriente.

La industria ha pasado silenciosamente del pensamiento de «carga estable» al de «pico transitorio».
Una GPU puede comportarse bien en promedio y aun así golpear tu PSU con picos cortos que disparan protecciones, hacen caer la tensión o exponen cableado marginal.
El modo de fallo parece software—reinicios de driver, errores CUDA, eventos «Xid»—pero la causa raíz es eléctrica.

Los problemas de potencia también son operativamente engañosos. Pueden desaparecer en pruebas sintéticas y surgir bajo cargas reales:
entrenamiento en precisión mixta con kernels explosivos, lotes de inferencia que varían la utilización, o puntos de sincronización multi-GPU que hacen que todas las tarjetas se disparen a la vez.
Si tu PSU y cableado están justo al límite, la producción encontrará ese borde y vivirá allí.

Chiste #1: Una «PSU de 1000W» es como una «cama king-size»: suena espaciosa hasta que intentas meter la realidad dentro.

Hechos y contexto histórico que vale la pena conocer

  • ATX12V evolucionó primero para CPUs. Los primeros estándares de PSU y las elecciones de conectores estuvieron dominados por las necesidades de la CPU; las GPUs crecieron de «tarjeta opcional» a «carga principal».
  • La ranura PCIe ha sido 75W durante mucho tiempo. Esa limitación empujó a las GPUs a usar conectores auxiliares conforme aumentó el rendimiento.
  • Los conectores de 6 y 8 pines PCIe no eran elegantes por diseño. Fueron una forma pragmática de añadir corriente a 12V sin rediseñar el plano de alimentación de la placa base.
  • El «TDP» de la GPU no es un contrato. Los objetivos de potencia en placa y el comportamiento de boost pueden empujar el consumo instantáneo por encima del número indicado.
  • Las calificaciones de eficiencia (80 PLUS) dicen poco sobre la respuesta a transitorios. Una placa con badge platinum puede perder el control frente a escalones de carga rápidos.
  • Las PSU de servidor asumían cargas estables históricamente. Las GPUs introdujeron transitorios agudos y repetitivos en plataformas diseñadas para perfiles de potencia más tranquilos.
  • 12VHPWR (y los nuevos 12V-2×6) concentran mucha corriente en un conector. Menos enredo de cables, más sensibilidad a la calidad de inserción y al radio de curvatura.
  • Las protecciones OCP/OPP se volvieron más relevantes. Las PSU modernas están mejor protegidas, lo cual es bueno—hasta que tu perfil de picos parece una falla y la disparan.

Dimensionar una PSU para GPUs: vatios, transitorios y la realidad

Deja de dimensionar para el «promedio». Dimensiona para el «peor minuto plausible».

Un proceso sensato de dimensionamiento comienza por admitir que la carga de la GPU no es plana. Necesitas margen para:
(1) picos transitorios de la GPU, (2) picos de CPU, (3) aceleración de ventiladores, (4) ráfagas de almacenamiento y (5) envejecimiento/calor de la PSU.
Si solo dimensionas sumando los TDP nominales, tu margen es imaginario.

Una regla práctica (con razón)

Para un equipo de sobremesa con una GPU de alta gama: apunta a una PSU donde tu carga sostenida combinada esté alrededor del 50–70% de la capacidad nominal.
Esto te da margen para picos, mantiene la PSU en una zona de eficiencia decente y reduce el ruido del ventilador.
Para rigs con múltiples GPUs: planifica la carga sostenida alrededor del 40–60% a menos que hayas validado el manejo de transitorios con tu carga real.

¿Por qué no funcionar al 90% todo el tiempo? Porque el modo de fallo no es «la PSU se calienta lentamente».
El modo de fallo es «un pico de 20 ms causa una caída de voltaje, la GPU se enfada y tu trabajo muere».
No verás eso en una hoja de especificaciones. Lo verás a las 2:13 a.m.

Entiende los tres números de potencia que importan

  • Límite de potencia de placa (lo que la GPU puede dibujar de forma sostenida, a menudo ajustable).
  • Pico transitorio (ráfagas cortas por encima de la potencia de placa, dependientes de la carga y del boost).
  • Pico del sistema (GPU + CPU + todo lo demás, a veces alineados en el tiempo).

Si ejecutas múltiples GPUs, asume alineación. Las cargas se sincronizan. Los picos de potencia pueden coincidir.
«No todas se dispararán a la vez» es una frase que envejece mal.

Eficiencia y térmicas: aburridas, pero cambian resultados

La capacidad de salida de la PSU depende de la temperatura. Una PSU que va bien en una prueba en banco abierto puede comportarse diferente en un chasis cerrado a 40–50 °C de entrada.
La eficiencia también cambia el calor, lo que cambia las curvas de los ventiladores, la presión del chasis y la temperatura de la GPU, lo que modifica el boost y, por ende, la potencia.
Es un sistema. Trátalo como tal.

Limitar la potencia no es rendirse; es ingeniería

Si ejecutas cargas de producción, la estabilidad gana sobre una pequeña diferencia de rendimiento.
Poner un límite de potencia a la GPU del 5–15% por debajo del máximo a menudo elimina el comportamiento transitorio más violento sin afectar apenas el rendimiento,
especialmente en cargas vinculadas a memoria o latencia.

Conectores y cableado: donde ocurren la mayoría de los incendios (metafóricamente)

PCIe 8‑pin: simple, robusto, pero fácil de estropear

El clásico conector PCIe de 8 pines está catalogado para cierta corriente y supone una calidad de contacto decente. El riesgo en el mundo real no es que el conector exista.
Es cómo la gente lo cablea:
encadenar en serie un cable de PSU para alimentar dos tomas de GPU, mezclar extensiones baratas o pasar cables con curvas cerradas contra los paneles laterales.

Usa un cable de PSU dedicado por cada conector de 8 pines en la GPU a menos que el fabricante de tu PSU indique explícitamente un arnés específico para conectores dobles a la carga que manejas.
Y aún así, si estás cerca del límite, no lo hagas.
La caída de tensión y el calor escalan con la corriente. Quieres menos sorpresas, no menos cables.

12VHPWR / 12V-2×6: trata la inserción como un elemento de la lista de verificación

Los conectores compactos de alta corriente son implacables respecto a la inserción parcial y la flexión agresiva cerca del enchufe.
Muchos problemas «misteriosos» son mecánicos: el conector no está totalmente insertado o el cable está forzado de modo que el contacto no es consistente.

Haz tres cosas:

  1. Inserta completamente el conector (sí, de verdad). Debes sentir y ver la inserción completa; sin huecos.
  2. Evita curvas pronunciadas cercanas al conector. Dale espacio antes de girar el cable.
  3. Prefiere cables nativos de la PSU frente a adaptadores cuando sea posible. Los adaptadores añaden puntos de contacto y variabilidad.

Adaptadores: no son malvados, pero son superficies extra de fallo

Los adaptadores no están inherentemente condenados. Pero cada interfaz es otro lugar donde puede aparecer resistencia:
pines ligeramente sueltos, crimpeados desiguales, sección de cable cuestionable o simplemente mal ajuste mecánico.
Si debes usar un adaptador, trátalo como un componente con ciclo de vida:
inspecciónalo, evita reenchufados repetidos y retíralo si ves decoloración, deformación o comportamiento intermitente.

No ignores la ranura de la placa base

La ranura PCIe también puede suministrar potencia. Si tu alimentación auxiliar es marginal, la GPU puede apoyarse más en la potencia de la ranura.
Las trazas de la placa, el conector de la ranura y el diseño de VRM importan—especialmente en placas baratas usadas en rigs de cómputo.
«La GPU tiene conectores de alimentación, así que la ranura no importa» es un mito que mantiene ocupados a los talleres de reparación.

Chiste #2: Si tu estrategia de gestión de cables es «cerrar el panel y dejar que negocien», estás haciendo chaos engineering en tu salón.

Raíl único vs múltiples, OCP y topologías de PSU

Raíl único vs multi-rail: la visión práctica

«Raíl único» significa que la salida de 12V es efectivamente un gran pool, con límites de protección fijados altos.
«Multi-rail» significa que la PSU aplica protección contra sobrecorriente (OCP) por raíl, dividiendo conectores en grupos protegidos.
Ninguno es automáticamente mejor. Un mapeo multi-rail incorrecto puede disparar OCP bajo un pico aun cuando la potencia total esté bien.

Para sistemas con muchas GPUs, quieres una de estas:

  • Una PSU de raíl único con protecciones robustas afinadas para cargas transitorias altas, o
  • Una PSU multi-rail donde puedas confirmar el mapeo conector→raíl y distribuir los conectores de GPU en consecuencia.

Si no puedes mapearlo, estás adivinando. Adivinar no es una estrategia de potencia.

Protecciones que muerden: OPP, OCP, UVP

Las PSU se apagan por buenas razones:
OPP (protección contra sobrepotencia), OCP (sobrecorriente), UVP (subtensión), OTP (sobretemperatura).
Las GPUs modernas pueden generar patrones que parecen fallas:
un escalón de carga brusco causa una caída de voltaje (UVP), o una ráfaga de corriente breve dispara OCP.

La señal reveladora es un apagado abrupto que se comporta como un corte de energía—sin reinicio limpio, sin kernel panic, solo oscuridad.
Si sucede solo bajo carga de GPU y no durante pruebas de estrés de CPU, probablemente estás en territorio de protecciones de la PSU.

ATX vs PSU de servidor: no idealices ninguna

Las PSU de servidor están diseñadas para flujo de aire, hot-swap y perfiles de carga predecibles, y pueden ser fantásticas.
También esperan PDUs adecuados, energía de entrada limpia y un chasis diseñado para alimentarlas con aire frío.
Las PSU ATX están pensadas para cajas de consumo, acústica y conveniencia, y las unidades de alta gama pueden manejar transitorios agresivos bien.

La decisión debe basarse en tu plataforma:

  • Usa una PSU de servidor si tienes un rack, flujo de aire frontal-trasero y un plan de distribución de potencia.
  • Usa una PSU ATX de calidad si trabajas en torres, necesitas bajo ruido o dependes de cableado estándar.

Mezclar PSU de servidor en cajas improvisadas puede funcionar, pero también es como terminar depurando flujo de aire como si fuera un problema de «potencia».

Una cita, porque la fiabilidad es una mentalidad

La esperanza no es una estrategia. — General Gordon R. Sullivan

Es corta, directa y merece estar pegada dentro de cada rig GPU construido sobre matemáticas optimistas de PSU.

UPS, PDUs y la red: la alimentación upstream importa

Dimensionamiento de UPS: VA, W y la realidad del tiempo de autonomía

Las especificaciones de los UPS son donde la gente inteligente se avergüenza. VA no es W. El factor de potencia importa. Las cargas no lineales importan.
Un rig GPU puede tener un factor de potencia que cambia con la carga y el diseño de la PSU. Si tu UPS es demasiado pequeño, disparará o transferirá mal a batería.

Lo que quieres:

  • Un UPS que pueda suministrar tu potencia pico real con margen.
  • Una topología de UPS adecuada para tu entorno (line-interactive es común; doble conversión es mejor si puedes pagarlo).
  • Suficiente tiempo de autonomía para superar caídas cortas y permitir apagados ordenados en eventos más largos.

Planificación de PDU y circuitos: no amontones radiadores en un solo disyuntor

En oficinas, laboratorios de cómputo o «armarios temporales», el circuito es la restricción oculta.
Un único circuito de 15A a 120V ofrece potencia teórica que no deberías consumir continuamente al 100%.
Añade monitores, un calefactor que alguien trajo, y de repente tu «problema de estabilidad GPU» es un disyuntor que salta.

Voltaje de entrada y comportamiento de la PSU

Muchas PSU se comportan mejor con voltaje de entrada más alto (p. ej., 200–240V) porque las corrientes de entrada son menores para la misma potencia.
Menor corriente significa menos estrés en el cableado y a veces mejor manejo de transitorios. No es magia, es física.
Si ejecutas rigs multi-GPU a escala, los circuitos de 240V suelen ser la elección adulta.

Diagnóstico práctico: comandos, salidas y decisiones

No puedes arreglar lo que no puedes observar. El objetivo aquí no son dashboards bonitos. Es la verdad rápida:
¿la GPU está limitada por potencia, el sistema sufre caídas, estamos disparando protecciones de la PSU o estamos persiguiendo un bug de driver?

Tarea 1: Vigila potencia, relojes y límites de la GPU en tiempo real

cr0x@server:~$ nvidia-smi --query-gpu=timestamp,power.draw,power.limit,clocks.sm,clocks.mem,utilization.gpu,temperature.gpu --format=csv -l 1
timestamp, power.draw [W], power.limit [W], clocks.sm [MHz], clocks.mem [MHz], utilization.gpu [%], temperature.gpu
2026/01/21 09:12:01, 318.45 W, 350.00 W, 2580 MHz, 10501 MHz, 98 %, 74
2026/01/21 09:12:02, 345.12 W, 350.00 W, 2595 MHz, 10501 MHz, 99 %, 75

Qué significa: Estás cerca del límite de potencia; el consumo se acerca al límite bajo carga.

Decisión: Si los fallos se correlacionan con picos cerca del límite, considera reducir ligeramente el límite de potencia o aumentar el margen de PSU/cableado.

Tarea 2: Comprueba errores NVIDIA Xid (síntoma clásico de inestabilidad de potencia)

cr0x@server:~$ sudo journalctl -k -b | grep -i "NVRM: Xid" | tail -n 5
Jan 21 09:05:44 server kernel: NVRM: Xid (PCI:0000:65:00): 79, GPU has fallen off the bus.
Jan 21 09:05:44 server kernel: NVRM: Xid (PCI:0000:65:00): 31, Ch 0000002b, intr 10000000.

Qué significa: «Fallen off the bus» suele apuntar a inestabilidad PCIe/potencia/firmware, no sólo a un mal humor del kernel.

Decisión: Si aparece Xid 79 bajo carga, prioriza las comprobaciones de entrega de potencia antes de reinstalar drivers por tercera vez.

Tarea 3: Mira si el sistema sufrió una pérdida abrupta de energía (no un apagado limpio)

cr0x@server:~$ last -x | head -n 8
reboot   system boot  6.8.0-41-generic Wed Jan 21 09:06   still running
shutdown system down  6.8.0-41-generic Wed Jan 21 09:05 - 09:06  (00:00)
reboot   system boot  6.8.0-41-generic Wed Jan 21 07:10 - 09:05  (01:55)

Qué significa: La presencia/ausencia de un registro de apagado limpio ayuda a distinguir un disparo de la PSU de un reinicio provocado por el SO.

Decisión: Si los reinicios carecen de apagados limpios alrededor de los incidentes, sospecha disparos de protecciones de la PSU o problemas de alimentación upstream.

Tarea 4: Comprueba sensores de la placa base por indicios de caída en 12V/5V/3.3V

cr0x@server:~$ sudo sensors
coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +74.0°C  (high = +100.0°C, crit = +105.0°C)

nct6798-isa-0290
Adapter: ISA adapter
Vcore:         +1.10 V
+12V:         +11.71 V
+5V:           +4.97 V
+3.3V:         +3.31 V

Qué significa: Si +12V lee bajo bajo carga (con las salvedades habituales sobre la precisión de sensores), respalda la hipótesis de caída de tensión.

Decisión: Trata esto como una pista, no como prueba; corrobora con comportamiento (crashes en picos) e inspección de PSU/cables.

Tarea 5: Confirma la estabilidad del enlace PCIe (las caídas pueden imitar «GPU muerta»)

cr0x@server:~$ sudo lspci -s 65:00.0 -vv | egrep -i "LnkSta:|LnkCap:|Errors"
LnkCap: Port #0, Speed 16GT/s, Width x16, ASPM not supported
LnkSta: Speed 16GT/s, Width x16

Qué significa: Mantener la velocidad/anchura esperadas sugiere que el enlace físico es estable al menos en la inspección.

Decisión: Si ves reentrenamiento de enlace o reducción de anchura tras carga, sospecha risers, alimentación de la ranura o integridad de señal—a menudo empeorado por problemas de potencia.

Tarea 6: Busca errores AER de PCIe (hardware que se queja en silencio)

cr0x@server:~$ sudo journalctl -k -b | grep -i "AER" | tail -n 10
Jan 21 09:05:43 server kernel: pcieport 0000:00:01.0: AER: Corrected error received: id=00e0
Jan 21 09:05:43 server kernel: pcieport 0000:00:01.0: AER: PCIe Bus Error: severity=Corrected, type=Physical Layer

Qué significa: Los errores corregidos de capa física pueden ser señal de integridad de señal marginal o síntoma de potencia al límite.

Decisión: Si los errores AER aparecen sólo bajo carga de GPU, trata potencia/cableado/calidad de riser como sospechas principales.

Tarea 7: Valida tu ajuste de límite de potencia de GPU (y que realmente se aplique)

cr0x@server:~$ sudo nvidia-smi -q -d POWER | egrep -i "Power Limit|Default Power Limit|Enforced Power Limit"
Default Power Limit           : 350.00 W
Power Limit                   : 320.00 W
Enforced Power Limit          : 320.00 W

Qué significa: Estás ejecutando por debajo del valor por defecto y el límite aplicado coincide.

Decisión: Si la estabilidad mejora a 320W, has confirmado un problema de margen en la entrega de potencia. Arregla el hardware después; mantiene el límite ahora.

Tarea 8: Establece un límite de potencia conservador para probar la estabilidad

cr0x@server:~$ sudo nvidia-smi -pl 300
Power limit for GPU 00000000:65:00.0 was set to 300.00 W from 320.00 W.
Power limit for GPU 00000000:65:00.0 is now 300.00 W.

Qué significa: Has reducido la exposición a picos y transitorios.

Decisión: Si los fallos se detienen, no declares victoria—declara diagnóstico. Necesitas margen en PSU/cables/conectores o un envelope de potencia permanente.

Tarea 9: Ejecuta una prueba de estrés controlada en la GPU para reproducir sin culpar a producción

cr0x@server:~$ sudo apt-get install -y gpu-burn
Reading package lists... Done
Building dependency tree... Done
The following NEW packages will be installed:
  gpu-burn
0 upgraded, 1 newly installed, 0 to remove and 0 not upgraded.

Qué significa: Ahora tienes un arnés rápido de «¿se cae o no?».

Decisión: Usa el estrés para comparar configuraciones (límite de potencia, diferentes cables, distinta PSU). Reproducir vence a la superstición.

Tarea 10: Estresa la GPU y vigila la potencia simultáneamente

cr0x@server:~$ gpu_burn 60 & nvidia-smi --query-gpu=power.draw,clocks.sm,utilization.gpu --format=csv -l 1
[1] 21730
power.draw [W], clocks.sm [MHz], utilization.gpu [%]
289.12 W, 2505 MHz, 100 %
301.55 W, 2520 MHz, 100 %

Qué significa: Carga sostenida y comportamiento de potencia observado.

Decisión: Si el sistema se reinicia en el primer minuto de estrés, sospecha transitorios/protecciones de PSU; si más tarde, sospecha térmicas o recalentamiento de VRM.

Tarea 11: Comprueba la demanda de entrada AC (ayuda a dimensionar UPS/circuito y detectar picos)

cr0x@server:~$ sudo apt-get install -y powertop
Reading package lists... Done
Building dependency tree... Done
powertop is already the newest version (2.15-1).

Qué significa: Tienes una herramienta para pistas de consumo a nivel sistema; para medir AC real aún quieres un medidor o un PDU inteligente.

Decisión: Úsala para visibilidad de tendencias; no la trates como instrumentación de laboratorio.

Tarea 12: Valida el comportamiento de potencia de la CPU (los picos de CPU pueden coincidir con los de GPU)

cr0x@server:~$ sudo turbostat --Summary --interval 2 --quiet
CPU    Avg_MHz   Busy%   Bzy_MHz  TSC_MHz  PkgTmp  PkgWatt
-      4120      38.12   5105     3000     79     112.35
-      4685      54.22   5250     3000     83     149.88

Qué significa: La potencia de paquete de la CPU puede dispararse junto con el trabajo de la GPU (carga de datos, preprocesamiento, kernels en CPU).

Decisión: Si los picos de CPU se alinean con los de GPU, tu margen de PSU debe contemplar ambos, no uno a la vez.

Tarea 13: Confirma si el kernel registró un evento de pérdida de alimentación (algunas plataformas lo registran)

cr0x@server:~$ sudo journalctl -k -b -1 | egrep -i "power|watchdog|brown|reset" | head -n 20
Jan 21 09:05:44 server kernel: watchdog: Watchdog detected hard LOCKUP on cpu 12
Jan 21 09:05:44 server kernel: ACPI: PM: Preparing to enter system sleep state S5

Qué significa: Los logs pueden mostrar watchdogs o secuencias ACPI; a veces no hay nada porque la energía desapareció al instante.

Decisión: La ausencia de logs alrededor del fallo refuerza la hipótesis de disparo de PSU/potencia upstream.

Tarea 14: Comprueba errores de memoria (ECC) que se pueden confundir con «inestabilidad de potencia»

cr0x@server:~$ nvidia-smi -q -d ECC | egrep -i "Volatile|Aggregate|Uncorr|Corr" | head -n 20
Volatile
    Single Bit ECC Errors             : 0
    Double Bit ECC Errors             : 0
Aggregate
    Single Bit ECC Errors             : 2
    Double Bit ECC Errors             : 0

Qué significa: Unos pocos errores corregidos no son inusuales; incrementos bajo carga pueden indicar inestabilidad, térmicas o hardware marginal.

Decisión: Si los errores se disparan después de eventos de potencia, puedes tener componentes dañados o un problema de refrigeración que se hace pasar por problema eléctrico.

Tarea 15: Comprueba el estado de la PSU y del driver después de un crash (la persistencia puede ocultar síntomas)

cr0x@server:~$ systemctl status nvidia-persistenced --no-pager
● nvidia-persistenced.service - NVIDIA Persistence Daemon
     Loaded: loaded (/lib/systemd/system/nvidia-persistenced.service; enabled)
     Active: active (running) since Wed 2026-01-21 07:10:02 UTC; 1h 56min ago

Qué significa: El daemon de persistencia mantiene el driver inicializado, lo que puede afectar cómo aparecen y se recuperan las fallas.

Decisión: Si las GPUs desaparecen intermitentemente, prueba con y sin persistencia; pero no confundas comportamiento de recuperación con la causa raíz.

Tarea 16: Verifica la presencia y topología de conectores de alimentación PCIe (chequeo de cordura)

cr0x@server:~$ sudo lshw -c display -sanitize | head -n 30
  *-display
       description: VGA compatible controller
       product: NVIDIA Corporation Device 2684
       vendor: NVIDIA Corporation
       physical id: 0
       bus info: pci@0000:65:00.0
       version: a1
       width: 64 bits
       clock: 33MHz
       capabilities: pm msi pciexpress vga_controller bus_master cap_list
       configuration: driver=nvidia latency=0

Qué significa: Confirma que el dispositivo está presente y activo; no prueba que el cableado sea correcto, pero detecta errores como «ranura equivocada / dispositivo equivocado».

Decisión: Si la GPU desaparece tras carga, correlaciona con Xid/AER y eventos de potencia; luego ve a lo físico.

Guía rápida de diagnosis

Cuando un sistema GPU es inestable, puedes perder días debatiendo drivers frente a hardware. No lo hagas. Trata esto como un incidente.

Primero: clasifica la falla en 5 minutos

  • ¿Apagado total / reinicio instantáneo? Sospecha disparo de protección de PSU, alimentación upstream o cortocircuito/problema de conector.
  • ¿El SO sigue arriba pero la GPU se reinicia? Sospecha caída de potencia en la GPU, inestabilidad PCIe, fallo de driver/GPU.
  • ¿Solo una carga desencadena el problema? Sospecha patrón transitorio, alineación CPU+GPU o rampa térmica.

Segundo: busca la línea de log que huele a quemado

  • Revisa journalctl -k por Xid y AER.
  • Revisa el historial de reinicios con last -x para ver si el apagado fue limpio.
  • Si los logs se cortan abruptamente: la energía desapareció. Deja de discutir sobre software.

Tercero: reduce el envelope de potencia y mira si la estabilidad vuelve

  • Fija un límite conservador de potencia en la GPU (nvidia-smi -pl).
  • Opcionalmente limita el boost de CPU o usa un governor conservador para las pruebas.
  • Si la estabilidad vuelve: diagnosticado. Ahora arregla el diseño, no el síntoma.

Cuarto: ve a lo físico, porque los electrones no leen tus tickets

  • Reasienta la GPU y los conectores de alimentación.
  • Elimina adaptadores/extensiones temporalmente.
  • Asegura cables dedicados por conector; evita encadenamientos en serie a altas cargas.
  • Revisa el radio de curvatura y el asiento de conectores, especialmente en enchufes de alta corriente.

Quinto: valida upstream

  • Prueba en otro circuito/UPS/PDU.
  • Mide la demanda AC si puedes; vigila eventos de disyuntores/UPS.
  • Confirma que la PSU no esté «cociéndose» con aire de entrada caliente.

Tres micro-historias desde las trincheras corporativas

Micro-historia 1: El incidente causado por una suposición equivocada

Un equipo desplegó una nueva tanda de workstations GPU para una línea interna de entrenamiento de modelos. Las cuentas de la hoja de especificaciones parecían limpias:
una GPU de alta gama, una CPU de gama media, una PSU «1000W». ¿Bastante margen, no?

La primera semana fue bien. Luego cambiaron las ejecuciones de entrenamiento. Un nuevo paso de preprocesado de datos se movió a la CPU para ahorrar tiempo de GPU.
Ahora la CPU pegaba un pico fuerte justo cuando la GPU entraba en una fase de alta utilización. El sistema empezó a reiniciarse a mitad de época.
Parecía un problema de drivers porque los logs de GPU eran confusos y los reinicios eran repentinos.

Cambiaron drivers, kernels, versiones de CUDA. Anclaron relojes. Culparon al dataloader.
Los reinicios persistieron, especialmente cuando múltiples trabajos compartían el mismo cronograma y alcanzaban fases similares al mismo tiempo.

La causa real fue banal: la PSU se había dimensionado para consumo medio y tenía menos margen transitorio del esperado con la temperatura de entrada del chasis.
El número «1000W» no era una mentira, pero no era toda la verdad. Un pequeño límite de potencia en la GPU (10% menos) detuvo los reinicios de inmediato.
Reemplazar la PSU por una con mejor capacidad transitoria y ordenar el cableado hicieron que el límite fuera innecesario.

La suposición equivocada no fue «1000W no es suficiente». La suposición equivocada fue «los picos de CPU y GPU no se alinearán».
Se alinearon. La producción siempre encuentra puntos de sincronía.

Micro-historia 2: La optimización que salió mal

Otra organización quiso builds más limpias. Alguien propuso usar extensiones de cable y kits de adaptadores estéticos en todos los desktops GPU
para hacer el mantenimiento más rápido y el interior consistente. La idea no era mala: arnés estandarizado, swaps rápidos, menos tiempo dentro de la caja.

En un mes, un subconjunto de sistemas desarrolló pantallas negras intermitentes bajo carga. No todos. No de forma consistente.
Algunos mostraron decoloración en conectores. La mayoría no. Los fallos eran lo bastante infrecuentes como para ser exasperantes, pero frecuentes para gastar tiempo de ingeniería.

El equipo hizo lo que hacen los equipos: escribieron scripts para reiniciar entrenamientos automáticos, añadieron lógica de reintento y redujeron los tamaños de lote.
La disponibilidad mejoró, pero también la deuda operativa. El problema seguía existiendo; solo que envuelto en mejores mecanismos de tolerancia.

El postmortem encontró que las extensiones introducían resistencia de contacto extra y calidad de inserción inconsistente.
Bajo corriente alta, pequeñas diferencias importan. Añade un panel lateral apretado presionando los cables y obtienes estrés mecánico en el enchufe.
Algunos sistemas iban bien; otros cayeron en la parte desafortunada de las tolerancias.

La «optimización» ahorró minutos en los ensamblajes y costó semanas en depuración. Revirtieron a cables nativos de PSU, aplicaron reglas de radio de curvatura
y solo usaron adaptadores certificados donde fue inevitable. Los fallos dejaron de ser intermitentes—porque dejaron de ocurrir.

Micro-historia 3: La práctica aburrida pero correcta que salvó el día

Un equipo de plataforma de almacenamiento y ML ejecutaba un pequeño clúster GPU en un espacio de centro de datos compartido. Nada glamoroso: unos pocos nodos, muchos trabajos
y la expectativa de que los entrenamientos sobrevivieran a pequeños fallos de energía.

Su práctica era dolorosamente poco sexy: cada nodo tenía un presupuesto de potencia documentado, un mapa de cables etiquetado
y una prueba de aceptación estándar que incluía una ejecución de estrés controlada mientras se registraba el consumo de potencia GPU y errores del kernel.
También mantenían una pequeña hoja de cálculo con modelos de PSU y mapeos de conectores, actualizada cuando cambiaba el hardware.

Un día, un cambio de las instalaciones movió su rack a una alimentación PDU diferente. Poco después, un subconjunto de nodos empezó a reportar errores PCIe corregidos.
Aún no había fallos duros—solo el tipo silencioso de advertencia que solo notas si miras.

Como tenían logs base, pudieron comparar: los errores AER pasaron de prácticamente ninguno a ráfagas periódicas bajo alta carga.
Rastrearon la causa a un problema de puesta a tierra/ruido de línea upstream que interactuaba mal con un modelo de PSU bajo transitorios agudos.
Las instalaciones ajustaron la alimentación y redistribuyeron nodos para que la tanda sensible de PSU no estuviera concentrada en el circuito ruidoso.

La práctica que «salvó el día» no fue un componente mágico. Fue tener líneas base, etiquetas y una prueba de aceptación
para que el equipo pudiera decir: «Esto cambió, y cambió en este límite exacto.» Lo aburrido gana.

Errores comunes: síntomas → causa raíz → solución

1) Síntoma: apagado total bajo carga GPU

Causa raíz: Disparo de OPP/OCP/UVP de la PSU debido a picos transitorios, margen insuficiente o PSU sobrecalentada.

Solución: Aumentar capacidad y calidad transitoria de la PSU, mejorar flujo de aire, reducir el límite de potencia de la GPU y eliminar cables de GPU encadenados.

2) Síntoma: «GPU has fallen off the bus» (Xid 79) durante cómputo intenso

Causa raíz: Inestabilidad del enlace PCIe frecuentemente desencadenada por entrega de potencia marginal o risers; a veces configuración de firmware/BIOS.

Solución: Reasentar GPU, quitar risers/extensores, validar la ranura PCIe, asegurar cableado dedicado y probar con límite de potencia reducido.

3) Síntoma: conector fundido/deformado o zona de enchufe muy caliente

Causa raíz: Inserción parcial, curva excesiva cerca del conector, mala calidad de adaptador o alta resistencia de contacto.

Solución: Reemplazar cables/conectores dañados, usar cables nativos, asegurar inserción completa, aplicar radio de curvatura y evitar reenchufados repetidos.

4) Síntoma: reinicios aleatorios de driver pero el sistema sigue activo

Causa raíz: Caída momentánea de tensión en la alimentación de la GPU, comportamiento de boost inestable o respuesta transitoria marginal de la PSU.

Solución: Aplicar un límite conservador de potencia, considerar un leve undervolt, asegurar cableado limpio y validar el modelo de PSU bajo cargas transitorias.

5) Síntoma: problemas de estabilidad solo cuando múltiples GPUs corren simultáneamente

Causa raíz: Transitorios alineados entre GPUs, mapeo compartido de rail/OCP o saturación de arnés compartido.

Solución: Distribuir conectores entre raíles si es multi-rail, usar cables dedicados por conector y dimensionar la PSU para picos sincronizados.

6) Síntoma: alarmas de UPS o transferencias inesperadas a batería bajo carga

Causa raíz: UPS subdimensionado (confusión VA vs W), manejo pobre del factor de potencia o picos de corriente de entrada.

Solución: Redimensionar UPS para la potencia real con margen, preferir modelos de mayor capacidad y validar bajo la carga peor caso.

7) Síntoma: caída de rendimiento GPU sin crashes (throttling misterioso)

Causa raíz: Throttling por límite de potencia o térmico; PSU sobrecalentada también puede causar caída de voltaje y menor boost.

Solución: Inspeccionar estados de potencia/térmicos con nvidia-smi, mejorar flujo de aire, asegurar que la admisión de la PSU no esté privada y evitar operar continuamente cerca del máximo de la PSU.

8) Síntoma: solo un nodo es inestable en una flota «idéntica»

Causa raíz: Varianza de fabricación, diferente enrutamiento de cables, conector ligeramente suelto, salida PDU diferente o lote distinto de PSU.

Solución: Intercambiar componentes sistemáticamente (GPU, PSU, cables), comparar logs base y estandarizar enrutamiento y comprobaciones de conectores.

Listas de verificación / plan paso a paso

Paso a paso: diseña un plan de potencia GPU que no te avergüence luego

  1. Cuantifica la carga esperada. Usa mediciones reales de sistemas similares, no solo sumas de TDP.
    Decide tu objetivo de utilización sostenida de la PSU (50–70% una GPU, 40–60% multi-GPU).
  2. Elige PSUs por respuesta a transitorios, no solo por badges de eficiencia.
    Favorece plataformas reputadas con comportamiento probado en GPUs; evita rebrands desconocidos para GPUs de alta gama.
  3. Planifica el cableado como una red de distribución de potencia.
    Un cable dedicado por conector de GPU cuando se opera a alta potencia. Evita cadenas y extensiones decorativas.
  4. Valida estándares y ajuste de conectores.
    Si usas 12VHPWR/12V-2×6, impón inserción completa y radio de curvatura.
  5. Mapea los raíles si usas PSUs multi-rail.
    Documenta qué conectores pertenecen a qué grupo de raíl y distribuye las GPUs en consecuencia.
  6. Plan térmico para la admisión de la PSU.
    No prives a los ventiladores de la PSU; no recicles el escape de las GPUs hacia la admisión de la PSU. El calor reduce el margen.
  7. Comprobación upstream de potencia.
    Confirma circuitos, capacidad del disyuntor y margen de PDU/UPS. Si es posible, prefiere 240V para cargas GPU densas.
  8. Prueba de aceptación para cada build.
    Ejecuta una prueba de estrés controlada mientras registras potencia GPU y errores del kernel. Guarda la línea base para comparaciones futuras.
  9. Fija un límite de potencia inicial conservador para burn-in.
    Luego sube lentamente hasta tu envelope objetivo una vez estable.
  10. Operationaliza la inspección.
    En ventanas de mantenimiento, inspecciona conectores por decoloración, reasienta si procede y revisa la tensión de los cables.

Checklist rápida de ensamblaje (mentalidad imprimible, no papel imprimible)

  • La PSU deja margen real a la potencia esperada en la temperatura ambiente prevista.
  • Cables de alimentación de GPU dedicados; sin cadenas en serie sorpresa.
  • No hay curvas cerradas de cable cerca de conectores de alta corriente.
  • Adaptadores minimizados; si se usan, son de alta calidad y no están bajo presión del panel lateral.
  • UPS/PDU/circuito validados para el pico; sin cargas «misteriosas» compartidas en el mismo disyuntor.
  • Prueba de estrés + logs capturados y almacenados como línea base.

Preguntas frecuentes

1) ¿Es la potencia de la PSU lo principal a lo que debo prestar atención?

Es necesaria pero no suficiente. Te importan la calidad de entrega a 12V, la respuesta a transitorios, la integridad de conectores/cables
y si las protecciones disparan bajo picos realistas.

2) ¿Cuánto margen es suficiente para una GPU moderna de alta gama?

Si quieres menos sorpresas, apunta a una carga sostenida del sistema al 50–70% de la PSU (una GPU) y 40–60% (multi-GPU).
Si debes ejecutar más cerca del máximo, valida con tu carga real y registra potencia + errores.

3) ¿Son útiles las calificaciones 80 PLUS para la estabilidad GPU?

Hablan de eficiencia en puntos de carga específicos, no de comportamiento transitorio ni seguridad de conectores. Una PSU eficiente puede seguir siendo mala con transitorios.
Usa la eficiencia como filtro secundario, no como método de selección.

4) ¿Puedo usar un cable PCIe para dos conectores de 8 pines de una GPU?

Puedes, pero probablemente no deberías a altas cargas. Aumenta la corriente por arnés y eleva la caída de tensión y el riesgo de calentamiento.
Cables dedicados por conector son la opción aburrida que suele funcionar.

5) ¿Debo preocuparme por los 75W de la ranura PCIe si la GPU tiene alimentación auxiliar?

Sí. La ranura sigue suministrando potencia y la calidad de la placa varía mucho. Una alimentación auxiliar marginal puede forzar más la ranura.
Además, la pobre integridad de señal y la retención débil de la ranura pueden convertirse en «problemas de potencia» bajo carga.

6) ¿Por qué limitar la potencia mejora la estabilidad tan a menudo?

Porque reduce la corriente pico y amortigua el peor comportamiento transitorio, manteniéndote alejado de protecciones de la PSU y del calentamiento de conectores.
Cambias una pequeña ventaja de rendimiento por una gran ganancia de fiabilidad. No es rendirse; es operaciones.

7) ¿PSU de raíl único o multi-rail para GPUs?

Ambos pueden funcionar. Raíl único reduce eventos accidentales de OCP por mal agrupamiento de conectores.
Multi-rail puede ser más seguro pero requiere distribución correcta y documentación. Si no puedes mapearlo, prefiere raíl único.

8) Mi sistema solo se bloquea con un modelo ML, no en pruebas de estrés. ¿Por qué?

Algunas cargas generan perfiles de potencia más explosivos—kernels sincronizados, fases en precisión mixta, alineación CPU/GPU o rampas de ventilador repentinas.
Las pruebas sintéticas pueden ser demasiado estables. Reproduce con ráfagas similares a la carga real y vigila el consumo en tiempo real.

9) ¿Debería undervoltear en lugar de limitar potencia?

El undervolt puede ser excelente si se hace con cuidado, pero también puede añadir inestabilidad si persigues curvas agresivas.
En producción, empieza con un límite de potencia (predecible) y luego considera un undervolt moderado si puedes validar bajo la carga peor caso.

10) ¿Moverme a 240V de entrada ayuda?

A menudo sí—especialmente para sistemas de alto consumo. Menor corriente de entrada reduce la tensión en el cableado y puede mejorar márgenes de estabilidad upstream.
No arregla conectores malos ni mala respuesta transitoria de la PSU, pero puede eliminar una clase completa de dolores por circuitos compartidos.

Conclusión: próximos pasos prácticos

Si quieres que las GPUs modernas se comporten, deja de tratar la potencia como una casilla a marcar. Trátala como infraestructura:
la presupuestas, la distribuyes, la validas y la registras.
La recompensa no es teórica. Son menos reinicios a mitad de trabajo, menos «misterios de drivers» y menos reconstrucciones nocturnas porque un conector se quemó.

Próximos pasos que puedes hacer esta semana:

  1. Registra el consumo de potencia GPU y los errores durante una carga representativa por una hora.
  2. Fija temporalmente un límite conservador de potencia en la GPU y comprueba si los incidentes desaparecen.
  3. Audita el cableado: cables dedicados, sin curvas cerradas, adaptadores mínimos, inserción completa.
  4. Confirma la capacidad upstream: circuito, PDU, UPS dimensionados para el pico real.
  5. Escribe tu mapa de potencia (modelo de PSU, cables usados, conectores, raíles si aplican). El tú del futuro te lo agradecerá.
← Anterior
¿Veremos híbridos x86+ARM en PCs de consumo?
Siguiente →
Error 500 interno de WordPress: causas más comunes y plan rápido de solución

Deja un comentario