La máquina no hace POST. O peor: hace POST, pero solo aparece la mitad de la RAM, un puerto PCIe desaparece,
y los registros están llenos de errores de memoria corregidos como si intentaran ayudar mientras se ahogan.
Alguien dice “CPU mala”. Otro dice “placa mala”. Mientras tanto estás mirando una ventana de mantenimiento
que se está evaporando.
Detrás de ese drama hay una decisión muy física: ¿deben los pines frágiles vivir en la CPU (PGA) o en el
zócalo de la placa base (LGA)? La industria movió los pines a la placa por razones aburridas y despiadadas:
densidad, rendimiento eléctrico, fabricabilidad y el hecho de que la física no se preocupa por tus
sentimientos. Vamos a hacer esa decisión legible y a hacerte más rápido diagnosticando las fallas reales.
LGA vs PGA en una página: términos, anatomía y qué toca realmente qué
PGA (Pin Grid Array)
En PGA, el encapsulado de la CPU tiene una matriz de pines que sobresalen. La placa base tiene un zócalo con
orificios correspondientes (y contactos internos de muelle) que sujetan esos pines.
Colocas la CPU, cierras una palanca (ZIF: Zero Insertion Force) y el zócalo se abrocha a los pines.
La ventaja visible para el usuario de PGA es obvia: el zócalo de la placa es en su mayoría un receptor
pasivo de plástico y metal. Si dañas los pines, quizá puedas enderezarlos. Si destruyes el zócalo,
de todos modos vas a comprar una placa nueva. Pero PGA convierte el “daño” en un problema del lado de la CPU con más frecuencia.
LGA (Land Grid Array)
En LGA, la CPU tiene almohadillas planas (“lands”) en la parte inferior. El zócalo de la placa tiene pines
de muelle que presionan contra esas almohadillas. Una placa de carga y una palanca proporcionan la fuerza
de sujeción para que la presión de contacto sea consistente a lo largo de cientos o miles de contactos.
La ventaja de LGA es mayormente invisible hasta que ejecutas buses rápidos y cuentas de núcleos altas:
soporta más pines y mejores características eléctricas a alta frecuencia.
El intercambio es que las partes frágiles (los pines) ahora viven en la placa base. Si se doblan,
puede que tengas que reemplazar una placa que cuesta más que la CPU que intentabas “salvar”.
Qué son realmente los “pines”: contactos, no magia
Ya sea PGA o LGA, el trabajo eléctrico es el mismo: un contacto controlado y de baja resistencia con
inductancia y capacitancia previsibles, estable ante ciclos de temperatura, vibración y tiempo.
Las plataformas modernas necesitan eso para:
- Alimentación y tierra (una gran parte de los “pines” solo entregan corriente y rutas de retorno).
- Enlaces seriales de alta velocidad (PCIe, UPI/QPI, interconexos tipo Infinity Fabric).
- Canales de memoria (DDR4/DDR5: sensibles a temporización y ruido).
- Señales de banda lateral (SMBus, interfaz SPI flash, depuración, gestión).
No “pierdes un pin”. Pierdes una función: un canal de memoria, un grupo de carriles PCIe, un bus de gestión,
o estabilidad bajo carga. Por eso la falla parece software hasta que deja de parecerlo.
Por qué se movieron los pines: densidad, integridad de señal y la realidad mecánica
Densidad de pines: el dictador silencioso
El número de conexiones que una CPU moderna necesita explotó. No porque el marketing quisiera zócalos más grandes,
sino porque la física demandó más entrega de energía y más E/S. Altas cuentas de núcleos y altos picos de potencia
requieren corriente seria. La corriente necesita metal. El metal necesita área. El área necesita pines/contactos.
Los pines PGA tienen límites prácticos: el paso entre pines no puede reducirse indefinidamente sin que los pines
se vuelvan demasiado frágiles, fáciles de doblar o propensos a cortocircuitos. Los zócalos LGA pueden empaquetar
contactos más densamente porque el “pin” es un elemento de muelle en un zócalo fabricado con precisión, y la CPU
solo tiene almohadillas. El encapsulado de la CPU no necesita agujas sobresalientes que deben sobrevivir al envío,
manipulación e instalación.
Integridad de señal: a altas velocidades, la geometría es la política
Cuando los buses funcionan en territorio de varios gigahercios, la geometría del contacto importa. No de una forma
académica. De una forma “tu enlace PCIe se entrena en Gen4 en lugar de Gen5 y tu rendimiento de almacenamiento se colapsa”.
LGA tiende a ofrecer mejor control de:
- Inductancia: estructuras de contacto más cortas y planas reducen los efectos inductivos.
- Consistencia de impedancia: los zócalos están diseñados para mantener transiciones más limpias.
- Rutas de retorno: más contactos a tierra y mejor distribución mejoran los márgenes de ruido.
- Diafonía: un control más estricto del acoplamiento entre vecinos ayuda a mantener las aperturas de ojo.
Los pines PGA son pequeñas antenas. Pueden funcionar bien, pero a medida que aumentan velocidades y densidades,
“bien” se convierte en “gastamos demasiado tiempo de ingeniería para lograr que sea bien”.
Entrega de energía: más tierras de las que piensas
Las CPUs modernas consumen corrientes grandes y de cambio rápido. El encapsulado y el zócalo deben entregar energía
con baja impedancia en un amplio rango de frecuencias. Eso significa muchos contactos de alimentación/tierra distribuidos
por el zócalo para reducir puntos calientes locales y caídas de tensión. LGA facilita asignar un gran número de contactos
y mantener la fiabilidad mecánica razonable.
Carga mecánica y fiabilidad del contacto
Los zócalos LGA usan una placa de carga y una palanca para aplicar una fuerza definida. Esa fuerza importa: demasiado poca,
obtienes contactos intermitentes (el peor tipo). Demasiada, arriesgas flexión de la placa o daño al zócalo.
En un sistema LGA bien diseñado, la presión es uniforme y predecible. Eso es difícil de garantizar con pines PGA
en grandes recuentos sin hacer la inserción y retención un infierno.
Primer chiste corto (como prometí, solo dos): Un zócalo LGA es como un lector de credenciales de centro de datos—toca las almohadillas perfectamente o no pasa nada, y recuerda tus errores para siempre.
Fabricación y rendimiento: ¿qué lado es más barato de proteger?
Esta es la parte que los ingenieros no siempre dicen en voz alta delante de clientes: trasladar geometría frágil
de la CPU al zócalo cambia la economía. Los encapsulados de CPU son caros, elementos de alto valor.
Las placas base también son caras, pero los zócalos pueden integrarse en la fabricación de la placa y probarse
de maneras distintas.
Con LGA, la parte inferior de la CPU es una matriz plana de almohadillas que es más fácil de proteger con una tapa
y menos probable de doblarse en el envío. Los pines frágiles están en la placa, normalmente protegidos por una
cubierta del zócalo hasta la instalación. En campo, esto desplaza la falla hacia “manipulación en la instalación”
en lugar de “daño en envío”. No es más amable. Es más controlable.
Datos interesantes y contexto histórico (9 puntos rápidos)
- Intel en el mercado general pasó a LGA a mediados de los 2000 (era LGA775), impulsado por mayores recuentos de pines y necesidades de entrega de energía.
- AMD se mantuvo con PGA más tiempo en plataformas de consumo (p. ej., AM2/AM3/AM4), en parte por longevidad del zócalo y estabilidad del ecosistema.
- Los zócalos de servidor adoptaron “LGA grande” temprano porque los interconectores multi-socket y más canales de memoria demandan muchos contactos.
- La mayoría de los contactos no son “señales”: una gran fracción son alimentación y tierra para gestionar la entrega de corriente y el ruido.
- LGA permite paso más denso porque el contacto de muelle está en el zócalo y puede fabricarse con tolerancias más ajustadas que pines sobresalientes de la CPU.
- Las cubiertas de zócalo existen por una razón: dejar un zócalo LGA descubierto durante la manipulación es básicamente invitar a una pequeña tragedia mecánica.
- El baño de contacto importa: el chapado en oro y los materiales de muelle se eligen para minimizar corrosión y mantener resistencia de contacto estable tras ciclos.
- “Canal de RAM faltante” es un síntoma clásico de un problema de contacto—uno o más contactos de dirección/datos/control no hacen buen contacto.
- Fallas en el entrenamiento PCIe de generación a generación pueden ser causadas por contactos marginales; el enlace cae a una velocidad inferior que “funciona” pero reduce silenciosamente el rendimiento.
La verdad incómoda: LGA es mejor para rendimiento; PGA es más indulgente para los humanos
Si diseñas una plataforma con alta densidad de E/S y alta potencia, LGA es la elección pragmática.
Si eres un técnico cambiando CPUs a toda prisa, PGA es más amigable—porque tu enemigo son tus propias manos,
no los diminutos pines de muelle del zócalo.
Modos de fallo que importan en producción
Pines LGA doblados: la pesadilla de “arranca, pero…”
El daño LGA suele ser parcial. Unos pocos pines no hacen contacto y el sistema aún enciende.
Ahora estás en el país de las rarezas:
- Un canal de memoria ausente, o la RAM funciona a menor velocidad.
- Dispositivos PCIe desaparecen o se entrenan a menor velocidad (Gen5 → Gen4 → Gen3).
- Excepciones de comprobación de máquina (MCE) bajo carga, especialmente en cargas intensivas de memoria.
- Reinicios aleatorios que se correlacionan con temperatura o vibración.
- Errores de E/S esporádicos que parecen “NVMe malo” pero no lo son.
La razón: esos pines no son solo “extras”. A menudo están agrupados por función. Pierde un racimo y
pierdes un grupo de carriles o un canal. Pierde una referencia a tierra y pierdes integridad de señal.
Pines PGA doblados: dramático, visible y a veces reparable
Las fallas PGA suelen ser más obvias. Un pin se dobla, la CPU no encaja, o encaja pero un pin
no hace buen contacto. Puedes ver:
- No POST, o POST con códigos de error claros.
- CPU no detectada.
- Memoria no detectada, similar a LGA, pero a menudo con un fallo más total.
Y sí, a veces puedes enderezar pines. El riesgo son microfracturas y endurecimiento por trabajo. Lo
dejas “recto”, pasa un arranque rápido y luego falla seis semanas después tras ciclos térmicos.
Ese es el tipo de “ahorro” que cuesta dinero.
Resistencia de contacto y contaminación
Polvo, aceites de la piel, migración de pasta térmica y corrosión pueden aumentar la resistencia de contacto.
Con LGA, los pines de muelle están diseñados para limpiar ligeramente contra la almohadilla y romper películas,
pero no es magia. En servidores, los reseats repetidos también pueden desgastar el chapado.
Flexión de placa y presión de montaje: el cooler puede ser el villano
Disipadores sobreapretados, montaje desigual o placas traseras faltantes pueden flexionar la placa y cambiar
la distribución de presión de contacto. El sistema puede pasar cargas ligeras y fallar bajo AVX intenso o
tráfico de memoria porque los contactos marginales se vuelven más marginales al subir la temperatura.
“Es la CPU” vs “es el zócalo”: cómo pensar como un SRE
Las CPUs son estadísticamente fiables. Los zócalos y la manipulación lo son menos. En incidentes de campo, asume:
- Configuración y firmware primero.
- Memoria y entrega de energía a continuación.
- Problemas de contacto del zócalo cuando los síntomas se mapean a canales/carriles específicos o cambian tras un reseat.
Diagnostica antes de cambiar. Cambiar es fácil. Explicar por qué cambiaste la pieza cara equivocada no lo es.
Guía de diagnóstico rápido: encuentra el cuello de botella antes de empezar a cambiar piezas
Este es el flujo de trabajo que gana cuando vas contra reloj. No intentas ser ingenioso; intentas
ser correcto rápido, con evidencia.
Primero: establece qué cambió y qué falta
- Revisa POST/registros de firmware en busca de población de memoria, entrenamiento PCIe, errores de CPU.
- Confirma el inventario: modelo de CPU, microcódigo, BIOS, disposición de DIMM, dispositivos PCIe esperados.
- Busca asimetría: un canal específico faltante, un puerto raíz PCIe ausente—eso grita “contacto o grupo de carriles”.
Segundo: clasifica el tipo de fallo
- No hay POST: alimentación, presencia de CPU, daño catastrófico del zócalo, BIOS incorrecto o corto.
- POST pero degradado: canales/carriles faltantes, PCIe entrenado a menor velocidad, errores corregidos—a menudo presión de contacto o pines doblados.
- Solo falla bajo carga: contacto marginal, inestabilidad del VRM, problemas térmicos o ajustes de firmware.
Tercero: prueba o elimina problemas de zócalo/contacto
- Reseata la CPU y el cooler con el patrón de torque correcto.
- Inspecciona el zócalo con magnificación y luz en ángulo.
- Intercambia DIMMs conocidos buenos en las ranuras del canal “faltante”; si el canal sigue ausente, no es el DIMM.
- Verifica si el comportamiento cambia con diferentes dispositivos/ranuras PCIe; la ausencia persistente de un puerto raíz apunta al mapeo del zócalo de la CPU.
Cuarto: solo entonces empieza a cambiar piezas caras
Si no puedes hacer que la plataforma sea consistente después de un reseat e inspección cuidadosos, decide si
reemplazas la placa (riesgo LGA) o la CPU (riesgo PGA) en función de lo que está físicamente en riesgo y
de qué es más fácil de validar.
Tareas prácticas: comandos, salidas y decisiones (12+)
Estas son tareas del lado Linux que puedes ejecutar incluso cuando no estás seguro si la falla es “hardware”
o “software”. Cada tarea incluye: comando, qué significa la salida y la decisión que habilita.
El objetivo es convertir síntomas vagos en una hipótesis a nivel de zócalo.
Tarea 1: Confirmar modelo de CPU, stepping y microcódigo cargado
cr0x@server:~$ lscpu | egrep 'Model name|Socket|Thread|Core|CPU\(s\)|Stepping'
CPU(s): 64
Model name: Intel(R) Xeon(R) Gold 6338 CPU @ 2.00GHz
Core(s) per socket: 32
Thread(s) per core: 2
Socket(s): 1
Stepping: 6
Significado: Si sockets/cores/hilos no coinciden con lo que compraste, para. Eso puede ser una configuración del BIOS,
núcleos deshabilitados o una CPU mal asentada/no detectada correctamente.
Decisión: Si el recuento de CPU está mal, prioriza registros de BIOS/POST y un reseat físico antes de perseguir ajustes del OS.
Tarea 2: Comprobar que el kernel ve tamaño de memoria y topología NUMA
cr0x@server:~$ numactl --hardware
available: 1 nodes (0)
node 0 cpus: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63
node 0 size: 196355 MB
node 0 free: 182904 MB
node distances:
node 0
0: 10
Significado: Nodos NUMA inesperados o un tamaño de memoria significativamente por debajo de la RAM instalada a menudo indica
canales de memoria faltantes o ranuras DIMM deshabilitadas.
Decisión: Si la memoria es baja, correlaciona con el inventario DMI a continuación; si las ranuras aparecen “vacías” mientras están físicamente pobladas, sospecha problema de contacto/canal del zócalo.
Tarea 3: Inventario de ranuras DIMM desde DMI
cr0x@server:~$ sudo dmidecode -t memory | egrep -A5 'Memory Device|Locator:|Bank Locator:|Size:|Speed:|Configured Memory Speed:'
Memory Device
Locator: DIMM_A1
Bank Locator: P0_Node0_Channel0_Dimm0
Size: 32768 MB
Speed: 3200 MT/s
Configured Memory Speed: 3200 MT/s
--
Memory Device
Locator: DIMM_B1
Bank Locator: P0_Node0_Channel1_Dimm0
Size: No Module Installed
Speed: Unknown
Configured Memory Speed: Unknown
Significado: “No Module Installed” en una ranura que sabes que está poblada es una pista importante. Si un canal entero
aparece vacío, no es casualidad.
Decisión: Si falta un canal entero, planea un reseat de CPU + inspección del zócalo; cambiar DIMMs no resucitará un canal que no está presente eléctricamente.
Tarea 4: Buscar errores del controlador de memoria (MCE/EDAC)
cr0x@server:~$ sudo journalctl -k | egrep -i 'mce|machine check|edac|hardware error' | tail -n 20
Jan 09 10:12:41 server kernel: EDAC sbridge MC0: HANDLING MCE MEMORY ERROR
Jan 09 10:12:41 server kernel: mce: [Hardware Error]: Machine check events logged
Jan 09 10:12:41 server kernel: EDAC MC0: 1 CE memory read error on CPU_SrcID#0_Channel#2_DIMM#0 (channel:2 slot:0 page:0x12345 offset:0x0 grain:32 syndrome:0x0)
Significado: Errores corregidos agrupados en un canal o DIMM pueden ser un problema del DIMM, pero también un canal marginal
por contacto (pines del zócalo asociados a ese canal).
Decisión: Si los errores persisten en un canal tras intercambiar DIMMs, escala a asiento del zócalo/CPU en lugar de culpar a “lotes de RAM malos”.
Tarea 5: Verificar ancho y velocidad del enlace PCIe (detectar downtraining)
cr0x@server:~$ sudo lspci -vv -s 3b:00.0 | egrep -i 'LnkCap:|LnkSta:'
LnkCap: Port #0, Speed 16GT/s, Width x16, ASPM L1, Exit Latency L1 <64us
LnkSta: Speed 8GT/s (downgraded), Width x8 (downgraded)
Significado: El dispositivo es capaz de x16 a mayor velocidad pero está funcionando más lento/estrecho. Eso puede ser:
integridad de señal marginal, problemas de contacto de carril, riser o BIOS forzando compatibilidad.
Decisión: Si el downtraining es estable pero inesperado, revisa el asiento físico y la presión del zócalo/cooler; si fluctúa (cambia entre arranques), sospecha marginalidad de contacto.
Tarea 6: Mapear topología PCIe a puertos raíz (encontrar grupos faltantes)
cr0x@server:~$ lspci -tv
-+-[0000:00]-+-00.0 Intel Corporation Device 1234
| +-01.0-[01]----00.0 Broadcom / LSI SAS3008 PCI-Express Fusion-MPT SAS-3
| +-1d.0-[3b]----00.0 NVIDIA Corporation Device 1eb8
| \-1f.6 Intel Corporation Ethernet Connection (7) I219-LM
Significado: Si falta completamente un puerto raíz esperado o un dispositivo descendente, no estás tratando con un
problema de controlador. Estás tratando con una enumeración que no ocurre.
Decisión: Ramas ausentes después de tocar la CPU/cooler sugieren fuertemente asiento del zócalo/CPU o pines doblados afectando ese complejo raíz PCIe.
Tarea 7: Revisar errores NVMe que son en realidad problemas de enlace
cr0x@server:~$ sudo dmesg | egrep -i 'nvme|pcie|AER|link down|corrected error' | tail -n 30
[ 92.112233] pcieport 0000:00:1d.0: AER: Corrected error received: 0000:00:1d.0
[ 92.112240] pcieport 0000:00:1d.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
[ 92.112244] pcieport 0000:00:1d.0: device [8086:1234] error status/mask=00000001/00002000
[ 92.112250] pcieport 0000:3b:00.0: AER: Corrected error received: 0000:3b:00.0
[ 92.112256] nvme nvme0: Abort status: 0x371
Significado: Errores corregidos de capa física AER más abortos de comandos NVMe pueden ser un enlace PCIe marginal.
Eso puede ser cable/riser/dispositivo, pero también problemas de contacto en el zócalo de la CPU sobre el grupo de carriles.
Decisión: Si los errores desaparecen tras un reseat o cambian con el torque del cooler, deja de culpar al SSD.
Tarea 8: Confirmar modo ECC y velocidades de memoria (efecto del BIOS)
cr0x@server:~$ sudo dmidecode -t memory | egrep -i 'Type:|Type Detail:|Error Correction Type:|Configured Memory Speed:' | head -n 20
Error Correction Type: Multi-bit ECC
Type: DDR4
Type Detail: Synchronous Registered (Buffered)
Configured Memory Speed: 2666 MT/s
Significado: Si la velocidad configurada es menor de la esperada en todos los DIMMs, el BIOS podría haber reducido la configuración
debido a problemas de entrenamiento. A veces eso es “modo seguro” tras arranques malos; otras veces es marginalidad real.
Decisión: Si la velocidad baja tras una intervención de hardware, trátalo como una canaria: vuelve a revisar el asiento y el zócalo, luego reentrena la memoria en el BIOS si la plataforma lo permite.
Tarea 9: Comprobar throttling de CPU y límites térmicos (los problemas de presión del cooler se muestran aquí)
cr0x@server:~$ sudo turbostat --Summary --quiet --interval 1 --num_iterations 3
Average: CPU Avg_MHz Busy% Bzy_MHz TSC_MHz PkgTmp PkgWatt
Average: all 2100 45.32 4632 2000 92 195.12
Significado: Alta temperatura de paquete y vatios altos con frecuencia inestable sugieren límites térmicos o de potencia.
Un cooler mal montado puede causar puntos calientes y extraña inestabilidad que parece “silicio malo”.
Decisión: Si las temperaturas son altas justo después de un servicio, vuelve a montar el cooler con el torque y la aplicación de pasta correctos antes de tocar perillas del firmware.
Tarea 10: Prueba de carga para reproducir de forma controlada (no adivines)
cr0x@server:~$ stress-ng --cpu 32 --vm 4 --vm-bytes 75% --timeout 120s --metrics-brief
stress-ng: info: [2417] dispatching hogs: 32 cpu, 4 vm
stress-ng: metrc: [2417] stressor bogo ops real time usr time sys time bogo ops/s
stress-ng: metrc: [2417] cpu 84512 120.02 3790.11 21.43 704.1
stress-ng: metrc: [2417] vm 9123 120.01 457.33 210.88 76.0
stress-ng: info: [2417] successful run completed in 120.02s
Significado: Si falla solo bajo presión combinada CPU+memoria, sospecha contactos marginales, VRM o problemas térmicos más que “bugs de controladores”.
Decisión: Usa esto para reproducir después de cada cambio (reseat, intercambio de DIMM, ajuste de BIOS). Si la firma del fallo cambia, estás acotando.
Tarea 11: Buscar reportes de error hardware tipo WHEA en Linux (tendencia de conteo MCE)
cr0x@server:~$ sudo mcelog --client
hardware event: corrected memory error
status: 0x9c20400000010091
misc: 0x0
addr: 0x0000000123456780
mcgstatus: 0x0
Significado: Errores corregidos repetidos no son “normales”. Son una advertencia temprana.
Decisión: Si los errores corregidos aumentan tras un reseat de CPU/cooler, probablemente empeoraste la presión de contacto; revierte y vuelve a asentar con cuidado.
Tarea 12: Validar que la “lentitud” del almacenamiento no sea entrenamiento del enlace CPU
cr0x@server:~$ sudo nvme list
Node SN Model Namespace Usage Format FW Rev
/dev/nvme0n1 S5X0NX0R123456 ACME NVMe Gen4 SSD 3.84TB 1 3.84 TB / 3.84 TB 512 B + 0 B 3B2QEXM7
cr0x@server:~$ sudo nvme smart-log /dev/nvme0 | egrep -i 'media_errors|num_err_log_entries|warning_temp_time'
media_errors : 0
num_err_log_entries : 3
warning_temp_time : 0
Significado: Errores de media limpios pero algunas entradas de log de error más AER en dmesg insinúan flakiness en capa de enlace, no muerte del NAND.
Decisión: Si la lentitud del almacenamiento se correlaciona con downtraining PCIe (Tarea 5), trata la ruta socket/PCIe como sospechosa principal antes de RMA de discos.
Tarea 13: Confirmar versión BIOS/UEFI desde el OS (cuando sospechas regresiones de entrenamiento)
cr0x@server:~$ sudo dmidecode -t bios | egrep -i 'Vendor:|Version:|Release Date:'
Vendor: American Megatrends International, LLC.
Version: 2.6.1
Release Date: 08/14/2024
Significado: Las actualizaciones de BIOS pueden cambiar el comportamiento de entrenamiento de memoria y los valores por defecto de equalización PCIe.
Decisión: Si los síntomas aparecen tras una actualización de BIOS, considera volver atrás o aplicar las configuraciones recomendadas por el fabricante; pero no dejes que el firmware sea el chivo expiatorio de un zócalo físicamente dañado.
Tarea 14: Detectar interrupciones/dispositivos faltantes que apunten a un root complex muerto
cr0x@server:~$ cat /proc/interrupts | head -n 12
CPU0 CPU1 CPU2 CPU3
0: 22 0 0 0 IO-APIC 2-edge timer
1: 2 0 0 0 IO-APIC 1-edge i8042
24: 182993 0 0 0 PCI-MSI 524288-edge eth0
25: 0 0 0 0 PCI-MSI 1048576-edge nvme0q0
Significado: Líneas de interrupción en cero para un dispositivo activo pueden indicar que el dispositivo en realidad no está activo,
o que está bloqueado por problemas de enlace.
Decisión: Combina con lspci y dmesg. Si el dispositivo existe pero nunca genera interrupciones bajo carga, la ruta PCIe puede ser inestable (riser, ranura o grupo de carriles de la CPU).
Tres mini-historias corporativas desde el terreno
Mini-historia 1: El incidente causado por una suposición equivocada
Un equipo desplegó un lote de nuevos nodos de cómputo para un servicio sensible a latencia. La prueba de aceptación
era simple: arrancar, unirse al clúster, ejecutar una carga sintética corta y enviar. Dos días después, un subconjunto
de nodos empezó a reportar timeouts intermitentes de almacenamiento. Todos se fijaron en los discos NVMe, porque los
registros estaban llenos de errores de E/S y la herramienta de salud del vendedor estaba molosamente en silencio.
La suposición equivocada: “Errores de almacenamiento significan almacenamiento roto.” Es una historia cómoda porque mantiene
el radio de explosión pequeño. Cambia el disco, sigue adelante. Pero los swaps de disco no ayudaron. Los mismos nodos siguieron fallando.
Un SRE finalmente miró el estado de entrenamiento PCIe entre nodos y notó un patrón: los nodos problemáticos tenían enlaces
funcionando a menor ancho y velocidad, y los errores corregidos AER se disparaban bajo carga. El servicio estaba bien en reposo.
Bajo tráfico, la tela PCIe se volvía ruidosa.
El culpable fue mecánico: esos nodos habían sido re-trabajados en una bancada donde alguien quitó el cooler de la CPU para “verificar la pasta”
y lo reinstaló rápidamente. La presión de montaje del cooler era desigual y la presión de contacto LGA en los pines relacionados con PCIe era marginal.
Reseat de CPU + torque cuidadoso lo arregló. No se reemplazó ninguna pieza.
La lección es brutal: no asumas que el subsistema que falla es el componente roto. Con LGA, un problema de contacto en el zócalo puede
suplantar a la mitad de tu inventario de hardware.
Mini-historia 2: La optimización que salió mal
Un equipo de plataforma quería una vuelta más rápida en las reparaciones de hardware. Introdujeron un cambio de “eficiencia”:
pre-aplicar plantillas de pasta térmica y apretar disipadores con un destornillador eléctrico configurado a un torque “seguro”.
La línea de reparación se volvió más rápida y consistente—sobre el papel.
En un mes, un goteo de nodos empezó a mostrar un patrón específico: un canal de memoria faltante tras un reinicio.
Los nodos funcionaban bien en una configuración de memoria reducida, por lo que el problema pasó las comprobaciones iniciales.
Eventualmente cargas optimizadas para ancho de banda de memoria empezaron a perder SLOs.
La investigación encontró dos problemas. Primero, el embrague del destornillador eléctrico no estaba calibrado y variaba
con el nivel de batería. Segundo, las plantillas de pasta fomentaban una capa más gruesa de la ideal en algunos casos, lo que
cambiaba la distribución de presión de montaje tras ciclos térmicos. La presión de contacto del zócalo LGA terminó siendo desigual,
y un puñado de pines en el canal de memoria afectado quedó en el límite.
Arreglarlo fue dolorosamente poco glamoroso: torque manual con un controlador calibrado, pasta aplicada por peso/volumen según
la especificación, y una validación post-reparación que comprobó explícitamente presencia y velocidad de canales de memoria. El rendimiento volvió.
La optimización es genial. La optimización sin medir es cómo creas una nueva clase de “fallas de hardware fantasma”.
Mini-historia 3: La práctica aburrida pero correcta que salvó el día
Una compañía ejecutaba cargas mixtas en una flota que incluía nodos envejecidos. Las fallas ocurrían, pero eran manejables
porque el equipo practicaba un ritual tedioso: cada acción de servicio de CPU tenía una lista de verificación documentada,
y cada zócalo LGA retirado tenía su cubierta protectora inmediatamente reinstalada. Sin excepciones. La gente se quejaba.
Una semana, un contratista fue traído para ayudar con una renovación de hardware. Era competente pero desconocía la “obsesión por la cubierta del zócalo”.
A mitad de turno, una placa quedó descubierta sobre una alfombra antiestática mientras se ordenaban piezas. Alguien rozó el área con una manga.
Nada dramático. Sin chispas. Sin ruidos crujientes.
La lista de verificación lo detectó. El técnico que hacía el reensamblaje inspeccionó el zócalo con magnificación antes de colocar la CPU y notó
un ligero desalineamiento de pines. Porque la regla de la cubierta se había seguido en todas partes, esta única excepción destacó. Pusieron la placa en cuarentena,
y el lote del contratista no llegó a producción.
Más tarde se confirmó que la placa tenía un racimo de pines doblados que probablemente habría producido un fallo de “arranca pero falta RAM”.
En su lugar, produjo un ticket aburrido y un reemplazo controlado.
Segundo chiste corto (ese es tu lote): La cubierta del zócalo es el pequeño sombrero de plástico que evita que tu placa base aprenda danza interpretativa con las pinzas.
Errores comunes: síntoma → causa raíz → solución
1) Solo aparece la mitad de la RAM después del mantenimiento
Síntoma: El OS reporta mucha menos RAM; dmidecode muestra “No Module Installed” para todo un canal.
Causa raíz: CPU no asentada plana, torque del cooler desigual o pines LGA doblados asociados a ese canal.
Solución: Apaga, quita el cooler, inspecciona el zócalo con magnificación y luz en ángulo; reseata la CPU; reaplica pasta; aprieta el cooler en patrón cruzado según especificación; valida la presencia del canal en BIOS y OS.
2) Dispositivo PCIe desaparece aleatoriamente o el enlace se entrena a menor velocidad
Síntoma: lspci muestra intermitentemente un dispositivo; lspci -vv muestra ancho/velocidad degradados; errores AER en dmesg.
Causa raíz: Contacto marginal de carriles (problema de pines del zócalo), contaminación en riser/ranura, o flexión de placa por cooler/retención.
Solución: Reseta el dispositivo y el riser; revisa el estado del enlace; si persiste en un puerto raíz, inspecciona el zócalo de la CPU y reinstala el cooler con el torque correcto.
3) Reinicios aleatorios solo bajo carga intensa
Síntoma: Estable en reposo, se cae bajo stress-ng o carga real; pueden aparecer MCEs.
Causa raíz: Presión de contacto marginal que empeora con la expansión térmica; inestabilidad de VRM o entrega de energía; ajustes agresivos del BIOS.
Solución: Verifica térmicas; vuelve a montar el cooler; restaura BIOS a valores conocidos buenos; revisa MCE/EDAC; si los errores se correlacionan con un canal, trata el contacto del zócalo como principal.
4) “La CPU está muerta” después de un swap, pero la CPU vieja funciona en otra placa
Síntoma: La CPU nueva no hace POST en una placa; funciona en otra; la placa falla con múltiples CPUs.
Causa raíz: Daño en el zócalo (pines LGA doblados), residuos en el zócalo o BIOS incompatible con ese stepping de CPU.
Solución: Inspecciona el zócalo; verifica soporte BIOS; no vuelvas a colocar CPUs repetidamente en un zócalo sospechoso—cada ciclo arriesga más daño.
5) Velocidad de memoria cae en toda la placa después de un “servicio menor”
Síntoma: Velocidad configurada de memoria inferior a la esperada en todos los DIMMs; regresión de rendimiento.
Causa raíz: BIOS en modo seguro tras errores, o entrenamiento marginal debido a problemas de contacto.
Solución: Arregla el asiento físico primero; luego limpia fallos de entrenamiento (específico de plataforma); revalida con dmidecode y benchmarks.
6) Enderezas pines PGA y funciona… hasta que no
Síntoma: La CPU reparada arranca; más tarde aparecen fallos intermitentes.
Causa raíz: Pines endurecidos por trabajo o microgrietas; el contacto es marginal eléctricamente bajo ciclos térmicos.
Solución: Trata las CPUs “rectificadas” como temporales. En producción, reemplázalas; no las pongas en sistemas críticos.
Listas de verificación / plan paso a paso
Paso a paso: extracción e instalación segura de CPU (enfoque LGA)
- Planifica la validación: decide de antemano cómo se ve “bien” (RAM esperada, canales, dispositivos PCIe, velocidades de enlace).
- Apaga correctamente: apagado ordenado, luego quita la alimentación y espera a que los rieles de standby se descarguen según la guía de la plataforma.
- Disciplina ESD: pulsera de tierra, alfombra conectada y evita ropa sintética que genere estática.
- Quita el cooler de forma uniforme: afloja en patrón cruzado para evitar torcer la CPU en el zócalo.
- Abre el mecanismo del zócalo con cuidado: no arrastres la CPU sobre los pines.
- Instala la cubierta del zócalo inmediatamente si retiras la CPU: la cubierta no es empaquetado; es armadura.
- Inspecciona: magnificación, luz en ángulo; busca filas de pines que no reflejen igual.
- Limpia apropiadamente: elimina polvo con aire limpio; no esparzas aceites; evita “solventes creativos”.
- Asienta la CPU: alinea muescas/marcadores; sin fuerza; debe asentarse plana.
- Cierra la placa de carga y la palanca: espera resistencia; eso es fuerza de apriete, no una pelea.
- Aplica pasta térmica consistentemente: sigue la especificación de la plataforma; no te excedas.
- Ajusta el cooler al torque especificado: patrón cruzado; torque calibrado; evita drivers eléctricos a menos que estén validados.
- Primer arranque al firmware: confirma canales de memoria, velocidades e inventario PCIe antes de arrancar el OS.
- Validación en OS: ejecuta las tareas de la sección de diagnóstico y registra salidas para el ticket.
Lista de decisión: cuándo culpar al zócalo vs la CPU
- Culpa al zócalo/placa primero cuando: falta un canal o grupo de carriles, los síntomas cambian con reseat/torque, o múltiples CPUs muestran el mismo problema en la misma placa.
- Culpa a la CPU primero cuando: la CPU falla en múltiples placas conocidas buenas, o ves errores internos consistentes de la CPU no ligados a topología de canal/puerto.
- Culpa al firmware/configuración primero cuando: el comportamiento cambió tras una actualización de BIOS, se modificaron ajustes, o discrepancias de inventario son consistentes sin cambios físicos.
Lista de higiene operacional (qué estandarizar)
- Cubiertas de zócalo almacenadas y usadas, siempre.
- Destornilladores de torque calibrados con ajustes documentados por plataforma.
- Paso obligatorio de inspección de zócalo para cualquier comportamiento “misterioso” tras servicio.
- Script de validación post-mantenimiento que verifique: lscpu, dmidecode ranuras de memoria, estado de enlace PCIe y MCE/EDAC.
- Política de cuarentena: cualquier placa con sospecha de daño en pines LGA se etiqueta y retira de rotación.
Preguntas frecuentes
1) ¿LGA siempre es mejor que PGA?
Mejor para altos recuentos de pines y rendimiento eléctrico a alta velocidad, sí. Mejor para manipulación en campo, no.
“Mejor” depende de si tu dolor son las restricciones de ingeniería o el daño inducido por técnicos.
2) ¿Por qué no dejar los pines en la CPU para proteger la placa cara?
Porque la parte cara no es solo la placa; es la capacidad de la plataforma para soportar E/S densa y rápida y entrega de energía.
LGA reduce la fragilidad del lado CPU y permite mayor densidad de contacto con mejores características de señal. El costo es un riesgo desplazado.
3) ¿Los pines LGA doblados siempre impiden el arranque?
No. Por eso son peligrosos. Un pequeño conjunto de pines doblados puede quitar un canal de memoria o degradar PCIe sin impedir el POST.
Obtienes un servidor “funcionando” que silenciosamente rinde menos o falla bajo carga.
4) ¿Puedo enderezar pines LGA doblados?
A veces, físicamente. Operativamente, rara vez vale la pena en producción.
Si lo intentas, necesitas magnificación adecuada, iluminación y herramientas, y aceptas que puedes convertir una placa recuperable en chatarra.
Muchas organizaciones eligen “reemplazar la placa” porque es auditable y repetible.
5) ¿Por qué la RAM faltante suele apuntar a problemas de zócalo?
Los canales de memoria están cableados a través de grupos de contactos específicos. Si unos pocos contactos de ese grupo no conectan,
el controlador de memoria puede deshabilitar el canal durante el entrenamiento. El OS entonces reporta menos RAM, y dmidecode suele mostrar ranuras vacías.
6) ¿Cuál es el papel de la placa de carga y la palanca en LGA?
Proporcionan una fuerza de sujeción consistente para que cada contacto de muelle presione contra su almohadilla con la presión correcta.
La consistencia lo es todo: demasiado poco da contactos intermitentes; demasiado puede flexionar la placa o dañar el zócalo.
7) ¿Por qué los enlaces PCIe a veces entran a una velocidad menor tras un servicio?
La equalización y el entrenamiento se adaptan a la calidad del canal. Si aumenta la resistencia de contacto o un carril se vuelve marginal,
la plataforma puede negociar una velocidad inferior o un ancho menor para mantenerse fiable. Es una medida defensiva que parece “regresión de rendimiento”.
8) ¿PGA es realmente más fiable?
No inherentemente. Es más indulgente de manejar porque la placa no tiene pines de muelle expuestos.
Pero los pines de la CPU PGA son fáciles de doblar durante la instalación y pueden fatigarse si se enderezan repetidamente.
La fiabilidad viene de los procedimientos, no de la religión del zócalo.
9) ¿Cómo puede un problema de montaje del cooler causar errores de memoria?
La presión desigual puede deformar ligeramente la placa o el encapsulado de la CPU, cambiando la presión de contacto a través del campo LGA.
Los canales de memoria son sensibles; un contacto marginal puede volverse inestable cuando está caliente, provocando fallos de entrenamiento o errores corregidos.
10) ¿Cuál es una buena prueba de aceptación tras trabajo en la CPU?
Valida inventario (CPU, ranuras de RAM presentes, dispositivos PCIe esperados), verifica velocidades/ancho de enlace y luego ejecuta una breve prueba combinada CPU+memoria.
También revisa logs por MCE/EDAC y AER PCIe corregidos. “Sin errores” vence a “parece bien”.
Próximos pasos prácticos
Aquí está la postura operacional que te mantiene fuera del infierno de zócalos:
trata los zócalos LGA como componentes de precisión, no como “solo un conector”. Estandariza torque, inspección
y validación post-mantenimiento. No dejes que “arranca” sea tu definición de “saludable”.
Una cita, porque pertenece a toda sala de operaciones: La esperanza no es una estrategia.
- Codifica un procedimiento de servicio de CPU que incluya disciplina de cubierta de zócalo e inspección.
- Automatiza comprobaciones post-mantenimiento usando las tareas anteriores (topología CPU, inventario DIMM, estado enlace PCIe, registros de error).
- Entrena al personal en mapeo de síntomas: canal/lote de carriles faltante implica contacto o asiento; fallos aleatorios bajo carga implican marginalidad.
- Pon en cuarentena placas sospechosas inmediatamente. Reseats repetidos en un zócalo LGA dañado es cómo conviertes “posible recuperable” en “definitivamente no”.
- Deja de “optimizar” con herramientas no calibradas. Si usas drivers eléctricos, valida el torque con distintos estados de batería y operadores, o no los uses.
La industria no movió los pines a la placa base para molestar a los técnicos. Los movió porque necesitaba
más conexiones, mejor comportamiento eléctrico y mecánica predecible a escala. Tu trabajo en producción
es respetar ese intercambio—y diagnosticar rápido cuando la realidad muerde.