Los números de TDP de CPU en portátiles suelen ser cuentos de hadas

Tu portátil es “clase 45W”, dice la hoja de especificaciones. Luego renderizas un video, compilas un repositorio grande o ejecutas un clúster local de Kubernetes, y la CPU se comporta como si estuviera a dieta. Los ventiladores chillan, las frecuencias bajan, la batería cae en picado y el “45W” se convierte en “quizá 20W si está de buen humor”.

Esto no es cosa de tu imaginación. El TDP en portátiles es una abstracción cercana al marketing, y el sistema real es una pila de límites de potencia, límites térmicos, decisiones de firmware, restricciones del VRM y física del chasis. Si tratas el TDP como una promesa, comprarás la máquina equivocada, ajustarás los parámetros incorrectos y culparás al componente equivocado.

El TDP no es un termómetro ni un vatímetro

TDP (Thermal Design Power) suena a medida. Parece una medida. La gente lo cita como una medida. En portátiles, a menudo no es una medición de la potencia que verás en la toma de pared, en la batería o incluso en el paquete de la CPU bajo tu carga de trabajo.

En la práctica, el “TDP” en portátiles suele ser una etiqueta para el sobre térmico previsto del procesador bajo ciertas condiciones definidas que pueden no coincidir con tus condiciones, la refrigeración de tu portátil o las decisiones de firmware de tu fabricante. La CPU tiene un modelo interno de potencia y temperatura, el firmware establece límites y el sistema operativo solicita rendimiento. Lo único que garantiza “TDP” es que alguien reunió y habló sobre ello.

Lo que se supone que representa el TDP

Históricamente, el TDP se usaba para dimensionar la refrigeración: disipadores, ventiladores, rejillas y flujo de aire del chasis. La meta no era la “potencia máxima”, era “el calor a extraer durante una carga sostenida que al vendedor le importa”. Esa diferencia sutil importa: sostenida, carga definida, reglas definidas por el vendedor.

Lo que los compradores de portátiles creen que representa

Una promesa de rendimiento sostenido.
Una promesa de consumo máximo de potencia.
Un proxy de “esta CPU es más rápida que aquella CPU”.
Una garantía de que dos portátiles con la misma CPU rendirán de forma similar.

Sólo una de esas afirmaciones es ocasionalmente verdadera, y aun así sólo por accidente.

En qué se convierte el TDP en portátiles

Se convierte en un gancho de marketing para clasificar una familia de CPU: “serie U es eficiente”, “serie H es rápida”, “HX es tipo sobremesa”. Luego los OEM establecen sus propios límites sostenidos y de ráfaga para encajar en el chasis, objetivos de batería, metas de ruido y segmentación de producto. El chip puede ser capaz de ráfagas de 60–90W, pero el portátil puede permitir eso por 10 segundos, 28 segundos o “hasta que el usuario abra Slack”.

Broma #1: El TDP de los portátiles es como un pronóstico del tiempo: técnicamente derivado de modelos, pero aún así no es algo por lo que debas apostar tu viaje al trabajo.

Cómo llegamos aquí: la deriva del TDP de la ingeniería a las sensaciones

Los CPUs para portátiles no se volvieron engañosos de la noche a la mañana. La industria evolucionó a un lugar donde las CPUs pueden exceder sus envolventes térmicas “base” de forma rutinaria, y donde los OEMs ajustan agresivamente para delgadez y duración de batería. El problema es que la hoja de especificaciones no evolucionó hacia algo que los consumidores puedan usar.

Hechos interesantes y contexto histórico (breve, concreto)

El turbo hizo políticamente incómodo el “consumo base”. Una vez que las CPUs empezaron a subir la frecuencia oportunísticamente por encima de la base, la “potencia típica” dejó de ser estable.
El modelo de límites de potencia de Intel (PL1/PL2/Tau) normalizó la potencia en ráfaga. La potencia sostenida y la potencia a corto plazo se convirtieron en controles distintos, no en un único número.
Las piezas móviles empujaron la integración. GPUs integradas y controladores de memoria significan que la potencia del paquete de la CPU no es “solo núcleos”, por lo que las mezclas de cargas varían enormemente.
El diseño thin-and-light se convirtió en un punto de venta principal. Muchos portátiles se diseñan primero para ruido y grosor, luego se rellenan los límites de potencia.
La segmentación de producto por parte de los OEM es real. Dos modelos con la misma CPU pueden ajustarse deliberadamente a potencias sostenidas diferentes para mantener una escalera de precios.
La batería y las restricciones del VRM importan. Un portátil puede no poder suministrar mucha potencia desde la batería sin caída de voltaje, calor o preocupaciones de desgaste a largo plazo.
La temperatura de la carcasa y la comodidad se convirtieron en restricciones. “No quemar al usuario” es un límite de diseño; a menudo vence a “alcanzar el número del benchmark”.
Los ajustes “Mejor rendimiento” de Windows cambiaron expectativas. Los perfiles de energía del SO pueden cambiar el comportamiento de PL1/PL2 sin decirlo en lenguaje claro.
Los límites a nivel de plataforma (adaptador CA, USB-C PD) se volvieron cuellos de botella comunes. Un adaptador USB-C de 65W puede limitar una CPU “45W” una vez que el resto del sistema toma su parte.

Aquí está la parte incómoda: el proveedor del chip puede publicar un número, pero tu portátil es un tratado negociado entre firmware, térmicas y el deseo corporativo de no canibalizar el modelo “Pro”.

Los controles reales: PL1, PL2, Tau, cTDP y compañía

Si quieres realidad, ignora el TDP y aprende el plano de control. Los distintos proveedores nombran las cosas de forma diferente, pero la estructura es similar: un límite de potencia sostenida, un límite de impulso a corto plazo y restricciones térmicas que anulan todo cuando la refrigeración se satura.

PL1: el presupuesto de potencia sostenida

PL1 suele ser la potencia “a largo plazo”. El portátil puede funcionar ahí indefinidamente si la refrigeración lo soporta. Los OEM a menudo establecen PL1 por debajo de la “clase TDP” anunciada de la CPU, porque están diseñando para acústica, batería o temperatura de la carcasa.

En el mundo real: PL1 es el número que rige tu compilación de 10 minutos, tu render largo, tu simulación sostenida y tus quejas “¿por qué el portátil va más lento después del primer minuto?”.

PL2: el presupuesto de impulso a corto plazo

PL2 es el límite de “ráfaga”. Es por lo que los portátiles se sienten ágiles al abrir aplicaciones, exportar un archivo pequeño o ejecutar un benchmark corto. PL2 es también la razón por la que los revisores obtienen gráficos atractivos con ejecuciones breves.

PL2 puede ser de 2–3× PL1 en algunos diseños. Eso no es hacer trampa. Ese es el punto. El engaño ocurre cuando el marketing implica que el comportamiento de ráfaga es el comportamiento sostenido.

Tau: la ventana temporal (la parte que todo el mundo olvida)

Tau es efectivamente “cuánto tiempo podemos hacernos pasar por sobremesa”. Define cuánto tiempo se puede usar PL2 antes de caer hacia PL1. Algunos portátiles se envían con Tau largo para competitividad en benchmarks. Otros lo mantienen corto para evitar soak térmico y picos de ruido.

cTDP / rangos de potencia configurables

Muchas CPUs móviles soportan rangos configurables: 12–15W, 15–28W, 35–45W, etc. Ese rango no significa que tengas “una CPU de 28W”. Es la CPU siendo capaz de operar en distintos envolventes según el ajuste del OEM.

Si ves la misma CPU en portátiles diferentes con rendimiento radicalmente distinto, esta es la razón nueve de cada diez.

Trote térmico vs limitación de potencia

La gente culpa al “throttling térmico” por todo, pero la limitación por potencia es con frecuencia el primer limitador. La CPU puede nunca alcanzar su máximo térmico duro; puede simplemente mantenerse en un PL1 bajo porque el OEM quiere la curva de ventilador silenciosa.

Esa distinción importa, porque la solución difiere:

Limitado por potencia: cambia la política de potencia (si es posible), ajustes de firmware, o acepta la elección del producto.
Limitado térmicamente: mejora la refrigeración (limpieza, repaste, alineación de pads, curva de ventilador), reduce la temperatura ambiente o reduce la carga.

La visión de un responsable de fiabilidad sobre la gestión de energía en portátiles

En sistemas de producción, asumes que existe un lazo de control. En portátiles tienes varios: DVFS de la CPU, lógica del controlador embebido para ventiladores, planes de energía del SO y a veces demonios del proveedor que se pelean entre sí. No “fijas un TDP”. Gestionas un sistema de restricciones.

Una cita de operaciones pertenece aquí. Aquí hay una idea parafraseada de Werner Vogels (CTO de Amazon): idea parafraseada: Todo falla, y deberías diseñar y operar como si la falla fuera normal.

Los límites de potencia no son fallo, pero deben tratarse como un modo normal que debes observar y planear en torno a él.

El portátil es el producto (la CPU es solo pasajera)

Dos portátiles pueden compartir el mismo modelo de CPU y aun así comportarse como especies diferentes. Porque la CPU no es el sistema. El sistema es: capacidad de refrigeración, masa del disipador, calidad de la cámara de vapor, diseño de ventiladores, geometría de entrada/salida de aire, ajuste de firmware, diseño del VRM, vatios del adaptador y si el OEM limitó el rendimiento en batería sin decirlo.

Refrigeración: el estado estable vence a las gráficas de pico

El rendimiento de la refrigeración trata sobre la extracción de calor en estado estable. Un portátil fino puede absorber una ráfaga (masa térmica), pero no puede sostenerla sin flujo de aire y área de aletas. Cuando los revisores ejecutan un bucle de benchmark corto, la primera pasada es la luna de miel. La décima pasada es el matrimonio.

Entrega de potencia y límites del adaptador

Una “CPU de 45W” en un sistema con un adaptador USB-C PD de 65W ya está en una negociación con la GPU, la pantalla, el SSD y la carga. Bajo carga, el sistema podría:

reducir la potencia de la CPU para mantener la carga, o
dejar de cargar y mantener el rendimiento, o
consumir la batería incluso estando enchufado (sí, de verdad).

El modo batería es un universo propio

Muchos portátiles limitan la potencia de la CPU significativamente en batería para preservar la vida útil de los ciclos y evitar caídas de voltaje. Si trabajas de verdad con la batería, debes medir el rendimiento con batería. De lo contrario estás benchmarkeando una máquina diferente a la que usas.

Software del proveedor y “modos de potencia IA”

Las utilidades del proveedor pueden anular políticas del SO, limitar PL1 cuando se activa el “modo silencioso” o incluso cambiar límites según la aplicación activa. A veces lo hacen bien. A veces lo hacen para alcanzar un objetivo de certificación de ruido. En cualquier caso, necesitas saber quién está en control.

Broma #2: La curva del ventilador del portátil fue diseñada por alguien que piensa que “silencioso” significa “dejar que la CPU sufra en silencio”.

Modos de fallo que sí puedes diagnosticar

Cuando un portátil rinde poco, quieres una lista corta de causas raíz plausibles. Aquí está el conjunto al que recurro, porque se mapean limpiamente a mediciones.

1) Ráfaga corta, luego colapso

Patrón: rápido durante 10–60 segundos, luego las frecuencias caen y no se recuperan.

Probable causa: PL2 permitido, pero PL1 es bajo, o la refrigeración se satura y fuerza un estado estable bajo.

Decisión: si necesitas rendimiento sostenido, elige un chasis más grueso o un modelo conocido por mayor potencia sostenida, no una clase TDP anunciada más alta.

2) Siempre lento, incluso al inicio

Patrón: nunca sube mucho.

Probable causa: SO en ahorro de energía, “modo silencioso” del proveedor, límites en batería, adaptador de baja potencia o un sensor/fan atascado.

Decisión: valida la fuente de energía y el plan de energía primero; sólo entonces persigue temáticas térmicas.

3) Rendimiento que varía mucho de un día a otro

Patrón: a veces genial, a veces terrible, sin cambios en la carga.

Probable causa: software en segundo plano, tareas de actualización de Windows, servicio de energía del proveedor que cambia modos, acumulación de polvo, temperatura ambiente o una configuración de docking/carga inestable.

Decisión: establece una medición repetible: misma fuente de energía, mismo modo, misma carga, misma temperatura ambiente.

4) Enchufado pero aún limitando mucho

Patrón: “modo AC” pero la potencia está limitada como en batería.

Probable causa: adaptador no reconocido, negociación USB-C PD a menor potencia, cable dañado o bug de firmware forzando la política de batería.

Decisión: confirma la potencia negociada y si la batería se está cargando bajo carga.

5) La CPU no es el cuello de botella

Patrón: las frecuencias están bien, pero las tareas siguen lentas.

Probable causa: presión de memoria, límites de E/S de almacenamiento, cifrado de disco en segundo plano o throttling térmico en el SSD.

Decisión: demuestra que la CPU está saturada antes de culpar a que “el TDP miente”.

Guion de diagnóstico rápido

Cuando alguien dice “este portátil es lento”, no empieces por repastar. No empieces por comprar una base de refrigeración. No empieces por una suite de benchmarks que toma una hora. Quieres un triage de 10 minutos que aisle el limitador dominante.

Primero: confirma la fuente de energía y la política

¿La máquina está en batería, en CA o en una docking?
¿Se está cargando realmente bajo carga?
¿El SO está en un plan de energía restrictivo?
¿El software del proveedor fuerza “silencioso” o “eco”?

Segundo: observa los límites mientras ejecutas una carga sostenida

Observa la potencia del paquete de la CPU a lo largo del tiempo (no sólo el pico).
Observa frecuencia y temperatura juntas.
Busca indicadores de “límite de potencia” vs “throttle térmico”.

Tercero: comprueba el resto del sistema por el auténtico cuello de botella

Presión de memoria y actividad de swap.
Rendimiento y latencia de almacenamiento bajo carga.
Uso de GPU si la carga se descarga allí.
Tareas en segundo plano que roban tiempo de CPU.

Cuarto: decide si es una reparación o una incompatibilidad de producto

Si el portátil se comporta exactamente como fue diseñado (PL1 bajo por silencio), a veces puedes ajustar parámetros. Pero a menudo la “solución” es elegir un portátil diseñado para potencia sostenida. Cruento, pero más barato que semanas de frustración.

Tareas prácticas: comandos, salidas y decisiones

Estas son comprobaciones reales y ejecutables. Uso ejemplos en Linux porque son observables y scriptables. El método importa más que el SO.

Task 1: Identify CPU model and base characteristics

cr0x@server:~$ lscpu | sed -n '1,25p'
Architecture:                         x86_64
CPU op-mode(s):                       32-bit, 64-bit
Model name:                           13th Gen Intel(R) Core(TM) i7-13700H
CPU(s):                               20
Thread(s) per core:                   2
Core(s) per socket:                   14
CPU max MHz:                          5000.0000
CPU min MHz:                          400.0000

Qué significa: Confirma la CPU y la frecuencia máxima anunciada. Esto no te dice nada sobre el rendimiento sostenido, pero fija expectativas para el comportamiento de turbo.

Decisión: Si esto es una pieza “U” en un chasis delgado y esperas comportamiento de estación de trabajo, detente y reajusta expectativas antes de perseguir fantasmas.

Task 2: Confirm which driver and governor is active (Linux)

cr0x@server:~$ cpupower frequency-info | sed -n '1,40p'
analyzing CPU 0:
  driver: intel_pstate
  CPUs which run at the same hardware frequency: 0
  hardware limits: 400 MHz - 5.00 GHz
  available cpufreq governors: performance powersave
  current policy: frequency should be within 400 MHz and 5.00 GHz.
                  The governor "powersave" may decide which speed to use

Qué significa: Con intel_pstate, “powersave” suele ser el modo normal y aún permite turbo, pero puede verse influido por EPP/energy bias.

Decisión: Si estás diagnosticando rendimiento, fuerza temporalmente “performance” para eliminar una variable.

Task 3: Temporarily switch to performance governor (diagnostic)

cr0x@server:~$ sudo cpupower frequency-set -g performance
Setting cpu: 0
Setting cpu: 1
Setting cpu: 2
Setting cpu: 3

Qué significa: Estás pidiendo al SO que favorezca el rendimiento. Esto no anula PL1/PL2 del firmware, pero ayuda a mostrar lo que la plataforma puede hacer.

Decisión: Si el rendimiento mejora mucho, tu problema es política, no refrigeración. Entonces decide si toleras el impacto en batería/ruido.

Task 4: Watch frequency and temperature in real time

cr0x@server:~$ sudo turbostat --quiet --interval 2
     CPU     Avg_MHz   Busy%   Bzy_MHz  TSC_MHz  CoreTmp  PkgTmp  PkgWatt
       -       3120    92.15     3385     1896     86.0    90.0    44.72
       -       2650    99.02     2675     1896     92.0    96.0    28.11
       -       2580    99.11     2600     1896     94.0    97.0    24.95

Qué significa: Puedes ver el patrón clásico: alta potencia del paquete inicialmente, luego una caída (a menudo hacia PL1), mientras la temperatura se aproxima al techo.

Decisión: Si PkgWatt cae mientras las temperaturas son altas, estás o bien limitado térmicamente o el firmware está imponiendo una potencia sostenida baja para evitar soak térmico.

Task 5: Run a sustained CPU load to expose PL1 behavior

cr0x@server:~$ stress-ng --cpu 0 --timeout 180s --metrics-brief
stress-ng: info:  [23110] dispatching hogs: 20 cpu
stress-ng: metrc: [23110] stressor       bogo ops real time  usr time  sys time   bogo ops/s
stress-ng: metrc: [23110] cpu            3154210    180.00   1790.22    12.11     17523.39

Qué significa: Una carga sostenida de 3 minutos es suficiente para que muchos portátiles salgan de PL2 y se asienten en límites de estado estable.

Decisión: Combina esto con turbostat. Si ves una caída después de 28–60 segundos, esa es tu realidad sostenida.

Task 6: Check Intel RAPL energy counters (power telemetry)

cr0x@server:~$ sudo powercap-info -p intel-rapl
Zone 0
  Name: package-0
  Enabled: yes
  Energy: 879.23 J
  Max energy range: 262143.99 J
Zone 0 subzone 0
  Name: core
  Energy: 522.17 J
Zone 0 subzone 1
  Name: uncore
  Energy: 101.55 J
Zone 0 subzone 2
  Name: dram
  Energy: 87.49 J

Qué significa: Los contadores RAPL te permiten estimar la potencia media durante un intervalo tomando muestras de energía antes/después.

Decisión: Si la energía del paquete aumenta lentamente durante una carga sostenida, tu plataforma está imponiendo un techo de potencia bajo sin importar el “TDP”.

Task 7: Look for thermal and power limit messages in the kernel log

cr0x@server:~$ sudo dmesg | egrep -i 'thrott|thermal|pstate|rapl|power limit' | tail -n 15
intel_rapl_common: Found RAPL domain package
thermal thermal_zone7: critical temperature reached (105 C), shutting down
intel_pstate: turbo disabled by BIOS or unavailable on processor

Qué significa: Esto revela eventos duros: turbo deshabilitado, eventos térmicos críticos o problemas de configuración de plataforma.

Decisión: Si ves “turbo disabled by BIOS”, deja de ajustar en el SO. Tu limitador es la política de firmware.

Task 8: Inspect current thermal zones and temperatures

cr0x@server:~$ for z in /sys/class/thermal/thermal_zone*/type; do echo -n "$(basename $(dirname $z)) "; cat $z; done | head
thermal_zone0 x86_pkg_temp
thermal_zone1 acpitz
thermal_zone2 INT3400 Thermal

cr0x@server:~$ cat /sys/class/thermal/thermal_zone0/temp
94000

Qué significa: Las temperaturas a menudo están en miligrados Celsius. 94000 significa 94°C.

Decisión: Si la temperatura del paquete está cerca del punto de throttling con carga moderada, probablemente tienes un problema de refrigeración (polvo, fallo de ventilador, pasta degradada) o una curva de ventilador extremadamente conservadora.

Task 9: Check whether you’re swapping (memory pressure masquerading as CPU slowness)

cr0x@server:~$ free -h
               total        used        free      shared  buff/cache   available
Mem:            32Gi        29Gi       1.1Gi       1.2Gi       2.3Gi       1.9Gi
Swap:            8Gi       6.5Gi       1.5Gi

Qué significa: Un uso intensivo de swap puede hacer que “las tareas de CPU” parezcan lentas porque todo espera al almacenamiento.

Decisión: Si swap está activo durante builds, VMs o contenedores, tu “problema de TDP” puede ser en realidad “no hay suficiente RAM”.

Task 10: Confirm storage isn’t the bottleneck (NVMe)

cr0x@server:~$ iostat -xz 1 3
Linux 6.5.0 (laptop) 	01/12/2026 	_x86_64_	(20 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          35.12    0.00    6.21   22.18    0.00   36.49

Device            r/s     rkB/s   rrqm/s  %rrqm r_await rareq-sz     w/s     wkB/s   w_await wareq-sz  aqu-sz  %util
nvme0n1          92.0   8120.0     0.0    0.00   12.10    88.26    41.0   6240.0    18.33   152.20    1.22  96.00

Qué significa: Alto %iowait y %util cercano a saturado significa que el disco está ocupado; la CPU podría estar esperando.

Decisión: Si el I/O es el limitador, aumentar límites de potencia de CPU no ayudará. Arregla el almacenamiento (SSD más rápido, evita throttling térmico, reduce la amplificación de escritura) o reduce la carga de I/O.

Task 11: Check NVMe drive temperature (SSD throttling can look like CPU throttling)

cr0x@server:~$ sudo nvme smart-log /dev/nvme0 | egrep -i 'temperature|warning'
temperature                             : 72 C
warning_temp_time                       : 3
critical_temp_time                      : 0

Qué significa: SSD a 72°C con tiempo de advertencia sugiere que puede estar haciendo throttling intermitente, especialmente en portátiles delgados con mal flujo de aire sobre el SSD.

Decisión: Si el tiempo de advertencia sube durante builds, añade una almohadilla térmica/disipador o reduce escrituras sostenidas (por ejemplo, cambia el directorio de compilación a tmpfs si la RAM lo permite).

Task 12: Check for cgroup CPU throttling (containers make everything confusing)

cr0x@server:~$ cat /sys/fs/cgroup/user.slice/user-1000.slice/cpu.stat 2>/dev/null | head
usage_usec 928381223
user_usec  812332110
system_usec 116049113
nr_periods  22990
nr_throttled 1420
throttled_usec 91822111

Qué significa: Si nr_throttled es alto, el planificador está limitando el uso de CPU por cuotas de cgroup, no porque la CPU esté limitada por potencia.

Decisión: Arregla los límites de contenedores (Docker/Kubernetes CPU quota) antes de culpar a las térmicas del portátil.

Task 13: Check AC adapter / battery state (on Linux via upower)

cr0x@server:~$ upower -i /org/freedesktop/UPower/devices/battery_BAT0 | egrep -i 'state|percentage|energy-rate|time to'
  state:               charging
  percentage:          83%
  energy-rate:         28.1 W
  time to full:        0.9 hours

Qué significa: Estado de carga positivo y una tasa de energía sensata indican que el adaptador está entregando suficiente potencia para ejecutar el sistema y cargar.

Decisión: Si el estado cambia a “discharging” bajo carga mientras está enchufado, tu adaptador/dock es un limitador. Mejora el adaptador o evita ese dock para cargas pesadas.

Task 14: Verify CPU idle behavior (background load stealing your turbo budget)

cr0x@server:~$ top -b -n 1 | head -n 15
top - 12:18:02 up  2:41,  1 user,  load average: 6.21, 5.90, 4.40
Tasks: 412 total,   3 running, 409 sleeping,   0 stopped,   0 zombie
%Cpu(s): 26.2 us,  6.3 sy,  0.0 ni, 63.1 id,  4.1 wa,  0.0 hi,  0.3 si,  0.0 st
MiB Mem :  31890.8 total,   1220.4 free,  29401.1 used,   1269.3 buff/cache
MiB Swap:   8192.0 total,   1581.2 free,   6610.8 used.   1820.2 avail Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND
 4121 cr0x      20   0 5429812 617148  82192 R  182.3   1.9   5:21.83 chrome
 8892 cr0x      20   0 2916420 501120  61444 S   78.1   1.5   2:11.20 docker

Qué significa: CPU y presión de memoria en segundo plano pueden impedir estados profundos de reposo y reducir la reserva de turbo, especialmente en sistemas térmicamente limitados.

Decisión: Si el “idle” no está inactivo, arregla los ofensores en segundo plano antes de culpar al envelope de la CPU.

Tres microhistorias corporativas desde las trincheras de límites de potencia

Microhistoria 1: Un incidente causado por una suposición errónea

Un equipo desplegó una flota de “portátiles estándar para desarrolladores” para un nuevo sistema de builds interno que ejecutaba compilación local, pruebas unitarias y builds de contenedores. La decisión de compra se tomó con una rúbrica simple: CPU de última generación, “clase 45W”, 32GB RAM, buen teclado. Las máquinas parecían idénticas en papel. Procurement estaba encantado. Los ingenieros estaban… menos encantados.

En una semana, los tiempos de build divergieron. Algunos desarrolladores terminaron un build completo en un tiempo razonable; otros tardaron casi el doble. Las máquinas lentas no estaban rotas. No tenían malware. Ni siquiera estaban particularmente calientes. Simplemente estaban atascadas en un límite de potencia sostenida más bajo porque esas unidades eran una variante de chasis más delgada con un objetivo acústico más silencioso.

La suposición errónea fue sutil: “mismo modelo de CPU equivale a mismo rendimiento”. Esa suposición funcionaba en el mundo de sobremesa. Falló en el mundo de portátiles, porque el sobre térmico sostenido de la CPU era esencialmente una decisión del OEM. La etiqueta “45W” no describía lo que los portátiles podían sostener; describía lo que teóricamente la CPU podía configurarse para manejar.

La solución fue aburrida y cara: estandarizar en un modelo específico de portátil, no en un SKU de CPU, y calificarlo con una prueba de carga sostenida de 10 minutos como parte de la aceptación. También actualizaron el formulario interno de solicitud de hardware para incluir “potencia de paquete sostenida bajo carga”, porque es más difícil de manipular que “TDP”.

Microhistoria 2: Una optimización que se volvió contraproducente

Un ingeniero orientado al rendimiento decidió “arreglar” cargas tipo CI lentas en portátiles forzando modos de máximo rendimiento en toda la flota. El cambio se empujó como configuración: poner el governor en performance, desactivar ahorro agresivo de energía y mantener los ventiladores más proactivos. Los benchmarks cortos mejoraron inmediatamente y el ingeniero recibió algunos mensajes agradecidos.

Entonces llegó el contragolpe. El desgaste de baterías aumentó notablemente en un par de meses. Máquinas que solían durar jornadas largas necesitaban carga a mediodía. Algunos portátiles empezaron a calentarse incluso en idle, porque las tareas en segundo plano más el sesgo agresivo de rendimiento impedían que la CPU entrara en estados eficientes de bajo consumo. En un subconjunto de unidades, los rodamientos de los ventiladores empezaron a sonar desagradablemente antes de lo esperado.

La sorpresa mayor fue la experiencia de los desarrolladores: los portátiles se volvieron más ruidosos en áreas abiertas y la gente empezó a activar los “modos silenciosos” del proveedor para sobrellevarlo. Eso reintrodujo silenciosamente límites bajos de PL1 e inconsistencia en el rendimiento. La optimización creó un sistema de dos clases: quienes toleraban ruido obtenían velocidad, y el resto obtenía imprevisibilidad.

La lección: forzar el modo performance globalmente trata un síntoma (velocidad a corto plazo) e ignora la función objetivo del sistema (batería, acústica, térmicas, longevidad). El enfoque más correcto fue ofrecer un perfil documentado de “carga pesada” que los ingenieros pudieran activar cuando estuvieran enchufados, y medir rendimiento sostenido en lugar de perseguir turbo pico.

Microhistoria 3: Una práctica aburrida pero correcta que salvó el día

Un equipo de plataforma mantenía una lista interna de “portátiles con rendimiento conocido” para ingenieros que rutinariamente ejecutaban bases de datos locales, VMs y compiladores. La lista no mencionaba el TDP ni una vez. Especificaba modelos, versiones de BIOS, vatios del adaptador y una prueba de aceptación simple: ejecutar una carga sostenida de CPU de 10 minutos y registrar la potencia del paquete estabilizada, la frecuencia y la temperatura.

Cuando llegó un ciclo de renovación, el proveedor ofreció un modelo nuevo tentador: más delgado, más ligero, misma generación de CPU y una etiqueta brillante de “alto rendimiento”. Pasó sin problemas las demos cortas. El equipo de plataforma aún ejecutó la prueba de aceptación, porque eso era lo que siempre hacían.

El nuevo modelo subía duro, luego se asentaba en una potencia sostenida mucho más baja que el modelo anterior. No era catastrófico; simplemente no era la herramienta adecuada para ingenieros que viven en compiladores y VMs. La explicación del proveedor fue predecible: objetivos acústicos, limitaciones del chasis y una curva de ventilador diferente. Nada estaba “mal”.

Porque el equipo había institucionalizado una prueba aburrida, detectaron la discrepancia antes de que se emitieran órdenes de compra. Aprobaban el modelo para uso general de oficina, pero conservaron la línea anterior más gruesa (o una alternativa) para usuarios intensivos. Sin drama. Sin salones de guerra por builds lentos. Solo una evasión silenciosa del dolor.

Errores comunes: síntoma → causa raíz → solución

1) “Mi CPU es 45W pero sólo consume ~25W bajo carga”

Síntoma: La potencia del paquete se estabiliza muy por debajo de la clase anunciada.

Causa raíz: El OEM fijó PL1 bajo para cumplir objetivos de ruido/temperatura de piel, o la fuente de energía (adaptador/dock) no puede entregar suficiente margen.

Solución: Valida con el adaptador del OEM; comprueba el estado de carga bajo carga; si PL1 está capado por firmware, tu única solución real es otro modelo de portátil o un modo de rendimiento del proveedor que eleve PL1.

2) “Es rápido durante 30 segundos, luego lento para siempre”

Síntoma: Altas frecuencias iniciales, luego una meseta estable más baja.

Causa raíz: Expira la ráfaga PL2 (ventana Tau), luego la CPU cae a PL1; a veces el soak térmico fuerza límites incluso más bajos.

Solución: Mide la potencia sostenida después de 3–10 minutos; elige hardware según esa meseta, no según la primera pasada de un benchmark.

3) “En batería, mi portátil se convierte en otra máquina”

Síntoma: Gran caída de rendimiento sin enchufe.

Causa raíz: Límites de descarga de batería, firmware conservador en batería o cambio de plan del SO.

Solución: Si necesitas rendimiento en batería, compra sistemas conocidos por permitir mayor potencia en batería. De lo contrario, acepta que el modo batería es para eficiencia y planifica el flujo de trabajo acorde.

4) “Enchufado, pero aún lento y sin cargar”

Síntoma: El porcentaje de batería disminuye lentamente mientras está conectado.

Causa raíz: Vatios del adaptador insuficientes, USB-C PD negociado a menos de lo esperado o dock que no puede abastecer bajo carga.

Solución: Usa el adaptador de alta potencia del OEM; reemplaza el cable; evita docks de baja potencia para cargas sostenidas.

5) “La temp de la CPU está bien, pero las frecuencias siguen bajas”

Síntoma: Temperaturas por debajo del punto de throttling, sin embargo frecuencia/potencia bajas.

Causa raíz: Ejecución de límites por potencia, EPP/energy bias, “modo silencioso” del proveedor o cuotas de cgroup.

Solución: Comprueba la política de potencia y el throttling por cgroups; verifica que el turbo no esté deshabilitado en BIOS; luego considera los perfiles de rendimiento del proveedor.

6) “Repasté y apenas ayudó”

Síntoma: Temperaturas pico más bajas pero mismo rendimiento sostenido.

Causa raíz: El rendimiento sostenido está limitado por potencia, no por térmicas; PL1 del OEM es el techo.

Solución: Deja de tratar la refrigeración como la única palanca. Mide el comportamiento de PL1; si está capado, acéptalo o cambia de hardware.

7) “Los benchmarks lucen genial, el trabajo real es mediocre”

Síntoma: Altas puntuaciones en pruebas cortas, lento en compilaciones/renders largos.

Causa raíz: Los benchmarks favorecen ráfagas; tu carga es sostenida y calienta el chasis.

Solución: Usa benchmarks sostenidos (ejecuciones en bucle, cargas de 10 minutos) y monitoriza la potencia del paquete y las frecuencias estabilizadas.

8) “Actualizar CPU no ayudó mucho a mi carga”

Síntoma: La CPU más nueva se siente similar.

Causa raíz: La carga está limitada por I/O, memoria o GPU; o el nuevo portátil tiene límites sostenidos más bajos a pesar del silicio más moderno.

Solución: Mide cuellos de botella (iowait, swap, utilización GPU). Si la potencia sostenida es menor, compraste una historia más delgada, no una máquina más rápida.

Listas de verificación / plan paso a paso

Lista A: Comprar un portátil para trabajo sostenido de CPU

Elige por modelo, no por SKU de CPU. La misma CPU en distintos chasis puede comportarse de forma muy distinta.
Exige números sostenidos. Busca reseñas/pruebas que muestren bucles de varios minutos y potencia estabilizada.
Prefiere refrigeración más gruesa para cargas largas. Cámara de vapor, doble ventilador, salida adecuada. El peso es una característica de rendimiento.
Comprueba la potencia del adaptador. Asegura que la fuente pueda cubrir CPU+GPU+carga. USB-C PD es cómodo, no mágico.
Confirma expectativas en batería. Si realmente lo necesitas, pruébalo.
Atento a modos de rendimiento del proveedor. Algunos son controles honestos; otros son envoltorios UI para “hazlo ruidoso”.
Planifica la refrigeración del SSD. Builds sostenidos y VMs pueden calentar NVMe hasta hacer throttling.
No te obsesiones con gráficos de una sola pasada. Pregunta: ¿qué pasa en el minuto 8?

Lista B: Diagnosticar un portátil existente que “debería ser más rápido”

Normaliza variables: adaptador OEM, enchufado, ambiente estable, tapa abierta, nada de calor por manta en la cama.
Define una política de energía conocida (modo performance temporal) y desactiva “modo silencioso” del proveedor.
Ejecuta una carga sostenida de CPU por 3–10 minutos.
Observa: potencia del paquete, frecuencia, temperatura, comportamiento del ventilador.
Decide: limitado por potencia vs limitado térmicamente vs otro cuello de botella (RAM/SSD/cgroups).
Si es térmico: limpia rejillas/ventiladores, verifica que los ventiladores giren, revisa pasta/pads, considera una base refrigerante como solución temporal.
Si es límite de potencia por diseño: evalúa opciones de firmware; de lo contrario deja de gastar tiempo y acepta el envelope del producto.
Si es “otro cuello de botella”: arregla presión de RAM, saturación de I/O o cuotas de contenedores.

Lista C: Fijar expectativas para equipos (edición empresarial)

Estandariza en modelos específicos. No “cualquier i7”. Un modelo, baseline de BIOS, adaptador baseline.
Define una prueba de aceptación. Carga sostenida + potencia del paquete estabilizada observada.
Documenta modos de potencia. “Silencioso”, “equilibrado”, “rendimiento” y cuándo usarlos.
Proporciona una capa de workstation. Algunos ingenieros necesitan rendimiento sostenido; fingir que no importa desperdicia dinero en nómina.
Instrumenta el dolor del desarrollador. Rastrea tiempos de build y presión de recursos; trátalo como latencia en producción.

Preguntas frecuentes

1) ¿Es el TDP la potencia máxima consumida?

No. En CPUs móviles modernas, las ráfagas cortas pueden exceder mucho la “clase TDP”. La potencia sostenida también puede estar por debajo, dependiendo de los límites del OEM.

2) ¿Por qué dos portátiles con la misma CPU rinden distinto?

Porque el OEM fija límites de potencia sostenida y de ráfaga, curvas de ventilador y a veces soluciones térmicas diferentes. El modelo de CPU es solo una entrada al rendimiento.

3) ¿Qué importa más que el TDP para trabajo sostenido?

La potencia del paquete y la frecuencia estabilizadas después de varios minutos de carga, además de si el sistema está limitado por potencia o por térmicas en ese estado estable.

4) Si subo límites de potencia, ¿siempre tendré más rendimiento?

Sólo si tienes margen térmico y entrega de potencia adecuada. Si no, obtendrás temperaturas más altas, ventiladores más ruidosos y luego throttling de vuelta al mismo lugar.

5) ¿Por qué mi portátil hace throttling incluso cuando la temp de la CPU no está en el máximo?

Porque los límites de potencia pueden fijar el rendimiento antes de alcanzarse los límites térmicos. Además, otros sensores (VRM, temperatura de piel) pueden disparar throttles a nivel de plataforma.

6) ¿Ayuda el undervolting?

A veces. Reducir voltaje puede bajar la potencia a una frecuencia dada, lo que puede mejorar las frecuencias sostenidas dentro del mismo envelope térmico/potencia. En muchas plataformas modernas, el undervolting puede estar restringido por firmware por razones de seguridad/estabilidad.

7) ¿“15W” vs “28W” es una diferencia real?

Puede ser enorme para cargas sostenidas, pero sólo si el portátil realmente permite esos límites sostenidos. Algunos chips “capaces de 28W” se envían en portátiles que sostienen mucho menos bajo carga.

8) ¿Cuál es la prueba más simple que puedo ejecutar para ver la capacidad sostenida real de mi portátil?

Ejecuta una tensión de CPU de 3–10 minutos (o tu carga real) mientras observas la potencia del paquete y la frecuencia a lo largo del tiempo. La meseta es tu realidad.

9) ¿Por qué los revisores y las hojas de especificaciones siguen enfocándose en el TDP?

Porque es un número único que cabe en una tabla comparativa. El comportamiento sostenido real es una curva, y las curvas son inconvenientes para marketing y filtros de compra.

10) ¿Debería comprar un portátil gaming para trabajo de CPU?

No automáticamente, pero muchos chasis de gaming tienen mejor refrigeración sostenida y presupuestos de potencia más altos. Si valoras rendimiento sostenido sobre portabilidad y ruido, puede ser una elección racional.

Conclusión: próximos pasos que no desperdiciarán tu dinero

Deja de comprar portátiles como si fueran CPUs de sobremesa en cajas diferentes. El TDP no es un contrato. En portátiles, es más bien una sugerencia que se enmienda por firmware, refrigeración y estrategia de producto.

Qué hacer a continuación:

Mide tu propia realidad: ejecuta una carga sostenida y observa la potencia del paquete, la frecuencia y la temperatura hasta que se estabilicen.
Clasifica el limitador: política de potencia, cap de PL1 del OEM, saturación térmica, adaptador/dock o cuellos de botella no CPU como RAM/SSD.
Ajusta sólo lo que vale la pena ajustar: arregla carga de fondo, confirma vatios del adaptador, limpia vías de refrigeración. No repastes un portátil que está simplemente capado por firmware.
Al comprar: elige modelos probados para sostener la potencia que necesitas y trata “clase TDP” como una etiqueta familiar aproximada, no como una garantía de rendimiento.

La CPU puede ser excelente. El portátil aún puede mentir. Tu trabajo es hacerla confesar con mediciones.

FireWire vs USB: cómo la «mejor tecnología» perdió frente a la tecnología más barata

Estás clonando un disco. La barra de progreso miente. El usuario te mira fijamente. Tu cola de tickets se multiplica como si quisiera demostrar un punto. Conectas la misma unidad en otro puerto y—misteriosamente—todo acelera o falla de forma diferente. Bienvenido al mundo donde «el bus» forma parte de tu plan de respuesta a incidentes.

FireWire (IEEE 1394) fue, en muchos sentidos, la mejor tecnología de E/S externa: menor carga de CPU, comportamiento relativamente determinista, capacidad peer-to-peer y afinidad con tiempo real. USB fue el camino más barato, simple y «suficientemente bueno» que los fabricantes pudieron desplegar por todo el planeta. Adivina cuál ganó. Si gestionas flotas, clonas máquinas, mueves grandes conjuntos de datos o haces triage de almacenamiento externo inestable, entender por qué importa—porque las mismas fuerzas siguen moldeando Thunderbolt, USB-C, carcasas NVMe y cualquiera que sea la próxima guerra de conectores.

La verdad incómoda: lo «mejor» rara vez gana

A los ingenieros les encantan los diseños limpios. A los mercados les gusta el volumen de ventas. No son el mismo hobby.

FireWire fue diseñado como un bus serio: los dispositivos podían hablar entre sí sin que el anfitrión microgestionara cada byte. Tenía buen soporte para datos isócronos (piensa en audio/video que necesita temporización predecible) y no interrumpía constantemente la CPU para pedir permiso por cada movimiento. USB, especialmente en sus inicios, fue diseñado como una fila educada en una oficina pública: todos esperan, el anfitrión llama tu número, entregas tus papeles y te vuelves a sentar.

Y sin embargo: USB ganó porque era más simple de implementar, contó con un mayor empuje de consorcios, tuvo menos fricciones de licencias y costes en la cadena de suministro, y se integró en todas partes. En términos de operaciones: tenía mejor «disponibilidad» a nivel de ecosistema. La interfaz más rápida sobre el papel es irrelevante cuando no encuentras un cable en la sala de conferencias o un controlador en una placa base.

Aquí está la idea guía para el resto del artículo: FireWire perdió no porque fuera malo, sino porque «suficientemente bueno + en todas partes» es una superpotencia.

Qué era realmente FireWire (y por qué los ingenieros lo adoraban)

IEEE 1394 en inglés operacional claro

FireWire (IEEE 1394) es un bus serial diseñado con mucho ADN de «bus real»: arbitraje, transferencias peer-to-peer y la capacidad de mover datos con menos supervisión de la CPU del anfitrión. Soportaba tanto transferencias asíncronas (datos generales) como transferencias isócronas (flujos sensibles al tiempo). Ese segundo modo es la razón por la que se convirtió en favorito para cámaras DV, interfaces de audio y flujos de trabajo profesionales de medios.

Características prácticas clave que importaban:

Capacidad peer-to-peer: los dispositivos podían comunicarse sin enrutar todo a través del modelo de planificación impulsado por la CPU del anfitrión.
Modo isócrono: mejor para flujos constantes que el mundo temprano de «prioridad a transferencias por lotes» de USB.
Menor carga de CPU (a menudo): menos interrupciones y menos ruido de protocolo para ciertas cargas de trabajo.
Daisy chaining: múltiples dispositivos en cadena, menos lío de hubs.

El aire de FireWire: predecible, «pro», un poco engreído

FireWire se sentía como equipo de estudio. Los conectores eran razonablemente robustos. El rendimiento era sólido para la época. El ecosistema tuvo victorias reales: captura de vídeo, almacenamiento externo, audio e incluso una cierta sensación de «simplemente funciona»—cuando de hecho lo hacía.

Pero la realidad de producción tiene la costumbre de convertir la estética en números en una hoja de cálculo.

Qué era realmente USB (y por qué al departamento de compras le encantó)

La promesa original de USB: un puerto para dominar el escritorio

USB fue diseñado para reemplazar un zoológico de puertos heredados por algo universal, barato y sencillo. La arquitectura es centrada en el anfitrión: el controlador host programa las transferencias y los dispositivos responden. Eso mantiene los dispositivos más simples y baratos—un compromiso de ingeniería que se convierte en ventaja de mercado cuando intentas poner puertos en cada PC, impresora, escáner y gadget de plástico.

Las características decisivas de USB no eran glamorosas, pero sí determinantes:

Controladores de bajo costo e integración amplia en chipsets.
Controladores por clase (HID, mass storage) que redujeron el dolor específico del proveedor.
Plug-and-play que los consumidores podían usar sin leer un PDF.
Compatibilidad hacia atrás que creó una larga trayectoria de «sigue enchufándose».

El aire de USB: desordenado, ubicuo, difícil de eliminar

USB es la cucaracha de los estándares de E/S en el sentido más elogioso posible. Sobrevive. Se adapta. Aparece donde no debería estar. Esa ubicuidad lo convierte en la respuesta por defecto incluso cuando no es la mejor opción.

Broma corta #1: La nomenclatura de USB es como un plan de migración de almacenamiento escrito por un comité—técnicamente correcto, emocionalmente destructivo.

Datos curiosos y contexto histórico (lo que la gente olvida)

FireWire (IEEE 1394) se desarrolló con una contribución significativa de Apple y se posicionó temprano como un bus multimedia de alta velocidad.
FireWire 400 (1394a) fue de 400 Mb/s y en transferencias sostenidas del mundo real a menudo superaba a USB 2.0 pese al titular de 480 Mb/s de USB 2.0.
USB 1.1 alcanzaba 12 Mb/s (Full Speed). El almacenamiento USB temprano no era algo que hicieras por diversión.
FireWire soportaba transferencias isócronas como característica de primera clase, por eso las cámaras DV se estandarizaron en él para flujos de ingestión.
FireWire permitía daisy chaining de dispositivos sin hubs en muchas configuraciones; USB se apoyó en hubs y en una topología estrictamente centrada en el anfitrión.
Algunos ecosistemas usaron FireWire para flujos tipo «Target Disk Mode», convirtiendo efectivamente una máquina en un disco externo para transferencia y recuperación de datos.
Los controladores de clase de almacenamiento de USB (MSC) redujeron la necesidad de controladores específicos del proveedor, lo que rebajó los costes de soporte a escala.
Percepciones sobre licencias y royalties de FireWire crearon fricción para algunos proveedores, mientras que USB se benefició de un respaldo industrial más amplio y de la comoditización.
Cuando FireWire 800 (800 Mb/s) maduró, USB ya había alcanzado el estatus de «puerto en todas partes» y estaba en una rueda de iteración y marketing más rápida.

Las diferencias técnicas reales que aparecen en producción

Ancho de banda vs rendimiento sostenido vs «¿por qué mi CPU está al 30% en una copia de disco?»

Las especificaciones son marketing. Operaciones es física más calidad del driver.

El número de 480 Mb/s de USB 2.0 parece que debería superar los 400 Mb/s de FireWire 400. En la práctica, USB 2.0 a menudo entregó menor rendimiento sostenido para cargas de almacenamiento, especialmente con controladores y drivers antiguos, porque:

Overhead de protocolo y complejidad de programación de transacciones.
Modelo centrado en el host con sondeo y mayor implicación de la CPU.
Comportamiento de bus compartido detrás de hubs y cableado interno.
Calidad de implementación de controladores y firmware (que varía mucho según la época).

FireWire a menudo ofrecía mejor rendimiento sostenido y menor carga de CPU para ciertas cargas. Pero también dependía de tener los puertos correctos, los cables correctos y los chipsets correctos—cosas que se vuelven «opcionales» en cuanto el mercado decide que lo son.

Isócrono vs por lotes: por qué a los músicos les importaba

Las transferencias isócronas tratan sobre garantías de temporización (o al menos intención de temporización). Eso importa en interfaces de audio y captura de vídeo donde la fluctuación y las pérdidas son más dolorosas que la pérdida de ancho de banda bruto. FireWire fue diseñado con eso en mente.

La historia inicial de USB se apoyó mucho en transferencias por lotes para almacenamiento y en transferencias de control para dispositivos. Versiones posteriores de USB mejoraron y las pilas de drivers maduraron, pero la reputación quedó: FireWire era «pro audio/video», USB era «periféricos».

Topología: bus vs árbol

El modelo de daisy chain de FireWire reducía el desorden de hubs pero aumentaba el modo de falla «un conector defectuoso arruina la cadena». El modelo de hub y radio de USB facilitó la expansión pero convirtió el bus en un dominio de contención compartida—especialmente cuando alguien enchufa un dispositivo de baja velocidad en el mismo hub que tu SSD externo y se pregunta por qué las copias tartamudean.

Alimentación y cables: los asesinos poco glamorosos

Las caídas de almacenamiento no siempre son sobre protocolos. A menudo son sobre presupuesto de alimentación, calidad de cable y conectores llenos de polvo bajo el escritorio. Las unidades y carcasas alimentadas por USB hicieron el almacenamiento externo barato y portátil, lo cual es genial hasta que el puerto no puede suministrar corriente estable y tu «unidad» se convierte en un generador de desconexiones aleatorias.

Broma corta #2: La interfaz de almacenamiento más rápida es la que está conectada con un cable que no está mantenido por la esperanza y la fricción.

Por qué ganó USB: la aburrida economía de la ubicuidad

1) Integración vence elegancia

USB se integró en chipsets, flujos de BIOS/UEFI, sistemas operativos y expectativas del consumidor. FireWire a menudo requería controladores adicionales, espacio en placa y—crucialmente—alguien que se preocupara.

Cuando los fabricantes de placas miran dónde recortar céntimos y qué poner en la hoja de especificaciones, «puerto extra que solo usa algo de gente» es un objetivo. USB nunca fue «extra». Era la norma.

2) Periféricos baratos crean un efecto rueda

Una vez que puedes comprar un dispositivo USB barato, lo haces. Una vez que posees uno, quieres puertos USB. Una vez que hay puertos, los proveedores construyen más dispositivos. Ese bucle se compone. El ecosistema de FireWire era más pequeño, más profesional y por lo tanto más caro por unidad. No es un fallo moral; es un resultado de mercado.

3) Costes de soporte e historia de drivers

Los drivers por clase de USB importaron. Para TI a escala, «se enumera y funciona con el driver incluido» no es una comodidad; es una partida presupuestaria. FireWire tenía buen soporte, pero la condición de default de USB redujo la fricción en impresoras, escáneres, teclados, almacenamiento y, luego, teléfonos.

4) Percepción y disponibilidad

La gente elige lo que puede conseguir hoy, no lo que es teóricamente mejor. Entra en cualquier tienda de suministros de oficina en los 2000: cables y dispositivos USB en cada estantería. FireWire era un artículo especializado, tratado cada vez más como tal.

5) Tiempo: USB siguió iterando mientras FireWire quedó sin presencia en la mente general

Aun cuando FireWire 800 era una respuesta técnica sólida, USB ya era el conector por defecto en el planeta. El mercado no hace «llegar tarde pero mejor» a menos que exista un factor que obligue. No lo hubo.

Una cita operativa para tener en mente

«Todo falla todo el tiempo.» — Werner Vogels

Esto no es cinismo; es planificación de capacidad para la realidad. Elige interfaces y flujos de trabajo que fallen de forma predecible, sean fáciles de diagnosticar y fáciles de reemplazar. USB encajó mejor en eso a escala de ecosistema, incluso cuando implementaciones individuales eran más caóticas.

Tres mini-historias corporativas desde las trincheras

Mini-historia #1: El incidente causado por una suposición errónea

Una empresa mediana de medios tenía una flota de estaciones de trabajo que realizaban ingest y transcodificación nocturna. Las estaciones de ingest usaban discos externos traídos desde las grabaciones. El equipo de TI estandarizó en «externo rápido» y asumió «USB 3 significa siempre suficientemente rápido». También asumieron que si el puerto es azul, el bus está bien.

Una semana, los tiempos de ingest se duplicaron. Luego se triplicaron. Los editores empezaron a encolar trabajos durante la noche y a encontrar renders a medio terminar. La monitorización del clúster de transcodificación parecía normal; CPU y GPU estaban bien. El cuello de botella estaba río arriba: las estaciones de ingest.

El culpable fue una «actualización» impulsada por compras que cambió silenciosamente la topología USB interna. Varios puertos del panel frontal compartían un hub con la webcam interna y el módulo Bluetooth, y con ciertas mezclas de dispositivos las unidades externas negociaban a menor velocidad o sufrían reinicios repetidos. Los logs del SO mostraban desconexiones transitorias y re-enumeraciones, pero nadie miraba los logs de las estaciones de trabajo porque «las estaciones no son servidores».

Arreglarlo no fue heroico. Mapearon puertos a controladores, exigieron puertos traseros para ingest y prohibieron hubs para almacenamiento en ese flujo. También añadieron un pequeño chequeo: si una unidad se enumeraba como High Speed (USB 2.0) en lugar de SuperSpeed, el script de ingest se negaba a arrancar e indicaba al usuario mover el puerto.

La suposición errónea no fue «USB es lento». Fue «las etiquetas de velocidad USB son una promesa». No lo son. Son una negociación.

Mini-historia #2: La optimización que salió mal

Un equipo de ingeniería de escritorio empresarial tenía que clonar cientos de máquinas por semana. Usaban SSDs externos con una «imagen dorada» para evitar saturar la red. Alguien notó que el proceso de imagen hacía una verificación completa después de escribir. La desactivaron para ahorrar tiempo.

Durante un tiempo, pareció brillante. El rendimiento de imagen aumentó. La cola se redujo. Todos felicitaron el cambio.

Entonces empezó una pérdida lenta: un pequeño porcentaje de máquinas arrancaban con problemas de sistema de archivos, corrupción de drivers o instalaciones de aplicaciones fallidas. Re-clonar a veces lo arreglaba, a veces no. Los tickets se acumularon. La gente empezó a culpar la imagen del SO, el agente de seguridad de endpoints e incluso «malos lotes de RAM».

Al final resultó ser una combinación de cables USB marginales, algunas bridges de carcasa defectuosas y reinicios ocasionales del bus durante escrituras sostenidas. Con la verificación deshabilitada, la corrupción silenciosa se coló. La «optimización» eliminó el único paso que lo habría detectado mientras la máquina todavía estaba en banco de pruebas.

Volvieron a habilitar la verificación, estandarizaron cables certificados más cortos y añadieron una etapa rápida de checksum sobre el archivo de imagen. El rendimiento bajó un poco. Los incidentes bajaron mucho. Ese intercambio era precisamente el punto.

Mini-historia #3: La práctica aburrida pero correcta que salvó el día

Un pequeño laboratorio de investigación usaba controladores de instrumentos que volcaban datos a discos externos durante trabajo de campo. Tenían una mezcla de portátiles con USB y unas pocas máquinas más antiguas con puertos FireWire para equipo heredado. Al equipo de campo le molestaban los «pasos extra», pero TI exigía un ritual simple: antes de cada sesión de captura, ejecutar una breve comprobación de sanidad del dispositivo y anotar la velocidad del bus y los contadores de errores.

Un día, una unidad de campo empezó a perder muestras—intermitentemente. No fue catastrófico, lo que lo hacía peor: los datos parecían plausibles hasta que comparabas timestamps y notabas huecos. El proveedor del instrumento culpó al software del controlador. Los investigadores culparon al disco. TI culpó a todos, en silencio.

Porque el equipo tenía esos registros de pre-vuelo, pudieron correlacionar fallos con un modelo de portátil específico y un puerto USB concreto. Los logs mostraban mensajes recurrentes de reset xHCI bajo carga de escritura sostenida. Sustituir por un hub alimentado (sí, a veces la «caja extra» es la solución) estabilizó la entrega de energía. También cambiaron la ruta de captura para escribir localmente primero y copiar al almacenamiento externo después de la sesión.

Fue aburrido: comprobar, registrar, comparar, aislar. Sin heroísmos. Pero evitó una semana de tiempo de campo perdido, que es el tipo de outage que no aparece en los dashboards pero destruye presupuestos.

Guía rápida de diagnóstico: qué comprobar primero/segundo/tercero

Objetivo: decidir en 10 minutos si es el disco, la carcasa, el cable, el puerto/controlador o el sistema de archivos

Primero: identifica la velocidad negociada y la topología

¿Realmente está funcionando a la velocidad esperada (USB 2 vs USB 3)?
¿Está detrás de un hub o una cadena de dongles?
¿El controlador se comparte con otros dispositivos de alto tráfico?

Segundo: busca resets, desconexiones y errores de transporte

Logs del kernel: resets USB, UAS fallbacks, errores SCSI.
SMART: errores CRC, errores de medio, picos en el contador de ciclos de encendido.

Tercero: mide lo correcto (y no te mientas)

Lectura/escritura secuencial para expectativas de copia masiva.
Latencia e IOPS si la carga es archivos pequeños o bases de datos.
Uso de CPU durante la transferencia (la sobrecarga del host importa).

Puntos de decisión

Si la velocidad negociada es incorrecta: arregla primero cable/puerto/dongle; no tunes el software.
Si los logs muestran resets: sospecha alimentación/cable/firmware de la carcasa; intercambia componentes.
Si los benchmarks están bien pero las «copias reales» son lentas: sospecha sistema de archivos, cifrado, AV o sobrecarga por archivos pequeños.

Tareas prácticas: comandos, salidas y decisiones (12+)

Estas están orientadas a Linux porque allí obtienes la instrumentación más clara. La misma lógica aplica en otros entornos: identifica el bus, valida la velocidad, comprueba errores y luego mide.

Tarea 1: Listar la topología USB y la velocidad negociada

cr0x@server:~$ lsusb -t
/:  Bus 02.Port 1: Dev 1, Class=root_hub, Driver=xhci_hcd/4p, 10000M
    |__ Port 2: Dev 3, If 0, Class=Mass Storage, Driver=uas, 5000M
/:  Bus 01.Port 1: Dev 1, Class=root_hub, Driver=ehci-pci/6p, 480M
    |__ Port 4: Dev 5, If 0, Class=Mass Storage, Driver=usb-storage, 480M

Qué significa: Un dispositivo de almacenamiento está en SuperSpeed (5000M) usando UAS; otro está atascado a 480M usando el driver usb-storage más antiguo.

Decisión: Mueve el dispositivo lento a un puerto USB 3 real, elimina hubs/dongles y verifica que el cable sea compatible con USB 3. Si aún negocia 480M, sospecha el bridge de la carcasa o el cable.

Tarea 2: Identificar el dispositivo específico y los IDs vendor/product

cr0x@server:~$ lsusb
Bus 002 Device 003: ID 152d:0578 JMicron Technology Corp. / JMicron USA Technology Corp. JMS578 SATA 6Gb/s bridge
Bus 001 Device 005: ID 0bc2:3320 Seagate RSS LLC Expansion Desk

Qué significa: Puedes relacionar el comportamiento con un chipset de bridge (aquí, JMS578) o un modelo de carcasa específico.

Decisión: Si un chipset de bridge particular muestra problemas repetidos, estandariza evitando ese chipset. En flotas, la consistencia de chipset vence al pico teórico de velocidad.

Tarea 3: Vigilar los logs del kernel por resets y errores de transporte

cr0x@server:~$ sudo dmesg -T | tail -n 25
[Mon Jan 21 10:14:02 2026] usb 2-2: reset SuperSpeed USB device number 3 using xhci_hcd
[Mon Jan 21 10:14:03 2026] scsi host6: uas
[Mon Jan 21 10:14:03 2026] sd 6:0:0:0: [sdb] tag#23 uas_eh_abort_handler 0 uas-tag 4 inflight: CMD OUT
[Mon Jan 21 10:14:03 2026] sd 6:0:0:0: [sdb] tag#23 CDB: Write(10) 2a 00 1a 2b 10 00 00 08 00 00
[Mon Jan 21 10:14:03 2026] blk_update_request: I/O error, dev sdb, sector 439037952 op 0x1:(WRITE) flags 0x0 phys_seg 1 prio class 0

Qué significa: El reset del bus + abort UAS + errores I/O apuntan a inestabilidad de transporte (alimentación, cable, firmware de la carcasa), no a un «sistema de archivos lento».

Decisión: Cambia el cable, prueba otro puerto/controlador y considera forzar BOT (deshabilitar UAS) como prueba. Si los errores persisten, jubila la carcasa.

Tarea 4: Confirmar qué driver está enlazado (UAS vs usb-storage)

cr0x@server:~$ readlink -f /sys/bus/usb/devices/2-2:1.0/driver
/sys/bus/usb/drivers/uas

Qué significa: El dispositivo usa UAS, que suele ser mejor para rendimiento pero a veces desencadena bugs de firmware.

Decisión: Si ves resets/timeouts con UAS, prueba con UAS deshabilitado (tarea siguiente). Mantén el cambio solo si mejora la fiabilidad.

Tarea 5: Deshabilitar temporalmente UAS para un dispositivo específico (probar fiabilidad)

cr0x@server:~$ echo 'options usb-storage quirks=152d:0578:u' | sudo tee /etc/modprobe.d/disable-uas.conf
options usb-storage quirks=152d:0578:u

Qué significa: Esto establece una quirk para forzar que el dispositivo use usb-storage (BOT) en lugar de UAS.

Decisión: Rebootea o recarga módulos y vuelve a probar rendimiento y tasa de errores. Si la estabilidad mejora significativamente, has identificado un problema de firmware/bridge; planifica reemplazar el hardware.

Tarea 6: Inspeccionar identidad del bloque y path

cr0x@server:~$ lsblk -o NAME,MODEL,SERIAL,SIZE,TRAN,ROTA,TYPE,MOUNTPOINTS
NAME   MODEL            SERIAL        SIZE TRAN ROTA TYPE MOUNTPOINTS
sda    Samsung_SSD      S5R...        1.8T sata    0 disk
sdb    USB_SSD_Encl     0123456789AB  932G usb     0 disk /mnt/ext

Qué significa: Confirma que el dispositivo está conectado vía USB (TRAN=usb) y si es rotacional.

Decisión: Si es rotacional y esperabas velocidades tipo SSD, deja de culpar al bus. Si es SSD y sigue lento, céntrate en la velocidad del bus, el bridge de la carcasa y la sobrecarga del sistema de archivos.

Tarea 7: Prueba rápida de lectura secuencial (evitando la caché del sistema de archivos)

cr0x@server:~$ sudo dd if=/dev/sdb of=/dev/null bs=16M status=progress iflag=direct
2147483648 bytes (2.1 GB, 2.0 GiB) copied, 9 s, 238 MB/s

Qué significa: Rendimiento de lectura bruto desde el dispositivo de bloque. Evita trucos de page cache.

Decisión: Si estás atascado en ~35–40 MB/s, probablemente estás en USB 2.0. Si estás en cientos, el bus probablemente está bien.

Tarea 8: Prueba rápida de escritura secuencial (destructiva si apuntas al FS real)

cr0x@server:~$ sudo dd if=/dev/zero of=/mnt/ext/testfile.bin bs=16M count=256 oflag=direct status=progress
4294967296 bytes (4.3 GB, 4.0 GiB) copied, 20 s, 214 MB/s

Qué significa: Velocidad sostenida de escritura al sistema de archivos montado. Usar oflag=direct reduce efectos de caché.

Decisión: Si las escrituras son mucho más lentas que las lecturas, sospecha opciones de journaling del FS, cifrado o la caché de escritura/estrangulamiento térmico del dispositivo.

Tarea 9: Medir latencia e IOPS (dolor por archivos pequeños)

cr0x@server:~$ sudo fio --name=randread --filename=/mnt/ext/fio.bin --size=2G --direct=1 --rw=randread --bs=4k --iodepth=32 --numjobs=1 --time_based --runtime=30
randread: (groupid=0, jobs=1): err= 0: pid=18422: Mon Jan 21 10:22:10 2026
  read: IOPS=5400, BW=21.1MiB/s (22.1MB/s)(633MiB/30001msec)
    slat (usec): min=8, max=210, avg=18.40, stdev=6.12
    clat (usec): min=120, max=9800, avg=590.22, stdev=410.55

Qué significa: IOPS de lectura aleatoria y latencia. El almacenamiento externo USB puede parecer «rápido» para copias secuenciales grandes y terrible para I/O aleatorio pequeño.

Decisión: Si la latencia es alta y la carga es archivos pequeños (instalaciones de paquetes, checkouts de git, discos de VM), deja de usar esa unidad externa para ese propósito. Usa NVMe interno o una solución de almacenamiento en red adecuada.

Tarea 10: Comprobar SMART (si está disponible a través del bridge USB)

cr0x@server:~$ sudo smartctl -a /dev/sdb
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.5.0] (local build)
=== START OF INFORMATION SECTION ===
Device Model:     CT1000MX500SSD1
Serial Number:    1234ABCDE567
...
=== START OF SMART DATA SECTION ===
Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       12

Qué significa: Los errores CRC a menudo indican problemas de integridad de señal (cable/carcasa), no NAND muriendo.

Decisión: Si los CRC aumentan, reemplaza primero el cable y la carcasa. Si los sectores reasignados suben, reemplaza la unidad.

Tarea 11: Verificar sistema de archivos y opciones de montaje

cr0x@server:~$ mount | grep /mnt/ext
/dev/sdb1 on /mnt/ext type ext4 (rw,nosuid,nodev,noatime,discard)

Qué significa: Opciones como discard pueden perjudicar el rendimiento en algunos dispositivos; noatime puede ayudar en cargas con muchas metadatos.

Decisión: Si el rendimiento es inconsistente, prueba sin discard continuo (usa fstrim periódico). Mantén noatime para cargas con muchos archivos pequeños.

Tarea 12: Comprobar problemas de gestión de energía autosuspend USB

cr0x@server:~$ cat /sys/module/usbcore/parameters/autosuspend
2

Qué significa: Autosuspend está habilitado (segundos). El autosuspend agresivo puede causar desconexiones en dispositivos marginales.

Decisión: Para dispositivos de almacenamiento inestables, deshabilita autosuspend para ese dispositivo o globalmente (con precaución) y vuelve a probar la estabilidad.

Tarea 13: Identificar en qué controlador PCIe USB estás

cr0x@server:~$ lspci -nn | grep -i usb
00:14.0 USB controller [0c03]: Intel Corporation Sunrise Point-LP USB 3.0 xHCI Controller [8086:9d2f]

Qué significa: Vincula el comportamiento a una familia de controladores. Algunos tienen quirks conocidos con ciertos bridges.

Decisión: Si una familia de controladores es consistentemente problemática, redirige flujos críticos a una tarjeta add-in conocida o a un modelo de host distinto.

Tarea 14: Comprobar gestión de energía del enlace y errores bajo carga

cr0x@server:~$ sudo journalctl -k -n 80 | grep -Ei 'usb|uas|xhci|reset|error'
Jan 21 10:24:11 server kernel: usb 2-2: reset SuperSpeed USB device number 3 using xhci_hcd
Jan 21 10:24:12 server kernel: sd 6:0:0:0: [sdb] Synchronizing SCSI cache
Jan 21 10:24:12 server kernel: sd 6:0:0:0: [sdb] tag#7 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK

Qué significa: Confirma errores recurrentes a nivel de transporte correlacionados con la carga.

Decisión: Deja de tunear la aplicación. Reemplaza la capa física: cable, puerto, hub, carcasa. Si debes mantenerlo en producción, mueve la carga a una ruta más segura (copiar localmente primero).

Tarea 15: Validar la velocidad negociada en un path de dispositivo específico

cr0x@server:~$ cat /sys/bus/usb/devices/2-2/speed
5000

Qué significa: 5000 Mb/s (USB 3.0 SuperSpeed). Si ves 480, estás efectivamente en USB 2.0.

Decisión: Si la velocidad es 480 y esperabas 5000/10000, cambia cable/puerto/dongle. No aceptes «está bien» hasta que este número sea correcto.

Tarea 16: Confirmar la profundidad de la cadena de hubs (los dongles te pueden arruinar)

cr0x@server:~$ usb-devices | sed -n '1,120p'
T:  Bus=02 Lev=00 Prnt=00 Port=00 Cnt=00 Dev#=  1 Spd=10000 MxCh= 4
D:  Ver= 3.20 Cls=09(hub) Sub=00 Prot=03 MxPS= 9 #Cfgs=  1
P:  Vendor=1d6b ProdID=0003 Rev=06.05
S:  Product=xHCI Host Controller
...
T:  Bus=02 Lev=02 Prnt=02 Port=02 Cnt=01 Dev#=  3 Spd=5000  MxCh= 0
D:  Ver= 3.10 Cls=00(>ifc) Sub=00 Prot=00 MxPS= 9 #Cfgs=  1
P:  Vendor=152d ProdID=0578 Rev=02.10
S:  Product=JMS578

Qué significa: Muestra que el dispositivo está en el nivel 2 (detrás de algo). Cuantos más dongles/hubs, más «sorpresas».

Decisión: Para transferencias críticas, reduce la profundidad de cadena: conexión directa al puerto del host, preferiblemente I/O trasero, preferiblemente en un controlador dedicado.

Errores comunes: síntoma → causa raíz → solución

1) «La unidad USB 3 copia a 35 MB/s»

Síntomas: Velocidad de copia alrededor de 30–40 MB/s; CPU parece bien; todo «funciona» pero lento.

Causa raíz: El dispositivo negoció USB 2.0 (480M) por cable incorrecto, puerto defectuoso, hub/dongle o limitación de la carcasa.

Solución: Comprueba lsusb -t y /sys/bus/usb/devices/.../speed. Cambia a un cable USB 3 conocido, puerto directo, evita hubs y verifica que reporte 5000/10000.

2) Desconexiones aleatorias durante escrituras grandes

Síntomas: «device not accepting address», «reset SuperSpeed USB device», remontado del FS como solo lectura.

Causa raíz: Inestabilidad de alimentación, cable marginal, bug en firmware del bridge de la carcasa o issues con UAS.

Solución: Prueba un cable más corto y mejor, usa un hub alimentado para dispositivos alimentados por bus, actualiza firmware de la carcasa si es posible, o deshabilita UAS como diagnóstico (y reemplaza hardware si esa es la única forma de lograr estabilidad).

3) Los benchmarks se ven bien, la carga real es pésima

Síntomas: dd muestra 300 MB/s pero extraer un tar tarda mucho; operaciones git lentas.

Causa raíz: I/O aleatorio pequeño y overhead de metadatos; elección del sistema de archivos/opciones de montaje; antivirus o indexado; sobrecarga por cifrado.

Solución: Mide con fio 4k random; usa SSD interno para tareas con muchos metadatos; ajusta opciones de montaje (noatime), evita sistemas de archivos lentos en medios lentos y excluye escaneos intensivos cuando corresponda.

4) «Deshabilitamos la verificación para acelerar el imageado» y ahora todo está embrujado

Síntomas: Problemas de arranque inconsistentes, instalaciones corruptas, fallos que desaparecen tras re-clonar.

Causa raíz: Corrupción silenciosa por transporte defectuoso, cables pobres o resets durante la escritura.

Solución: Vuelve a habilitar verificación/checksums, estandariza hardware y trata la calidad del cable como una dependencia de primera clase.

5) Un puerto funciona, otro no

Síntomas: La misma unidad se comporta distinto según el puerto usado.

Causa raíz: Cableado interno diferente; puertos del panel frontal con peor integridad de señal; ancho de banda compartido con otros dispositivos internos.

Solución: Mapea puertos a controladores (lsusb -t, usb-devices), estandariza en puertos buenos para almacenamiento de alto rendimiento y documenta la práctica.

6) El dispositivo FireWire «solía ser fiable» pero ahora es una pieza de museo

Síntomas: Adaptadores por todas partes; problemas de compatibilidad; difícil encontrar puertos/cables; soporte de drivers intermitente en OS más nuevos.

Causa raíz: Colapso del ecosistema: menos controladores nativos, más cadenas de adaptadores, menos pruebas por parte de proveedores.

Solución: Migra flujos: captura localmente y luego transfiere por interfaces modernas; conserva una máquina heredada conocida para ingest archivístico; deja de depender de pilas de adaptadores en producción.

Listas de verificación / plan paso a paso

Checklist A: Estandarizar almacenamiento externo para un equipo

Escoge un modelo de carcasa y un modelo de disco; pruébalos en tus plataformas host principales.
Exige cables que cumplan la especificación de velocidad (etiquétalos; tira los cables misteriosos).
Decide si permites hubs/dongles. Para almacenamiento: por defecto «no».
Define una comprobación mínima de velocidad negociada (scriptable vía sysfs en Linux).
Elige sistema de archivos y opciones de montaje según la carga (secuencial vs con muchos metadatos).
Anota los «puertos conocidos buenos» en cada modelo de host (I/O trasero vs frontal).
Incluye un paso de verificación para imagenado/backup (checksum o lectura de vuelta).
Registra fallos por chipset de bridge y familia de controladores, no solo por «marca de disco».

Checklist B: Antes de culpar a la red o al array de almacenamiento

Verifica velocidad de enlace y driver (UAS vs BOT).
Revisa logs del kernel por resets y errores I/O.
Ejecuta una lectura cruda del dispositivo y una prueba de escritura en el sistema de archivos.
Ejecuta una prueba 4k random si la carga es «muchos archivos pequeños».
Comprueba SMART y vigila específicamente los contadores CRC.
Cambia el cable antes de cambiar el disco. Luego cambia la carcasa.

Checklist C: Plan de migración desde FireWire sin drama

Haz inventario de lo que aún requiere FireWire (dispositivos de captura, discos heredados, Macs antiguos).
Mantén una máquina de ingest legacy dedicada que permanezca estable y sin cambios.
Mueve la captura a almacenamiento interno local primero; transfiere después vía interfaces modernas.
Cuando sea posible, reemplaza el dispositivo FireWire por un equivalente moderno en lugar de apilar adaptadores.
Prueba el flujo completo con tamaños reales de datos e inyección de fallos (desenchufar/re-enchufar, ciclos de alimentación).

Preguntas frecuentes

1) ¿FireWire era realmente más rápido que USB?

A menudo, sí en transferencias sostenidas reales comparado con USB 2.0, a pesar del mayor ancho de banda teórico de USB 2.0. FireWire tendía a entregar throughput más estable y menor carga de CPU en muchas configuraciones.

2) Si FireWire era mejor, ¿por qué no lo mantuvo todo el mundo?

Porque ganan los ecosistemas. USB fue más barato de implementar, se integró en todas partes, se benefició de drivers por clase y alcanzó el estatus de «puerto por defecto». Disponibilidad vence elegancia.

3) ¿Es USB «malo» para almacenamiento externo hoy?

No. USB moderno (y USB-C) puede ser excelente. El problema es la variabilidad: cables, carcasas, hubs, implementaciones de controladores y la entrega de energía aún pueden sabotearte.

4) ¿Por qué algunas unidades USB se desconectan aleatoriamente bajo carga?

Causas comunes: alimentación insuficiente (especialmente discos giratorios alimentados por bus), cables marginales, firmware defectuoso del bridge de la carcasa o quirks relacionados con UAS que emergen bajo I/O sostenido.

5) ¿Cuál es la forma más rápida de saber si estoy accidentalmente en USB 2.0?

En Linux: cat /sys/bus/usb/devices/<dev>/speed o lsusb -t. Si ves 480M, estás en tierra de USB 2.0.

6) ¿Debería deshabilitar UAS para arreglar problemas?

Sólo como diagnóstico o solución temporal de último recurso. Si deshabilitar UAS hace que un dispositivo sea estable, la solución real es reemplazar la carcasa/bridge por uno que se comporte correctamente.

7) ¿Por qué los benchmarks discrepan con las copias de archivos?

Los benchmarks suelen medir throughput secuencial; las cargas reales pueden depender mucho de I/O aleatorio o metadatos. Además, las cachés pueden engañar. Usa pruebas con I/O directo y mide la carga que realmente ejecutas.

8) ¿Es Thunderbolt el «nuevo FireWire»?

En el sentido de que es más parecido a un bus y de alto rendimiento, sí. En el sentido de que automáticamente ganará en todas partes, no. El coste, la integración y «¿tiene cada máquina random esto?» siguen decidiendo la adopción.

9) Si todavía tengo equipo FireWire, ¿cuál es la aproximación operacional más segura?

Mantén un host legacy conocido y fiable, evita cadenas de adaptadores en producción, captura localmente primero y trata el flujo como una canalización de ingest archivística—controlada, repetible y documentada.

Conclusión: qué hacer la próxima semana, no el próximo trimestre

FireWire perdió porque USB llegó a todas partes primero, se abarató más rápido y redujo la fricción para proveedores y TI. La lección no es «el mercado es tonto». La lección es que la palanca operacional vence a la pureza del protocolo.

Pasos siguientes que rinden inmediatamente:

No confíes en las etiquetas. Verifica la velocidad negociada y el driver cada vez que un flujo de almacenamiento externo importe.
Estandariza la capa física. Una carcasa, un tipo de cable, puertos conocidos buenos, mínimos dongles.
Instrumenta los flujos de trabajo en estaciones. Los logs del kernel y las comprobaciones de velocidad no son solo para servidores.
Haz la verificación obligatoria para imageado, backup e ingest donde la corrupción silenciosa es cara.
Planifica tus salidas de legado. Si FireWire sigue en tu camino crítico, trátalo como deuda técnica con un calendario de outages.

No necesitas la interfaz «mejor». Necesitas la interfaz que falle de forma predecible, sea diagnosable y reemplazable a las 4:30 PM un viernes. USB ganó porque se optimizó para el mundo tal como es. Opera en consecuencia.

Proxmox RBD «error opening»: errores de autenticación/keyring y soluciones

“error opening” es el equivalente en Ceph a una luz de control del tablero. No te dice casi nada, ocurre en el peor momento posible,
y puede ser causado por un único carácter que falte en la ruta de un keyring que tocaste por última vez hace seis meses.

En Proxmox, esto suele aparecer cuando intentas crear/adjuntar un disco, arrancar una VM o migrar entre nodos usando almacenamiento basado en RBD. Un nodo funciona.
Otro lanza “error opening”. Tu cluster Ceph parece “HEALTH_OK”. Todos están molestos. Volvamos esto algo aburrido otra vez.

Qué significa realmente “error opening” en términos de Proxmox RBD

Cuando Proxmox muestra “RBD: error opening”, normalmente estás viendo un fallo que proviene de librbd (la biblioteca en espacio de usuario usada para acceder a imágenes RBD).
La librería intenta:

Cargar la configuración de Ceph (monitores, ajustes de auth, fsid, etc.).
Autenticarse (cephx) usando una clave para un ID de cliente (client.admin, client.pve, o un usuario personalizado).
Hablar con los monitores (MONs), obtener el mapa del cluster y localizar los OSDs.
Abrir la imagen RBD (lo que requiere permisos sobre el pool y la imagen).

“Error opening” se lanza comúnmente por:

Keyring/clave incorrecta o faltante en la configuración de almacenamiento de Proxmox.
Desajuste del ID de cliente: tienes la clave correcta, pero para un nombre de cliente diferente.
Los caps no permiten la operación (caps de solo lectura pero estás creando imágenes; falta profile rbd; falta acceso a metadatos rbd_children, etc.).
Monitores inaccesibles desde un nodo (ruteo, firewall, mon_host equivocado, confusión IPv6 vs IPv4).
Diferencias en la configuración de Ceph entre nodos (un nodo tiene un /etc/ceph/ceph.conf obsoleto o fsid equivocado).
Permisos del archivo keyring en disco: root puede leerlo, pero un proceso corre como otro usuario (común en herramientas personalizadas; menos común en Proxmox estándar).

La forma más rápida de dejar de adivinar es reproducir la operación de apertura exacta desde el nodo que falla usando la CLI rbd con el mismo ID y keyring.
Si rbd ls funciona pero rbd info pool/image falla, estás frente a un desajuste de caps. Si nada funciona, empieza por monitores + keyring.

Broma #1: “Error opening” es lo que Ceph dice cuando es demasiado educado para decir “tu keyring es basura.”

Guía rápida de diagnóstico (comprueba 1/2/3)

Este es el orden que termina incidentes más rápido. No el orden que resulta emocionalmente satisfactorio.

1) Confirma que puedes alcanzar los monitores y autenticarte desde el nodo que falla

Si la conectividad al monitor o la autenticación cephx falla, nada más importa. Arregla eso primero.
Usa ceph -s y ceph auth get client.X donde corresponda.

2) Confirma que Proxmox está usando el keyring que crees que usa

Inspecciona /etc/pve/storage.cfg y la ruta keyring por almacenamiento (o la clave embebida).
Valida que el archivo exista en cada nodo (la configuración de Proxmox es compartida, pero los archivos keyring son locales a menos que los gestiones).

3) Valida los caps contra el pool y la operación

Lista los caps: ceph auth get client.pve.
Prueba con comandos rbd que reflejen la acción con fallo: rbd ls, rbd info, rbd create, rbd snap ls.

4) Solo entonces: sigue los errores de la UI de Proxmox, logs de qemu y casos extremos

Mira los logs de tareas y journalctl para pvedaemon, pveproxy y qemu-server.
La mayoría de incidentes “error opening” son auth/caps/config. Los exóticos existen, pero no son tu primera hipótesis.

Datos interesantes y contexto (porque el pasado sigue en producción)

El auth “cephx” de Ceph fue diseñado para evitar secretos compartidos por todo el cluster. Puedes acotar claves a pools y operaciones, por eso los caps importan tanto.
La audiencia original de RBD fue plataformas cloud. El modelo “imagen + snapshot + clone” es muy orientado a VM, por eso Proxmox y OpenStack lo adoptaron temprano.
Proxmox guarda la configuración del cluster en un sistema de archivos distribuido. /etc/pve se comparte entre nodos, pero archivos locales como /etc/ceph/ceph.client.pve.keyring no se replican mágicamente.
Históricamente, muchas implementaciones usaron client.admin en todas partes. “Funciona” hasta que se convierte en una pesadilla de auditoría y amplificador de incidentes.
La sintaxis de caps evolucionó con el tiempo. Entradas antiguas en blogs muestran patrones obsoletos; Ceph moderno prefiere profile rbd más el acotamiento explícito de pools.
Los monitores de Ceph son una puerta de consistencia. Puedes tener OSDs saludables y aun así fallar aperturas RBD básicas si el quórum de MON o la accesibilidad están rotos desde un nodo.
Abrir un RBD puede requerir operaciones de metadatos. Incluso las lecturas pueden requerir acceso a metadatos del pool (y, según características, a claves omap). “Le di solo lectura” puede resultar accidentalmente demasiado restrictivo.
La detección de configuración de Ceph tiene múltiples rutas. Variables de entorno, rutas por defecto y flags explícitos pueden llevar a “funciona en mi shell” pero falla en tareas de Proxmox.

Síntomas comunes: qué verás y dónde

Proxmox puede mostrar el mismo fallo subyacente a través de varias capas. Aprende los patrones:

Log de tareas de Proxmox: “rbd: error opening” durante creación/adjunto de disco, snapshot, migración o arranque de VM.
Fallas de arranque de QEMU: La VM no arranca; los logs de qemu mencionan incapacidad para abrir la imagen RBD.
Errores en CLI al mapear: rbd map devuelve “permission denied” o “error connecting to the cluster”.
Pistas desde Ceph: Logs de MON muestran fallos de auth; logs de OSD muestran operaciones denegadas; pero en muchos casos Ceph permanece silencioso a menos que se suba el nivel de debug.
Comportamiento específico por nodo: Un nodo Proxmox puede acceder a RBD; otro no. Eso indica “desajuste local de keyring/config”.

Tareas prácticas: comandos, salidas y decisiones (12+)

El objetivo de estas tareas es convertir errores vagos de la UI en decisiones claras. Ejecuta desde el nodo Proxmox que falla primero, luego desde un nodo conocido como bueno para comparar.

Task 1: Confirma que el cluster Ceph es accesible y no persigues ilusiones

cr0x@server:~$ ceph -s
  cluster:
    id:     2c3d1d5e-9a2e-4e2b-8a59-4f1c7c0c1c2f
    health: HEALTH_OK

  services:
    mon: 3 daemons, quorum mon1,mon2,mon3 (age 2h)
    mgr: mgr1(active, since 2h)
    osd: 12 osds: 12 up (since 3h), 12 in (since 3h)

  data:
    pools:   4 pools, 256 pgs
    objects: 3.2M objects, 12 TiB
    usage:   36 TiB used, 72 TiB / 108 TiB avail
    pgs:     256 active+clean

Qué significa: Esto confirma que la CLI puede hablar con los monitores y autenticarse usando la configuración/clave por defecto que tu shell está usando.

Decisión: Si esto falla en el nodo roto pero funciona en otros, arregla la accesibilidad a monitores y la configuración local de Ceph antes de tocar Proxmox.

Task 2: Identifica qué piensa Proxmox que es tu almacenamiento RBD

cr0x@server:~$ grep -nE '^(rbd:|[[:space:]]*(pool|monhost|username|keyring|content))' /etc/pve/storage.cfg
12:rbd: ceph-rbd
13:        monhost 10.10.0.11 10.10.0.12 10.10.0.13
14:        pool vmdata
15:        username pve
16:        keyring /etc/ceph/ceph.client.pve.keyring
17:        content images,rootdir

Qué significa: Proxmox intentará conectar a esas IPs de monitores, autenticarse como client.pve, usando ese archivo keyring.

Decisión: Si falta keyring o apunta a un archivo que no existe en algunos nodos, encontraste la causa raíz.

Task 3: Verifica que el archivo keyring exista en este nodo y sea legible

cr0x@server:~$ ls -l /etc/ceph/ceph.client.pve.keyring
-rw------- 1 root root 151 Dec 26 10:41 /etc/ceph/ceph.client.pve.keyring

Qué significa: Existe y solo root puede leerlo, lo cual es normal en Proxmox.

Decisión: Si falta en un nodo, cópialo de forma segura o recréalo. Si los permisos están demasiado abiertos, corrígelos; secretos descuidados se convierten en incidentes.

Task 4: Confirma que el keyring contiene el nombre de cliente esperado

cr0x@server:~$ sed -n '1,120p' /etc/ceph/ceph.client.pve.keyring
[client.pve]
	key = AQB7qMdnJg0aJRAA7i9fJvQW9x0o0Jr8mGmNqA==
	caps mon = "profile rbd"
	caps osd = "profile rbd pool=vmdata"

Qué significa: El encabezado de sección debe coincidir con el nombre de usuario que Proxmox usa (sin el prefijo client. en storage.cfg).

Decisión: Si el archivo dice [client.admin] pero storage.cfg indica username pve, Proxmox fallará al autenticarse.

Task 5: Prueba acceso RBD explícitamente usando la misma identidad que Proxmox

cr0x@server:~$ rbd -p vmdata ls --id pve --keyring /etc/ceph/ceph.client.pve.keyring
vm-101-disk-0
vm-102-disk-0
base-9000-disk-0

Qué significa: La autenticación funciona y el usuario puede listar imágenes en el pool.

Decisión: Si el listado funciona pero Proxmox sigue dando error al abrir, el problema probablemente sea permisos específicos de la imagen/características de la imagen o un nombre de pool/imagen distinto al esperado.

Task 6: Reproduce la apertura en una imagen específica (más útil para “error opening”)

cr0x@server:~$ rbd info vmdata/vm-101-disk-0 --id pve --keyring /etc/ceph/ceph.client.pve.keyring
rbd image 'vm-101-disk-0':
	size 100 GiB in 25600 objects
	order 22 (4 MiB objects)
	snapshot_count: 2
	id: 1a2b3c4d5e6f
	block_name_prefix: rbd_data.1a2b3c4d5e6f
	format: 2
	features: layering, exclusive-lock, object-map, fast-diff, deep-flatten
	op_features:
	flags:
	create_timestamp: Tue Dec 24 09:12:33 2025
	access_timestamp: Tue Dec 24 09:12:33 2025
	modify_timestamp: Thu Dec 26 10:01:07 2025

Qué significa: Si esto tiene éxito, la apertura funciona a nivel RBD. Proxmox debería poder arrancar la VM salvo que esté usando credenciales/configuración distintas.

Decisión: Si falla con “permission denied”, tus caps son insuficientes para operaciones de metadatos o estás apuntando al pool equivocado.

Task 7: Confirma los caps del usuario cliente (no adivines)

cr0x@server:~$ ceph auth get client.pve
[client.pve]
	key = AQB7qMdnJg0aJRAA7i9fJvQW9x0o0Jr8mGmNqA==
	caps mon = "profile rbd"
	caps osd = "profile rbd pool=vmdata"

Qué significa: Esto es la verdad autoritativa dentro de Ceph (no lo que esté copiado en un archivo keyring).

Decisión: Si los caps no incluyen el pool objetivo, corrígelos. Si la clave difiere del keyring en disco, actualiza el archivo en todos los nodos.

Task 8: Revisa la configuración de Ceph que Proxmox usará implícitamente

cr0x@server:~$ cat /etc/ceph/ceph.conf
[global]
fsid = 2c3d1d5e-9a2e-4e2b-8a59-4f1c7c0c1c2f
mon_host = 10.10.0.11 10.10.0.12 10.10.0.13
auth_client_required = cephx
auth_cluster_required = cephx
auth_service_required = cephx

Qué significa: Un fsid equivocado o un mon_host faltante/incorrecto puede hacer que un nodo hable con el cluster equivocado o con ninguno.

Decisión: Si esto difiere entre nodos, estandarízalo. Una división de configuración es cómo obtienes “funcionó ayer” sin un cambio real.

Task 9: Confirma la accesibilidad a monitores desde el nodo que falla (ruteo/firewall)

cr0x@server:~$ for m in 10.10.0.11 10.10.0.12 10.10.0.13; do echo "== $m =="; nc -vz -w2 $m 3300; nc -vz -w2 $m 6789; done
== 10.10.0.11 ==
Connection to 10.10.0.11 3300 port [tcp/*] succeeded!
Connection to 10.10.0.11 6789 port [tcp/*] succeeded!
== 10.10.0.12 ==
Connection to 10.10.0.12 3300 port [tcp/*] succeeded!
Connection to 10.10.0.12 6789 port [tcp/*] succeeded!
== 10.10.0.13 ==
Connection to 10.10.0.13 3300 port [tcp/*] succeeded!
Connection to 10.10.0.13 6789 port [tcp/*] succeeded!

Qué significa: Ceph MON usa 3300 (msgr2) y a veces 6789 (legacy). Quieres conectividad al menos a lo que use tu cluster.

Decisión: Si esto falla solo en un nodo, arregla firewall/ruteo/VLAN/MTU. No “arregles” la auth para compensar una red rota.

Task 10: Saca el log de tarea de Proxmox que contiene el fallo

cr0x@server:~$ journalctl -u pvedaemon -S -2h | tail -n 40
Dec 26 10:50:14 pve3 pvedaemon[2211]:  starting task UPID:pve3:00008A1B:0002A1C4:676D7F46:qmstart:101:root@pam:
Dec 26 10:50:15 pve3 pvedaemon[1032]: command '/usr/bin/kvm -id 101 -name vm101 ... -drive file=rbd:vmdata/vm-101-disk-0:conf=/etc/pve/ceph.conf:id=pve:keyring=/etc/ceph/ceph.client.pve.keyring,if=none ...' failed: exit code 1
Dec 26 10:50:15 pve3 pvedaemon[1032]: TASK ERROR: start failed: error opening 'rbd:vmdata/vm-101-disk-0': (13) Permission denied

Qué significa: Esto confirma los argumentos exactos que QEMU usó, incluyendo id=pve y la ruta del keyring. Eso es oro.

Decisión: Vuelve a ejecutar el comando RBD equivalente manualmente con esos parámetros. Si falla, no es “un problema de Proxmox”.

Task 11: Verifica que Proxmox esté apuntando QEMU al ceph.conf correcto

cr0x@server:~$ ls -l /etc/pve/ceph.conf
-rw-r----- 1 root www-data 232 Dec 26 10:40 /etc/pve/ceph.conf

Qué significa: Proxmox puede generar/usar /etc/pve/ceph.conf. Esto puede diferir de /etc/ceph/ceph.conf.

Decisión: Si tus pruebas en CLI usan /etc/ceph/ceph.conf pero QEMU usa /etc/pve/ceph.conf, alínea ambos o prueba con el mismo --conf.

Task 12: Reprueba con el mismo archivo de configuración que QEMU usó

cr0x@server:~$ rbd --conf /etc/pve/ceph.conf -p vmdata ls --id pve --keyring /etc/ceph/ceph.client.pve.keyring
rbd: listing images failed: (13) Permission denied

Qué significa: Esto lo acota. Tu éxito anterior pudo haber venido de una configuración distinta (cluster distinto, distinto mon_host, distintos ajustes de auth).

Decisión: Inspecciona /etc/pve/ceph.conf y arréglalo o deja de usarlo. La consistencia vence a la astucia.

Task 13: Confirma con qué cluster Ceph estás hablando (comprobación de fsid)

cr0x@server:~$ ceph --conf /etc/pve/ceph.conf fsid
2c3d1d5e-9a2e-4e2b-8a59-4f1c7c0c1c2f

Qué significa: Si el fsid difiere del cluster esperado, te estás autenticando contra el cluster equivocado (o un remanente de laboratorio).

Decisión: Arregla el archivo de configuración y reinicia los servicios afectados; no “añadas más mons” a ambos clusters y esperes que funcione.

Task 14: Corrige los caps para un cliente Proxmox RBD (patrón seguro típico)

cr0x@server:~$ ceph auth caps client.pve mon "profile rbd" osd "profile rbd pool=vmdata"
updated caps for client.pve

Qué significa: Estás otorgando permisos de monitor apropiados para RBD y permisos OSD acotados al pool. Es la configuración sensata por defecto para discos VM en un pool.

Decisión: Si tienes múltiples pools usados por Proxmox, añade cada pool explícitamente. Evita allow * a menos que te guste explicarlo luego.

Task 15: Actualiza (o crea) el archivo keyring de forma consistente en todos los nodos

cr0x@server:~$ ceph auth get client.pve -o /etc/ceph/ceph.client.pve.keyring
exported keyring for client.pve

Qué significa: Estás escribiendo la clave/caps autorizados en el sistema de archivos del nodo. Repite en cada nodo o distribuye de forma segura.

Decisión: Si solo un nodo tenía un keyring obsoleto, esto elimina fallas node-specific “error opening”.

Task 16: Valida que la definición de almacenamiento de Proxmox esté sana

cr0x@server:~$ pvesm status
Name       Type     Status           Total       Used        Available        %
ceph-rbd   rbd      active            0           0           0               0.00
local      dir      active        1966080    1126400          839680         57.29

Qué significa: Para RBD, la capacidad puede mostrarse como 0 según la configuración, pero el almacenamiento debe aparecer active.

Decisión: Si está inactivo o da errores, revisa mon_host, username y la ruta keyring en storage.cfg.

Modelo de autenticación Ceph en Proxmox: clientes, keyrings, caps y dónde Proxmox lo oculta

Nombres de cliente: el error más habitual es una coincidencia de una sola palabra

Los usuarios de Ceph se llaman como client.pve, client.admin, client.proxmox. En Proxmox storage.cfg, a menudo especificas
username pve, que Proxmox interpreta como client.pve.

Los patrones de desajuste:

Desajuste en encabezado del keyring: el archivo contiene [client.proxmox] pero Proxmox usa pve. La autenticación falla.
Clave obsoleta: el encabezado del archivo es correcto pero la clave viene de una rotación anterior. La autenticación falla.
Desajuste de caps: la autenticación tiene éxito pero las operaciones fallan al abrir/crear/snapshot.

Ubicación del keyring: configuración compartida, secretos locales

El sistema de archivos de cluster de Proxmox invita a pensar que todo en tu configuración se replica. No es así.
/etc/pve/storage.cfg se replica. Tu archivo keyring bajo /etc/ceph es solo un archivo local.

Por eso ocurre tan a menudo “funciona en nodo1, falla en nodo3”:

Agregaste el almacenamiento en la UI una vez; actualizó /etc/pve/storage.cfg en todo el cluster.
Copiaste el keyring solo en un nodo (o copiaste una versión distinta).
Proxmox programa con gusto un arranque en un nodo que no puede autenticarse, y obtienes “error opening”.

Caps: “profile rbd” es la base, acotar por pool es la baranda de seguridad

Para uso de RBD en Proxmox, el punto operativo adecuado es:

mon = "profile rbd" para que el cliente pueda consultar mapas y metadatos relacionados con RBD.
osd = "profile rbd pool=<poolname>" para que el cliente pueda acceder a imágenes en un pool específico.

Si usas múltiples pools (p. ej., vmdata, fast-ssd, templates), o bien:

Otorgas cláusulas múltiples por pool (clientes separados es más limpio), o
Aceptas caps más amplios y convives con el intercambio de seguridad.

Proxmox y `/etc/pve/ceph.conf`: la división sutil de configuración

Proxmox puede mantener una configuración de Ceph en /etc/pve/ceph.conf, y los procesos QEMU invocados por tareas de Proxmox pueden referenciarla directamente.
Mientras tanto, tus comandos de shell pueden usar por defecto /etc/ceph/ceph.conf. Si difieren, perderás horas “probando” hechos contradictorios.

Decide una fuente de verdad y mantenla consistente. Si Proxmox usa /etc/pve/ceph.conf, mantenla correcta y sincronizada con el cluster real.

Una cita de confiabilidad que deberías tomarte en serio

Idea parafraseada de John Allspaw (operaciones/confiabilidad): “Los incidentes vienen del trabajo normal y de decisiones ordinarias, no solo de incompetencia rara.”

Errores comunes: síntoma → causa raíz → solución

1) Síntoma: Funciona en un nodo, falla en otro con “error opening”

Causa raíz: Archivo keyring faltante o diferente en el nodo que falla (o ceph.conf distinto).

Solución: Asegura que el keyring y la configuración existan y coincidan en cada nodo.

cr0x@server:~$ sha256sum /etc/ceph/ceph.client.pve.keyring /etc/ceph/ceph.conf /etc/pve/ceph.conf
e1d0c0d2f0b8d66c3f2f5b7a20b3fcb0a1f6e42a2bfafbfcd1c4e2a8fcbcc3af  /etc/ceph/ceph.client.pve.keyring
9b1f0c3c4f74d5d5c22d5e4e2d0a2a77bff2f5bd3d92a0e7db6c2f4f122c8f10  /etc/ceph/ceph.conf
9b1f0c3c4f74d5d5c22d5e4e2d0a2a77bff2f5bd3d92a0e7db6c2f4f122c8f10  /etc/pve/ceph.conf

Decisión: ¿Hash mismatched entre nodos? Alto. Estandariza. No sigas depurando en capas superiores.

2) Síntoma: “(13) Permission denied” al arrancar VM o crear disco

Causa raíz: Caps demasiado restrictivos para lo que Proxmox hace (create, snapshot, clone), o acotamiento de pool equivocado.

Solución: Actualiza caps para incluir el pool correcto y profile rbd. Verifica con la prueba rbd create.

cr0x@server:~$ rbd create vmdata/caps-test --size 64M --id pve --keyring /etc/ceph/ceph.client.pve.keyring
rbd: create error: (13) Permission denied

Decisión: Esto confirma que son los caps, no una configuración de VM inestable. Arregla los caps, luego vuelve a probar crear y borra la imagen de prueba.

3) Síntoma: “no keyring found” o “failed to load keyring” en logs

Causa raíz: Ruta de keyring incorrecta en storage.cfg, o archivo existe pero permisos/SELinux/AppArmor (raro en Proxmox por defecto).

Solución: Corrige la ruta; usa ruta absoluta; establece 0600 root:root.

4) Síntoma: “error connecting to the cluster” o timeouts a MON

Causa raíz: IPs de monitores equivocadas en storage.cfg/ceph.conf, firewall bloqueando 3300/6789, o mismatch DNS/IPv6.

Solución: Usa direcciones de monitores estables; valida la conectividad; evita hostnames a menos que DNS sea realmente fiable.

5) Síntoma: el listado RBD funciona, pero la apertura falla para algunas imágenes

Causa raíz: La imagen está en otro pool, o las características de la imagen requieren operaciones que tus caps bloquean, o el nombre de la imagen es incorrecto (typo, referencia obsoleta tras renombrar).

Solución: Verifica pool/imagen exacta; ejecuta rbd info y rbd snap ls usando la misma identidad que Proxmox usa.

6) Síntoma: Tras rotar claves, VMs antiguas no arrancan

Causa raíz: Un nodo aún tiene el keyring viejo; Proxmox programa inicios allí; obtienes “error opening”.

Solución: Despliega actualizaciones de keyring de forma atómica en los nodos, luego valida con un pequeño conjunto de pruebas de arranque/migración.

Broma #2: Rotar claves es como usar hilo dental—todos acuerdan que es bueno, y casi nadie lo hace en el calendario que dicen.

Tres microhistorias corporativas desde el terreno

Microhistoria 1: El incidente causado por una suposición equivocada

Una empresa mediana ejecutaba un cluster Proxmox con Ceph RBD para discos de VM. Añadieron un nodo nuevo, lo unieron al cluster Proxmox y lo dieron por hecho.
A la mañana siguiente, una tarea de mantenimiento rutinaria desencadenó varias migraciones de VM hacia el nodo nuevo.

La mitad de las VMs migradas no volvieron. Proxmox mostró el mismo mensaje contundente: “error opening”.
Ceph estaba sano. El almacenamiento estaba definido en /etc/pve/storage.cfg, así que el equipo asumió “la configuración de almacenamiento se replicó; por tanto el acceso se replicó”.

Esa suposición fue el incidente completo. El nodo nuevo no tenía /etc/ceph/ceph.client.pve.keyring. Los nodos existentes sí.
La UI de Proxmox lo empeoró por ser consistente: mismo nombre de almacenamiento, mismo pool, mismos monitores, mismo mensaje de fallo.

La solución fue poco glamorosa: distribuir el keyring a cada nodo, verificar hashes coincidentes, y luego reintentar los arranques.
La acción postmortem fue aún más aburrida: una checklist de incorporación de nodo con una puerta “Keyrings de Ceph presentes y verificados”.

Microhistoria 2: La optimización que salió mal

Otra organización quiso reducir el área de impacto, así que crearon usuarios Ceph separados para distintos clusters Proxmox y minimizaron agresivamente los caps.
Buena intuición. Luego fueron un paso demasiado lejos: caps de solo lectura para un usuario que Proxmox también usaba para operaciones de snapshot y templating basado en clones.

Todo funcionó semanas porque las lecturas/escrituras diarias de VM funcionaban en su mayoría—hasta que la canalización de templates se ejecutó a escala.
De repente, las tareas de aprovisionamiento comenzaron a fallar con “error opening” y “permission denied”, y el equipo persiguió problemas de red porque las fallas eran intermitentes y correlacionadas en el tiempo.

La causa real era que algunas operaciones necesitaban escrituras de metadatos (crear snapshot, clonar, flatten) que sus caps bloqueaban.
Las fallas fueron periódicas porque esas operaciones lo eran.

Lo solucionaron separando responsabilidades: un usuario Ceph para “I/O en tiempo de ejecución de VM” con acceso estrictamente acotado al pool,
y otro para “gestión de imágenes” usado por la automatización, con permisos adicionales y controles operativos más estrictos.
El principio de menor privilegio sobrevivió. Solo necesitó alinearse con los flujos reales de trabajo, no con deseos.

Microhistoria 3: La práctica aburrida pero correcta que salvó el día

Un equipo de servicios financieros tenía un hábito que parecía casi cómico: cada nodo tenía un pequeño script local que validaba el acceso del cliente Ceph diariamente.
Ejecutaba ceph -s, rbd ls y rbd info contra una imagen conocida, usando las credenciales exactas que Proxmox usaba.
Registraba resultados localmente y además emitía una métrica simple “ok/fail”.

Una tarde, un administrador de Ceph rotó claves durante una ventana de cambios. El cambio fue correcto, los caps estaban bien y el cluster Ceph permaneció sano.
Pero un nodo Proxmox perdió la actualización del key debido a una falla temporal en la gestión de configuración.

Su validación diaria lo detectó en pocas horas—antes de que una migración de mantenimiento moviera cargas al nodo roto.
En vez de una caída, tuvieron un ticket: “Node pve7 falla RBD open usando client.pve.” La remediación fue sincronizar keyrings y volver a probar.

No pasó nada heroico. Nadie fue alertado. Así es la ingeniería de confiabilidad en un buen día: menos historias que contar.

Listas de verificación / plan paso a paso

Checklist A: Cuando una VM no arranca con “error opening”

Desde el nodo que falla, obtén el error exacto y los parámetros de los logs (journalctl -u pvedaemon).
Extrae id=, keyring=, pool, nombre de imagen y la ruta conf=.
Ejecuta rbd --conf ... info pool/image --id ... --keyring ....
Si falla la auth: verifica existencia del keyring, corrección y encabezado del nombre de cliente.
Si es permission denied: inspecciona caps y acotamiento de pool; corrige caps; vuelve a probar.
Si falla la conectividad a monitores: valida puertos 3300/6789; verifica mon_host y ruteo/MTU.
Una vez arreglado, reintenta el arranque de la VM y verifica lectura/escritura.

Checklist B: Añadir un nodo Proxmox nuevo a un cluster respaldado por Ceph

Instala los paquetes cliente Ceph necesarios para tu versión de Proxmox.
Copiar /etc/ceph/ceph.conf (o asegura que /etc/pve/ceph.conf sea correcto y se use consistentemente).
Copiar keyrings necesarios: típicamente /etc/ceph/ceph.client.pve.keyring.
Verificar permisos de archivos: 0600 root:root para keyrings.
Ejecutar: ceph -s y rbd -p <pool> ls --id pve --keyring ....
Sólo entonces permitir migraciones/HA hacia ese nodo.

Checklist C: Rotación de claves relativamente segura para clientes Proxmox RBD

Crear o actualizar la entrada de auth en Ceph (ceph auth get-or-create / ceph auth caps), manteniendo el acotamiento por pool correcto.
Exportar el keyring actualizado.
Distribuir el keyring a todos los nodos Proxmox (de forma atómica si es posible).
Verificar que los hashes coincidan entre nodos.
Ejecutar pruebas de apertura RBD desde cada nodo usando el mismo --conf que usa QEMU.
Realizar un canario pequeño: arrancar una VM por nodo, hacer una migración, crear un snapshot si los usas.
Solo entonces considerar la rotación “completada”.

Comandos que ayudan a automatizar la validación de la checklist

cr0x@server:~$ rbd --conf /etc/pve/ceph.conf info vmdata/vm-101-disk-0 --id pve --keyring /etc/ceph/ceph.client.pve.keyring
rbd image 'vm-101-disk-0':
	size 100 GiB in 25600 objects
	order 22 (4 MiB objects)
	snapshot_count: 2
	id: 1a2b3c4d5e6f
	format: 2
	features: layering, exclusive-lock, object-map, fast-diff, deep-flatten
	op_features:
	flags:
	create_timestamp: Tue Dec 24 09:12:33 2025
	access_timestamp: Tue Dec 24 09:12:33 2025
	modify_timestamp: Thu Dec 26 10:01:07 2025

Decisión: Si esto funciona en cada nodo, eliminaste la mayoría de causas de “error opening” relacionadas con auth/keyring.

Preguntas frecuentes (FAQ)

1) ¿Por qué Proxmox muestra “error opening” en lugar del error real de Ceph?

Porque el error atraviesa las capas QEMU/librbd y se resume. La razón detallada suele estar en líneas de journalctl que muestran
“permission denied”, “no such file” o errores de conexión. Siempre extrae logs del nodo que falló.

2) Puedo ejecutar `ceph -s` con éxito, ¿por qué falla Proxmox?

Tu shell puede estar usando un archivo de configuración distinto (/etc/ceph/ceph.conf) y una clave distinta (client.admin vía keyring por defecto).
Proxmox podría usar /etc/pve/ceph.conf y client.pve. Prueba usando el mismo --conf, --id y --keyring que ves en los logs de Proxmox.

3) ¿Puedo usar `client.admin` para que deje de dar el error?

Puedes, y “funcionará”, y es una mala práctica. Amplía el área de impacto y complica auditorías. Usa un cliente dedicado con caps acotados por pool.
Reserva client.admin para tareas administrativas, no para I/O rutinario de VM.

4) ¿Cuáles son los caps mínimos para uso RBD en Proxmox?

Típicamente: mon "profile rbd" y osd "profile rbd pool=<pool>". Si usas flujos adicionales (snapshots, clones, flatten),
normalmente aún quieres profile rbd, pero puede que necesites asegurar que el cluster y los clientes soporten las operaciones necesarias. Valida probando la operación con la misma identidad.

5) ¿Por qué falla solo durante migración o snapshot?

Porque migraciones y snapshots ejercitan llamadas de API distintas. Listar imágenes no es lo mismo que abrir una imagen con ciertas características, crear snapshots o clonar.
Si falla en esas operaciones, sospecha primero un desajuste de caps.

6) ¿Dónde almacena Proxmox los secretos de Ceph?

Proxmox guarda la definición de almacenamiento en /etc/pve/storage.cfg. La clave normalmente está en un archivo keyring bajo /etc/ceph referenciado por ruta.
Algunas configuraciones embeben secretos de forma distinta, pero el patrón “keyring local por nodo” es común y es precisamente la razón de los desajustes entre nodos.

7) ¿Cómo diferencio un problema de conectividad a monitores de uno de autenticación?

Si ves timeouts y “error connecting to the cluster”, valida la accesibilidad de red a puertos MON (3300/6789) y confirma mon_host.
Si ves “permission denied” rápido, los monitores son accesibles y la auth/caps probablemente son la causa.

8) ¿Necesito reiniciar servicios de Proxmox tras arreglar keyrings o caps?

A menudo no; las nuevas tareas recogerán el keyring actualizado. Pero si cambias qué archivo de configuración se usa o actualizaste definiciones de almacenamiento,
reiniciar pvedaemon y reintentar la tarea puede eliminar estado en caché. Mantén los reinicios dirigidos; no reinicies nodos como terapia.

9) ¿Cuál es la prueba segura y más rápida para validar una solución?

Ejecuta rbd info pool/image usando el mismo --conf, --id y --keyring que QEMU usa, desde el nodo que falló.
Luego arranca una VM que use esa imagen. Si dependes de snapshots/clones, prueba también una de esas operaciones.

10) ¿Podría ser un bug de Ceph o corrupción de datos?

Puede ser, pero si el cluster está sano y el error es “permission denied” o “keyring not found”, no es corrupción.
Empieza por auth/config; el 95% de incidentes “error opening” son cortes autoinfligidos por descuidos.

Conclusión: siguientes pasos que puedes hacer hoy

Si quieres que “error opening” deje de ser un personaje recurrente en tu vida de on-call, haz tres cosas:

Estandariza qué archivo de configuración usa QEMU (/etc/pve/ceph.conf vs /etc/ceph/ceph.conf) y haz que sean consistentes entre nodos.
Usa un cliente Ceph dedicado (por ejemplo, client.pve) con caps profile rbd acotados por pool. Deja de usar client.admin para I/O rutinario de VM.
Haz de los keyrings un artefacto de despliegue de primera clase: distribúyelos a cada nodo, verifica hashes y valida acceso con una prueba automatizada rbd info.

La buena noticia: una vez trates keyrings y caps como configuración de producción (no como conocimiento tribal), Ceph se vuelve predeciblemente aburrido. Ese es el objetivo.

MariaDB vs PostgreSQL: «Too many open files» — por qué ocurre y la solución real

Son las 02:14. La app aparece como “up” en el panel, pero cada petición que toca la base de datos devuelve un educado 500 y una línea de log nada educada: Too many open files. Subes un límite, reinicias y “funciona”. Durante tres días. Luego vuelve a ocurrir, durante la nómina, el cierre trimestral o cualquier ritual que tu negocio use para invocar el caos.

Este es uno de esos fallos que parece una pregunta de trivia del SO y en realidad es un problema de diseño de sistemas. MariaDB y PostgreSQL lo alcanzan de forma distinta, por razones distintas y con perillas distintas. La solución rara vez es “poner nofile a un millón y listo”. Eso no es una solución. Es una apuesta.

Qué significa realmente “Too many open files” (y por qué miente)

En Linux, “Too many open files” suele mapear a EMFILE: el proceso alcanzó su límite de descriptores de archivo por proceso. A veces es ENFILE: el sistema alcanzó el límite global de descriptores. Otras veces no es ninguno de los dos y estás ante un tope a nivel de aplicación que se registra como “open files” porque los ingenieros son optimistas y nombrar cosas es difícil.

Un descriptor de archivo (FD) es un manejador a una “cosa” abierta: un archivo regular, un directorio, un socket de dominio Unix, un socket TCP, una pipe, un eventfd, una watch de inotify, una instancia epoll. Las bases de datos usan todos ellos. Si solo piensas “archivos de tablas”, diagnosticarás mal el problema y lo arreglarás mal.

Dos verdades operativas importantes:

La agotación de FDs rara vez es un problema de una sola perilla. Es la interacción entre límites del SO, valores por defecto de systemd, configuración de la base de datos, comportamiento de conexiones y la forma de la carga de trabajo.
La agotación de FDs es un síntoma. La causa raíz suele ser: demasiadas conexiones, demasiadas relaciones (tablas/índices/particiones) o una configuración de caché que convirtió “reutilizar archivos abiertos” en “abrir todo y nunca cerrar”.

También: puedes “arreglar” EMFILE subiendo los límites hasta que el servidor pueda abrir suficientes archivos para avanzar, y luego empujar la falla a otro sitio: presión de memoria, agotamiento de inodos, churn de caché de dentry del kernel o pura complejidad operativa. La meta no es descriptores infinitos. La meta es uso controlado de recursos.

Una cita para pegar en un sticky: “Hope is not a strategy.” — General Gordon R. Sullivan. En operaciones, esto es menos un lema y más una herramienta de diagnóstico.

Cómo se consumen descriptores de archivo en servidores de bases de datos reales

Si estás depurando esto en producción, necesitas un modelo mental de qué mantiene realmente los FDs abiertos. Aquí está la lista no exhaustiva que importa.

Conexiones: la fábrica silenciosa de FDs

Cada conexión cliente consume al menos un FD en el lado del servidor (el socket), además de cierta plomería interna. Con TLS, añades sobrecarga de CPU; con pooling de conexiones mal hecho, añades churn y picos. Si ejecutas 5.000 conexiones activas porque “microservicios”, no eres moderno—solo estás pagando renta por socket.

Archivos de datos, índices y archivos de relaciones

Las bases de datos intentan evitar reabrir archivos constantemente. Las cachés existen en parte para mantener FDs alrededor, de modo que la caché de páginas del SO haga su trabajo y la BD evite la sobrecarga de llamadas al sistema. Pero las cachés pueden estar sobredimensionadas o mal ajustadas.

MariaDB/InnoDB: múltiples tablespaces, redo logs, undo logs, tablas temporales, archivos .ibd por tabla cuando innodb_file_per_table=ON.
PostgreSQL: cada fork de una relación (main, FSM, VM) mapea a archivos; las relaciones grandes se segmentan en múltiples archivos; los archivos temporales aparecen bajo base/pgsql_tmp o en directorios temporales por tablespace.

Archivos temporales y comportamiento de volcado a disco

Ordenamientos, hashes, agregados grandes y ciertos planes de consulta vuelcan a disco. Eso genera archivos temporales. Suficientes consultas paralelas y obtienes una pequeña tormenta de descriptores abiertos.

Replicación y workers en segundo plano

Hilos de replicación, WAL senders/receivers, hilos de I/O y workers en background mantienen sockets y archivos abiertos. Normalmente no son el mayor consumidor, pero en un clúster ocupado con múltiples réplicas, suma.

Logs, slow logs, audit logs y “más observabilidad”

Los logs son archivos. Algunas configuraciones de logging abren múltiples archivos (patrones de rotación, logs de auditoría separados, logs de errores, logs generales). Si haces tail a logs con herramientas que abren manejadores adicionales o ejecutas sidecars que hacen lo mismo, puedes contribuir a la presión de FDs. No suele ser el principal culpable, pero forma parte de la cuenta.

Broma #1: “Too many open files” es la forma en que el servidor dice que ahora mismo no está emocionalmente disponible.

MariaDB vs PostgreSQL: cómo se comportan bajo presión de FDs

Modos de fallo de MariaDB (InnoDB): la caché de tablas se encuentra con la realidad del sistema de archivos

El dolor de FDs más común en MariaDB proviene del uso de archivos de tablas/índices y del comportamiento de la caché de tablas combinado con alta concurrencia. Históricamente, los servidores de la familia MySQL se apoyaban en cachés de tablas (table_open_cache, table_definition_cache) para reducir el churn de abrir/cerrar. Eso es bueno—hasta que deja de serlo.

Qué sucede en el caso “malo”:

Tienes muchas tablas, o muchas particiones (que son efectivamente objetos tipo tabla), o muchos esquemas.
Configuraste table_open_cache alto porque alguien dijo que mejora el rendimiento.
La carga de trabajo toca muchas tablas distintas en múltiples sesiones.
MariaDB intenta mantenerlas abiertas para cumplir hits de caché.
El proceso alcanza RLIMIT_NOFILE (por proceso), o el límite interno de archivos abiertos del servidor, y empieza a fallar operaciones.

InnoDB aporta sus propios ángulos:

innodb_open_files provee un objetivo de cuántos archivos InnoDB puede mantener abiertos, pero está acotado por límites del SO y otros usuarios de archivos en el proceso.
El uso de tablas temporales (basadas en disco) puede disparar los FDs.
Herramientas de backup (lógicas o físicas) pueden añadir carga y manejadores abiertos.

Modos de fallo de PostgreSQL: conexiones y sobrecarga por sesión

PostgreSQL usa un modelo proceso-por-conexión (con matices como background workers). Eso significa que cada conexión es su propio proceso con su propia tabla de FDs. La buena noticia: la agotación por proceso es menos probable si cada backend usa pocos FDs. La mala noticia: demasiadas conexiones implican demasiados procesos, demasiados sockets, demasiada memoria, demasiado cambio de contexto y una estampida de uso de recursos.

PostgreSQL suele alcanzar “too many open files” en estos escenarios:

Altos recuentos de conexiones más un límite bajo de FDs para el postmaster/backends bajo systemd.
Gran número de relaciones más patrones de consulta que tocan muchas relaciones en una sesión (piensa tablas particionadas con scans amplios).
Creación intensiva de archivos temporales por ordenamientos/hashes y consultas paralelas, agravado por un work_mem bajo (más spills) o un paralelismo demasiado alto (más spills concurrentes).
Autovacuum y mantenimiento en muchas relaciones, más la carga de usuarios. Muchos archivos abiertos.

PostgreSQL también tiene un comportamiento sutil pero real: incluso si aumentas el límite de FDs del SO, aún puedes estar limitado por expectativas internas o por otros límites del SO (como max processes, ajustes de memoria compartida o límites de cgroup). EMFILE rara vez viene solo.

La diferencia práctica que cambia tu arreglo

MariaDB tiende a alcanzar agotamiento de FDs por archivos de tablas abiertos y caches. La solución suele ser una combinación de LimitNOFILE correcto, open_files_limit apropiado y dimensionamiento sensato de la caché de tablas—además de atajar la explosión de tablas/particiones.

PostgreSQL tiende a alcanzar agotamiento de FDs por el comportamiento de conexiones y churn de archivos temporales. La solución suele ser: pooling de conexiones, reducir recuentos de conexiones, aumentar límites del SO de forma adecuada y ajustar memoria/paralelismo para reducir tormentas de spills.

Hechos interesantes y contexto histórico (que realmente importa)

Los descriptores de Unix fueron diseñados como una abstracción unificadora para “todo es un archivo”, que es elegante hasta que tu BD trata todo como “abrir y nunca soltar”.
Unix temprano tenía límites por defecto muy pequeños (a menudo 64), y el hábito de defaults conservadores nunca murió por completo—los valores por defecto de systemd aún tropiezan a servidores modernos.
El modelo proceso-por-conexión de PostgreSQL es una decisión arquitectónica de larga data que intercambia algo de simplicidad y aislamiento por mayor sobrecarga en concurrencias muy altas.
Los knobs de caché de tablas de MySQL vinieron de un mundo donde las operaciones de metadata del sistema de archivos eran caras y “mantener abierto” era una ganancia medible.
El sistema de archivos /proc de Linux hizo que la introspección de FDs fuera dramáticamente más fácil; antes de eso, diagnosticar fugas de FDs era más parecido a la arqueología.
cgroups y contenedores cambiaron el juego: puedes tener límites altos en el host pero límites bajos en el contenedor; el proceso ve el mundo más pequeño y falla allí.
Los sistemas de archivos modernos hicieron que abrir/cerrar sea más barato que antes, pero “barato” no es “gratis” cuando se multiplica por miles de consultas por segundo.
La replicación aumentó los patrones de uso de FDs en ambos ecosistemas, añadiendo más sockets y actividad de archivos de logs—especialmente en topologías con múltiples réplicas.

Guía rápida de diagnóstico

Esta es la parte que sigues cuando estás de guardia, medio despierto y tu cerebro intenta negociar un alto el fuego con la realidad.

Primero: confirma qué límite estás alcanzando (proceso vs sistema)

Revisa la fuente del error: logs de la base de datos, logs del sistema y logs de la aplicación. Determina si el propio proceso de BD no puede abrir archivos, o si los clientes no pueden conectar.
Revisa el límite por proceso: inspecciona el Max open files del proceso de la BD desde /proc. Si es bajo (a menudo 1024/4096), has encontrado una causa inmediata probable.
Revisa la presión global de manejadores de archivo: /proc/sys/fs/file-nr. Si el total del sistema está cerca del máximo, subir límites por proceso no ayudará sin ampliar la capacidad global y encontrar el consumidor.

Segundo: identifica quién está reteniendo los FDs

Cuenta FDs abiertos por PID e identifica los mayores consumidores. Si es la BD, sigue. Si es un sidecar, shipper de logs o agente de backup, tienes un incidente distinto.
Clasifica tipos de FD: ¿son mayormente sockets (conexiones) o archivos regulares (tablas, temporales, logs)? Eso te dice qué knobs de BD importan.

Tercero: determina si es “pico” o “fuga”

Pico: los FDs se disparan durante un aumento de tráfico o un job por lotes, luego bajan. Solución: capacidad y control de concurrencia.
Fuga/crecimiento persistente: los FDs tienden a subir y no regresan. Solución: identifica qué se mantiene abierto (caché demasiado grande, bug, conexiones atascadas, fuga de manejadores en tooling).

Cuarto: detener la hemorragia de forma segura

Corto plazo: sube límites solo si estás seguro de que el kernel tiene margen y no inducirás presión de memoria. Prefiere un reinicio controlado con límites corregidos sobre jugar con ulimit al tuntún.
Reduce la concurrencia: limita jobs por lotes, reduce el número de workers de la app o habilita pooling. Una base de datos que no puede abrir archivos tampoco puede servir consultas.

Tareas prácticas: comandos, salidas y decisiones (12+)

Estas son las tareas que convierten “creo” en “sé”. Cada una incluye un comando, un snippet de salida realista, qué significa y qué decides a continuación.

Tarea 1: Confirma el proceso DB y el PID

cr0x@server:~$ ps -eo pid,comm,args | egrep 'mariadbd|mysqld|postgres' | head
  1287 mariadbd /usr/sbin/mariadbd
  2140 postgres  /usr/lib/postgresql/16/bin/postgres -D /var/lib/postgresql/16/main
  2142 postgres  postgres: checkpointer

Significado: Tienes MariaDB en PID 1287 y PostgreSQL postmaster en PID 2140 (más workers). Sabe cuál está fallando; no “arregles” ambos.

Decisión: Elige el/los PID(s) que inspeccionarás en pasos posteriores. Si el error está en la app, confirma qué endpoint DB está usando.

Tarea 2: Revisa max open files por proceso (el que suele morder)

cr0x@server:~$ cat /proc/1287/limits | egrep -i 'open files|max processes'
Max open files            1024                 1048576              files
Max processes             127636               127636               processes

Significado: El límite soft es 1024; el hard 1048576. MariaDB está con una dieta de inanición.

Decisión: Arregla la unidad del servicio o los límites PAM para que la BD arranque con un soft limit sensato (por ejemplo, 65535 o más según dimensionado). No subas solo el hard y lo olvides.

Tarea 3: Cuenta FDs abiertos actuales para un PID

cr0x@server:~$ ls -1 /proc/1287/fd | wc -l
1008

Significado: El proceso está cerca del techo de 1024. EMFILE es inminente o ya está ocurriendo.

Decisión: Remediación inmediata: reduce carga y prepara un reinicio con límites corregidos. También encuentra qué está consumiendo los FDs (próximas tareas).

Tarea 4: Identifica qué tipos de FDs están abiertos (archivos vs sockets)

cr0x@server:~$ ls -l /proc/1287/fd | awk '{print $11}' | sed -e 's/.*socket:.*/socket/' -e 's/.*pipe:.*/pipe/' -e 's/.*anon_inode:.*/anon_inode/' | sort | uniq -c | sort -nr | head
  612 socket
  338 /var/lib/mysql/db1/orders.ibd
   42 anon_inode
   16 pipe

Significado: Mayormente sockets y archivos de InnoDB. No es solo “demasiadas tablas” ni solo “demasiadas conexiones”. Es ambos.

Decisión: Investiga recuentos de conexiones y configuración de caché de tablas en paralelo. Arreglar solo un lado puede desplazar el cuello de botella.

Tarea 5: Revisa uso de manejadores a nivel sistema (presión global)

cr0x@server:~$ cat /proc/sys/fs/file-nr
38144	0	9223372036854775807

Significado: Los manejadores asignados a nivel sistema están bien; el límite global es efectivamente enorme. Esto es un problema por proceso, no global.

Decisión: Enfócate en límites de systemd/PAM y configuración de BD, no en kernel fs.file-max.

Tarea 6: Inspecciona límites del servicio systemd (el culpable oculto)

cr0x@server:~$ systemctl show mariadb -p LimitNOFILE -p LimitNPROC -p TasksMax
LimitNOFILE=1024
LimitNPROC=127636
TasksMax=4915

Significado: systemd está explicitando LimitNOFILE=1024. Puedes editar /etc/security/limits.conf todo lo que quieras; systemd seguirá ganando para servicios.

Decisión: Añade un override de systemd con un LimitNOFILE mayor y reinicia el servicio. Considera también TasksMax si estás en PostgreSQL con muchos backends.

Tarea 7: Aplica un override de systemd para MariaDB o PostgreSQL

cr0x@server:~$ sudo systemctl edit mariadb
# (opens editor)

cr0x@server:~$ sudo cat /etc/systemd/system/mariadb.service.d/override.conf
[Service]
LimitNOFILE=65535

Significado: Has establecido un nuevo límite de FDs a nivel de servicio. Esta es la capa correcta para servicios.

Decisión: Recarga systemd y reinicia MariaDB en una ventana controlada. Luego verifica /proc/<pid>/limits.

Tarea 8: Recargar systemd y validar que el nuevo límite está activo

cr0x@server:~$ sudo systemctl daemon-reload
cr0x@server:~$ sudo systemctl restart mariadb
cr0x@server:~$ systemctl show mariadb -p LimitNOFILE
LimitNOFILE=65535

Significado: El servicio ahora arranca con un techo de FDs mayor.

Decisión: Si aún ves EMFILE, no es que “el límite sea demasiado bajo”—es que la carga consume demasiados FDs. Continúa diagnosticando.

Tarea 9: MariaDB—revisa variables actuales de archivos abiertos y caché de tablas

cr0x@server:~$ mariadb -e "SHOW VARIABLES WHERE Variable_name IN ('open_files_limit','table_open_cache','table_definition_cache','innodb_open_files');"
+------------------------+--------+
| Variable_name          | Value  |
+------------------------+--------+
| innodb_open_files      | 2000   |
| open_files_limit       | 65535  |
| table_definition_cache | 4000   |
| table_open_cache       | 8000   |
+------------------------+--------+

Significado: MariaDB puede abrir muchos archivos y está configurada para mantener muchas tablas abiertas. Eso puede ser apropiado—o una optimización desmedida—dependiendo del número de tablas y la memoria.

Decisión: Compáralo con la realidad: número de tablas/particiones, patrón de acceso y uso de FDs. Si estás abriendo 30k archivos en estado estable, 65k puede estar bien; si estás en 60k y sigue subiendo, necesitas cambios de diseño.

Tarea 10: MariaDB—estima el conteo de tablas y explosión de particiones

cr0x@server:~$ mariadb -N -e "SELECT COUNT(*) FROM information_schema.tables WHERE table_schema NOT IN ('mysql','information_schema','performance_schema','sys');"
18432

Significado: Dieciocho mil tablas (o particiones representadas como tablas en metadata) es mucho. Cachés de tablas configuradas en 8000 pueden churnear o mantener miles abiertas, según el patrón de acceso.

Decisión: Si esto es una estrategia de particionado descontrolada, considera consolidar particiones, usar menos esquemas o desplazar datos de archivo fuera de la BD caliente. Si es legítimo, dimensiona límites y caches deliberadamente y monitoriza.

Tarea 11: PostgreSQL—revisa max connections y sesiones activas

cr0x@server:~$ sudo -u postgres psql -c "SHOW max_connections; SELECT count(*) AS current_sessions FROM pg_stat_activity;"
 max_connections 
-----------------
 800
(1 row)

 current_sessions 
------------------
 742
(1 row)

Significado: Estás cerca del tope de conexiones configurado. Cada conexión es un proceso. Incluso si los límites de FDs son altos, esto huele a “presión de recursos”.

Decisión: Si la app abre cientos de conexiones inactivas, implementa pooling (PgBouncer en transaction mode es la elección adulta habitual) y reduce max_connections a un número que puedas sostener.

Tarea 12: PostgreSQL—revisa rápidamente uso de FDs por backend

cr0x@server:~$ for p in $(pgrep -u postgres -d ' ' postgres); do printf "%s " "$p"; ls -1 /proc/$p/fd 2>/dev/null | wc -l; done | sort -k2 -n | tail
3188 64
3191 68
3201 71
3210 74
3222 91

Significado: Los backends no son consumidores individuales enormes de FDs (docenas cada uno), pero multiplicados por 700 sesiones aún suman muchos sockets y manejadores internos entre procesos.

Decisión: Si el postmaster o un subsistema compartido está alcanzando un límite, aumenta LimitNOFILE del servicio. Si el sistema está generalmente sobrecargado, arregla la estrategia de conexiones primero.

Tarea 13: PostgreSQL—encuentra presión por archivos temporales (spills)

cr0x@server:~$ sudo -u postgres psql -c "SELECT datname, temp_files, temp_bytes FROM pg_stat_database ORDER BY temp_bytes DESC LIMIT 5;"
  datname  | temp_files |  temp_bytes  
-----------+------------+--------------
 appdb     |      18233 | 429496729600
 postgres  |          0 |            0
 template1 |          0 |            0
 template0 |          0 |            0
(4 rows)

Significado: Muchos archivos temporales y cientos de GB volcados desde el reset de estadísticas. Esto se correlaciona con churn de FDs y tormentas de I/O en consultas pesadas.

Decisión: Identifica consultas que provocan spills, ajusta work_mem cuidadosamente y/o reduce concurrencia/paralelismo. Menos spills reducen archivos temporales y manejadores abiertos.

Tarea 14: Ver quién más consume FDs (procesos top)

cr0x@server:~$ for p in $(ps -e -o pid=); do n=$(ls -1 /proc/$p/fd 2>/dev/null | wc -l); echo "$n $p"; done | sort -nr | head
18421 1287
 2290 1774
 1132  987
  640 2140

Significado: MariaDB es la que más consume FDs (18421). El postmaster de PostgreSQL está mucho más abajo. Probablemente el incidente es relacionado con MariaDB, no “el host”.

Decisión: Enfoca la solución. Si un shipper de logs o proxy ocupa el segundo lugar, inspecciónalo también—a veces el “problema BD” es un sidecar mal comportado.

Tarea 15: Revisa mensajes del kernel por fallos relacionados con FDs

cr0x@server:~$ sudo dmesg -T | tail -n 10
[Wed Dec 31 02:13:51 2025] mariadbd[1287]: EMFILE: too many open files
[Wed Dec 31 02:13:52 2025] mariadbd[1287]: error opening file ./db1/orders.ibd (errno: 24)

Significado: Confirmación clara: errno 24 (EMFILE). No es un error de almacenamiento; es un límite de FDs.

Decisión: Trátalo como un problema de capacidad/configuración. No pierdas tiempo en chequeos de filesystem salvo que veas errores de I/O.

Tres micro-historias del mundo corporativo

Micro-historia 1: El incidente causado por una suposición equivocada

Migraron un monolito a “servicios”, mantuvieron el mismo backend MariaDB y celebraron la primera semana de dashboards verdes. El equipo de servicios tenía una costumbre ordenada: cada servicio mantenía un pool cálido de conexiones “por rendimiento”. Nadie coordinó; todos hicieron lo que funcionó localmente.

En el cierre de mes, corrió un job por lotes que tocó un gran conjunto de tablas. Mientras tanto, los servicios mantenían su actividad—más tormentas de reintentos porque la latencia subió. MariaDB comenzó a lanzar “Too many open files”. El ingeniero de guardia asumió que era un límite del kernel y subió fs.file-max. El error continuó.

El verdadero limitador fue LimitNOFILE=1024 en systemd para el servicio MariaDB. Y aun después de aumentarlo, el servidor siguió en zona de peligro porque el conteo de conexiones se había duplicado, elevando los FDs de sockets. La “asunción equivocada” fue creer que el ajuste a nivel de sistema anularía límites a nivel de servicio, y que los pools de conexiones son gratis.

Lo arreglaron correctamente: pusieron LimitNOFILE explícito, dimensionaron caches de MariaDB a valores realistas e introdujeron un layer de pooling adecuado en el borde de la app. También hicieron una regla: los tamaños de pool deben presupuestarse como memoria—porque lo son, y también lo son los descriptores de archivo.

Micro-historia 2: La optimización que salió mal

Otra compañía corría PostgreSQL y tenía un problema crónico de latencia en consultas analíticas. Un ingeniero bienintencionado aumentó settings de consultas paralelas y subió algunos knobs del planner. El primer benchmark se vio genial. Todos aplaudieron, en voz baja.

Luego llegó la carga real: muchos usuarios de reporting concurrentes, cada uno ejecutando consultas que volcaron a disco. Los workers paralelos multiplicaron el número de creadores de archivos temporales. Los archivos temporales explotaron. El I/O se disparó. Y sí, el uso de FDs subió porque cada worker abrió su propio set de archivos.

El fallo no fue “too many open files” inmediato cada vez. Fue intermitente: algunas sesiones fallaban, algunas consultas se colgaban y la app hacía timeouts. La línea temporal del incidente fue un desastre porque el síntoma pareció “almacenamiento lento”, luego “malos planes”, y finalmente “flakiness aleatoria del SO”.

La optimización salió mal porque aumentó concurrencia en el peor sitio: dentro del motor DB, durante operadores con muchos spills. La solución fue reducir el paralelismo, subir work_mem con cuidado para el rol de reporting y aplicar límites de conexiones para ese tier. El rendimiento mejoró y los picos de FDs dejaron de ser un evento.

Micro-historia 3: La práctica aburrida pero correcta que salvó el día

Un equipo tenía un estándar operativo que sonaba soso: cada host de BD tenía un presupuesto de FDs documentado, con alarmas al 60% y 80% del límite efectivo por servicio. También registraban “top consumidores de FDs” como métrica periódica, no sólo durante incidentes.

Pareció burocracia hasta que una actualización de aplicación de un proveedor desplegó un cambio sutil: abría una nueva conexión por petición cuando cierta feature flag se activaba. El conteo de conexiones subió gradualmente durante una semana. Aún no había outage—solo un aumento continuo de sockets.

La alerta del 60% saltó en horario laboral. Investigaron sin presión, vieron la tendencia y la relacionaron con la feature flag. La revirtieron, luego implementaron PgBouncer y limitaron la creación de conexiones en la app.

No pasó nada en llamas. Nadie tuvo que explicar una caída evitable a finanzas. Fue el informe de SRE menos emocionante que hayan presentado, que es el mayor cumplido que puedes darle a una práctica.

La solución real: dimensionado, límites y las perillas que realmente importan

“Subir ulimit” es la aspirina. A veces necesitas aspirina. Pero si tomas aspirina todos los días, no estás tratando la enfermedad.

Paso 1: Establece límites sensatos en SO/servicio (capa correcta, persistencia correcta)

Para despliegues Linux modernos, la verdad es: systemd es la fuente de la realidad para servicios. Configura LimitNOFILE en un drop-in override para el servicio de base de datos. Verifica después del reinicio vía /proc/<pid>/limits.

Elige un número con intención:

Servidores pequeños (instancia única, esquema moderado): 65535 es una base común.
MariaDB grande con muchas tablas/particiones o alta concurrencia: 131072+ puede ser razonable.
PostgreSQL con pooling y conexiones controladas: puede que no necesites valores enormes, pero no lo dejes en 1024. Eso es sabotaje deliberado.

Además: evita ponerlo a “infinito” solo porque puedes. Cada FD tiene overhead en el kernel. Y límites enormes esconden fugas hasta que se convierten en catástrofes.

Paso 2: Reduce la demanda real de FDs

Aquí es donde MariaDB y PostgreSQL divergen en la práctica.

MariaDB: deja de acumular tablas como si fuera 2009

MariaDB puede mantener miles de tablas abiertas si se lo dices. Si tu esquema tiene decenas de miles de tablas/particiones, “mantener muchas abiertas” se convierte en un riesgo estructural.

Qué hacer:

Dimensiona correctamente table_open_cache y table_definition_cache. Más grande no siempre es mejor. Si no tienes memoria suficiente para mantener metadata y handlers calientes, solo cambiarás el tipo de thrash.
Configura open_files_limit y innodb_open_files de forma coherente. No dejes uno pequeño y otro gigante. Así te creas falsa confianza de “debería funcionar”.
Vigila la explosión de particiones. Miles de particiones se sienten ordenadas hasta que se convierten en problema de FDs y de planificación de consultas.

PostgreSQL: arregla conexiones primero, luego spills

La victoria fácil en FDs para PostgreSQL no es un knob de FDs. Es pooling de conexiones. Si estás exponiendo cientos o miles de sesiones cliente directamente a Postgres, tratas la base de datos como un servidor web. No lo es.

Qué hacer:

Usa un pooler (PgBouncer es la elección común) y reduce max_connections a un número sostenible.
Arregla tormentas de reintentos. Si los clientes se reconectan agresivamente en errores transitorios, pueden crear tormentas de sockets que empujen los FDs al límite.
Reduce spills temporales. Los spills crean archivos temporales; los archivos temporales consumen FDs durante su vida. Ajusta memoria por clase de carga y reduce fan-out de workers paralelos si genera más concurrencia de spills de la que puedes manejar.

Broma #2: Poner LimitNOFILE a un millón es como comprar un armario más grande en vez de tirar tu colección de swag de conferencias.

Paso 3: Valida que no acabas de mover el cuello de botella

Después de subir límites y reducir demanda, revisa los siguientes modos de fallo:

Presión de memoria: más conexiones y caches significan más RSS. Vigila el swap como un halcón; hacer swap con una base de datos es un cosplay de rendimiento.
CPU y cambio de contexto: demasiados backends de PostgreSQL pueden fundir CPU sin que haya una consulta “mala”.
Disco y uso de inodos: uso intensivo de archivos temporales puede consumir inodos y espacio en disco rápido, especialmente en volúmenes root pequeños.
Límites del kernel más allá de nofile: max processes, límite de pids de cgroup, agotamiento de puertos efímeros (lado cliente) y ajustes de backlog de red.

Errores comunes: síntoma → causa raíz → solución

Esta sección es intencionalmente directa. La mayoría de incidentes EMFILE son autoinfligidos, solo que no por la persona que ahora tiene el pager.

Error 1: “Subimos fs.file-max, ¿por qué no funcionó?”

Síntoma: “Too many open files” continúa después de subir /proc/sys/fs/file-max.

Causa raíz: El límite por proceso/servicio (RLIMIT_NOFILE) sigue bajo, a menudo impuesto por systemd.

Solución: Establece LimitNOFILE en el override de la unidad systemd, reinicia la BD y valida vía /proc/<pid>/limits.

Error 2: “Pusimos ulimit en /etc/security/limits.conf; sigue roto”

Síntoma: En sesiones de shell manuales ves un ulimit -n alto, pero el servicio no lo hereda.

Causa raíz: Los límites PAM afectan a sesiones de login; los servicios systemd no los heredan igual.

Solución: Configura la unidad systemd. Trata los límites PAM como relevantes para sesiones interactivas, no para daemons.

Error 3: “Aumentamos table_open_cache; ahora tenemos EMFILE” (MariaDB)

Síntoma: MariaDB da errores al abrir tablas; los logs muestran errno 24; el recuento de FDs sigue subiendo.

Causa raíz: Caché de tablas demasiado grande para el esquema/patrón de trabajo; el servidor intenta mantener demasiados handlers de tablas abiertos.

Solución: Reduce table_open_cache a un valor medido, aumenta LimitNOFILE para coincidir con necesidades realistas y afronta el conteo de tablas/particiones.

Error 4: “Postgres puede manejar 2000 conexiones, está bien”

Síntoma: Fallos de conexión aleatorios, carga alta, a veces EMFILE, a veces solo timeouts.

Causa raíz: Demasiados procesos backend; uso de FDs y overhead de memoria escalan con sesiones; los picos empujan los límites.

Solución: Añade pooling, reduce max_connections y aplica presupuestos de conexión por servicio.

Error 5: “La BD está fugando FDs” (cuando en realidad son tormentas de temporales)

Síntoma: El recuento de FDs se dispara durante ciertas consultas/lotes y luego vuelve a bajar.

Causa raíz: Archivos temporales por spills y paralelismo crean picos transitorios de FDs.

Solución: Identifica consultas spill-heavy; ajusta memoria/paralelismo; programa batches; limita concurrencia.

Error 6: “Es el almacenamiento” (cuando en realidad son descriptores)

Síntoma: Las consultas fallan al abrir archivos; la gente sospecha corrupción de filesystem o discos lentos.

Causa raíz: errno 24 (EMFILE) no es un error de I/O; es un límite de FDs.

Solución: Confirma errno vía logs/dmesg; revisa /proc limits; ajusta settings de servicio y base de datos.

Error 7: “Lo arreglamos reiniciando”

Síntoma: Reiniciar resuelve temporalmente; vuelve bajo carga.

Causa raíz: Reiniciar resetea uso de FDs y caches; la demanda subyacente no cambió.

Solución: Haz el trabajo de dimensionado: límites + estrategia de conexiones + sensatez en caches de esquema + monitorización.

Listas de comprobación / plan paso a paso

Checklist A: Estabilización de emergencia (15–30 minutos)

Confirma si es MariaDB o PostgreSQL quien lanza EMFILE (logs + PID).
Revisa /proc/<pid>/limits para Max open files.
Cuenta FDs abiertos: ls /proc/<pid>/fd | wc -l.
Clasifica tipos de FD: sockets vs archivos de tablas vs archivos temporales.
Si el límite del servicio es bajo, aplica override de systemd (LimitNOFILE) y programa un reinicio controlado.
Limita: reduce concurrencia de workers de la app, pausa jobs pesados y desactiva tormentas de reintentos si es posible.
Tras reiniciar, valida que el límite se aplicó y que el uso de FDs se estabiliza por debajo del 60% del límite.

Checklist B: Causa raíz y solución durable (mismo día)

Documenta uso base de FDs en reposo, pico normal y pico máximo.
Para MariaDB: inventaria conteo de tablas/particiones; revisa table_open_cache, open_files_limit, innodb_open_files.
Para PostgreSQL: mide recuentos de conexiones a lo largo del tiempo; identifica qué clientes crean más sesiones; despliega pooling.
Revisa estadísticas de archivos temporales y consultas lentas; correlaciona picos de FDs con horarios de batches.
Configura alertas sobre uso de FDs por PID de BD y sobre recuentos de conexiones.
Ejecuta una prueba de carga controlada para confirmar la solución bajo concurrencia realista y huella de esquema.

Checklist C: Prevención (aquí ganan los adultos)

Crea un presupuesto de descriptores por entorno: dev, staging, producción.
Aplica presupuestos de conexión por servicio. No hay excepciones sin revisión.
Monitorea crecimiento de esquema (tablas, particiones, índices) como métrica de capacidad de primera clase.
Haz que los overrides de systemd sean parte del control de configuración, no conocimiento tribal.
Prueba failover y comportamiento de reinicio con los límites elegidos para asegurar recuperación rápida.

Preguntas frecuentes

1) ¿Siempre es culpa de la base de datos “Too many open files”?

No. A menudo lo dispara la BD, pero puede ser un proxy (como HAProxy), un shipper de logs, un agente de backup o incluso el servidor de aplicaciones agotando sus propios FDs y reportándolo mal.

2) ¿Cuál es la diferencia entre EMFILE y ENFILE?

EMFILE significa que el proceso alcanzó su límite de FDs por proceso. ENFILE significa que el sistema alcanzó su límite global de manejadores de archivos. La mayoría de incidentes de BD son EMFILE.

3) ¿Por qué systemd ignora mis cambios en `/etc/security/limits.conf`?

Los límites PAM aplican generalmente a sesiones de login. Los servicios systemd usan sus propios límites a menos que se configuren. Arregla la unidad con LimitNOFILE.

4) ¿Cuál es un `LimitNOFILE` razonable para MariaDB?

Empieza con 65535 si no sabes. Luego dimensiona según: conexiones (sockets), tablas/particiones abiertas, archivos temporales y FDs para logs/auxiliares. Si tienes conteos enormes de particiones, puede que necesites 131072 o más—pero entonces deberías cuestionar por qué tienes tantas particiones.

5) ¿Cuál es un `LimitNOFILE` razonable para PostgreSQL?

A menudo 65535 es un buen punto de partida. La mayor mejora es controlar conexiones y reducir tormentas de archivos temporales. Si necesitas recuentos masivos de FDs para Postgres, probablemente tienes concurrencia descontrolada o churn extremo de relaciones.

6) ¿Puedo simplemente aumentar `max_connections` para arreglar errores de conexión?

Puedes, pero así cambias “conexión rehusada” por “servidor en llamas”. Para PostgreSQL, usa pooling y mantiene max_connections dentro de lo que memoria y CPU puedan manejar.

7) ¿Por qué veo muchos sockets en las listas de FDs?

Porque cada conexión cliente es un FD de socket. Si los sockets dominan, céntrate en recuentos de conexiones, pooling y comportamiento de reintentos. Si los archivos regulares dominan, céntrate en comportamiento de cache de tablas, huella de esquema y churn de archivos temporales.

8) ¿Subir límites de FDs tiene desventajas?

Sí. Límites más altos facilitan que una fuga o una carga desbocada consuman más recursos del kernel antes de fallar. Fallarás más tarde, posiblemente con mayor impacto. Sube límites pero también reduce demanda y monitoriza.

9) ¿Cómo diferencio fuga de pico?

Si el uso de FDs sube de forma sostenida y no baja tras bajar la carga, sospecha fuga o comportamiento de caché que mantiene cosas abiertas indefinidamente. Si se dispara durante un batch o surge de tráfico y luego vuelve a la base, es un pico de concurrencia/capacidad.

10) ¿Realmente importan las particiones para los FDs?

Sí. En ambos ecosistemas, las particiones aumentan el número de objetos tipo relación. Más objetos pueden significar más metadata, más manejadores abiertos y más overhead de planificación/mantenimiento. El particionado es una herramienta, no una personalidad.

Siguientes pasos prácticos

Si estás en medio de un incidente: aplica la guía rápida de diagnóstico, arregla el límite de FDs a nivel de servicio y limita la concurrencia. Eso te dará aire para respirar.

Luego haz el trabajo de adultos:

Mide uso de FDs por tipo (sockets vs archivos) y por estado estable vs picos.
MariaDB: dimensiona caches de tablas y afronta crecimiento de esquema/particiones; alinea open_files_limit y innodb_open_files con límites del SO.
PostgreSQL: pool de conexiones, reduce max_connections y ataca spills temporales ajustando memoria/paralelismo y arreglando las peores consultas.
Monitoriza uso de FDs y pon alertas antes de que llegues al borde. El borde no es una oportunidad de aprendizaje; es un generador de downtime.

Bucle de inicio de sesión de WordPress: te devuelve al login — Cómo solucionarlo

Escribes la contraseña correcta. WordPress sonríe cortésmente… y te devuelve directamente a la pantalla de inicio de sesión. Sin error. Sin explicación. Solo un bucle interminable entre wp-login.php y wp-admin/, como si tu sitio te estuviera haciendo gaslighting.

Esto normalmente no es “un bug de WordPress”. Es WordPress haciendo exactamente lo que debe: negarse a considerarte autenticado porque las cookies, redirecciones, HTTPS, caché o el manejo de sesiones están rotos en alguna parte de la cadena. El truco es dejar de adivinar y seguir la evidencia.

Playbook de diagnóstico rápido (comprueba esto primero)

Si solo tienes cinco minutos antes de que alguien importante pregunte por qué no puede publicar la entrada del CEO, haz esto en orden. Esta secuencia encuentra el cuello de botella rápido porque sigue la ruta de autenticación: navegador → caché de borde → proxy inverso → PHP → base de datos.

1) Confirma si las cookies se están estableciendo y devolviendo

Comprueba: ¿Recibe el navegador Set-Cookie después de enviar las credenciales por POST?
Luego: ¿Incluye la siguiente petición a /wp-admin/ esa cookie?
Por qué: Un “bucle” de login suele ser WordPress diciendo “no recibí una cookie de autenticación válida”, así que te devuelve al login.

2) Confirma que tu URL canónica y el esquema son consistentes

Comprueba: ¿Estás rebotando entre http y https o entre www y el dominio raíz?
Por qué: Las cookies están limitadas por dominio y esquema. Si tu POST de login ocurre en una variante y el admin carga en otra, la cookie puede no aplicarse.

3) Evita cachés y capas de seguridad

Comprueba: ¿Está un caché de borde, WAF, plugin de “rendimiento” o proxy inverso cachéando wp-login.php o manipulando cabeceras?
Por qué: Los endpoints de autenticación son dinámicos. Cachéarlos es como poner un letrero en tu puerta que diga “a veces abierta”.

4) Desactiva plugins de forma segura, luego temas

Comprueba: ¿Desaparece el problema con los plugins desactivados?
Por qué: Un plugin de “seguridad” o de “consentimiento de cookies” puede romper la autenticación de maneras creativas.

5) Valida sesiones del lado del servidor, PHP y escrituras en la BD

Comprueba: ¿Está PHP escribiendo sesiones? ¿La BD es escribible? ¿Hay errores fatales?
Por qué: Si WordPress no puede establecer estado relacionado con la autenticación (o tienes rarezas con el object cache), no puede mantener tu sesión iniciada.

Cómo funciona realmente el flujo de inicio de sesión de WordPress (para que dejes de luchar con fantasmas)

El inicio de sesión de WordPress se basa en cookies. Cuando envías credenciales a wp-login.php, WordPress:

Valida usuario/contraseña (o SSO) y comprueba el estado/capacidades del usuario.
Emite cookies de autenticación: típicamente wordpress_logged_in_* y wordpress_sec_* (los nombres varían según hash/salt y ajustes).
Te redirige (302) a /wp-admin/ o a una ruta objetivo.
En la siguiente petición, WordPress lee las cookies, las valida contra los salts y el registro del usuario, y o bien permite el acceso o te redirige de vuelta al login.

Un “bucle de login” significa una de tres cosas:

La cookie nunca se estableció (bloqueada, eliminada, respuesta cacheada, cabeceras erróneas).
La cookie se estableció pero nunca se envió de vuelta (incompatibilidad de dominio, flag secure, path, problemas de SameSite en ciertos flujos).
La cookie se envió pero fue rechazada (salts malos tras una migración, inconsistencia BD/object cache, desajuste de hora, meta de usuario raro, plugin de autenticación personalizado).

Un mantra práctico: trátalo como depuración de sistemas distribuidos. Hay múltiples capas, y cualquiera de ellas puede “amablemente” reescribir tu petición hacia el fracaso.

Idea parafraseada de un experto en fiabilidad: parafraseando la idea — “La esperanza no es una estrategia.” — atribuido a Gene Kranz (mentalidad de operaciones de misión).

Broma #1: Un bucle de inicio de sesión de WordPress es el único cardio que algunos hacemos en el día laboral. No es un buen programa de bienestar.

Hechos interesantes y contexto histórico (breve y útil)

Hecho 1: WordPress usa autenticación basada en cookies desde las primeras versiones; los nombres de cookie incluyen hashes derivados de la configuración del sitio y salts de seguridad, por eso las migraciones pueden “romper aleatoriamente” los inicios de sesión.
Hecho 2: El endpoint wp-login.php es una de las URL públicas más atacadas en internet; muchas pilas de hosting añaden reglas WAF o limitación de tasa que pueden interferir sutilmente con inicios de sesión legítimos.
Hecho 3: El área de administración depende fuertemente de redirecciones (host canónico, forzamiento SSL, ubicación del admin). Una mala configuración de redirecciones produce bucles más rápido que casi cualquier otro bug del sitio.
Hecho 4: Los navegadores han endurecido el manejo de cookies con el tiempo (destacando por los defaults de SameSite), lo que puede romper flujos de login que involucren POSTs entre sitios o callbacks de IdP externos si no se configuran las cookies correctamente.
Hecho 5: Muchos CDNs con política “cache todo” enviaron por defecto reglas ingenuas; las configuraciones modernas normalmente excluyen wp-admin y wp-login.php, pero aún se misconfigura constantemente.
Hecho 6: WordPress almacena las URLs canónicas (home y siteurl) en la base de datos, pero permite sobrescribirlas vía wp-config.php. Los conflictos entre ambas son un generador clásico de bucles.
Hecho 7: Un proxy inverso (balanceador, CDN, ingress) altera el significado de “esto es HTTPS” a menos que las cabeceras reenviadas sean correctas; WordPress usa eso para decidir flags de cookie seguras y destinos de redirección.
Hecho 8: El object caching (Redis/Memcached) puede hacer que la autenticación parezca “embrujada” cuando valores obsoletos persisten tras despliegues o cuando varios servidores de aplicación discrepan en salts/config.

Causas reales del bucle de inicio de sesión (ordenadas por frecuencia)

1) Desajuste de URL, host o HTTPS (la cinta de correr de redirecciones canónicas)

WordPress quiere una URL verdadera para el sitio. Si tu pila sirve múltiples variantes—http, https, con/sin www, quizá un dominio alternativo—el POST de login puede ocurrir en una variante, pero la redirección a /wp-admin/ aterriza en otra. Las cookies no viajan como quisieras.

Desencadenantes comunes:

home y siteurl configurados de forma distinta (uno http, otro https).
HTTPS forzado en el balanceador, pero WordPress cree que está en HTTP.
Reglas de redirección en Nginx/Apache que compiten con las redirecciones canónicas de WordPress.

2) Cookies bloqueadas, eliminadas o con alcance incorrecto

Si las cookies no se establecen o no se devuelven, WordPress no puede mantener tu sesión. Causas incluyen:

Proxy/CDN que elimina cabeceras Set-Cookie por “cacheabilidad”.
Incompatibilidad de dominio/path tras un cambio de dominio.
Cookies seguras sobre HTTPS que no funcionan porque WordPress no detecta HTTPS (así que establece cookies no seguras y luego te redirigen a HTTPS y no las aceptan como se espera).
Plugins de consentimiento de cookies o de seguridad que reescriben cabeceras de forma errática.

3) Caché (edge, plugin, servidor) que cachea lo incorrecto

Es impresionante cuántas configuraciones de rendimiento intentan cachear páginas de login. Si la respuesta de login o la redirección está cacheada, distintos usuarios empiezan a compartir el mismo estado roto. Además, si un caché elimina cookies, la autenticación falla sin señales visibles.

4) Conflictos de plugins/tema, especialmente seguridad y SSO

Plugins de seguridad, puentes SSO, plugins de 2FA y paquetes tipo “desactivar XML-RPC” suelen engancharse en filtros de autenticación. Una actualización mala puede introducir una regla de redirección que nunca completa.

5) Salts/keys rotos tras migración o deriva de configuración entre servidores

WordPress firma las cookies de autenticación con salts y keys en wp-config.php. Si los cambias, las cookies existentes quedan inválidas (lo cual está bien), pero si tienes múltiples servidores de aplicación con salts distintos, los usuarios se desconectan o entran en bucle según a qué backend lleguen.

6) Desajuste de hora o rarezas de terminación TLS

Las cookies de autenticación contienen expiración. Si la hora del sistema está mal (deriva de VM, issues en contenedor, NTP roto), las cookies pueden parecer expiradas inmediatamente. Menos común, pero espectacular cuando ocurre.

7) Fallos de escritura en base de datos o sistema de archivos y errores fatales sutiles

La autenticación de WordPress depende de lecturas/escrituras en la BD y de que PHP complete las peticiones. Si PHP falla de forma fatal después de establecer una redirección, o la BD está en solo-lectura, puedes acabar en un bucle sin apenas errores visibles para el usuario. Revisa los logs en serio.

Tareas prácticas: comandos, salidas y decisiones (12+)

Estas son tareas prácticas que puedes ejecutar en un host Linux típico. Ajusta rutas si tu distribución o diseño difiere. Cada tarea incluye: comando, qué significa la salida y la decisión siguiente.

Task 1: Reproducir la cadena de redirecciones desde el servidor

cr0x@server:~$ curl -I -L https://example.com/wp-admin/ | sed -n '1,40p'
HTTP/2 302
location: https://example.com/wp-login.php?redirect_to=https%3A%2F%2Fexample.com%2Fwp-admin%2F&reauth=1
set-cookie: wp-wpml_current_language=en; path=/
server: nginx

HTTP/2 200
content-type: text/html; charset=UTF-8
cache-control: no-store, no-cache, must-revalidate, max-age=0

Qué significa: Un solo 302 al login es normal si no estás autenticado. Si ves 302s repetidos rebotando entre wp-login.php y wp-admin, tienes un bucle.

Decisión: Si el bucle aparece aquí sin un navegador, estás tratando con lógica de redirección del lado del servidor o problemas de URL canónica — no “mi navegador está raro”.

Task 2: Comprobar si las respuestas de la página de login están siendo cacheadas por un proxy/CDN

cr0x@server:~$ curl -I https://example.com/wp-login.php | egrep -i 'cache|age|cf-cache-status|x-cache|via|set-cookie'
cache-control: no-store, no-cache, must-revalidate, max-age=0
set-cookie: wordpress_test_cookie=WP%20Cookie%20check; path=/; secure; HttpOnly

Qué significa: Quieres no-store o una cabecera de caché restrictiva similar. Si ves cabeceras como x-cache: HIT o un estado de caché del CDN mostrando un hit, es sospechoso.

Decisión: Si está cacheado, configura el CDN/proxy inverso para evitar caché en /wp-login.php y /wp-admin/*, y para que nunca elimine Set-Cookie.

Task 3: Confirmar URLs canónicas de WordPress (WP-CLI)

cr0x@server:~$ cd /var/www/html
cr0x@server:/var/www/html$ wp option get home
https://example.com
cr0x@server:/var/www/html$ wp option get siteurl
http://example.com

Qué significa: Ese desajuste (https vs http) es un disparador clásico de bucle.

Decisión: Establece ambos con el mismo esquema y host. Elige una URL canónica y mantente en ella.

Task 4: Arreglar `home` y `siteurl` de forma segura

cr0x@server:/var/www/html$ wp option update home 'https://example.com'
Success: Updated 'home' option.
cr0x@server:/var/www/html$ wp option update siteurl 'https://example.com'
Success: Updated 'siteurl' option.

Qué significa: WordPress generará cookies/redirecciones basadas en estos valores.

Decisión: Vuelve a probar el login. Si sigue en bucle, pasa a detección de HTTPS y cabeceras de proxy.

Task 5: Comprobar si WordPress cree que la petición es HTTPS (detrás de un proxy)

cr0x@server:~$ grep -R "HTTPS" -n /var/www/html/wp-config.php | head
# (no output)

Qué significa: No hay forzado explícito de HTTPS a nivel de aplicación. Eso está bien si las cabeceras del proxy son correctas, pero es arriesgado cuando no lo son.

Decisión: Si terminas TLS en un balanceador y reenvías a PHP por HTTP, asegúrate de que X-Forwarded-Proto esté presente y sea respetado, o establece $_SERVER['HTTPS']='on' condicionalmente en wp-config.php.

Task 6: Verificar cabeceras reenviadas en Nginx (culpable común)

cr0x@server:~$ sudo nginx -T 2>/dev/null | egrep -n "X-Forwarded-Proto|X-Forwarded-For|fastcgi_param"
112:    proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
113:    proxy_set_header X-Forwarded-Proto $scheme;
210:    fastcgi_param HTTPS $https if_not_empty;

Qué significa: Si estás detrás de un proxy, $scheme podría ser http entre proxy y origen incluso cuando el cliente usó HTTPS. Eso hace que WordPress crea que está en HTTP.

Decisión: Configura correctamente el forwarded proto desde el borde (LB → origen). A menudo quieres que Nginx confíe en X-Forwarded-Proto de tu LB y lo pase a PHP.

Task 7: Inspeccionar cabeceras de respuesta por cookies faltantes/reescritas

cr0x@server:~$ curl -s -D - https://example.com/wp-login.php -o /dev/null | sed -n '1,40p'
HTTP/2 200
date: Fri, 27 Dec 2025 11:20:00 GMT
content-type: text/html; charset=UTF-8
set-cookie: wordpress_test_cookie=WP%20Cookie%20check; path=/; secure; HttpOnly

Qué significa: Estás recibiendo Set-Cookie al menos para la cookie de prueba. Tras enviar credenciales deberías ver también cookies de autenticación.

Decisión: Si Set-Cookie desaparece solo en el POST, sospecha de reglas WAF, caché o un plugin que falla a mitad de respuesta.

Task 8: Hacer POST a wp-login.php y comprobar cookies auth (simulación servidor-side)

cr0x@server:~$ curl -s -D - -o /dev/null -X POST https://example.com/wp-login.php \
  -d "log=admin&pwd=wrongpassword&wp-submit=Log+In&redirect_to=https%3A%2F%2Fexample.com%2Fwp-admin%2F&testcookie=1" | egrep -i 'HTTP/|set-cookie:|location:'
HTTP/2 200
set-cookie: wordpress_test_cookie=WP%20Cookie%20check; path=/; secure; HttpOnly

Qué significa: Con credenciales equivocadas no obtendrás cookies de autenticación; deberías obtener un 200 con la página de error.

Decisión: Si ni siquiera credenciales correctas producen cookies auth (verías líneas adicionales de set-cookie), pasa a logs de PHP y aislamiento de plugins.

Task 9: Revisar PHP-FPM y logs web por fatales relacionados con auth

cr0x@server:~$ sudo tail -n 80 /var/log/php8.2-fpm.log
[27-Dec-2025 11:18:32] WARNING: [pool www] child 2147 said into stderr: "PHP Warning:  Cannot modify header information - headers already sent by (output started at /var/www/html/wp-content/plugins/foo/foo.php:12) in /var/www/html/wp-includes/pluggable.php on line 1428"

Qué significa: “Headers already sent” puede impedir que se establezcan cookies. Sin cookies, no hay login. Ese archivo de plugin imprimió algo (incluso espacios) antes de que WordPress pudiera enviar cabeceras.

Decisión: Desactiva el plugin culpable. Luego arréglalo correctamente (o reemplázalo) porque esto volverá a ocurrir.

Task 10: Desactivar plugins sin necesitar wp-admin

cr0x@server:~$ cd /var/www/html
cr0x@server:/var/www/html$ wp plugin deactivate --all
Success: Deactivated 14 of 14 plugins.

Qué significa: Has eliminado la interferencia de plugins de la ecuación.

Decisión: Vuelve a probar el login. Si se arregla, vuelve a activar plugins uno por uno para hallar al culpable (sí, es tedioso; sí, es más rápido que adivinar).

Task 11: Cambiar a un tema por defecto para eliminar hacks de autenticación a nivel de tema

cr0x@server:/var/www/html$ wp theme list
+----------------+----------+--------+---------+
| name           | status   | update | version |
+----------------+----------+--------+---------+
| twentytwentyfour | inactive | none   | 1.2     |
| corp-theme     | active   | none   | 4.8.1   |
+----------------+----------+--------+---------+
cr0x@server:/var/www/html$ wp theme activate twentytwentyfour
Success: Switched to 'Twenty Twenty-Four' theme.

Qué significa: Si tu tema tiene redirecciones de login personalizadas, hooks SSO o buffering de salida roto, esto lo aísla.

Decisión: Si esto arregla el bucle, tu “hermoso tema corporativo” ahora es un incidente de producción. Trátalo en consecuencia.

Task 12: Comprobar deriva de configuración de salts/keys entre servidores (diff rápido)

cr0x@server:~$ sudo egrep "AUTH_KEY|SECURE_AUTH_KEY|LOGGED_IN_KEY|NONCE_KEY" -n /var/www/html/wp-config.php
54:define('AUTH_KEY',         '...a...');
55:define('SECURE_AUTH_KEY',  '...b...');
56:define('LOGGED_IN_KEY',    '...c...');
57:define('NONCE_KEY',        '...d...');

Qué significa: Estos valores deben ser idénticos en todos los servidores de aplicación detrás de un balanceador.

Decisión: Si tienes múltiples orígenes, verifica que coincidan en todos. Si no, arregla el despliegue para que la configuración sea consistente.

Task 13: Comprobar hora del sistema y sincronización NTP (salud de expiración de cookies)

cr0x@server:~$ timedatectl
               Local time: Fri 2025-12-27 11:20:44 UTC
           Universal time: Fri 2025-12-27 11:20:44 UTC
                 RTC time: Fri 2025-12-27 11:20:44
                Time zone: Etc/UTC (UTC, +0000)
System clock synchronized: yes
              NTP service: active
          RTC in local TZ: no

Qué significa: Si los relojes están desincronizados o NTP está inactivo, las cookies pueden parecer inmediatamente expiradas.

Decisión: Si no está sincronizado, arregla la hora primero. No depures autenticación en un servidor que no puede ponerse de acuerdo sobre “ahora”.

Task 14: Comprobar salud del cache de objetos Redis (si se usa)

cr0x@server:~$ redis-cli ping
PONG
cr0x@server:~$ redis-cli info | egrep "used_memory_human|maxmemory_human|evicted_keys"
used_memory_human:312.45M
maxmemory_human:512.00M
evicted_keys:18422

Qué significa: Muchas expulsiones pueden causar comportamiento extraño. No siempre bucles de login, pero puede desestabilizar valores de auth en algunas configuraciones.

Decisión: Si la expulsión es alta, aumenta la memoria del caché o reduce uso. También confirma que el plugin de object cache es apropiado y está configurado.

Task 15: Confirmar que la BD es escribible y no devuelve errores

cr0x@server:~$ mysql -N -e "SHOW GLOBAL VARIABLES LIKE 'read_only';"
read_only	OFF

Qué significa: Si la BD está en solo-lectura (o falla), WordPress puede comportarse de forma impredecible, especialmente con sesiones/plugins que escriben user meta.

Decisión: Si read_only está ON inesperadamente, arregla el estado de replicación/failover o apunta WordPress al primario correcto.

Task 16: Validar que wp-content no sea de solo-lectura (actualizaciones y algunos flujos de auth)

cr0x@server:~$ sudo -u www-data test -w /var/www/html/wp-content && echo "wp-content writable" || echo "wp-content NOT writable"
wp-content writable

Qué significa: No todos los bucles de login son por escrituras de archivos, pero problemas de permisos suelen acompañar despliegues rotos y problemas de “headers already sent”.

Decisión: Si no es escribible y tu pila lo espera, arregla propietarios/permisos; si tu pila prohíbe escrituras, asegúrate de que plugins/temas no intenten escribir en tiempo de ejecución de forma que rompan las respuestas.

Errores comunes: síntoma → causa raíz → solución

Síntoma: Contraseña correcta, redirección instantánea de vuelta a wp-login.php, sin error

Causa raíz: Cookies no almacenadas o no devueltas (incompatibilidad de dominio, flag secure, warnings de “headers already sent”, proxy que elimina Set-Cookie).

Solución: Verifica consistencia de home/siteurl, comprueba cabeceras de respuesta por Set-Cookie, elimina warnings de “headers already sent” en PHP y desactiva cachés en login/admin.

Síntoma: Funciona en un navegador/dispositivo, falla en otro

Causa raíz: Diferencias en políticas de cookies (comportamiento SameSite, bloqueo de cookies de terceros), cookies obsoletas o una extensión del navegador que modifica peticiones.

Solución: Prueba en un perfil limpio/ventana privada, borra cookies del sitio, asegura que tu flujo de login sea de primer partido (sin POSTs cross-site sorpresas) y confirma HTTPS y host canónico.

Síntoma: Funciona en origen directamente, falla a través de CDN/WAF

Causa raíz: Caché de borde del login/admin, páginas de challenge del WAF, eliminación de cabeceras o protección contra bots que trata a humanos como bots.

Solución: Evita caché para endpoints de auth, agrega allowlist de IPs admin si procede, y asegúrate de que las páginas de challenge no apliquen a los POSTs de wp-login.php.

Síntoma: Solo falla cuando “Forzar HTTPS” o HSTS está activo

Causa raíz: WordPress no detecta HTTPS detrás de un proxy; establece cookies o redirecciones de forma inconsistente.

Solución: Corrige cabeceras reenviadas y/o detecta HTTPS en wp-config.php. Asegura que solo una capa realice la redirección canónica.

Síntoma: Cierres de sesión aleatorios / bucles en un entorno balanceado

Causa raíz: Diferentes salts/keys entre servidores de aplicación, wp-config.php inconsistente, o falta de sesiones sticky cuando un plugin las requiere.

Solución: Haz la configuración inmutable e idéntica entre nodos. Evita depender de sesiones pegajosas; si son inevitables, configúralas explícitamente y documenta por qué.

Síntoma: Login funciona, pero wp-admin te cierra la sesión tras unos clics

Causa raíz: Plugin de caché guardando respuestas admin-ajax, plugin de seguridad invalidando sesiones agresivamente, o desajuste de reloj.

Solución: Excluye rutas de admin del caché, ajusta reglas de seguridad y verifica la sincronización horaria.

Síntoma: Solo los administradores afectados; los editores pueden iniciar sesión

Causa raíz: Políticas de redirección específicas para administradores, mala configuración de 2FA, checks de capacidades o un mu-plugin personalizado.

Solución: Inspecciona los plugins must-use y ajustes de seguridad; prueba con todos los plugins desactivados; revisa logs del servidor por redirecciones específicas de rol.

Listas de verificación / plan paso a paso

Checklist A: Recuperación en una pasada “devuélveme a wp-admin”

Borra las cookies del navegador para el sitio (o usa una ventana privada). Si no puedes iniciar sesión ahí tampoco, no son “cookies obsoletas”.
Confirma la URL canónica:
- Haz que home y siteurl sean idénticos (esquema + host).
- Elige www o dominio raíz y mantente en esa opción.
Evita temporalmente el CDN/WAF (archivo hosts / acceso directo al origen) para ver si el borde es el problema.
Desactiva todos los plugins vía WP-CLI o renombrando wp-content/plugins.
Cambia a un tema por defecto para descartar código de autenticación en el tema.
Revisa logs por “headers already sent” y errores fatales.
Arregla la detección de HTTPS detrás de proxies (cabeceras reenviadas o forzado condicional de HTTPS en wp-config.php).
Vuelve a habilitar plugins uno a uno. Detente cuando vuelva el bucle. Ese plugin es el culpable, no la víctima.

Checklist B: Endurecimiento para que esto no vuelva el próximo martes

Excluir endpoints de autenticación del caché: /wp-login.php, /wp-admin/*, y típicamente /wp-json/ según flujos de administración.
Estandarizar despliegue de configuración: una fuente de la verdad para wp-config.php y salts, entregada idénticamente a todos los nodos.
Monitorizar redirecciones: rastrea tasas de 302 para wp-login.php y wp-admin. Un pico suele ser una alarma temprana.
Loguear en borde y origen: incluye IDs de petición para poder seguir un login a través de toda la pila.
Documentar la política de URL canónica (host, esquema, HSTS). La política no escrita se convierte en folklore; el folklore en incidentes.
Probar tras cambios: cada vez que toques reglas de CDN, terminación HTTPS o plugins de caché, prueba explícitamente el flujo de login.

Broma #2: La forma más rápida de crear un bucle de inicio de sesión en WordPress es decir: “Es solo un pequeño cambio de redirección.” El bucle te escucha.

Tres mini-historias corporativas desde las trincheras

Incidente #1: La suposición equivocada (HTTPS es HTTPS, ¿verdad?)

Una empresa mediana ejecutaba WordPress detrás de un balanceador que terminaba TLS. Los servidores de origen hablaban HTTP internamente. El equipo asumió que porque el navegador mostraba el icono de candado, la aplicación “sabía” que era HTTPS.

Una tarde, los editores reportaron el bucle de login. No era todo el mundo—solo suficientes personas para desatar el pánico y un torbellino en Slack. El balanceador había sido reemplazado como parte de una renovación de red, y el comportamiento por defecto de las cabeceras cambió.

En el origen, WordPress empezó a ver las peticiones como HTTP. Respondía con redirecciones a HTTPS (porque home era https), pero también establecía cookies de una forma que no coincidía con las expectativas del navegador. La historia de la cookie de autenticación se volvió inconsistente entre peticiones. Los usuarios iniciaban sesión, eran redirigidos y luego tratados como desconocidos y devueltos.

La solución fue aburrida: asegurar que X-Forwarded-Proto: https se estableciera correctamente en el borde, y que el origen la confiara de forma consistente. Una vez que WordPress tuvo una vista estable del esquema, el bucle desapareció.

La lección: en un mundo proxy, “HTTPS” no es un hecho—es una afirmación transmitida por cabeceras. Si no gestionas explícitamente esa afirmación, tu aplicación inventará su propia realidad.

Incidente #2: La optimización que salió mal (cachea todo)

Otra organización tenía una iniciativa de rendimiento. Alguien activó una regla agresiva del CDN para cachear más HTML, incluyendo “páginas de bajo riesgo”. wp-login.php parecía “solo otra página” en el conjunto de reglas. Ese fue el primer error.

En pocas horas, las tasas de éxito de login cayeron. No a cero—solo lo suficiente para confundir. El CDN servía páginas de login cacheadas que contenían nonces obsoletos y objetivos de redirección inconsistentes. Peor todavía, algunas respuestas cacheadas no incluían Set-Cookie correctamente, dependiendo de cómo el borde tratara las cabeceras “no cacheables”.

El incidente se volvió político porque el cambio se presentó como “trabajo de rendimiento”, y el rendimiento se considera heroico. En su lugar, convirtió la autenticación en teatro probabilístico.

La solución fue crear reglas explícitas de bypass para todos los endpoints relacionados con auth y cualquier cosa que estableciera cookies sensibles. Luego añadieron un monitor sintético que realizaba un flujo de login y alertaba sobre cadenas de redirección inesperadas.

La lección: el caché no es una manta. Es un bisturí. Si lo usas como martillo, acabarás golpeando tu propio sistema de login.

Incidente #3: La práctica aburrida pero correcta que salvó el día (inmutabilidad de la config)

Una empresa ejecutaba WordPress en múltiples servidores de aplicación. Tenían una práctica estricta: la configuración, incluidos salts y keys, se gestionaba centralmente y se desplegaba de forma idéntica en cada release. No ediciones manuales. No “arreglos rápidos” en nodos individuales.

Siguieron teniendo un incidente—un ingeniero añadió un nodo nuevo bajo presión. El nodo provenía de una imagen antigua y originalmente tenía un wp-config.php desajustado. En muchos entornos, eso habría creado bucles de login aleatorios dependiendo del backend al que llegara el usuario.

Esto fue lo que los salvó: su pipeline de despliegue detectó la deriva. El nuevo nodo falló una comprobación checksum de configuración y nunca entró en el pool del balanceador. El bucle de login nunca llegó a clientes; se quedó en staging donde pertenecía.

Arreglaron la imagen, redeplegaron y siguieron adelante. No hubo detectiveo nocturno de “por qué ocurre solo a algunos usuarios”.

La lección: la solución de autenticación más fiable es prevenir la inconsistencia. La segunda más fiable es no dejar nodos inconsistentes servir tráfico.

Preguntas frecuentes

¿Por qué WordPress sigue redirigiéndome a la página de login después de iniciar sesión?

Porque WordPress no está recibiendo o aceptando una cookie de autenticación válida en la petición subsiguiente. Eso normalmente lo causan desajustes de URL/esquema, problemas de alcance de cookies, caché, cabeceras de proxy o un plugin que interfiere con las cabeceras.

¿Borrar cookies es la solución real?

Borrar cookies es un paso diagnóstico. Si lo arregla una vez, es probable que hayas cambiado salts/keys recientemente o tuviste una discrepancia transitoria de cookies. Si nunca lo arregla, el problema está en la pila, no en el navegador.

¿Puede un CDN o WAF causar un bucle de login?

Absolutamente. Si cachea wp-login.php, elimina Set-Cookie o desafía las peticiones POST, puedes quedar atrapado en un bucle. Evita el borde para confirmar, luego añade reglas de bypass explícitas.

¿Cuál es la diferencia entre `home` y `siteurl`, y por qué importa?

siteurl es donde residen los archivos del core de WordPress; home es lo que el sitio considera su URL pública. Si difieren (especialmente esquema/host), las redirecciones y el alcance de las cookies pueden romper la autenticación.

Estoy detrás de un balanceador. ¿Qué cabecera importa más?

X-Forwarded-Proto. Si es incorrecta o no se confía en ella, WordPress puede creer que está en HTTP incluso cuando el cliente usa HTTPS, provocando redirecciones y flags de cookie rotos.

¿Puede ser un plugin aunque el sitio funcione bien para visitantes?

Sí. Las páginas públicas pueden funcionar mientras los endpoints de admin/auth fallan porque los plugins se enganchan al login, redirecciones, checks de seguridad y manejo de cabeceras. Desactiva plugins para comprobarlo.

¿Por qué pasa solo a algunos usuarios en un entorno balanceado?

Normalmente por deriva de configuración (salts/keys distintos) o suposiciones stateful. Si un backend rechaza cookies creadas por otro backend, obtendrás comportamiento “funciona a veces”. Haz la configuración idéntica y evita hacks stateful.

¿Resetear los salts de WordPress arreglará el bucle?

Resetear salts invalida todas las sesiones, lo cual puede “arreglar” bucles causados por cookies inconsistentes o comprometidas. Pero si la causa raíz es cabeceras de proxy, caché o desajuste de URL, no ayudará—tus usuarios solo serán desconectados y seguirán atascados.

¿Qué hago si no puedo acceder a wp-admin ni a WP-CLI?

Renombra el directorio de plugins vía SSH para desactivar todos los plugins: wp-content/plugins → plugins.disabled. Si eso arregla el login, reintroduce los plugins con cuidado. Si no, céntrate en home/siteurl y detección de proxy/HTTPS.

Conclusión: próximos pasos para evitar recurrencias

Arreglar un bucle de inicio de sesión de WordPress es menos cuestión de heroísmo y más de negarse a que tu propia pila te mienta. Sigue las cookies. Sigue las redirecciones. Confirma qué considera WordPress la URL canónica y confirma qué hace realmente el navegador.

Pasos prácticos siguientes:

Haz que home y siteurl coincidan exactamente (esquema + host).
Asegura que tu proxy/CDN no cachee ni modifique wp-login.php y /wp-admin/, y que nunca elimine Set-Cookie.
Verifica la detección de HTTPS detrás de proxies mediante cabeceras reenviadas.
Desactiva plugins/temas para aislar salida de cabeceras y hooks de autenticación; vuelve a activarlos uno a uno.
Estandariza wp-config.php (especialmente salts/keys) en todos los nodos y mantén la hora sincronizada.

Si haces esas cinco cosas, el bucle de login volverá a ser lo que debe ser: una historia que cuentas a otros ingenieros, no un lugar donde vivas.

ZFS ZED: Alertas que te avisan de fallos antes que los usuarios

Nadie quiere enterarse de problemas de almacenamiento por un ticket titulado “la aplicación va lenta otra vez” con una captura de un icono giratorio.
ZFS te da mejores opciones: ya sabe cuándo un disco se comporta raro, cuándo un pool queda degradado, cuándo un scrub encuentra daños,
y cuándo un dispositivo desaparece durante 12 segundos porque un cable está ensayando para una película de terror.

ZED (el demonio de eventos de ZFS) es la pieza que convierte esas señales internas en alertas visibles para humanos y respuestas automatizadas.
Si usas ZFS en producción y ZED no está conectado a las alertas, estás eligiendo la sorpresa. Y la sorpresa es cara.

Qué hace realmente ZED (y qué no hace)

ZFS es un sistema de ficheros y gestor de volúmenes con un sentido incorporado de autopreservación. Calcula checksums de los datos, valida lecturas,
detecta corrupción y registra información detallada de fallos. Pero ZFS no va a entrar en tu oficina y aclarar la garganta.
ZED es el mensajero.

A alto nivel, ZED escucha eventos de ZFS (originados en el módulo del kernel de ZFS y en herramientas de userland) y ejecuta pequeños scripts
manejadores llamados zedlets. Esos scripts pueden enviar correo, registrar en syslog/journald, activar un hot spare, registrar historial o integrarse con
el sistema de alertas en el que confíes a las 3 a.m.

La línea límite

ZFS detecta y registra: errores, estado degradado, inicio/fin de resilver, inicio/fin de scrub, fallos de dispositivos, etc.
ZED reacciona y notifica: “algo pasó, aquí están los detalles, esto es lo siguiente que hay que hacer”.
Tu monitorización correlaciona y escala: llama a humanos, abre tickets, rastrea MTTR y convierte esto en responsabilidad de alguien.

ZED no es un sistema de monitorización completo. Es un motor de disparo y contexto. No deduplicará alertas en flotas ni te dará dashboards SLO.
Pero te dará señales tempranas, específicas y accionables — del tipo que te permiten reemplazar un disco un martes por la tarde en lugar de
hacer cirugía durante una caída de clientes un sábado por la noche.

Una cita operativa que vale la pena tener cerca de tus runbooks:
La esperanza no es una estrategia. — Gen. Gordon R. Sullivan

Broma #1: Los fallos de almacenamiento son como el dentista — si solo los ves cuando duele, ya estás pagando de más.

Hechos e historia que importan en ops

ZED no es solo “algún demonio”. Es la superficie operativa de ZFS. Unos cuantos hechos y puntos de contexto facilitan razonar
sobre lo que despliegas y por qué se comporta como lo hace:

ZFS se originó en Sun Microsystems a mediados de los 2000 con una filosofía de “almacenamiento como sistema”: checksums, pooling, snapshots, autocuración.
ZFS fue diseñado para desconfiar de los discos por defecto. Los checksums de extremo a extremo no son una característica; son la premisa.
OpenZFS surgió como esfuerzo multiplataforma después de que la línea original de Solaris ZFS se fragmentara; hoy Linux, FreeBSD y otros siguen OpenZFS.
ZED nació de la necesidad de operacionalizar eventos de fallo. Detectar un fallo no sirve de nada si nadie es avisado.
ZFS tiene un flujo interno de eventos (piensa: “cambios de estado e informes de fallos”), y ZED es un consumidor que convierte esos eventos en acciones.
Los scrubs son una primitiva de mantenimiento de primera clase en ZFS: lecturas completas periódicas para encontrar y reparar corrupción silenciosa mientras exista redundancia.
“Degradado” no es “caído” en ZFS, y eso es exactamente por lo que es peligroso: el servicio continúa, pero tu margen de seguridad ha desaparecido.
Resilver no es lo mismo que scrub: resilver es reparación/reconstrucción dirigida tras el reemplazo o la conexión de un dispositivo; scrub es verificación a nivel de pool.
Muchos “errores” de ZFS son en realidad la advertencia, no el incidente: los errores de checksum a menudo significan que el sistema detectó datos malos y los sanó.

La conclusión operativa: ZFS habla mucho en las formas que importan. ZED es cómo escuchas sin vivir en zpool status como si fuera una red social.

Cómo ZED ve el mundo: eventos, zedlets y estado

La tarea de ZED es simple: cuando ocurre un evento de ZFS, ejecutar manejadores. La complejidad está en los detalles: qué eventos, qué manejadores,
cómo limitar, y cómo incluir suficiente contexto en tus alertas para que puedas actuar sin tener que hacer espeleología.

Fuentes de eventos y forma de los datos

ZFS emite eventos por cambios de estado de pool, errores de dispositivos, actividad de scrub/resilver y acciones de gestión de fallos. ZED los recibe
y expone campos del evento a los zedlets como variables de entorno. El conjunto exacto varía según la plataforma y la versión de OpenZFS, pero verás
temas consistentes: nombre del pool, GUID del vdev, ruta del dispositivo, transiciones de estado y contadores de errores.

Zedlets: scripts diminutos con cuchillos afilados

Los zedlets son scripts ejecutables colocados en un directorio de zedlets (comúnmente bajo /usr/lib/zfs/zed.d en distribuciones Linux,
con enlaces simbólicos o conjuntos habilitados bajo /etc/zfs/zed.d). Son intencionalmente pequeños. Deben hacer una cosa bien:
formatear un correo, escribir en syslog, iniciar un spare, registrar una línea de historial o llamar a un script de integración local.

La disciplina: mantén los zedlets determinísticos y rápidos. Si necesitas “lógica real”, que el zedlet encole trabajo (escriba un archivo, emita a un socket local,
llame a un wrapper ligero) y deja que otro servicio haga el trabajo pesado. ZED forma parte de tu ruta de fallo. No lo inflés.

Estado y deduplicación

ZED puede generar eventos repetidos por dispositivos que fluctúan o errores continuos. Si envías páginas ante cada emisión, entrenarás a tu equipo
a ignorar alertas, y entonces merecerás lo que venga después. Las buenas configuraciones de ZED suelen hacer al menos una de estas cosas:

Limitar notificaciones (por pool/vdev y por ventana temporal).
Enviar alertas de “cambio de estado” (ONLINE→DEGRADED, DEGRADED→ONLINE) en lugar de cada incremento.
Enviar scrubs como eventos resumidos (iniciado, finalizado, errores encontrados) con contexto.
Almacenar un pequeño fichero de estado que rastree lo que ya se envió.

En qué deberías alertar

No alertes sobre todo. Alertar es un contrato con humanos somnolientos. Aquí tienes una línea base sensata:

Cambios de estado de pool: ONLINE→DEGRADED, DEGRADED→FAULTED, dispositivo eliminado.
Resultados de scrub: completado con errores, bytes reparados o “demasiados errores”.
Errores de checksum/lectura/escritura más allá de un umbral o con una tasa creciente.
Eventos de fallo de dispositivo: timeouts, fallos de I/O, “device removed”, cambios de ruta.
Finalización de resilver: éxito/fallo, duración, si el pool volvió a ONLINE.

Alertas que deberían importarte (y qué hacer con ellas)

Una alerta de ZED debe responder tres preguntas: qué pasó, qué está en riesgo y qué hago a continuación.
Si tus alertas no incluyen el nombre del pool, el vdev afectado y una copia de zpool status -x o un fragmento relevante,
estás escribiendo novelas de misterio, no alertas.

Pool DEGRADED

“DEGRADED” significa que estás funcionando con redundancia reducida. Aún estás atendiendo, pero un fallo más te deja expuesto a pérdida de datos (dependiendo del nivel RAIDZ y del vdev).
La respuesta correcta es acotada en el tiempo: investigar inmediatamente; reemplazar pronto; no esperes la próxima ventana de mantenimiento a menos que te guste apostar.

Errores de checksum

Los errores de checksum son ZFS diciéndote “capté datos malos”. Eso es bueno y malo. Bueno: la detección funciona. Malo: algo está corrompiendo datos
en la cadena — disco, cable, HBA, firmware, RAM (si no usas ECC), o incluso inestabilidad de energía. Tu decisión depende de si los errores están
aislados (un solo disco, una sola ruta) o son sistémicos (a través de vdevs).

Errores de lectura/escritura

Los errores de lectura indican que el dispositivo no pudo devolver datos. ZFS puede reconstruir desde paridad/espejos; si no, verás errores permanentes.
Los errores de escritura a menudo apuntan a conectividad, reinicios del controlador o que el disco rehúsa escribir. Sea como sea, trata los contadores crecientes como “reemplazar o arreglar la ruta”.

Scrub finalizado con errores

Un scrub que reparó datos es una advertencia de que la redundancia te salvó esta vez. Si no actúas, la próxima vez puede que no.
Un scrub que encontró errores no reparados es un incidente de integridad de datos; tu trabajo se convierte en evaluar daño y estrategia de restauración.

Dispositivo eliminado / UNAVAIL

Esto a menudo no significa “el disco murió”, sino “la ruta murió”. Cable SAS suelto, expander fallando, bug de firmware del HBA, backplane inestable.
La forma más rápida de arruinar un fin de semana es reemplazar un disco que está bien cuando el backplane es el verdadero culpable.

Tareas prácticas: comandos, salidas y decisiones (12+)

Estos son los movimientos que harás en la vida real: verificar que ZED esté en ejecución, validar que puede enviar correo, disparar eventos de prueba,
interpretar la salud del pool y tomar acciones correctivas. Cada tarea abajo incluye: el comando, qué significa la salida y la decisión que tomas.

Task 1: Confirmar que el servicio ZED está en ejecución (systemd)

cr0x@server:~$ systemctl status zfs-zed.service
● zfs-zed.service - ZFS Event Daemon (zed)
     Loaded: loaded (/lib/systemd/system/zfs-zed.service; enabled; vendor preset: enabled)
     Active: active (running) since Mon 2025-12-22 09:14:31 UTC; 2 days ago
   Main PID: 1189 (zed)
      Tasks: 3 (limit: 18982)
     Memory: 7.4M
        CPU: 1min 12s
     CGroup: /system.slice/zfs-zed.service
             └─1189 /usr/sbin/zed -F

Qué significa: “active (running)” es lo mínimo. Si está inactivo, los eventos de ZFS siguen ocurriendo; simplemente no te enteras.

Decisión: Si no está en ejecución, arregla ZED antes de confiar en cualquier “monitorización” que diga vigilar ZFS.

Task 2: Inspeccionar logs recientes de ZED en journald

cr0x@server:~$ journalctl -u zfs-zed.service -n 50 --no-pager
Dec 24 08:03:11 server zed[1189]: ZED: eid=402 class=sysevent.fs.zfs.scrub_finish pool=tank
Dec 24 08:03:11 server zed[1189]: ZED: executing zedlet: /usr/lib/zfs/zed.d/scrub.finish
Dec 24 08:03:11 server zed[1189]: ZED: eid=403 class=sysevent.fs.zfs.vdev_check pool=tank

Qué significa: Quieres ver eventos y líneas de ejecución de zedlet. Silencio durante eventos conocidos sugiere mala configuración o ausencia de eventos.

Decisión: Si ves eventos pero no notificaciones, enfócate en la configuración de zedlets (correo, permisos, PATH), no en ZFS en sí.

Task 3: Validar que el archivo de configuración de ZED es sensato

cr0x@server:~$ sudo egrep -v '^\s*(#|$)' /etc/zfs/zed.d/zed.rc
ZED_DEBUG_LOG="/var/log/zed.log"
ZED_EMAIL_ADDR="storage-alerts@example.com"
ZED_EMAIL_PROG="mail"
ZED_NOTIFY_INTERVAL_SECS=3600
ZED_NOTIFY_VERBOSE=1

Qué significa: ZED está configurado para registrar, enviar correo y limitar alertas. La falta de ajustes de correo es un problema común de “creíamos que teníamos alertas”.

Decisión: Si tu organización no usa correo, configura ZED para llamar a un script wrapper que hable con tu gestor de alertas, pero mantén el throttling.

Task 4: Confirmar que el mailer existe y funciona desde el host

cr0x@server:~$ command -v mail
/usr/bin/mail

cr0x@server:~$ echo "zed test message" | mail -s "zed smoke test" storage-alerts@example.com
...output...

Qué significa: El primer comando demuestra que el programa de correo configurado por ZED existe. El segundo prueba que el host puede entregar correo (en cola local o relé).

Decisión: Si el correo falla, arregla el envío saliente antes de culpar a ZED. ZED no puede notificar por una tubería inexistente.

Task 5: Listar zedlets habilitados (qué acciones estás tomando realmente)

cr0x@server:~$ ls -l /etc/zfs/zed.d
total 0
lrwxrwxrwx 1 root root 30 Dec 10 10:12 all-syslog.sh -> /usr/lib/zfs/zed.d/all-syslog.sh
lrwxrwxrwx 1 root root 31 Dec 10 10:12 checksum-email.sh -> /usr/lib/zfs/zed.d/checksum-email.sh
lrwxrwxrwx 1 root root 29 Dec 10 10:12 scrub.finish -> /usr/lib/zfs/zed.d/scrub.finish

Qué significa: Muchas distribuciones instalan zedlets en /usr/lib y habilitan un subconjunto vía enlaces simbólicos en /etc.

Decisión: Si nada está habilitado, no recibirás nada. Habilita solo lo que puedas gestionar; desactiva los ruidosos hasta que estés listo.

Task 6: Comprobar salud general del pool rápidamente (el comando “estamos en llamas”)

cr0x@server:~$ zpool status -x
all pools are healthy

Qué significa: Esto es ZFS siendo misericordioso y conciso. Si imprime otra cosa, tienes trabajo por hacer.

Decisión: Salida “healthy” no significa “sin riesgo”, pero sí que no estás activamente degradado/defectuoso.

Task 7: Estado profundo cuando algo está mal

cr0x@server:~$ zpool status tank
  pool: tank
 state: DEGRADED
status: One or more devices has experienced an unrecoverable error.
action: Replace the device using 'zpool replace'.
  scan: scrub repaired 0B in 03:21:18 with 0 errors on Tue Dec 24 08:03:11 2025
config:

        NAME                        STATE     READ WRITE CKSUM
        tank                        DEGRADED     0     0     0
          raidz1-0                  DEGRADED     0     0     0
            ata-WDC_WD80EFAX-1      ONLINE       0     0     0
            ata-WDC_WD80EFAX-2      ONLINE       0     0     0
            ata-WDC_WD80EFAX-3      UNAVAIL      0     0     0  cannot open

errors: No known data errors

Qué significa: El pool está degradado porque un dispositivo está indisponible. “No known data errors” es bueno; la redundancia sigue sosteniendo.

Decisión: Trata UNAVAIL como urgente. Investiga ruta vs disco, luego reemplaza o restaura la conectividad antes de que ocurra un segundo fallo.

Task 8: Correlacionar nombres de dispositivo ZFS con hardware real

cr0x@server:~$ ls -l /dev/disk/by-id/ | grep WD80EFAX-3
lrwxrwxrwx 1 root root  9 Dec 25 01:12 ata-WDC_WD80EFAX-3 -> ../../sde

Qué significa: Puedes mapear la ruta estable by-id de ZFS a un nodo de dispositivo del kernel (/dev/sde), lo que ayuda con SMART y el mapeo de bahía física.

Decisión: Usa /dev/disk/by-id en los pools cuando sea posible; reduce incidentes de “sacaron el disco equivocado”.

Task 9: Revisar SMART del disco sospechoso

cr0x@server:~$ sudo smartctl -a /dev/sde | egrep 'SMART overall-health|Reallocated_Sector_Ct|Current_Pending_Sector|Offline_Uncorrectable'
SMART overall-health self-assessment test result: PASSED
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       8
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       2

Qué significa: “PASSED” no es una carta de libertad. Sectores pendientes e incorrigibles son señales malas incluso cuando el disco declara confianza.

Decisión: Si pending/uncorrectable es distinto de cero y crece, reemplaza el disco. Si ZFS ya marcó UNAVAIL, se acabó el debate.

Task 10: Inspeccionar mensajes recientes del kernel por resets de enlace o errores de transporte

cr0x@server:~$ dmesg -T | tail -n 20
[Wed Dec 25 01:10:22 2025] ata9.00: exception Emask 0x10 SAct 0x0 SErr 0x4050000 action 0x6 frozen
[Wed Dec 25 01:10:22 2025] ata9.00: irq_stat 0x08000000, interface fatal error
[Wed Dec 25 01:10:23 2025] ata9: hard resetting link
[Wed Dec 25 01:10:28 2025] ata9: link is slow to respond, please be patient (ready=0)
[Wed Dec 25 01:10:31 2025] ata9: COMRESET failed (errno=-16)
[Wed Dec 25 01:10:31 2025] ata9.00: disabled

Qué significa: Esto grita “problema de ruta”. Podría ser el disco, podría ser el cable/backplane, podría ser el controlador.

Decisión: Antes de reemplazar discos en masa, intercambia el cable/la bahía del backplane si puedes. Si los errores siguen la bahía, encontraste el dominio real de fallo.

Task 11: Mostrar contadores de error de ZFS y vigilar su crecimiento

cr0x@server:~$ zpool status -v tank
  pool: tank
 state: DEGRADED
config:

        NAME                        STATE     READ WRITE CKSUM
        tank                        DEGRADED     0     0     0
          raidz1-0                  DEGRADED     0     0     0
            ata-WDC_WD80EFAX-1      ONLINE       0     0     0
            ata-WDC_WD80EFAX-2      ONLINE       0     0     0
            ata-WDC_WD80EFAX-3      UNAVAIL      3     1     0  cannot open

errors: No known data errors

Qué significa: Los contadores (READ/WRITE/CKSUM) son evidencia. Unos pocos errores históricos no siempre son catastróficos, pero contadores crecientes son tendencia.

Decisión: Si los contadores aumentan después de reinsertar cables o reiniciar, deja de “probar cosas” y reemplaza el componente en el dominio que falla.

Task 12: Reemplazar un disco fallado de la manera correcta

cr0x@server:~$ sudo zpool replace tank ata-WDC_WD80EFAX-3 /dev/disk/by-id/ata-WDC_WD80EFAX-NEW
...output...

Qué significa: ZFS comienza un resilver en el disco nuevo, dirigido a bloques asignados (típicamente más rápido que las reconstrucciones RAID clásicas).

Decisión: Monitorea el progreso del resilver. Si el pool sigue degradado tras el resilver, tienes problemas adicionales (dispositivo equivocado, múltiples fallos o inestabilidad de rutas).

Task 13: Monitorizar progreso de resilver/scrub

cr0x@server:~$ zpool status tank
  pool: tank
 state: DEGRADED
status: One or more devices is currently being resilvered.
  scan: resilver in progress since Wed Dec 25 01:22:10 2025
        312G scanned at 1.12G/s, 44.8G issued at 164M/s, 3.21T total
        44.8G resilvered, 1.36% done, 05:20:11 to go
config:

        NAME                             STATE     READ WRITE CKSUM
        tank                             DEGRADED     0     0     0
          raidz1-0                       DEGRADED     0     0     0
            ata-WDC_WD80EFAX-1           ONLINE       0     0     0
            ata-WDC_WD80EFAX-2           ONLINE       0     0     0
            ata-WDC_WD80EFAX-NEW         ONLINE       0     0     0  (resilvering)

Qué significa: “issued at” refleja la tasa real de escritura. “scanned at” puede ser mayor debido a recorrido de metadatos y read-ahead.

Decisión: Si el resilver va muy lento, no adivines. Revisa cuellos de botella de I/O, errores en otros discos o problemas del controlador.

Task 14: Verificar programación de scrub y últimos resultados

cr0x@server:~$ zpool status -s tank
  pool: tank
 state: ONLINE
scan: scrub repaired 0B in 03:21:18 with 0 errors on Tue Dec 24 08:03:11 2025

Qué significa: Tienes un registro de la última finalización de scrub. Si esto falta durante meses, estás volando sin faros.

Decisión: Si no tienes scrubs periódicos, prográmalos. Si los tienes pero no alertas en fallos, conecta ZED ahora.

Task 15: Confirmar entrega de eventos ZFS a ZED (chequeo de cordura)

cr0x@server:~$ sudo zpool scrub tank
...output...

cr0x@server:~$ journalctl -u zfs-zed.service -n 20 --no-pager
Dec 25 01:30:02 server zed[1189]: ZED: eid=510 class=sysevent.fs.zfs.scrub_start pool=tank
Dec 25 01:30:02 server zed[1189]: ZED: executing zedlet: /usr/lib/zfs/zed.d/scrub.start

Qué significa: Iniciar un scrub produce un evento. Verlo en los logs de ZED prueba el flujo de eventos.

Decisión: Si no ves el evento, depura el servicio ZED, permisos o la infraestructura de eventos ZFS en esa plataforma.

Task 16: Comprobar que ZED no está bloqueado por permisos o directorios faltantes

cr0x@server:~$ sudo -u root test -w /var/log && echo "log dir writable"
log dir writable

cr0x@server:~$ sudo -u root test -x /usr/lib/zfs/zed.d/scrub.finish && echo "zedlet executable"
zedlet executable

Qué significa: Que ZED falle al escribir logs o ejecutar zedlets es aburrido, común y devastador para el sistema de alertas.

Decisión: Arregla permisos de archivos e integridad del paquete. No soluciones con “chmod 777”; manténlo mínimo y auditable.

Broma #2: ZED es como una alarma de humo — la gente solo se queja de que es ruidosa hasta el día que les salva el fin de semana.

Playbook de diagnóstico rápido

Esta es la secuencia “salirse rápido del atasco”. No es perfecta. No es elegante. Está optimizada para: ¿qué verifico primero, segundo, tercero para encontrar el cuello de botella
y decidir si trato con un disco, una ruta, un problema a nivel de pool o un cableado de alertas mal hecho?

Primero: ¿es un problema real del pool o solo alertas faltantes?

Comprueba la salud del pool: zpool status -x. Si está sano, podrías estar depurando ZED, no ZFS.
Verifica que ZED esté vivo: systemctl status zfs-zed.service y journalctl -u zfs-zed.service.
Dispara un evento inocuo: inicia un scrub en un pool de prueba o realiza un ciclo de inicio/fin de scrub (si lo puedes tolerar). Confirma que ZED registre el evento.

Segundo: si el pool está degradado/faulted, localiza el dominio de fallo

Identifica el vdev y el dispositivo: zpool status POOL y anota contadores READ/WRITE/CKSUM.
Mapea by-id al dispositivo real: ls -l /dev/disk/by-id/ para obtener el nodo del kernel.
Revisa logs del kernel: dmesg -T por resets de enlace, timeouts, errores de transporte. Los problemas de ruta suelen aparecer aquí primero.
Revisa SMART: smartctl -a por sectores pendientes/incorrigibles y registros de error.

Tercero: decide si puedes estabilizar sin reemplazo

Si parece un problema de ruta: reinsertar/reemplazar cable, mover el disco a otra bahía, actualizar firmware del HBA (con cuidado), verificar alimentación.
Si parece medio del disco: reemplaza el disco. No negocies con sectores pendientes.
Después del cambio: vigila el resilver y vuelve a comprobar contadores. Si los contadores siguen subiendo, detente y amplía el alcance al controlador/backplane.

Cuarto: verifica la calidad de las alertas

Asegura que las alertas sean accionables: incluye nombre del pool, id del dispositivo, zpool status actual y últimos resultados de scrub.
Throttle y dedupe: pagina por transiciones de estado; correo o ticket por advertencias blandas repetidas.
Realiza un simulacro trimestral: simula un evento (inicio/fin de scrub, zedlet de prueba) y confirma que el equipo correcto lo recibe.

Tres mini-historias corporativas desde las trincheras de almacenamiento

Mini-historia 1: El incidente causado por una suposición equivocada

Una empresa SaaS mediana ejecutaba ZFS en Linux para un puñado de nodos de almacenamiento “durables”. Habían migrado desde una vieja configuración con controlador RAID y
se sentían confiados: checksums, scrubs, snapshots — todo. También creían tener monitorización. O al menos eso pensaba todo el mundo.

La suposición equivocada fue sutil: “las alertas de ZFS vienen con el paquete de ZFS”. Alguien instaló OpenZFS, creó pools, programó scrubs
y siguió con su trabajo. ZED estaba instalado pero no habilitado. Nadie lo notó porque, día a día, ZFS es silencioso cuando las cosas están sanas.

Meses después, un disco empezó a registrar timeouts intermitentes. ZFS reintentó, sanó desde la paridad y siguió atendiendo. El pool pasó a DEGRADED brevemente,
luego volvió a ONLINE cuando el disco regresó. Sin alerta, sin ticket, sin reemplazo. Los contadores de error subieron como una fuga lenta detrás de una pared.

El incidente real llegó con un segundo fallo de disco durante un periodo de lecturas intensas. Ahora el pool quedó severamente DEGRADED y la aplicación notó picos de latencia.
Los usuarios informaron “subidas lentas”. Ops empezó por el extremo equivocado del problema (ajuste de la aplicación, balanceadores) porque no tuvieron señal temprana.

Las acciones del postmortem fueron aburridas y correctas: habilitar ZED, cablear notificaciones a la rotación on-call, paginar por degradación de pool e incluir
nombres by-id para que alguien pueda sacar el disco correcto sin necesidad de una sesión espiritual.

Mini-historia 2: La optimización que salió mal

Un equipo de ingeniería de datos quiso menos correos. Estaban cansados de notas “scrub iniciado” y “scrub finalizado” que llenaban bandejas, y tenían razón:
las alertas no estaban priorizadas y nadie las leía con atención.

La “optimización” fue desactivar por completo los zedlets relacionados con scrub. Su razonamiento: “ya ejecutamos scrubs mensuales; si algo va mal, el pool se degradará.”
Esa cláusula final es la mina. Los resultados de scrub pueden revelar corrupción que ZFS reparó silenciosamente. Eso no es un pool degradado. Es un aviso.

Unos meses más tarde, un scrub habría detectado y reparado errores de checksum en un vdev, señalando un cable SAS defectuoso. En su lugar, nadie vio la señal temprana.
El cable empeoró. Finalmente el disco cayó durante un resilver provocado por una operación de mantenimiento no relacionada, alargando el resilver y
aumentando el riesgo operativo. El equipo había diseñado un “sistema silencioso” que falló a lo grande.

Lo arreglaron re-habilitando alertas de scrub pero cambiando la política: eventos de inicio de scrub fueron a logs de baja prioridad; finalización de scrub con reparaciones o errores
generó un ticket y una revisión humana. Redujeron el ruido. Restauraron la señal. Esa es la compensación correcta.

Mini-historia 3: La práctica aburrida que salvó el día

Un grupo de IT empresarial gestionaba una flota de hosts VM con respaldo ZFS. Su plataforma de almacenamiento no era emocionante; era deliberadamente aburrida. Tenían un estándar estricto:
nombres de dispositivo by-id, verificación trimestral de scrub y un runbook on-call de “reemplazo de disco” que cabía en una página.

Un jueves, ZED pagó “pool DEGRADED” con el vdev afectado y el mapeo de bahía física. El host seguía sirviendo VMs sin problemas.
La tentación en entornos corporativos es posponer el trabajo porque “no hay caída”. No lo hicieron.

El on-call siguió el runbook: confirmar estado, revisar SMART, revisar logs del kernel y reemplazar el disco. El resilver terminó, el pool volvió a ONLINE,
y cerraron el bucle verificando el siguiente scrub. Sin escalado a liderazgo, sin impacto al cliente, sin sala de guerra dramática.

Dos días después, otro host en la misma fila tuvo un evento de energía que causó un reset del controlador. Si el primer host aún hubiera estado degradado,
ese segundo evento podría haber convertido un reemplazo rutinario en una restauración caótica. La práctica aburrida les dio margen.

Errores comunes: síntomas → causa raíz → solución

1) Síntoma: “Nunca recibimos alertas de ZFS”

Causa raíz: Servicio ZED no habilitado/ejecutándose, o zedlets no habilitados vía /etc/zfs/zed.d.

Solución: Habilita e inicia ZED; verifica flujo de eventos con un inicio de scrub y comprueba journald para líneas de ejecución.

2) Síntoma: “ZED registra eventos pero no llegan correos”

Causa raíz: Programa de correo faltante, SMTP saliente bloqueado o ZED_EMAIL_ADDR/ZED_EMAIL_PROG mal configurados.

Solución: Ejecuta el mismo comando de correo manualmente desde el host; arregla relé/firewall/DNS; luego prueba ZED de nuevo.

3) Síntoma: “Tormenta de pagers durante un evento de disco inestable”

Causa raíz: Sin throttling/dedupe; alertar por cada incremento de error en lugar de cambio de estado.

Solución: Configura intervalo de notificación; pagina en transiciones de estado de pool; crea tickets en errores blandos repetidos con umbrales de tasa.

4) Síntoma: “Pool muestra errores de checksum en varios discos a la vez”

Causa raíz: Dominio de fallo compartido (HBA, backplane, expander, cable, alimentación) o corrupción de memoria en sistemas sin ECC.

Solución: Deja de reemplazar discos al azar. Inspecciona dmesg por resets de transporte, valida firmware/driver del HBA, intercambia cables y evalúa la postura de RAM/ECC.

5) Síntoma: “Scrub finalizó, bytes reparados, pero todos lo ignoraron”

Causa raíz: Política de alertas trata resultados de scrub como ruido; no hay workflow para investigar corrupciones reparadas.

Solución: Enruta “scrub finalizado con reparaciones/errores” a un ticket con revisión obligatoria y comprobaciones de seguimiento (SMART, cableado, contadores).

6) Síntoma: “Resilver tarda una eternidad y el pool sigue frágil”

Causa raíz: Cuello de botella de I/O subyacente, discos marginales adicionales o problemas de controlador que causan reintentos.

Solución: Revisa contadores de error de otros vdevs, dmesg por resets y SMART por sectores lentos. Si múltiples discos están enfermos, estabiliza hardware antes de forzar el resilver.

7) Síntoma: “ZED ejecuta zedlets pero fallan en silencio”

Causa raíz: Permisos, bits ejecutables faltantes, dependencias ausentes en PATH o scripts que dependen de comportamiento interactivo del shell.

Solución: Haz zedlets autocontenidos: rutas absolutas, entorno explícito, manejo estricto de errores, registra fallos en journald/syslog.

8) Síntoma: “Ops reemplazó el disco equivocado”

Causa raíz: Pools construidos sobre nombres /dev/sdX; alerta no incluye identificadores estables; no hay proceso de mapeo de bahías.

Solución: Usa /dev/disk/by-id en los pools, incluye by-id en las alertas y mantiene un mapeo de bay/WWN al inventario del host.

Listas de verificación / plan paso a paso

Lista de verificación A: ZED mínimo viable (haz esto esta semana)

Confirma que ZED está instalado y en ejecución: systemctl status zfs-zed.service.
Habilita ZED en el arranque: systemctl enable zfs-zed.service.
Escoge un destino de notificación (correo o script de integración local).
Establece ZED_EMAIL_ADDR (o wrapper) y ZED_NOTIFY_INTERVAL_SECS en /etc/zfs/zed.d/zed.rc.
Habilita solo los zedlets que piensas atender (scrub finish, cambios de estado de pool, errores de checksum).
Dispara un scrub en un pool no crítico y verifica que ves eventos de ZED en journald.
Asegúrate de que on-call recibe la alerta y puede identificar el disco por nombre estable.

Lista de verificación B: Cuando recibes una alerta “pool DEGRADED”

Ejecuta zpool status POOL. Captúrala en el ticket.
Identifica vdev afectado y dispositivo by-id; mapea al nodo de kernel.
Revisa dmesg -T por errores de transporte y resets.
Ejecuta smartctl -a en el dispositivo; busca pending/uncorrectable y logs de error.
Decide: reparación de ruta (cable/backplane/HBA) vs reemplazo de disco.
Realiza el cambio y luego vigila resilver y vuelve a comprobar contadores.
Tras volver a ONLINE, programa/verifica un scrub y vigila nuevas reparaciones.

Lista de verificación C: Simulacro trimestral de alertas (para confiar en ellas)

Escoge un host por clase de almacenamiento (mirror NVMe, RAIDZ, etc.).
Inicia un scrub y confirma que ZED ve scrub_start.
Confirma que las alertas de finalización de scrub incluyen bytes reparados y resumen de errores.
Confirma que la política de paginación se dispara en un estado degradado simulado (pool de prueba si es posible).
Revisa el throttling: asegura que no haya tormentas de pagers por errores blandos repetidos.
Actualiza runbooks con cualquier nuevo campo de evento que emita tu versión de ZED.

Preguntas frecuentes

1) ¿Qué es exactamente ZED?

ZED es el demonio de eventos de ZFS. Escucha eventos de ZFS y ejecuta scripts manejadores (zedlets) para notificar a humanos o activar acciones automatizadas.

2) ¿ZED es obligatorio para que ZFS funcione con seguridad?

ZFS puede detectar y corregir muchos problemas sin ZED. ZED es necesario para que tú funciones con seguridad: convierte riesgo silencioso en trabajo visible.

3) ¿Qué eventos deberían paginar a humanos y cuáles crear tickets?

Pagina por transiciones de estado que reducen redundancia (DEGRADED/FAULTED, dispositivo eliminado, errores no reparados). Crea ticket por reparaciones de scrub y errores blandos recurrentes.

4) ¿Por qué veo errores de checksum si ZFS “se autocura”?

Porque ZFS detectó datos malos y los reparó desde la redundancia. El error de checksum es la pista de que algo en la cadena falló.
Trátalo como una advertencia para investigar, especialmente si los errores aumentan.

5) ¿Con qué frecuencia debería ejecutar scrubs?

La práctica común es mensual para pools grandes, a veces semanal para flotas pequeñas o de alto riesgo. La cadencia adecuada depende del tiempo de reconstrucción,
tamaño de discos y tolerancia al riesgo. Sea cual sea tu elección, alerta en fallos y reparaciones.

6) ¿Puede ZED enviar alertas directamente a Slack/PagerDuty?

Normalmente se hace mediante un script wrapper invocado por un zedlet (o modificando/agregando un zedlet) que llame a tu canal de alertas interno.
Mantén la lógica en el lado de ZED mínima y resistente.

7) ¿Por qué mi pool quedó DEGRADED y luego volvió a ONLINE?

Los dispositivos pueden fluctuar: desconexiones breves, resets de controlador o tormentas de timeouts. ZFS puede marcar un dispositivo como UNAVAIL y luego reintegrarlo.
Eso no es “está bien”. Es un problema de confiabilidad de ruta o dispositivo.

8) ¿Debo fiarme de SMART “PASSED” para no reemplazar un disco?

No. SMART overall health es un heurístico grosero. Sectores pendientes, incorrigibles y logs de error importan más. También importan los contadores de error de ZFS.

9) ¿Cuál es la diferencia entre scrub y resilver para alertas?

Scrub es un escaneo planificado de integridad; alerta en la finalización y si hubo reparaciones/errores. Resilver es una reconstrucción/reparación tras cambios de dispositivo; alerta en inicio, anomalías de progreso y finalización.

10) ¿Y si ZED es demasiado ruidoso?

No lo silencies globalmente. Afínalo: limita, pagina solo en transiciones de estado y envía eventos informativos a logs. El ruido es un fallo de política, no una razón para quedarse ciego.

Próximos pasos prácticos

Si solo haces tres cosas después de leer esto, haz estas:

Asegúrate de que ZED se ejecute en todos lados donde uses ZFS, que arranque al inicio y registre en un lugar que realmente revises.
Haz que los resultados de scrub sean accionables: alerta en la finalización de scrub con reparaciones/errores y crea un workflow para investigar y cerrar el ciclo.
Pagina por pérdida de redundancia: DEGRADED/FAULTED no es una sugerencia. Es ZFS diciendo que tu margen de seguridad desapareció.

Luego haz la versión adulta: realiza un simulacro trimestral de alertas, mantén los zedlets pequeños y aburridos, y crea alertas que incluyan suficiente contexto
para que un humano pueda decidir en un minuto si cambiar un disco, un cable o un controlador.

ZFS ya está haciendo el trabajo de detección. ZED es cómo evitas que ese trabajo muera en silencio dentro de la máquina.

Pasta térmica por todas partes: cuando el entusiasmo vence a la física

Abres el chasis porque “es solo un repaste rápido” y diez minutos después estás limpiando pegote gris de una placa base como si estuvieras detallando un coche.
El servidor vuelve a arrancar… y luego reduce velocidad. O peor: se reinicia bajo carga justo cuando la reconstrucción de almacenamiento está al 72%.

La pasta térmica es aburrida hasta que no lo es. En sistemas de producción es un primitivo de fiabilidad: una capa pequeña y desordenada que decide si tu CPU funciona según especificación o
pasa su vida negociando con la física. Aquí tienes lo que realmente sale mal cuando la gente se entusiasma, y cómo diagnosticarlo con la misma disciplina que usas para
picos de latencia y errores de disco.

La física con la que no se puede negociar

La pasta térmica (TIM: material de interfaz térmica) no es “un conductor mejor que el metal.” Es todo lo contrario. Existe porque las superficies metálicas reales no son planas.
Si acercas el difusor térmico de una CPU a un disipador, no obtienes contacto perfecto. Obtienes picos microscópicos que tocan y un montón de aire atrapado en los valles.
El aire es un pésimo conductor. La pasta es “menos pésima que el aire”, así que rellena los huecos.

El objetivo no es una capa gruesa. El objetivo es una capa fina y continua que desplace el aire manteniendo el contacto metal-con-metal lo más alto posible. Si añades demasiado
compuesto, aumentas el espesor de la capa, y como la pasta conduce peor que el cobre o el aluminio, tu resistencia térmica sube. Ese es el primer y más común fallo de tipo
“el entusiasmo vence a la física”.

El segundo fallo es mecánico: la pasta es resbaladiza. El exceso puede cambiar cómo se asienta el disipador. Un cooler ligeramente inclinado o con par de apriete desigual puede crear
un patrón de contacto que parece correcto a simple vista pero que genera un punto caliente en un clúster de núcleos bajo carga AVX. Las CPUs modernas se protegen con
throttling, pero “protegido” sigue significando “más lento”, y en sistemas distribuidos, lo más lento es contagioso.

El tercer fallo es la contaminación. La mayoría de las pastas son nominalmente no conductoras eléctricamente, pero “no conductora” no es “segura para untar sobre componentes diminutos.”
Algunas pastas son algo capacitivas; otras contienen metales; algunas se vuelven conductoras cuando se contaminan o envejecen. E incluso si la pasta en sí es eléctricamente
inofensiva, atrae polvo y fibras, y complica la inspección y la retrabajo.

Aquí está la verdad operativa: si el comportamiento térmico de un servidor cambia después de un repaste, asume que lo empeoraste hasta que se demuestre lo contrario. Eso no significa
que seas un inútil. Significa que el sistema ya funcionaba, y tú cambiaste múltiples variables a la vez: espesor de interfaz, presión de montaje, curvas de ventilador (a menudo),
y flujo de aire (tuviste la tapa quitada). Empieza por la medición, no por la intuición.

Una cita que debería estar en la pared de todo equipo de operaciones, de Richard Feynman:
Para que una tecnología tenga éxito, la realidad debe preceder a las relaciones públicas, porque la naturaleza no puede ser engañada.
Es breve, ruda y cierta.

Broma #1: La pasta térmica es como el perfume—si la ves desde el otro lado de la sala, has usado demasiado.

Cómo se ve lo correcto (y por qué no existe un “guisante” universal)

Los consejos de Internet adoran el “punto del tamaño de un guisante.” No está mal en espíritu, pero es incompleto. Las CPUs tienen diferentes disposiciones del dado bajo el difusor.
Los disipadores aplican distintas distribuciones de presión. Algunos sockets son rectangulares y largos (HEDT y plataformas de servidor), lo que significa que el método de “un punto”
puede dejar las esquinas sin cobertura. Una línea fina o una X puede ser mejor para huellas IHS grandes.

El enfoque sensato es aburrido: usa un método conocido por plataforma, aplica un torque consistente y valida con una comprobación del patrón de contacto cuando cambias cooler o
tipo de pasta. Si trabajas en flota, estandariza. La consistencia vence al arte artesanal de la pasta.

Por qué sigue sobreviviendo la idea “más pasta = mejor refrigeración”

Parece intuitivo: más material entre dos cosas significa más transferencia. Eso es cierto cuando el material es mejor que la brecha. La brecha es aire (horrible), así que el primer
poquito de pasta ayuda mucho. Después de eso, ya no estás reemplazando aire. Estás reemplazando contacto metálico por una capa de pasta. Y ahora pagas por ello.

En términos de servidores: la pasta es como una caché. Un poco está bien. Toda la memoria fingiendo ser caché es solo… memoria.

Hechos y contexto histórico (la versión sin mitos)

Hecho 1: La electrónica de alta potencia temprana usaba grasas y aceites como materiales de interfaz décadas antes de que el repaste en PCs de consumo se hiciera hobby.
Hecho 2: El “compuesto térmico” se volvió común en PCs cuando la densidad de potencia de las CPU aumentó y la discrepancia entre superficies que parecen lisas y la planitud real importó.
Hecho 3: Incluso las superficies metálicas pulidas tienen asperidades microscópicas; la suavidad óptica no es suavidad térmica.
Hecho 4: La conductividad típica de la pasta térmica es mucho menor que la del cobre; su valor está en desplazar aire, no en superar al metal.
Hecho 5: Existen materiales de cambio de fase (pads que se ablandan/funden ligeramente a temperatura de operación) para simplificar la consistencia en ensamblaje en fabricación.
Hecho 6: “Pump-out” es un fenómeno real: el ciclo térmico y el estrés mecánico pueden migrar la pasta fuera del área de mayor calor con el tiempo.
Hecho 7: Algunas pastas son eléctricamente conductoras (notablemente muchos compuestos de metal líquido), y requieren aislamiento, enmascarado y un mayor estándar de mano de obra.
Hecho 8: Muchos disipadores de servidor están diseñados para una presión de montaje y un flujo de aire específicos; cambiar a una solución “aftermarket” puede romper el modelo térmico.
Hecho 9: El throttling térmico es más agresivo y granular en CPUs modernas; puedes perder rendimiento sin que haya un crash, lo que hace que la falla sea fácil de pasar por alto.

Lo que realmente rompe “pasta térmica por todas partes”

Modo de fallo 1: Mayor resistencia térmica por TIM grueso

Demasiada pasta crea una capa más gruesa. La resistencia térmica aumenta. Las temperaturas suben más rápido bajo carga y se estabilizan a un equilibrio más alto. Verás rampas
de ventilador antes, throttling antes y menor tiempo en turbo. En producción, eso se traduce en tiempos de ejecución más largos de trabajos, más latencia en las colas y, a veces,
resets por watchdog en sistemas con límites térmicos estrictos.

Modo de fallo 2: Mal contacto por montaje desigual

El exceso de pasta puede hacer hidroplaneo del disipador durante la instalación, especialmente si aprietas una esquina demasiado y temprano. El disipador puede atrapar una cuña
de pasta y no sentarse completamente. A menudo verás uno o dos núcleos o un CCD más caliente que el resto, no un aumento uniforme. Ese patrón importa: grita “problema de contacto”
más que “problema de flujo de aire.”

Modo de fallo 3: Pasta en lugares equivocados

Pasta untada en los bordes del socket, componentes SMD o entre pines es un regalo que sigue dando. Incluso los compuestos “no conductores” pueden causar caminos de fuga cuando se mezclan
con polvo. También complica inspecciones posteriores: no puedes distinguir fácilmente si un componente está agrietado, quemado o simplemente lleva un abrigo gris de moda.

Modo de fallo 4: Pasta incorrecta para el perfil operativo

Desktops y servidores viven vidas diferentes. Un servidor puede tener carga sostenida, altas temperaturas de entrada y ciclos térmicos constantes. Algunas pastas de consumo se secan,
separan o hacen pump-out más rápido bajo ese régimen. A la inversa, algunos compuestos de alto rendimiento son quisquillosos y exigen montaje y preparación perfectos.

Modo de fallo 5: Perseguir la pasta cuando el problema real es el flujo de aire

La clásica mala diagnóstico: “La CPU está caliente, por lo tanto la pasta está mala.” En un rack, la temperatura de entrada, paneles de llenado faltantes, paquetes de cables, salud de los ventiladores y curvas BMC
suelen ser el verdadero villano. La pasta es lo más fácil de tocar, así que se la echa la culpa. Mientras tanto el servidor está respirando el escape del vecino porque alguien quitó un panel y nadie quiso abrir un ticket.

Broma #2: Si tu aplicación de pasta parece arte moderno, la CPU responderá con arte performativo—principalmente throttling interpretativo.

Guion de diagnóstico rápido

Cuando una máquina corre caliente después de un repaste—or empieza a throttlear durante cargas normales—no empieces por repastear otra vez. Empieza por aislar el cuello de botella en tres pasadas:
(1) confirma sensores y síntomas, (2) correlaciona con comportamiento de potencia y frecuencia, (3) valida flujo de aire y contacto mecánico. Estás respondiendo una pregunta rápidamente:
¿el factor limitante es generación de calor, transferencia de calor o eliminación de calor?

Primero: confirma que el síntoma es real y específico

Revisa la temperatura del paquete de la CPU, los deltas por núcleo/CCD y si el BMC coincide con el SO.
Busca flags de throttling térmico y caídas de frecuencia bajo carga.
Compáralo con un host “hermano” conocido bueno si tienes uno.

Segundo: correlaciona térmicas con la carga y la potencia

¿Se activa con la carga (solo durante AVX o compresión), por tiempo (después de 20 minutos) o por ambiente (solo en picos del pasillo caliente)?
¿Las ventiladores suben al máximo? Si las RPM son bajas mientras la CPU está caliente, sospecha control de ventiladores/políticas BMC.
¿Estás limitado por potencia (clamp de potencia del paquete) en lugar de por térmica?

Tercero: valida flujo de aire y contacto mecánico

Flujo de aire: temperaturas de entrada, RPM de chasis, filtros bloqueados, blanks faltantes, obstrucciones por cables.
Mecánico: patrón de torque del disipador, separadores de montaje, alineación de placa trasera, placa fría deformada, espaciador correcto para el socket.
TIM: cantidad correcta, sin vacíos, sin contaminación, tipo correcto para el rango de temperaturas.

Si sigues este orden, evitas el error más caro: hacer retrabajos físicos repetidos sin un cambio en la medición, lo que convierte un problema técnico en un incidente de fiabilidad con tiempo de inactividad extra.

Tareas prácticas: comandos, salidas y decisiones

Estos son comandos reales que puedes ejecutar en servidores Linux típicos para determinar si tu problema es throttling, sensores, flujo de aire o contacto. Cada tarea incluye
qué significa la salida y qué decidir después. Úsalos como usarías iostat para almacenamiento: como evidencia, no adorno.

Task 1: Check basic CPU temperatures and per-core spread

cr0x@server:~$ sensors
coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +86.0°C  (high = +90.0°C, crit = +100.0°C)
Core 0:        +85.0°C  (high = +90.0°C, crit = +100.0°C)
Core 1:        +86.0°C  (high = +90.0°C, crit = +100.0°C)
Core 2:        +68.0°C  (high = +90.0°C, crit = +100.0°C)
Core 3:        +69.0°C  (high = +90.0°C, crit = +100.0°C)

Significado: Dos núcleos están ~17–18°C más calientes que otros en condiciones similares. Eso no es “flujo de aire del chasis”; suele ser contacto desigual o un punto caliente localizado.

Decisión: Pasa a comprobaciones de throttling y luego a una inspección mecánica si el patrón persiste bajo una carga controlada.

Task 2: Watch temperatures and fan behavior live

cr0x@server:~$ watch -n 1 'sensors | egrep "Package id 0|Core 0|Core 2|fan"'
Every 1.0s: sensors | egrep Package id 0|Core 0|Core 2|fan

Package id 0:  +92.0°C
Core 0:        +91.0°C
Core 2:        +74.0°C
fan1:          8200 RPM
fan2:          8100 RPM

Significado: Los ventiladores están altos; el sistema está intentando. Las temperaturas siguen siendo elevadas, con un gran delta. La eliminación de calor funciona; la transferencia de calor (TIM/contacto) es sospechosa.

Decisión: Valida flags de throttling; prepárate para una recolocación con torque y cantidad de pasta correctos.

Task 3: Confirm CPU frequency and throttling during load

cr0x@server:~$ lscpu | egrep "Model name|CPU MHz|Thread|Socket"
Model name:                           Intel(R) Xeon(R) CPU
Thread(s) per core:                   2
Socket(s):                            2
CPU MHz:                              1199.992

Significado: Si estás bajo carga y ves ~1.2 GHz en una CPU que debería estar mucho más alta, probablemente estás en throttling o limitado por potencia.

Decisión: Revisa los logs del kernel por eventos de throttling térmico y compáralos con límites de potencia.

Task 4: Look for thermal throttling messages in kernel logs

cr0x@server:~$ sudo dmesg -T | egrep -i "thermal|throttl|PROCHOT|temperature" | tail -n 10
[Mon Jan 22 10:14:05 2026] CPU0: Package temperature above threshold, cpu clock throttled (total events = 37)
[Mon Jan 22 10:14:05 2026] CPU1: Package temperature above threshold, cpu clock throttled (total events = 37)

Significado: Esto es throttling térmico explícito. No “tal vez.” No “el usuario dice que va lento.”

Decisión: Determina si se debe a flujo de aire/ambiente o a una mala interfaz/montaje comprobando la entrada de aire y el control de ventiladores a continuación.

Task 5: Read BMC/IPMI sensor data (temps, fans, inlet)

cr0x@server:~$ sudo ipmitool sdr elist | egrep -i "inlet|ambient|cpu|fan" | head -n 12
Inlet Temp       | 24 degrees C      | ok
CPU1 Temp        | 91 degrees C      | ok
CPU2 Temp        | 89 degrees C      | ok
FAN1             | 8100 RPM          | ok
FAN2             | 8200 RPM          | ok
FAN3             | 7900 RPM          | ok

Significado: La entrada está razonable; las temperaturas de CPU son altas; los ventiladores están altos y saludables. Esto apunta alejándose de problemas de pasillo caliente y hacia contacto del disipador/TIM.

Decisión: Programa una ventana de mantenimiento para recolocar; no pierdas tiempo reconfigurando curvas de ventilador.

Task 6: Verify CPU governor and frequency policy (avoid self-inflicted throttling)

cr0x@server:~$ cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor
performance

Significado: No estás ejecutando “powersave.” Bien. Si fuera “powersave,” podrías interpretar erróneamente relojes bajos como throttling térmico.

Decisión: Procede a comprobaciones de límite de potencia/térmico en lugar de ajustar la política de CPU.

Task 7: Check for power capping (can masquerade as thermal issues)

cr0x@server:~$ sudo ipmitool dcmi power reading
    Instantaneous power reading:                   412 Watts
    Minimum during sampling period:                380 Watts
    Maximum during sampling period:                430 Watts
    Average power reading over sample period:      405 Watts
    IPMI timestamp:                           Mon Jan 22 10:20:10 2026
    Sampling period:                          00000010 Seconds.

Significado: Esto muestra consumo real; no prueba que estés limitado, pero da contexto. Si tu plataforma aplica un cap estricto, los relojes pueden bajar incluso a temperaturas seguras.

Decisión: Si las temperaturas son altas y los relojes bajos, es térmico. Si las temperaturas son moderadas y los relojes bajos, sospecha cap de potencia o límites de BIOS.

Task 8: Identify whether a specific process triggers the heat spike

cr0x@server:~$ top -b -n 1 | head -n 15
top - 10:22:31 up 18 days,  3:12,  1 user,  load average: 63.12, 58.77, 41.09
Tasks: 412 total,   2 running, 410 sleeping,   0 stopped,   0 zombie
%Cpu(s):  2.1 us,  0.3 sy,  0.0 ni, 97.4 id,  0.0 wa,  0.0 hi,  0.2 si,  0.0 st
MiB Mem : 257843.1 total,  98212.7 free,  40117.2 used, 119513.2 buff/cache
  PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND
28412 app       20   0  12.3g  2.1g  112m R  780.0   0.8  12:31.44 compressor

Significado: Una sola carga (compresión/crypto/AVX-intensiva) puede empujar las térmicas más que tus pruebas habituales.

Decisión: Usa una prueba de carga repetible (el mismo binario) al validar una recolocación; si no, perseguirás ruido.

Task 9: Stress test in a controlled way to reproduce the issue

cr0x@server:~$ sudo apt-get install -y stress-ng
Reading package lists... Done
Building dependency tree... Done
The following NEW packages will be installed:
  stress-ng
0 upgraded, 1 newly installed, 0 to remove and 0 not upgraded.

Significado: Ahora tienes una herramienta consistente para generar carga.

Decisión: Ejecuta un estrés corto y observa temperaturas; no lo hagas en producción sin ventana de mantenimiento y límites de seguridad.

cr0x@server:~$ sudo stress-ng --cpu 32 --timeout 60s --metrics-brief
stress-ng: info:  [31201] dispatching hogs: 32 cpu
stress-ng: metrc: [31201] cpu                60.00s  12345.67 bogo ops/s
stress-ng: info:  [31201] successful run completed in 60.02s

Significado: Una carga repetible de 60 segundos permite comparaciones antes/después. Combínalo con watch sensors.

Decisión: Si el throttling ocurre rápido, es probablemente contacto/TIM. Si tarda mucho, sospecha flujo de aire, filtros obstruidos o ambiente.

Task 10: Check for corrected hardware errors that correlate with heat

cr0x@server:~$ sudo journalctl -k --since "1 hour ago" | egrep -i "mce|edac|hardware error" | tail -n 10
Jan 22 10:09:12 server kernel: mce: [Hardware Error]: Machine check events logged
Jan 22 10:09:12 server kernel: EDAC MC0: 1 CE memory read error on CPU_SrcID#0_Ha#0_Chan#1_DIMM#0

Significado: El calor puede exacerbar componentes marginales. Un repaste que aumenta temperaturas puede convertir “errores corregibles raros” en “incidente.”

Decisión: Trata problemas térmicos como riesgos de fiabilidad; planifica remediación antes de que los errores dejen de ser corregibles.

Task 11: Validate storage latency during thermal throttling (because it will show up)

cr0x@server:~$ iostat -xz 1 3
Linux 6.5.0 (server) 	01/22/2026 	_x86_64_	(64 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          12.31    0.00    3.22    0.85    0.00   83.62

Device            r/s     w/s   rkB/s   wkB/s  rrqm/s wrqm/s  %util  r_await  w_await
nvme0n1         12.0   220.0   512.0  8192.0     0.0    0.0   68.5    2.10    9.80

Significado: Durante el throttling, la CPU puede convertirse en cuello de botella e inflar los tiempos de procesamiento de peticiones, lo que puede parecer que “el almacenamiento se pone lento.”

Decisión: Si la latencia de almacenamiento sube mientras los relojes de CPU bajan y las temperaturas suben, corrige la térmica antes de afinar I/O.

Task 12: Verify ZFS scrub/resilver isn’t turning thermals into a self-inflicted outage

cr0x@server:~$ zpool status
  pool: tank
 state: ONLINE
status: One or more devices is currently being resilvered.
action: Wait for the resilver to complete.
  scan: resilver in progress since Mon Jan 22 09:41:03 2026
        1.20T scanned at 1.68G/s, 612G issued at 858M/s, 4.10T total
        612G resilvered, 14.58% done, 0 days 01:10:22 to go
config:

        NAME        STATE     READ WRITE CKSUM
        tank        ONLINE       0     0     0
          raidz2-0  ONLINE       0     0     0
            sda     ONLINE       0     0     0
            sdb     ONLINE       0     0     0
            sdc     ONLINE       0     0     0
            sdd     ONLINE       0     0     0

Significado: El resilver de discos exige mucho a CPU y memoria (checksums, compresión, paridad). Si tus térmicas de CPU son marginales, este tipo de carga lo encontrará.

Decisión: Si estás en throttling, considera pausar o programar cargas pesadas de mantenimiento hasta corregir la refrigeración—si no, prolongas el periodo de riesgo.

Task 13: Check BMC event log for thermal or fan events

cr0x@server:~$ sudo ipmitool sel list | tail -n 8
 217 | 01/22/2026 | 10:14:06 | Temperature #0x01 | Upper Critical going high | Asserted
 218 | 01/22/2026 | 10:14:10 | Temperature #0x01 | Upper Critical going high | Deasserted
 219 | 01/22/2026 | 10:14:12 | Processor #0x01   | IERR | Asserted

Significado: El BMC vio un cruce de umbral térmico. También un error de procesador puede indicar inestabilidad bajo calor.

Decisión: Escala. La térmica no es cosmética; ahora está causando fallos a nivel de hardware.

Task 14: Check whether the chassis thinks the lid is present (yes, this happens)

cr0x@server:~$ sudo ipmitool sdr elist | egrep -i "intrusion|chassis"
Chassis Intrusion | Not Available     | ok

Significado: Algunas plataformas ajustan el comportamiento de ventiladores según sensores de intrusión o tapa. Si está activado, el control de ventiladores puede actuar de forma extraña.

Decisión: Si la intrusión está afirmada o “open”, arregla el estado físico primero; no ajustes el software para esquivar una tapa faltante.

Tres microhistorias corporativas desde el campo

1) El incidente causado por una suposición errónea

Una empresa SaaS mediana tenía una flota de servidores de base de datos estable durante años. Luego ocurrió una actualización de hardware rutinaria: misma familia de CPU, stepping ligeramente más nuevo,
nueva revisión del soporte del disipador por parte del proveedor. Nada alarmante. Un técnico repasteó un puñado de hosts durante el rack-and-stack porque algunos disipadores parecían
“un poco secos.” Eso pareció responsable.

La suposición errónea fue simple: más pasta mejora la térmica, y “se va a expandir sola.” El técnico usó una cantidad generosa e hizo una instalación rápida—apretó una esquina,
luego la opuesta, pero no en pasos incrementales. Las máquinas arrancaron. Las temperaturas parecían aceptables en idle. Todos se fueron a casa.

Al día siguiente, el clúster de base de datos empezó a mostrar picos impredecibles de latencia. No masivos. Lo justo para disparar reintentos, que generaron más carga, que generaron
más calor. Bajo el trabajo de analítica nocturna, dos nodos empezaron a throttlear, quedaron retrasados en la replicación y el gestor de clúster los expulsó por “lentos y no saludables.”
El failover funcionó, pero fue desordenado: un bache de disponibilidad, alarmas, y una larga reunión de causa raíz.

El postmortem fue menos sobre pasta y más sobre disciplina. Compararon telemetría térmica entre nodos “repasteados” y “sin tocar” y encontraron una firma clara:
temperaturas de paquete más altas bajo carga y un delta por núcleo mayor. La solución no fue heroica. Sacaron las máquinas en una ventana de mantenimiento, limpiaron correctamente,
aplicaron una cantidad medida, apretaron en patrón cruzado con torque consistente y validaron con una prueba de estrés antes de devolverlas al pool.

La lección real: asumir que un cambio físico es benigno porque el sistema arranca es como asumir que un cambio de almacenamiento es seguro porque el sistema de archivos se monta. Arrancar no es
un benchmark. Es un saludo.

2) La optimización que salió mal

Otra organización—grande, ahorradora y orgullosa de su “eficiencia”—quería reducir ruido de ventiladores y consumo en un laboratorio que se había convertido en área de staging de producción. Alguien decidió
“optimizar” la térmica: reaplicar pasta de alta conductividad premium en la flota y luego reducir curvas de ventilador ligeramente vía BMC. El argumento: mejor pasta = ventiladores más lentos.

La pasta estaba bien. El proceso no. Usaron un método de extensión para crear una capa con aspecto perfecto, pero no controlaron el espesor. Algunos disipadores terminaron con una capa demasiado gruesa.
Las máquinas corrieron más frías en idle—porque todo corre más frío en idle—y el cambio de curva hizo que el ambiente pareciera más silencioso y “estable.” Diapositiva de victoria.

Luego ejecutaron pruebas de carga de staging más realistas que las sintéticas anteriores. Bajo cargas sostenidas intensivas en CPU, las temperaturas subieron lentamente, los ventiladores subieron tarde
(por la nueva curva) y las CPUs empezaron a bajar relojes. Los resultados de rendimiento fueron peores. El equipo asumió que la nueva pasta necesitaba “rodaje,” porque ese es el tipo de mito al que te aferras
cuando ya has comprometido la narrativa.

Al final, la optimización falló dos veces: el cambio de curva redujo margen térmico y el espesor inconsistente del TIM aumentó la resistencia térmica. Revirtieron la política de ventiladores, estandarizaron
el método de aplicación y solo entonces la “pasta premium” produjo una mejora medible. El coste fue principalmente tiempo y credibilidad, que en la vida corporativa no se renueva fácilmente.

La regla operativa: nunca agrupes cambios físicos con cambios de política a menos que estés preparado para bisecarlos. Si no puedes bisecar, no puedes aprender.

3) La práctica aburrida pero correcta que salvó el día

Un equipo de almacenamiento con nodos densos de cómputo y NVMe tenía un hábito que parecía casi cómico: cada vez que se quitaba un disipador, lo registraban como un swap de disco.
Ticket, motivo, tipo de pasta, método, patrón de torque y una instantánea de prueba de estrés de 60 segundos antes/después. A nadie le encantaba hacerlo. A todos les encantaba tenerlo después.

Durante un freeze de cambios de fin de trimestre, un nodo empezó a throttlear de forma intermitente. No fallaba por completo. Simplemente iba lento. El servicio que alojaba tenía SLOs estrictos de cola alta,
y ese nodo estaba lastrando a todo el pool. Por el freeze, el equipo necesitaba pruebas antes de solicitar una excepción para trabajo físico.

Sacaron los datos históricos del host y vieron que las temperaturas de paquete bajo la prueba estándar habían aumentado ~10°C desde el último mantenimiento. También vieron que el host tenía
un registro de retirada de disipador dos meses antes por un RMA de placa. Eso les dio una hipótesis plausible: un problema sutil de asiento o pump-out.

Obtuvieron la excepción, recolocaron el disipador usando su procedimiento estándar, y la prueba posterior coincidió con la línea base. Sin drama, sin conjeturas, sin “prueba otra marca de pasta.”
El host volvió al pool y el fin de trimestre pasó sin incidentes de rendimiento.

Así es como se ve lo aburrido cuando funciona: un pequeño ritual de medición y documentación que convierte un misterio térmico en una tarea de mantenimiento predecible.

Errores comunes: síntoma → causa raíz → solución

1) Altas temperaturas de CPU inmediatamente después del repaste

Síntomas: Las temperaturas están peor que antes; los ventiladores suben rápido; throttling con carga modesta.

Causa raíz: Demasiada pasta (capa gruesa), bolsas de aire atrapadas, disipador no asentado plano.

Solución: Quita el disipador, limpia ambas superficies completamente, aplica una cantidad medida pequeña, recoloca apretando en patrón cruzado incremental. Valida con una prueba de carga repetible.

2) Un núcleo/CCD mucho más caliente que los demás

Síntomas: Gran delta por núcleo bajo carga; la temperatura del paquete parece “más o menos” pero el punto caliente alcanza umbrales.

Causa raíz: Presión de montaje desigual, inclinación, separador/espaciador incorrecto, base del disipador deformada, cuña de pasta.

Solución: Revisa compatibilidad del hardware de montaje; recoloca; asegura torque uniforme. Considera inspeccionar el patrón de contacto (impresión de pasta fina) para confirmar cobertura completa.

3) Temperaturas bien en idle, mal después de 20–60 minutos

Síntomas: Subida gradual y luego throttling; a menudo correlaciona con cargas sostenidas (scrubs, rebuilds, trabajos por lotes).

Causa raíz: Restricción de flujo de aire (filtros, paquetes de cables), curva de ventilador demasiado conservadora, picos de temperatura ambiente/entrada, pump-out de la pasta con el tiempo.

Solución: Revisa temperatura de entrada y RPM de ventiladores vía BMC; inspecciona la ruta de flujo de aire; restaura la política de ventilador del proveedor; si el historial lo sugiere, recoloca con una pasta conocida por resistir pump-out.

4) El sistema se reinicia bajo carga, las térmicas “parecen normales”

Síntomas: Reinicios aleatorios; a veces no hay log térmico claro; eventos MCE/EDAC ocasionales.

Causa raíz: Punto caliente localizado no captado por el sensor que observas, sobrecalentamiento de VRM, desalineación del disipador o falta de tapa/ducting que hace que componentes se calienten.

Solución: Usa sensores BMC más allá de la CPU (VRM, placa base, entrada). Confirma ductos y shrouds instalados. Revisa el asiento del disipador. No ignores los errores corregidos.

5) Ventiladores atascados bajos mientras las temperaturas suben

Síntomas: La CPU alcanza 90°C y los ventiladores permanecen a baja RPM; sin fallos obvios de ventilador.

Causa raíz: Configuración incorrecta de la política de ventiladores en BMC, sensor de intrusión del chasis afirmado o bug de firmware.

Solución: Compara temperaturas del SO con lecturas del BMC; revisa SEL para eventos de política; restaura el perfil térmico por defecto; actualiza firmware de BMC en una ventana controlada.

6) Pasta en el socket/componentes después del retrabajo

Síntomas: Contaminación visual; problemas de arranque intermitentes; inestabilidad inexplicable post-mantenimiento.

Causa raíz: Aplicación excesiva y esparcido durante la extracción/instalación del disipador; método de limpieza deficiente.

Solución: Apaga, desensambla con cuidado, limpia con disolvente apropiado y herramientas sin pelusa, inspecciona con luz brillante. Si se usó pasta conductora, trátalo como incidente y considera reemplazo de placa.

7) “Hicimos repaste y sigue caliente”

Síntomas: Sin mejora tras múltiples repastes; todos están cansados; el sistema sigue marginal.

Causa raíz: El problema no es la pasta: disipador equivocado, shroud faltante, hardware de montaje incorrecto, ventilador degradado, aletas de disipador obstruidas o temperatura de entrada alta.

Solución: Deja de repastear. Valida números de pieza, shrouds y flujo de aire. Verifica ventiladores y limpieza de aletas. Compáralo con un host conocido bueno en el mismo rack.

Listas de verificación / plan paso a paso

Paso a paso: el procedimiento de repaste “hacerlo una vez y hasta luego” (grado servidor)

Planifica la validación. Elige una prueba de carga repetible (p. ej., stress-ng --cpu N --timeout 60s) y registra temperaturas y frecuencias de referencia antes de tocar el hardware.
Programa una ventana. Necesitas tiempo para limpiar con cuidado y una prueba de estrés posterior. Apresurarse es cómo la pasta se convierte en estilo de vida.
Apaga y descarga. Quita cables de alimentación, espera, sigue la guía de servicio de la plataforma. No cambies en caliente tu paciencia.
Retira el disipador con cuidado. Afloja en patrón cruzado poco a poco. Evita girar que esparza la pasta sobre componentes.
Limpia ambas superficies completamente. Usa toallitas/palitos sin pelusa y disolvente apropiado. Elimina la pasta vieja de bordes y esquinas donde le encanta esconderse.
Inspecciona las superficies. Busca arañazos, picaduras, residuos y señales de contacto desigual. Confirma el soporte/separadores correctos para el socket.
Aplica pasta con moderación. Usa el mínimo que rellene huecos: punto pequeño para IHS típico, línea/X para IHS rectangulares grandes de servidor según corresponda.
Asienta el disipador recto hacia abajo. Evita deslizarlo; un pequeño desplazamiento puede crear vacíos o empujar la pasta desigual.
Apreta incrementalmente en patrón cruzado. Pocas vueltas por tornillo, alternando esquinas, hasta asentar según especificación del proveedor.
Reinstala shrouds y ductos. No son estética opcional. Son la diferencia entre “sistema de refrigeración” y “esperanza.”
Arranca y verifica sensores. Confirma ventiladores, temperatura de entrada y temperaturas de CPU tanto en OS como en BMC.
Ejecuta la carga de validación. Compara con la línea base. Si las temperaturas empeoran, detente y revisa montaje y cantidad de pasta en lugar de “probar un patrón nuevo” al azar.
Registra el cambio. Anota tipo de pasta, método y métricas antes/después. Tu yo futuro te lo agradecerá desagradablemente.

Lista de verificación: saneamiento de flujo de aire y chasis (antes de culpar a la pasta)

Todos los módulos de ventilador presentes, modelo correcto, sin fallos reportados.
Aletas del disipador limpias; sin enmallado de polvo ni espuma de embalaje (sí, pasa).
Shroud de aire instalado y bien asentado.
Paneles de llenado instalados; sin huecos RU abiertos que cortocircuiten el flujo de aire.
Paquetes de cables sin bloquear entradas de ventilador o el shroud de CPU.
Temperaturas de entrada dentro del rango esperado; compara con vecinos del rack.
Perfil térmico BMC en modo recomendado por el proveedor para tu carga de trabajo.

Lista de verificación: elegir pasta como un adulto

Prefiere pasta no conductora y no capacitiva para servidores de flota a menos que tengas razón sólida y controles de mano de obra.
Prioriza estabilidad frente a ciclos térmicos (resistencia al pump-out) sobre reclamaciones de conductividad pico en benchmarks.
Estandariza en uno o dos compuestos aprobados y un método de aplicación por plataforma.
Evita mezclar pastas o aplicar sobre residuos; limpia hasta superficie desnuda cada vez.
Si usas pads de cambio de fase por diseño, no los reemplaces por pasta a la ligera; estás alterando un proceso de ensamblaje validado.

Preguntas frecuentes

1) ¿Demasiada pasta térmica puede empeorar realmente las temperaturas?

Sí. La pasta es principalmente un relleno de huecos de aire. Una capa gruesa aumenta la resistencia térmica comparada con contacto metal-metal, elevando temperaturas y acelerando throttling.

2) ¿Cómo sé si apliqué demasiado sin desmontar?

Busca una firma post-repaste: temperaturas de paquete más altas bajo la misma carga controlada, mayores deltas por núcleo, rampas de ventilador antes y nuevos eventos de throttling en logs.
Esos patrones sugieren fuertemente una mala interfaz o un problema de asiento.

3) ¿El método del “guisante” siempre es correcto?

No. Es un buen valor predeterminado para muchos tamaños de IHS generalistas, pero huellas IHS rectangulares grandes en servidores suelen beneficiarse de una línea o X para asegurar cobertura de bordes.
El requisito real es cobertura fina y continua después del montaje, no lealtad a una forma.

4) ¿Debo esparcir la pasta con una tarjeta/espátula?

En operaciones de flota, esparcir a menudo aumenta la variabilidad en el espesor e introduce burbujas si se hace a la ligera. Un punto/linea/X controlado con presión de montaje correcta suele ser más consistente.
Si vas a esparcir, necesitas un método que controle el espesor y evite aire.

5) ¿Con qué frecuencia deberían repastearse los servidores?

Menos frecuentemente de lo que sugieren foros de hobby. Muchas ensamblajes de grado servidor funcionan años sin repaste. Repastea cuando tengas evidencia: temperaturas subiendo con el tiempo,
después de quitar el disipador o tras un problema de contacto verificado—no como ritual estacional.

6) ¿Valen la pena los compuestos “metálicos” o “metal líquido” en producción?

Normalmente no, a menos que tengas un proceso controlado y la plataforma lo soporte. TIM conductor aumenta riesgos: cortocircuitos, corrosión y retrabajo más difícil.
La fiabilidad gana por varios grados.

7) Mi CPU está caliente; ¿eso significa automáticamente que la pasta está mal?

No automáticamente. Revisa temperaturas de entrada, RPM de ventiladores, shrouds y política BMC primero. Los problemas de flujo de aire son comunes y afectan múltiples componentes, no solo el paquete de CPU.

8) ¿Por qué veo throttling pero no una alarma de temperatura obvia?

El throttling puede activarse por puntos calientes localizados o sensores internos que no mapean claramente a la temperatura que estás mirando. Además, el firmware puede throttlear
de forma proactiva por debajo de umbrales “críticos”. Usa tanto logs del OS como sensores BMC para tener una imagen más completa.

9) ¿Cuál es el factor mecánico más importante además de la cantidad de pasta?

La presión y la uniformidad del montaje. Una pasta perfecta no puede compensar un disipador inclinado, con torque desigual o con espaciador/placa trasera incorrectos.

10) Si repasteo y las temperaturas mejoran, ¿ya está todo hecho?

Has terminado cuando validas bajo una carga sostenida representativa y registras el resultado. Muchos problemas térmicos aparecen con el tiempo, no en el primer minuto.

Conclusión: próximos pasos que sí puedes hacer

La pasta térmica no es magia ni un proyecto artesanal. Es una interfaz controlada en un sistema de transferencia de calor con modos de fallo conocidos: demasiado gruesa, asiento desigual,
material incorrecto o culpar al TIM por pecados de flujo de aire. Los repastes más desordenados vienen de la misma causa raíz que los cortes de servicio desordenados: cambiar cosas sin medir.

Pasos prácticos siguientes:

Elige una carga de validación estándar y registra térmicas y frecuencias de referencia por plataforma.
Cuando las térmicas dériven, ejecuta el guion de diagnóstico rápido antes de tocar hardware.
Si debes repastear, estandariza tipo de pasta, método de aplicación y secuencia de torque—y documenta como cualquier otro cambio en producción.
Tras el retrabajo, valida bajo carga sostenida realista, no solo “arranca”.
Trata regresiones térmicas como riesgos de fiabilidad, especialmente en nodos de almacenamiento que hacen rebuilds y scrubs.

Si recuerdas una cosa: la cantidad correcta de pasta es la mínima que hace al aire irrelevante. Todo lo que vaya más allá es solo decoración sobre un problema de calor.

ZFS Resilver: por qué la reconstrucción tarda días (y cómo acelerarla de forma segura)

La alerta llega a las 09:12: “DEGRADED pool.” Cambias el disco, ejecutas zpool replace y esperas un par de horas de actividad.
Entonces zpool status te muestra “resilvering… 3%” y una ETA que parece un fin de semana largo.

El tiempo de resilver no es una falta moral. Es física, profundidad de cola, geometría de vdev y la incómoda realidad de que las cargas de producción no se detienen porque tú lo prefieras.
La clave es saber qué palancas son seguras, cuáles son rituales y cuáles intercambian velocidad hoy por pérdida de datos mañana.

Qué hace realmente el resilver (y por qué parece más lento de lo «esperado»)

En ZFS, un “resilver” es la reconstrucción tras reemplazar un dispositivo o cuando vuelve a estar en línea. ZFS recorre los metadatos del pool para descubrir qué bloques están realmente en uso,
luego regenera las copias/paridad faltantes y las escribe en el dispositivo nuevo (o retornado).

Esa parte de “recorrer los metadatos” es por qué el resilver a menudo no es una simple copia lineal de “bytes usados”. Es una cadena de dependencias:
ZFS debe leer metadatos para saber dónde están los bloques de datos, luego leer esos bloques y escribir los bloques reconstruidos, mientras además mantiene la consistencia con escrituras en curso.
Si tu pool está fragmentado, lleno de metadatos o bajo carga, el resilver se convierte en un festival de búsquedas y colas.

Además, el resilver no es solo una gran lectura y escritura en streaming. Es “encontrar todos los bloques referenciados y reparar el lado que falta”, lo que en RAIDZ significa leer suficientes
columnas para reconstruir la paridad, y en mirrors significa copiar los bloques del otro lado. Los mirrors pueden ser rápidos si pueden leer secuencialmente. RAIDZ muchas veces no.

Otra realidad operativa: ZFS intenta comportarse de forma responsable. Por defecto no apartará tu carga de servicio para hacer el trabajo sin miramientos.
El resilver compite por I/O con todo lo demás, y ZFS deja intencionalmente margen—a menos que le indiques lo contrario.

Por qué un resilver tarda días: los cuellos de botella reales

1) I/O aleatorio y fragmentación: tus «bytes usados» no son contiguos

Si tu pool ha estado funcionando años con cargas mixtas—imágenes de VM, bases de datos, archivos pequeños, eliminaciones, snapshots—los bloques se dispersan.
ZFS debe seguir punteros de metadatos, lo que se convierte en muchas lecturas pequeñas. A los HDDs no les gusta eso. Incluso los SSD pueden sufrir si saturas con desajustes de profundidad de cola
o sufres amplificación de escritura.

La mentira que nos contamos es: “Hay solo 12 TB usados; debería resilver en 12 TB / rendimiento del disco.” Eso asume lecturas y escrituras secuenciales, bajo overhead de metadatos
y sin contención. En realidad, el throughput efectivo del resilver a menudo está limitado por IOPS, no por MB/s.

2) Geometría del vdev: RAIDZ lee más de lo que piensas

En un mirror, para reconstruir un lado faltante normalmente puedes leer el disco sano y escribir el nuevo. En RAIDZ, para reconstruir un disco faltante,
ZFS lee las columnas restantes de cada stripe. Eso implica más I/O por byte reconstruido, y se dispersa entre más spindles.

El resilver en RAIDZ puede ser especialmente castigador en vdevs anchos con discos grandes. El pool está degradado, así que la redundancia se reduce, y el rendimiento cae justo cuando más lo necesitas.
Si tienes mala suerte, también estarás sirviendo lecturas de producción con menos columnas disponibles. Es como reconstruir un puente mientras aún es hora pico.

3) “Se están asignando mientras se hace el resilver”: los bloques se mueven bajo tus pies

ZFS es copy-on-write. Las escrituras nuevas van a nuevas ubicaciones; los bloques antiguos siguen referenciados hasta que se liberen. Durante un resilver, las escrituras activas pueden cambiar lo que necesita copiarse:
actualizaciones de metadatos, bloques indirectos, nuevos punteros de bloque. ZFS maneja esto, pero significa que la operación es menos de “pasada única” de lo que la gente asume.

4) Uso del pool: por encima de ~80% la cosa se pone fea rápido

Los pools llenos se fragmentan más, asignan en fragmentos más pequeños y obligan a ZFS a trabajar más para encontrar espacio. El resilver se vuelve más aleatorio y el overhead aumenta.
Si además tienes muchas snapshots, el espacio liberado no está realmente libre hasta que las snapshots expiren, así que “df dice 20% libre” puede ser ficción.

5) Recordsize, volblocksize y cargas con bloques pequeños

El resilver debe lidiar con los tamaños de bloque tal como están en disco. Un zvol de VM con volblocksize de 8K o un dataset de base de datos con recordsize de 16K
resulta en muchos más bloques a recorrer que un dataset lleno de registros de 1M.

Más bloques significa más metadatos, más checksums, más operaciones de I/O y menos probabilidad de patrones secuenciales agradables. No lo notas en el día a día
hasta que necesitas reconstruir.

6) Compresión y dedup: geniales hasta que reconstruyes

La compresión suele ayudar al resilver porque hay menos bytes que leer y escribir—si la CPU no es el cuello de botella.
La deduplicación es lo opuesto: añade búsquedas de metadatos y a menudo hace todo más aleatorio.

Si activaste dedup porque una vez viste una diapositiva sobre “eficiencia de almacenamiento”, te has impuesto una tasa de resilver. Se complica bajo presión.

7) Checksumming, cifrado y cuellos de botella de CPU

ZFS verifica checksums al leer. Si usas cifrado nativo, también descifra. En CPUs antiguas o máquinas ocupadas, el resilver puede volverse limitado por CPU,
especialmente cuando el patrón de I/O son muchos bloques pequeños (más operaciones de checksum por byte).

8) “Prioridad del resilver” es un intercambio, no un almuerzo gratis

A menudo puedes acelerar el resilver permitiéndole consumir más I/O. Eso acelera la recuperación pero puede aplastar la latencia para tus aplicaciones.
La aceleración segura es la que mantiene tus SLOs intactos.

9) Discos de reemplazo lentos o incompatibles

Si el disco nuevo es SMR, tiene recolección de basura interna agresiva, está conectado a través de un HBA débil o simplemente es más lento que el anterior,
el tiempo de resilver puede explotar. “Misma capacidad” no es “mismo comportamiento.”

Broma #1: Resilver es el equivalente al repintar la casa mientras sigues viviendo en ella—todo es técnicamente posible, simplemente no es agradable.

Hechos e historia interesantes (porque el pasado explica el dolor)

ZFS se inició en Sun Microsystems a mediados de los 2000 como respuesta a sistemas de archivos que trataban “gestor de volúmenes” y “sistema de archivos” como problemas separados.
Copy-on-write fue una apuesta deliberada: hizo que los snapshots fueran baratos y la consistencia fuerte, pero también complicó los patrones de asignación con el tiempo.
Resilver no es scrub: scrub valida todo el pool; resilver reconstruye la redundancia tras la pérdida de un dispositivo. Comparten rutas de código pero tienen intenciones distintas.
Existe espacio de «slop» por una razón: ZFS reserva algo de espacio no asignable para evitar fragmentación catastrófica y fallos de asignación en pools casi llenos.
Históricamente la expansión de RAIDZ fue limitada (crecer un vdev RAIDZ añadiendo discos), lo que llevó a muchos a crear vdevs anchos desde el inicio—genial el día uno, tenso en el día 900.
Los discos SMR cambiaron el juego: pueden parecer bien en benchmarks y luego hundirse bajo escrituras aleatorias sostenidas como el tráfico de resilver.
OpenZFS se convirtió en el centro de gravedad tras Sun, con múltiples plataformas (illumos, FreeBSD, Linux) llevando la antorcha y divergiendo en tunables.
Mejoras para resilver secuencial aparecieron con el tiempo para acelerar ciertos patrones, pero no pueden deshacer la fragmentación ni arreglar el “pool al 92%” como elección de vida.

Guía de diagnóstico rápido: encuentra el cuello de botella en 10 minutos

Cuando el resilver está lento, no adivines. Toma tres medidas: qué ZFS piensa que está haciendo, qué están haciendo los discos y qué hacen la CPU y la memoria.
Luego decide si acelerar el resilver o reducir la carga de producción—o ambas cosas.

Primero: confirma que la reconstrucción es real y mira su forma

Revisa zpool status para tasa de escaneo, errores y si es resilver o scrub.
Confirma qué vdev está afectado y si eres RAIDZ o mirror.
Mira el progreso tipo “resilvered X in Y”; si avanza apenas, probablemente estás limitado por IOPS o bloqueado por errores/reintentos.

Segundo: identifica el recurso limitante (IOPS, ancho de banda, CPU o contención)

Disco ocupado pero bajo throughput: I/O aleatorio / colas / SMR / reintentos.
CPU alta en hilos del kernel/ZFS: checksum/cifrado/trabajo intensivo en metadatos.
Picos de latencia en apps: resilver compitiendo con I/O de producción; ajusta prioridades o planifica reducción de carga.

Tercero: decide la intervención segura

Si la producción está tranquila, aumenta la agresividad del resilver ligeramente y vigila la latencia.
Si la producción sufre, baja el impacto del resilver y acepta una reconstrucción más larga—a menos que el riesgo dicte otra cosa.
Si un dispositivo está reportando errores, deja de “tunear” y empieza el triage de hardware primero.

Tareas prácticas: comandos, salidas y decisiones (12+)

Estas son las comprobaciones que realmente ejecuto. Cada una incluye lo que significa la salida y la decisión que tomas a partir de ella.
Los comandos se muestran como si estuvieras en una máquina Linux con OpenZFS; adapta rutas si estás en illumos/FreeBSD.

Task 1: Confirmar estado del escaneo, velocidad y si estás resilvering o scrubbing

cr0x@server:~$ zpool status -v tank
  pool: tank
 state: DEGRADED
status: One or more devices is being resilvered.
action: Wait for the resilver to complete.
  scan: resilver in progress since Mon Dec 23 09:12:11 2025
        1.87T scanned at 58.3M/s, 612G issued at 19.1M/s, 22.4T total
        102G resilvered, 2.91% done, 5 days 03:18:22 to go
config:

        NAME                        STATE     READ WRITE CKSUM
        tank                        DEGRADED     0     0     0
          raidz2-0                  DEGRADED     0     0     0
            sda                     ONLINE       0     0     0
            sdb                     ONLINE       0     0     0
            sdc                     ONLINE       0     0     0
            sdd                     ONLINE       0     0     0
            sde                     ONLINE       0     0     0
            sdf                     ONLINE       0     0     0
            sdg                     ONLINE       0     0     0
            sdh                     ONLINE       0     0     0
            sdi                     ONLINE       0     0     0
            sdj                     ONLINE       0     0     0
            sdk                     ONLINE       0     0     0
            sdl                     ONLINE       0     0     0
            sdm                     ONLINE       0     0     0
            sdn                     ONLINE       0     0     0
            sdo                     ONLINE       0     0     0
            sdp                     ONLINE       0     0     0
            sdq                     ONLINE       0     0     0
            sdr                     ONLINE       0     0     0
            sds                     ONLINE       0     0     0
            sdt                     ONLINE       0     0     0
            sdu                     ONLINE       0     0     0
            sdv                     ONLINE       0     0     0
            sdx                     ONLINE       0     0     0
            sdy                     ONLINE       0     0     0
            sdz                     ONLINE       0     0     0
            sdaa                    ONLINE       0     0     0
            sdab                    ONLINE       0     0     0
            sdac                    ONLINE       0     0     0
            sdad                    ONLINE       0     0     0
            sdae                    ONLINE       0     0     0
            sdaf                    ONLINE       0     0     0
            sdag                    ONLINE       0     0     0
            sdah                    ONLINE       0     0     0
            sdai                    ONLINE       0     0     0
            sdaj                    ONLINE       0     0     0
            sdak                    ONLINE       0     0     0
            sdal                    ONLINE       0     0     0
            sdam                    ONLINE       0     0     0
            sdan                    ONLINE       0     0     0
            sdao                    ONLINE       0     0     0
            sdap                    ONLINE       0     0     0
            sdaq                    ONLINE       0     0     0
            sdar                    ONLINE       0     0     0
            sdas                    ONLINE       0     0     0
            sdat                    ONLINE       0     0     0
            sdau                    ONLINE       0     0     0
            sdav                    ONLINE       0     0     0
            sdaw                    ONLINE       0     0     0
            sdax                    ONLINE       0     0     0
            sday                    ONLINE       0     0     0
            sdaz                    ONLINE       0     0     0
            sdba                    ONLINE       0     0     0
            sdbb                    ONLINE       0     0     0
            sdbc                    ONLINE       0     0     0
            sdbd                    ONLINE       0     0     0
            sdbe                    ONLINE       0     0     0
            sdbf                    ONLINE       0     0     0
            sdbg                    ONLINE       0     0     0
            sdbh                    ONLINE       0     0     0
            sdbi                    ONLINE       0     0     0
            sdbj                    ONLINE       0     0     0
            sdbk                    ONLINE       0     0     0
            sdbl                    ONLINE       0     0     0
            sdbm                    ONLINE       0     0     0
            sdbn                    ONLINE       0     0     0
            sdbo                    ONLINE       0     0     0
            sdbp                    ONLINE       0     0     0
            sdbq                    ONLINE       0     0     0
            sdbr                    ONLINE       0     0     0
            sdbs                    ONLINE       0     0     0
            sdbt                    ONLINE       0     0     0
            sdbu                    ONLINE       0     0     0
            sdbv                    ONLINE       0     0     0
            sdbw                    ONLINE       0     0     0
            sdbx                    ONLINE       0     0     0
            sdby                    ONLINE       0     0     0
            sdbz                    ONLINE       0     0     0
            sdcA                    ONLINE       0     0     0
            sdcB                    ONLINE       0     0     0
            sdcC                    ONLINE       0     0     0
            sdcD                    ONLINE       0     0     0
            sdcE                    ONLINE       0     0     0
            sdcF                    ONLINE       0     0     0
            sdcG                    ONLINE       0     0     0
            sdcH                    ONLINE       0     0     0
            sdcI                    ONLINE       0     0     0
            sdcJ                    ONLINE       0     0     0
            sdcK                    ONLINE       0     0     0
            sdcL                    ONLINE       0     0     0
            sdcM                    ONLINE       0     0     0
            sdcN                    ONLINE       0     0     0
            sdcO                    ONLINE       0     0     0
            sdcP                    ONLINE       0     0     0
            sdcQ                    ONLINE       0     0     0
            sdcR                    ONLINE       0     0     0
            sdcS                    ONLINE       0     0     0
            sdcT                    ONLINE       0     0     0
            sdcU                    ONLINE       0     0     0
            sdcV                    ONLINE       0     0     0
            sdcW                    ONLINE       0     0     0
            sdcX                    ONLINE       0     0     0
            sdcY                    ONLINE       0     0     0
            sdcZ                    ONLINE       0     0     0
            sdd0                    ONLINE       0     0     0
errors: No known data errors

Qué significa: “scanned” vs “issued” te dice recorrido de metadatos frente a I/O real de reconstrucción.
Si “issued” es mucho menor que “scanned”, estás pasando tiempo recorriendo metadatos y/o siendo limitado por IOPS.

Decisión: Si la ETA son días y tu pool es grande, no entres en pánico todavía. Pasa a las comprobaciones de cuello de botella abajo antes de tocar tunables.

Task 2: Revisar salud del pool y tendencias de errores (no ajustes alrededor de hardware moribundo)

cr0x@server:~$ zpool status -x
pool 'tank' is degraded

Qué significa: El pool no está sano; el resilver es esperado. Si ves errores adicionales (READ/WRITE/CKSUM), eso es más urgente.

Decisión: Si los errores aumentan durante el resilver, deja de hacer “trabajo de rendimiento” y comienza el “triage de hardware.”

Task 3: Confirmar qué disco es el nuevo y si negociado correctamente (velocidad de enlace, tamaño)

cr0x@server:~$ lsblk -o NAME,SIZE,MODEL,SERIAL,ROTA,TYPE /dev/sdx
NAME   SIZE MODEL         SERIAL       ROTA TYPE
sdx   14.6T ST16000NM000J ZR12ABCDEF      1 disk

Qué significa: Quieres que el reemplazo coincida en capacidad esperada y sea un modelo CMR empresarial, no un disco SMR de sobremesa sorpresa.

Decisión: Si el modelo/serial parece incorrecto, detén y valida la adquisición. La «solución» más barata es devolver el disco equivocado antes de que te haga perder la semana.

Task 4: Detectar comportamiento SMR o estancamientos profundos de escritura con iostat

cr0x@server:~$ iostat -x 2 5 /dev/sdx
Linux 6.6.0 (server)  12/25/2025  _x86_64_  (32 CPU)

Device            r/s     w/s   rMB/s   wMB/s  avgrq-sz avgqu-sz   await  r_await  w_await  svctm  %util
sdx              12.0   180.0     1.1     9.4     116.0     27.8   145.2     8.1   154.8   2.9  56.8
sdx              11.5   190.5     1.0     2.2      36.2     64.1   336.7     9.2   356.8   2.7  52.4

Qué significa: El aumento de await con wMB/s colapsando es comportamiento clásico de “el disco se está bloqueando”.
No siempre es SMR, pero a menudo es “el firmware del disco está reorganizando escrituras” o tienes un problema de transporte/HBA.

Decisión: Si el dispositivo de reemplazo tiene await patológico, muévelo a otra bahía/cable/puerto HBA o cambia el modelo del disco.

Task 5: Ver si el resilver está limitado por IOPS a través del vdev

cr0x@server:~$ iostat -x 2 3
Device            r/s     w/s   rMB/s   wMB/s  avgqu-sz   await  %util
sda              85.0    22.0     5.1     1.2      9.2   86.4   92.0
sdb              82.0    25.0     4.9     1.4      8.7   84.9   90.1
sdc              83.0    23.0     5.0     1.3      9.1   85.7   91.5

Qué significa: %util alta con MB/s bajos significa que no estás haciendo streaming; estás buscando. Por eso la matemática “disco de 14TB a 250MB/s” falla.

Decisión: No subas a tope los knobs de “resilver speed” esperando milagros. Necesitas reducir la presión de I/O aleatorio (pausar cargas pesadas, reducir churn de snapshots),
o aceptar la línea temporal.

Task 6: Revisar presión de ARC y si la máquina está thrashing

cr0x@server:~$ arcstat 2 5
    time  read  miss  miss%  dmis  dm%  pmis  pm%  mmis  mm%  arcsz     c
09:23:01   914   202     22    46   23   156   77     0    0   96G   112G
09:23:03   901   229     25    51   22   178   78     0    0   96G   112G
09:23:05   938   301     32    90   29   211   70     0    0   96G   112G

Qué significa: El aumento de misses durante el resilver puede indicar que los metadatos no caben bien, o que la combinación de producción + resilver supera la utilidad de la caché.

Decisión: Si el ARC está constreñido y hay swapping, detente: la presión de memoria destruirá el resilver y todo lo demás. Añade RAM o reduce la carga.

Task 7: Confirmar que no estás intercambiando (swap) (el swap convierte la reconstrucción en un desastre en cámara lenta)

cr0x@server:~$ vmstat 1 5
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 3  0      0  82432  12644 9812448   0    0  4920  1280 4200 6100 18 12 58 12  0
 2  0      0  80120  12644 9812016   0    0  5100  1320 4302 6230 17 11 57 15  0

Qué significa: si/so deberían ser cero. Si estás haciendo swap, los recorridos de metadatos de ZFS y el trabajo de checksums se arrastrarán.

Decisión: Si hay swapping, reduce el cap de ARC, detén procesos que consumen memoria o mueve cargas. No “simplemente dejes que termine.”

Task 8: Comprobar si hay un scrub concurrente (y detenerlo si no es crítico por política)

cr0x@server:~$ zpool status tank | sed -n '1,20p'
  pool: tank
 state: DEGRADED
  scan: scrub in progress since Mon Dec 23 08:55:02 2025
        3.11T scanned at 72.5M/s, 901G issued at 21.0M/s, 22.4T total
        0B repaired, 4.03% done, 2 days 22:10:05 to go

Qué significa: Un scrub compitiendo con un resilver suele ser autoboicot, salvo que tengas una razón concreta.

Decisión: Si el pool ya está degradado y estás intentando restaurar redundancia, prioriza el resilver y pausa el scrub.

cr0x@server:~$ sudo zpool scrub -s tank
scrub stopped

Task 9: Verificar autotrim y supuestos de ashift (aquí se esconden cliff de rendimiento)

cr0x@server:~$ zdb -C tank | egrep -i 'ashift|autotrim'
        ashift: 12
        autotrim: off

Qué significa: ashift define la alineación de sectores. Un ashift incorrecto puede mermar permanentemente el rendimiento de escritura.
autotrim importa sobre todo para pools de SSD.

Decisión: No puedes cambiar ashift en sitio. Si está mal, planifica una migración. No finjas que un tunable arreglará la geometría.

Task 10: Comprobar propiedades a nivel de dataset que amplifican el trabajo de resilver

cr0x@server:~$ zfs get -o name,property,value -s local recordsize,compression,dedup,atime tank/vmstore
NAME          PROPERTY     VALUE
tank/vmstore  recordsize   128K
tank/vmstore  compression  lz4
tank/vmstore  dedup        off
tank/vmstore  atime        off

Qué significa: Recordsize pequeño, dedup=on y atime=on (para datasets ocupados) pueden aumentar el churn de metadatos y el trabajo de reconstrucción.

Decisión: No cambies esto a mitad de un resilver como “truco de velocidad”. Úsalo como entrada para diseño futuro y para acotar qué cargas debes limitar.

Task 11: Identificar si vdev especial o dispositivos de metadatos son el cuello de botella

cr0x@server:~$ zpool status tank | sed -n '1,120p'
  pool: tank
 state: DEGRADED
  scan: resilver in progress since Mon Dec 23 09:12:11 2025
config:

        NAME                       STATE     READ WRITE CKSUM
        tank                       DEGRADED     0     0     0
          raidz2-0                 DEGRADED     0     0     0
            sda                    ONLINE       0     0     0
            ...
        special
          mirror-1                 ONLINE       0     0     0
            nvme0n1                ONLINE       0     0     0
            nvme1n1                ONLINE       0     0     0

Qué significa: Si tienes un vdev especial (metadatos/bloques pequeños), su rendimiento puede dominar la velocidad de resilver porque el resilver es muy dependiente de metadatos.

Decisión: Vigila la latencia y salud de NVMe; un vdev de datos “bien” aún puede resilver lentamente si los dispositivos de metadatos están saturados o degradados.

Task 12: Buscar errores de I/O y reintentos en logs del kernel (asesino silencioso)

cr0x@server:~$ sudo dmesg -T | egrep -i 'ata[0-9]|scsi|reset|I/O error|blk_update_request' | tail -n 12
[Tue Dec 23 10:02:14 2025] sd 3:0:8:0: [sdx] tag#83 I/O error, dev sdx, sector 1883742336 op 0x1:(WRITE) flags 0x0 phys_seg 16 prio class 0
[Tue Dec 23 10:02:15 2025] ata9: hard resetting link
[Tue Dec 23 10:02:20 2025] ata9: SATA link up 1.5 Gbps (SStatus 113 SControl 310)

Qué significa: Reset de enlaces y negociación de enlace degradada (1.5 Gbps) estirarán el resilver hasta tiempos geológicos.

Decisión: Arregla el cableado/backplane/HBA. No ajustes ZFS para compensar un transporte inestable.

Task 13: Ver si ZFS está limitando el resilver por tunables (y ajustar con cuidado)

cr0x@server:~$ sudo sysctl -a 2>/dev/null | egrep 'zfs_vdev_resilver|zfs_resilver|scan_idle'
debug.zfs_scan_idle=50
debug.zfs_vdev_resilver_max_active=2
debug.zfs_vdev_resilver_min_active=1

Qué significa: Estos knobs influyen en cuán agresivamente ZFS emite I/O para resilver y cuánto se detiene para favorecer producción.
Los nombres varían por plataforma/distribución; no copies valores de blogs sin pensar.

Decisión: Si tienes margen de I/O y latencia aceptable, aumenta max_active modestamente. Si la latencia ya es mala, no lo hagas.

Task 14: Verificar que el pool no esté peligrosamente lleno (los pools llenos se reconstruyen lentamente y fallan creativamente)

cr0x@server:~$ zfs list -o name,used,avail,refer,mountpoint -p tank | head
NAME         USED        AVAIL       REFER       MOUNTPOINT
tank   19854735163392  2533274798080  1048576    /tank

Qué significa: Aproximadamente 19.8 TB usados, 2.5 TB disponibles. En un pool de ~22 TB, eso roza la zona de peligro.

Decisión: Si estás por encima de ~80–85% y el resilver es lento, prioriza liberar espacio (borrar snapshots antiguos, mover datos fríos) antes de tunear por velocidad.

Formas seguras de acelerar el resilver (qué funciona, qué no)

El objetivo no es “hacer el resilver rápido.” El objetivo es “restaurar redundancia rápidamente sin destrozar la producción o corromper datos.”
No son lo mismo. Siempre puedes hacer las cosas rápido haciendo lo incorrecto.

1) Reducir I/O competidor (la medida poco sexy con mayor apalancamiento)

Si el resilver está limitado por IOPS, la jugada ganadora es dejar de generar I/O aleatorio. Normalmente eso significa:

Pausar jobs por lotes: backups, reindexados de logs, analítica, grandes rsyncs.
Limitar o migrar inquilinos ruidosos (los clusters de VM son famosos por esto).
Aplazar la poda de snapshots que provoque muchas liberaciones/reescrituras (depende de implementación y carga).

Esto suele ser políticamente difícil. No debería serlo. Un pool degradado es un evento de riesgo. Trátalo como tal.

2) Aumentar la agresividad del resilver—con cuidado y con plan de reversión

Tunables de ZFS que controlan la concurrencia de scan/resilver pueden aumentar el throughput. También pueden incrementar la latencia y provocar timeouts en apps sensibles.
Ajusta en pequeños pasos, mide y revierte si el dolor supera la ganancia.

cr0x@server:~$ sudo sysctl -w debug.zfs_scan_idle=0
debug.zfs_scan_idle = 0

Qué significa: Menos tiempo idle significa que el trabajo de scan cede menos a I/O normal. El resilver obtiene más turnos.

Decisión: Usa esto solo cuando toleres mayor latencia y monitoriza los SLOs de las aplicaciones inmediatamente. Si la latencia sube, vuelve a ponerlo.

cr0x@server:~$ sudo sysctl -w debug.zfs_vdev_resilver_max_active=4
debug.zfs_vdev_resilver_max_active = 4

Qué significa: Más operaciones I/O concurrentes por vdev. Bueno para sistemas infrautilizados, malo para spindles ya saturados.

Decisión: Si los discos muestran baja %util y baja profundidad de cola, esto puede ayudar. Si ya están al máximo, principalmente aumentará latencia.

3) Poner el reemplazo en la mejor ruta (HBA, firmware, cableado)

La verdad aburrida: la velocidad de resilver a menudo está limitada por un enlace que se comporta mal. Un solo disco a 1.5 Gbps SATA, o un puerto HBA que hace flapping,
puede arrastrar un resilver RAIDZ porque la reconstrucción de paridad espera a los más lentos.

Arregla la capa física. Luego afina.

4) Preferir mirrors cuando el tiempo de rebuild importa más que la capacidad

Si diseñas sistemas donde el tiempo de rebuild tras una falla es un riesgo central, los mirrors son tus aliados. Resilverean copiando bloques asignados del lado sano.
En muchas implementaciones reales, los mirrors también ofrecen rendimiento más predecible bajo fallas parciales.

RAIDZ está bien—a veces es excelente—pero no finjas que es “lo mismo pero más barato.” Durante el resilver es otra bestia.

5) Mantener los pools menos llenos (tu yo futuro te lo agradecerá)

La forma más fácil de acelerar el resilver es evitar la fragmentación patológica. El predictor más fiable de fragmentación en ZFS es:
qué tan cerca del máximo mantienes el pool.

Establece cuotas. Hazlas cumplir. Ten un plan de capacidad. “Lo limpiaremos después” es cómo obtienes resilvers de 5 días y reuniones a las 2 a.m.

6) Usar tamaños de bloque sensatos para la carga (antes del incidente, no durante)

Para almacenes de VM, elige volblocksize con intención. Para datasets, selecciona recordsize alineado con la carga. Esto no es microoptimizar benchmarks;
es reducir metadatos y conteo de bloques para que el trabajo de reconstrucción escale de forma sensata.

7) No “optimices” desactivando checksums ni confiando en magia

Los checksums no son cinturones de seguridad opcionales. El resilver es exactamente cuando quieres integridad extremo a extremo.
ZFS no te ofrece un camino soportado y sensato para “saltar la verificación por velocidad”, y eso es una característica, no una limitación.

Broma #2: Girar knobs durante un resilver sin medir es como añadir más café para arreglar una impresora rota—satisfactorio emocionalmente, irrelevante técnicamente.

Una cita para mantener en tu puente de incidentes

“La esperanza no es una estrategia.” — idea parafraseada comúnmente citada en ingeniería y operaciones

La versión operativa: mide primero, cambia una cosa, mide de nuevo. Cualquier otra cosa es cosplay de rendimiento.

Tres microhistorias corporativas desde el frente

Microhistoria 1: El incidente provocado por una suposición errónea

Una empresa SaaS mediana ejecutaba un cluster de VM respaldado por ZFS sobre un vdev RAIDZ2 ancho. Había funcionado “bien” durante años. Un disco falló un martes.
El on-call lo cambió rápido y lanzó el replace. Todo el mundo se relajó.

La suposición: “El resilver solo copia datos usados, así que será más rápido que una reconstrucción completa.” El pool tenía alrededor del 60% usado.
Hicieron la clásica cuenta en una servilleta usando throughput secuencial y decidieron que el resilver terminaría esa noche.

La noche pasó y el progreso se estancó en un dígito porcentual. La latencia de las VMs de clientes subió intermitentemente y el hypervisor empezó a registrar timeouts de I/O de invitados.
El equipo reaccionó añadiendo más carga—específicamente, migrando VMs para “balancear”. Esa migración generó lecturas y escrituras aleatorias. Echó gasolina al fuego.

El problema real: el pool era viejo, con muchas snapshots y muy fragmentado. El resilver estaba limitado por IOPS, no por ancho de banda. Cada mitigación de “mover rápido” empeoró el patrón de I/O.
Tras 36 horas, un segundo disco arrojó errores. Ya no era un rebuild lento; era un incidente de riesgo de datos.

Se recuperaron, pero la lección quedó: el tiempo de resilver no es función solo de “TB usados”. Es función de historial de asignación, forma de la carga y contención.
Sus acciones de postmortem fueron simples e incómodas: imponer margen de capacidad, limitar cantidad de snapshots y dejar de diseñar vdevs anchos para clusters de VM sensibles a latencia.

Microhistoria 2: La optimización que salió mal

Otra organización decidió que los resilvers tardaban demasiado. Alguien encontró tunables online y configuró concurrencia de scan/resilver agresivamente en toda la flota.
Parecía genial en un entorno de staging tranquilo: las reconstrucciones fueron más rápidas. Todos celebraron. El cambio se desplegó.

Entonces en producción hubo una falla real. Un disco se cayó durante horas punta. El resilver se aceleró como un motor a reacción: mucha I/O concurrente, mínimo idling.
La velocidad de rebuild mejoró, claro. Mientras tanto, la latencia de la base de datos pasó de “bien” a “por qué todo está haciendo timeout”.

Lo peor no fue la latencia. Fueron los reintentos. Las apps empezaron a reintentar peticiones fallidas, lo que aumentó la carga, lo que aumentó I/O, lo que aumentó la latencia.
El sistema entró en una espiral familiar: cuanto más luchaba, más se esforzaba.

El equipo revirtió los tunables durante el incidente. El rebuild se ralentizó, pero la plataforma se estabilizó.
Conclusión del postmortem: “resilver más rápido” no es un valor por defecto global. Es un interruptor en modo incidente, ligado a horas de negocio y SLOs, con monitorización y reversión explícita.

Microhistoria 3: La práctica aburrida pero correcta que salvó el día

Una empresa de servicios financieros (sí, del tipo que ama el control de cambios) ejecutaba vdevs mirror para datasets críticos y RAIDZ para capas frías.
También aplicaban una política simple: los pools se mantienen bajo un umbral de llenado definido, y la retención de snapshots se limita con poda regular.

Un disco falló durante el cierre trimestral. Por supuesto que pasó. El on-call lo reemplazó y comenzó el resilver. No tocaron tunables al principio.
En su lugar, ejecutaron el runbook: pausar jobs por lotes no esenciales, verificar que no haya scrub concurrente, chequear velocidad de enlace, revisar dmesg por resets y vigilar dashboards de latencia.

El resilver terminó en una ventana predecible. Sin drama. Sin segunda falla. Sin ajustes heroicos.
La parte favorita del equipo fue lo poco que tuvieron que explicar a gestión—porque no pasó nada visible para el cliente.

El trabajo “aburrido” se hizo meses antes: margen de capacidad, diseño sensato de vdev y disciplina operativa.
Esa es la historia de fiabilidad que nadie cuenta en conferencias porque no cabe en una camiseta. Aun así, es la que quieres.

Errores comunes: síntoma → causa raíz → arreglo

1) Síntoma: La tasa de resilver empieza decente y luego colapsa

Causa raíz: Estancamiento interno de escritura del disco de reemplazo (a menudo SMR o GC de firmware), o renegociación de enlace, o el pool alcanzó regiones más fragmentadas.

Arreglo: Revisa iostat -x por aumento de await y colapso de MB/s; revisa dmesg por resets/velocidad de enlace. Cambia puerto/cable/HBA o reemplaza el modelo del disco.

2) Síntoma: “Scanned” crece rápido, “issued” es tiny

Causa raíz: Recorrido intensivo en metadatos con poca reconstrucción real, a menudo por fragmentación y muchas snapshots; a veces por ajustes de throttling.

Arreglo: Reduce churn de metadatos competidor (pausa snapshotting, actividad intensa del filesystem). Considera bajar temporalmente scan_idle si el presupuesto de latencia lo permite.

3) Síntoma: Apps hacen timeout durante el resilver aunque el throughput no sea alto

Causa raíz: Pico de latencia cola larga por contención de I/O aleatorio; unas pocas colas saturadas mientras el throughput medio parece modesto.

Arreglo: Vigila await, profundidad de cola y latencia p99 a nivel app. Reduce carga o aumenta el idle del resilver para dar prioridad a producción.

4) Síntoma: Resilver nunca termina; el progreso avanza a paso de tortuga y luego “reinicia”

Causa raíz: Dispositivo hace flapping, desconexiones transitorias o errores repetidos que fuerzan reintentos; a veces backplane marginal.

Arreglo: Revisa contadores de error en zpool status; inspecciona dmesg. Arregla hardware. Ningún tunable compensa un cable que te odia.

5) Síntoma: CPU al máximo durante el resilver en un “sistema I/O”

Causa raíz: Trabajo de checksums/cifrado en muchos bloques pequeños, más overhead de metadatos. Puede amplificarse por dedup.

Arreglo: Confirma con top/vmstat y estadísticas ARC; reduce churn de bloques pequeños (pausa migraciones de VM) y planifica upgrades de CPU para pools cifrados.

6) Síntoma: Resilver lento solo en un pool, no en otros del mismo hardware

Causa raíz: Llenado del pool, fragmentación, elección de tamaños de bloque de dataset, recuento de snapshots o diferencias en ancho de vdev.

Arreglo: Compara uso con zfs list, recuento de snapshots y propiedades de datasets. El hardware no está “lento”; tu historial de asignación lo está.

7) Síntoma: La velocidad de reconstrucción mejoró tras “tunear”, luego el pool se pone raro

Causa raíz: Cambios persistentes en sysctl/tunables aplicados globalmente sin guardarraíles; mayor presión de I/O causa timeouts y fallas secundarias.

Arreglo: Haz que los tunables sean con ámbito de incidente y con reversión explícita. Captura valores baseline y revierte tras la salud del pool.

Listas de verificación / plan paso a paso

Paso a paso: cuando un disco falla y comienza el resilver

Confirmar estado: zpool status. Asegura que es un resilver, no un scrub, e identifica el vdev afectado.
Detener mantenimiento competidor: Si hay un scrub en ejecución, deténlo salvo que la política lo requiera ahora mismo.
Sanidad del hardware: Confirma modelo del disco de reemplazo (CMR vs SMR), velocidad de enlace y ausencia de resets en dmesg.
Medir contención: iostat -x y dashboards de latencia de apps. Decide si tienes margen para presionar más el resilver.
Revisar presión de memoria: vmstat y estadísticas ARC. Asegura que no hay swapping.
Decidir prioridad: Si el riesgo es alto (segundo disco inestable, datos críticos), prioriza resilver. Si son horas de negocio, prioriza SLOs.
Aplicar tunables con cuidado (opcional): Aumenta la agresividad del resilver en incrementos pequeños, monitorizando p95/p99.
Comunicar: Fija expectativas. “Degradado hasta X” es una declaración de riesgo de negocio, no una curiosidad técnica.
Tras la finalización: Verifica que el pool esté sano y luego revierte los tunables temporales. Programa un scrub después de restaurar redundancia.

Lista: aceleraciones seguras que puedes justificar en un postmortem

Pausar I/O por lotes no esenciales y trabajos con heavy snapshot.
Detener scrubs concurrentes mientras corre un resilver (a menos que cumplimiento lo exija).
Arreglar problemas de transporte (resets, negociaciones SATA degradadas) antes de tunear.
Aumentar concurrencia de resilver modestamente solo cuando los discos tienen margen y la latencia de apps está estable.
Reducir temporalmente el idle del scan solo durante una ventana de incidente controlada.
Preferir mirrors para capas donde el riesgo de rebuild domina la eficiencia de capacidad.
Mantener margen de capacidad como política, no sugerencia.

Lista: cosas que no deberías hacer durante un resilver

No habilites dedup “para ahorrar espacio” a mitad del incidente.
No inicies grandes migraciones, reequilibrios o reescrituras masivas a menos que intentes conscientemente intercambiar tiempo de resilver por un riesgo mayor.
No sigas subiendo tunables cuando la latencia ya es mala; solo estás haciendo que la falla sea más ruidosa.
No ignores logs del kernel. Si ves resets o errores de I/O, estás en terreno de hardware ahora.

Preguntas frecuentes

1) ¿Se supone que el resilver debe ser más rápido que un scrub?

A menudo sí—porque el resilver solo toca bloques asignados que necesitan reconstrucción. Pero la fragmentación y el recorrido de metadatos pueden borrar esa ventaja.
Si el pool es viejo y con I/O aleatorio intenso, el resilver puede sentirse como un scrub con pasos extra.

2) ¿Por qué “scanned” no coincide con “resilvered”?

“Scanned” refleja cuánto ha recorrido el proceso de scan los punteros de bloque y metadatos del pool.
“Resilvered” es la data reconstruida y escrita al reemplazo. Mucho scanning con poco resilvered suele significar trabajo intensivo en metadatos o límites por throttling/IOPS.

3) ¿El resilver de ZFS copia solo el espacio usado?

ZFS intenta resilver solo bloques asignados (referenciados), no todo el dispositivo crudo. Por eso el espacio libre no siempre cuesta tiempo.
Pero “bloques asignados” aún pueden estar dispersos en millones de pequeñas extenciones, lo que hace la operación lenta.

4) ¿Puedo pausar y reanudar un resilver?

Dependiendo de la plataforma y versión, puede que puedas detener un scan y luego reanudar, pero el comportamiento varía y puede reiniciar porciones de trabajo.
Operativamente: trata “pausa” como “retraso con riesgo”, no como un checkpoint limpio.

5) ¿Debo ejecutar un scrub inmediatamente después de reemplazar un disco?

Normalmente: resilver primero, scrub después. Mientras está degradado, quieres restaurar la redundancia lo más rápido posible.
Tras completar el resilver y restaurar la salud del pool, un scrub es un buen paso para validar integridad—planéalo en baja carga.

6) ¿Cuál es la forma más segura de acortar el tiempo de resilver?

Reducir I/O competidor y mantener pools menos llenos. Los tunables ayudan en los márgenes; carga y fragmentación determinan la línea base.
La aceleración “más segura” es quitar presión del pool para que el resilver use IOPS sin dañar producción.

7) ¿Los mirrors siempre son mejores que RAIDZ para resilver?

No siempre, pero los mirrors típicamente resilverean de forma más predecible y con menos amplificación por lectura de paridad.
RAIDZ puede ser eficiente y fiable, pero el comportamiento de rebuild bajo fallo es más complejo, especialmente en vdevs anchos y pools ocupados.

8) ¿Por qué reemplazar un disco por un modelo “mismo tamaño” hizo el resilver más lento?

Igual capacidad no es igual rendimiento. Puede que hayas introducido comportamiento SMR, tasas sostenidas de escritura peores, firmware que rinde mal bajo escrituras aleatorias, o un enlace negociado a menor velocidad.
Verifica el modelo y revisa errores de transporte.

9) ¿La compresión hace el resilver más rápido o más lento?

Usualmente más rápido en sistemas limitados por I/O porque se mueven menos bytes. Puede ser más lento si la CPU se convierte en cuello de botella, especialmente con cifrado y bloques pequeños.
Mide CPU durante el resilver; no supongas.

10) Si el resilver es lento, ¿están mis datos en riesgo?

Un pool degradado tiene redundancia reducida, así que el riesgo es mayor hasta que termine el resilver. Un resilver lento extiende la ventana de exposición.
Por eso la reacción correcta no es solo “esperar”; es “reducir carga, arreglar problemas de hardware y restaurar redundancia rápidamente.”

Próximos pasos que puedes hacer hoy

Si estás en medio de un resilver dolorosamente lento, haz esto en orden:

Ejecuta zpool status y confirma que no estás accidentalmente haciendo scrub mientras estás degradado.
Revisa dmesg por resets de enlace y errores de I/O; arregla problemas físicos antes de tocar los knobs de ZFS.
Usa iostat -x para decidir si estás limitado por IOPS o por ancho de banda.
Reduce I/O competidor: pausa backups, migraciones, jobs por lotes y cualquier churn intenso de snapshots.
Si el presupuesto de latencia lo permite, ajusta modestamente la agresividad del resilver y monitoriza p95/p99; revierte después de que el pool esté sano.

Si actualmente no estás degradado, mejor aún. Usa esa calma para comprar velocidad futura: mantén margen, evita SMR sorpresa, elige geometría de vdev intencionadamente
y trata el tiempo de resilver como una restricción de diseño de primera clase—no como una reflexión que descubres cuando el disco muere.

Ubuntu 24.04: rsyslog vs journald — elige registros sin perder eventos importantes

A las 03:12, la producción falló. Hiciste lo que hace cualquier persona sensata: acudiste a los registros. Y los registros hicieron lo que adoran hacer bajo estrés: se silenciaron, se rotaron o nunca salieron de la máquina.

Ubuntu 24.04 te ofrece dos realidades de logging que conviven: systemd-journald (el journal) y rsyslog (el syslog clásico). La elección no es “moderno vs legado”. Es “qué modos de fallo puedo tolerar”, “cómo demuestro que no perdí eventos” y “qué tan rápido puedo responder al responsable del incidente sin adivinar”.

La decisión: qué deberías ejecutar y por qué

Si ejecutas Ubuntu 24.04 en producción y te importa no perder eventos importantes, haz esto:

Mantén journald. No es opcional en sistemas systemd y es tu mejor vista de primer respondedor.
Haz persistente el journal en cualquier máquina que vayas a depurar después de un reinicio.
Usa rsyslog para el reenvío duradero y controlable hacia una plataforma central de logs (SIEM, ELK/OpenSearch, Splunk, o lo que tu organización llame “la verdad”).
No uses “reenviar todo dos veces” como estrategia. Los duplicados no son redundancia; son ruido que hace que pierdas la línea que necesitabas.

En otras palabras: journald para captura local, indexación y metadatos estructurados; rsyslog para compatibilidad con el ecosistema syslog, colas y reglas de reenvío deliberadas. Puedes reenviar desde journald a rsyslog, o hacer que los servicios registren directamente en syslog. La respuesta correcta depende de lo que necesites demostrar durante un incidente o auditoría.

Verdad seca: no eliges logging por sensaciones. Lo eliges por modo de fallo. Pregunta: “¿Qué pasa cuando el disco está lleno? ¿Cuando la red cae? ¿Cuando la máquina se reinicia? ¿Cuando el tiempo salta? ¿Cuando el proceso inunda el registrador?” y elige la pila que falle de la manera con la que puedas vivir.

Un modelo mental que no miente bajo presión

Qué es realmente journald

systemd-journald es un colector y almacén de eventos de registro con metadatos adjuntos: cgroup, nombre de unidad, PID, UID, capacidades, contexto SELinux/AppArmor (cuando está disponible), ID de arranque y marcas temporales monotónicas. Almacena entradas en archivos binarios de journal. “Binario” no es un fallo moral; es una elección de rendimiento e integridad. Permite indexado y consultas relativamente rápidas como “muéstrame todo de sshd.service en el último arranque”.

Por defecto en muchos sistemas, journald usa almacenamiento volátil (en memoria bajo /run/log/journal) a menos que se configure almacenamiento persistente. Ese valor por defecto es amigable para discos pequeños y máquinas efímeras, y brutal cuando necesitas depurar algo que ocurrió antes de un reinicio.

Qué es realmente rsyslog

rsyslog es un demonio syslog que ingiere mensajes (desde sockets locales, desde la red, desde journald vía un módulo de entrada) y luego los enruta según reglas. Es muy bueno manejando colas, límites de tasa, buffering asistido por disco y envío fiable cuando la red se comporta como una red (es decir: mal, a veces).

Las salidas de rsyslog suelen ser archivos de texto en /var/log o destinos syslog remotos. Los logs en texto siguen siendo la lingua franca de una cantidad deprimente de herramientas. No es nostalgia; es compatibilidad con cosas que aún analizan syslog como si fuera 2009.

El pipeline en Ubuntu 24.04 (típico)

Los mensajes del kernel van al ring buffer del kernel, luego journald los recoge; rsyslog también puede leer mensajes del kernel según la configuración.
Los servicios systemd registran en stdout/stderr; journald los captura automáticamente.
Muchas aplicaciones tradicionales aún registran vía /dev/log (socket syslog). Eso puede ser proporcionado por rsyslog o por el socket de compatibilidad syslog de systemd-journald.
rsyslog puede ingerir desde journald (vía imjournal) o desde el socket syslog, luego escribir archivos y/o reenviar.

Si alguna vez te preguntaste por qué tu /var/log/syslog carece de una línea que viste en journalctl, la respuesta suele ser “esos son dos caminos de captura diferentes.” El logging es una cadena de suministro. No la notas hasta que un portacontenedores queda atascado.

Una cita para grapar en tu monitor (idea parafraseada): el tema operativo de Gene Kim es que la mejora viene de acortar los bucles de retroalimentación. El logging es uno de tus bucles más cortos; trátalo como código de producción.

Broma #1: Logging es como los dientes: lo ignoras hasta que duele, y entonces de repente estás dispuesto a pagar cualquier precio para que el dolor pare.

Hechos interesantes y contexto histórico

syslog es anterior a Linux. El syslog original provino de BSD Unix en los años 80, diseñado para transporte de logs en red sencillo cuando el “modelo de seguridad” era mayormente “no dejar que Dave de contabilidad toque el servidor”.
rsyslog es más nuevo de lo que la gente piensa. rsyslog se creó a principios de los 2000 como reemplazo drop-in de sysklogd con mejor rendimiento y características como TCP, RELP y colas.
journald almacena logs en formato binario por diseño. Está optimizado para consultas indexadas y eventos ricos en metadatos; el argumento “los binarios son malos” se trata mayormente de expectativas de herramientas, no de la fiabilidad subyacente.
systemd hizo de stdout/stderr un primer ciudadano para logging. Eso cambió la cultura de logging en aplicaciones: los servicios ya no tenían que gestionar archivos de log si no querían. La plataforma los captura.
La rotación tradicional de logs se inventó para controlar el uso de disco de logs en texto. Con journald, la retención suele gestionarse por límites de tamaño/tiempo en lugar de rotación por nombre de archivo, lo que cambia cómo se responde a “¿guardamos la semana pasada?”.
RELP existe porque TCP no fue suficiente. TCP aún puede perder datos cuando un remitente se bloquea o una conexión se reinicia en el momento inoportuno; RELP (Reliable Event Logging Protocol) añade acuses de recibo a nivel de aplicación.
Journald etiqueta logs con un ID de arranque. Suena pequeño hasta que depuras un fallo intermitente y necesitas separar “este arranque” de “el arranque anterior”. Es un regalo.
El ring buffer del kernel en Linux es finito. Si no lo drenas durante un pico, los mensajes viejos del kernel se sobrescriben. Eso no es culpa de journald, pero journald es tu ruta normal de drenaje.

Compromisos que realmente importan en 2025

Durabilidad: qué sobrevive al reinicio y qué no

journald puede ser volátil o persistente. journald volátil está bien para nodos tipo cattle donde centralizas todo instantáneamente, y es terrible para momentos de “¿por qué se reinició?” cuando tu forwarder no envió los últimos 30 segundos.

rsyslog escribiendo en disco es persistente por defecto (suponiendo que escriba en /var/log y que ese sistema de archivos sobreviva). Pero la persistencia en el mismo disco que tu carga no es una victoria si el disco se llena y tu app muere. La durabilidad es una propiedad del sistema, no del demonio.

Presión de retroceso y manejo de ráfagas

Bajo tormentas de logs, el sistema de logging se convierte en parte de tu perfil de rendimiento. journald tiene limitación de tasa y puede descartar mensajes. rsyslog puede poner en cola en memoria o volcar a disco. Si te importa “nunca perder logs de autenticación” o “capturar los últimos 60 segundos antes de un fallo”, necesitas ajustes explícitos y, normalmente, colas asistidas por disco.

Metadatos y ergonomía de consulta

journald gana localmente para corte rápido: por unidad, por PID, por cgroup, por arranque, por prioridad, por tiempo. Si estás respondiendo un incidente en una sola máquina, journalctl suele ser más rápido que hacer grep en archivos—especialmente cuando los servicios escupen datos estructurados o cuando los PID cambian.

rsyslog gana cuando necesitas integrar con todo lo que espera syslog, desde equipos de red hasta tuberías de cumplimiento antiguas. Es el “adaptador universal”.

Seguridad y resistencia a la manipulación

Ninguno de los dos demonios hace que los logs sean mágicamente a prueba de manipulaciones. El root local siempre puede hacer daño. Tu control real es: enviar logs fuera del host rápidamente, mantenerlos inmutables en el agregador y controlar el acceso. journald soporta funciones de sellado, pero no confundas “más difícil de editar casualmente” con “grado forense”.

Complejidad y coste operativo

Ejecutar solo journald es simple hasta que necesitas reenvío fiable con buffering, filtrado y opciones de protocolo. Ejecutar journald + rsyslog son un par de componentes más, pero te da control explícito del pipeline. En producción, explícito vence a implícito.

Broma #2: “No necesitamos logging centralizado” es una estrategia audaz; es como renunciar a los cinturones de seguridad porque planeas conducir con cuidado.

Tareas prácticas (comandos, significado de salidas, decisiones)

Estos son los chequeos que realizo en Ubuntu 24.04 cuando alguien dice “faltan logs”, “el disco se está llenando” o “el reenvío es inestable”. Cada tarea incluye: comando, qué significa la salida y qué decisión tomar.

Tarea 1: Confirma qué está en ejecución (journald, rsyslog)

cr0x@server:~$ systemctl status systemd-journald rsyslog --no-pager
● systemd-journald.service - Journal Service
     Loaded: loaded (/usr/lib/systemd/system/systemd-journald.service; static)
     Active: active (running) since Mon 2025-12-30 09:10:11 UTC; 2h 1min ago
...
● rsyslog.service - System Logging Service
     Loaded: loaded (/usr/lib/systemd/system/rsyslog.service; enabled; preset: enabled)
     Active: active (running) since Mon 2025-12-30 09:10:13 UTC; 2h 1min ago
...

Significado: Ambos servicios están activos; probablemente tienes logging con doble camino. Si rsyslog está inactivo, probablemente dependes únicamente de journald.

Decisión: Si necesitas reenvío remoto con buffering, habilita rsyslog (o un forwarder dedicado) y define la ruta intencionalmente.

Tarea 2: Ver el modo de almacenamiento de journald (volátil vs persistente)

cr0x@server:~$ journalctl --disk-usage
Archived and active journals take up 96.0M in the file system.

Significado: Hay archivos de journal en disco en algún lugar. Si este comando falla o muestra un uso pequeño pero esperabas historial, puede que sea solo volátil.

Decisión: Si te importan los logs tras reinicios, asegúrate de habilitar almacenamiento persistente y de tener ajustes de retención.

Tarea 3: Verificar si journald usa almacenamiento persistente

cr0x@server:~$ ls -ld /var/log/journal /run/log/journal
drwxr-sr-x 3 root systemd-journal 4096 Dec 30 09:10 /var/log/journal
drwxr-sr-x 2 root systemd-journal  120 Dec 30 09:10 /run/log/journal

Significado: /var/log/journal existe, así que la persistencia está activada (o al menos disponible). Si no existe, journald puede ser volátil.

Decisión: Si /var/log/journal falta, créalo y establece Storage=persistent (detalles en la sección de plan).

Tarea 4: Inspeccionar retención y límites de tasa de journald

cr0x@server:~$ systemd-analyze cat-config systemd/journald.conf
# /etc/systemd/journald.conf
[Journal]
Storage=persistent
SystemMaxUse=2G
SystemKeepFree=1G
RateLimitIntervalSec=30s
RateLimitBurst=10000

Significado: Estos son los ajustes efectivos después de los drop-ins. Un SystemMaxUse pequeño significa expulsión más rápida. La limitación de tasa agresiva puede descartar ráfagas.

Decisión: Ajusta según tu presupuesto de disco y necesidades de incidente. Si ves pérdidas durante picos, ajusta límites de tasa y envía fuera del host.

Tarea 5: Detectar mensajes descartados en journald

cr0x@server:~$ journalctl -u systemd-journald --since "1 hour ago" | tail -n 8
Dec 30 10:44:02 server systemd-journald[412]: Suppressed 12845 messages from /system.slice/myapp.service
Dec 30 10:44:02 server systemd-journald[412]: Forwarding to syslog missed 0 messages

Significado: “Suppressed” indica descartes por limitación de tasa. Eso no es teórico. Está ocurriendo.

Decisión: Si la unidad suprimida es importante (auth, kernel, tu servicio central), aumenta límites y reduce el spam en el origen. Considera colas de rsyslog para fiabilidad de reenvío.

Tarea 6: Comprobar si rsyslog ingiere desde journald

cr0x@server:~$ grep -R "imjournal" /etc/rsyslog.d /etc/rsyslog.conf
/etc/rsyslog.conf:module(load="imjournal" StateFile="imjournal.state")

Significado: rsyslog está leyendo desde el journal de systemd vía imjournal. Si falta, rsyslog puede estar leyendo desde /dev/log en su lugar.

Decisión: Elige una estrategia de ingestión para evitar duplicados: o imjournal (journal como fuente de la verdad) o socket (syslog como fuente). No hagas ambas por accidente.

Tarea 7: Detectar eventos duplicados (síntoma clásico de doble ingestión)

cr0x@server:~$ sudo awk 'NR<=20{print}' /var/log/syslog
Dec 30 11:01:10 server myapp[2211]: started worker=7
Dec 30 11:01:10 server myapp[2211]: started worker=7

Significado: El mismo mensaje dos veces con la misma marca temporal sugiere fuertemente doble ingestión (por ejemplo, la app escribe a syslog y journald lo reenvía a rsyslog también).

Decisión: Deshabilita un camino: o deja de reenviar desde journald a rsyslog, o evita que rsyslog lea /dev/log, según la arquitectura.

Tarea 8: Verificar las colas de rsyslog y si el reenvío está bloqueado

cr0x@server:~$ systemctl status rsyslog --no-pager | sed -n '1,14p'
● rsyslog.service - System Logging Service
     Active: active (running) since Mon 2025-12-30 09:10:13 UTC; 2h 9min ago
   Main PID: 621 (rsyslogd)
      Tasks: 4
     Memory: 8.5M
        CPU: 1.901s
     CGroup: /system.slice/rsyslog.service
             └─621 /usr/sbin/rsyslogd -n -iNONE

Significado: El estado por sí solo no te dirá la profundidad de la cola, pero confirma salud del demonio y marca bucles de fallo obvios.

Decisión: Si el reenvío remoto está retrasado, comprueba la conectividad de red y las colas de acción de rsyslog (ver tareas de validación de configuración más abajo).

Tarea 9: Validar la configuración de rsyslog (sintaxis, módulos, includes)

cr0x@server:~$ rsyslogd -N1
rsyslogd: version 8.2312.0, config validation run (level 1), master config /etc/rsyslog.conf
rsyslogd: End of config validation run. Bye.

Significado: La validación pasó. Si muestra errores, rsyslog puede estar ejecutándose con config parcial o fallando al arrancar tras cambios.

Decisión: Nunca recargues rsyslog a ciegas en producción. Valida primero, luego recarga, y luego confirma el flujo de mensajes.

Tarea 10: Determinar si el reenvío es UDP (con pérdida) o TCP/RELP (mejor)

cr0x@server:~$ grep -R "@" /etc/rsyslog.d /etc/rsyslog.conf
/etc/rsyslog.d/60-forward.conf:*.* @@logrelay.internal:514

Significado: @ es UDP, @@ es TCP. TCP aún puede perder durante caídas; RELP es más fuerte.

Decisión: Si “no perder logs de auth” es requisito, no uses UDP. Usa TCP con colas en disco o RELP si tu relay lo soporta.

Tarea 11: Comprobar si journald está reenviando a syslog (y si lo necesitas)

cr0x@server:~$ grep -R "^ForwardToSyslog" /etc/systemd/journald.conf /etc/systemd/journald.conf.d 2>/dev/null
/etc/systemd/journald.conf:ForwardToSyslog=yes

Significado: journald está reenviando entradas al socket syslog. Si rsyslog también lee desde el journal, eso puede duplicar.

Decisión: Elige un único punto de entrega: o ForwardToSyslog (journald → socket syslog) o rsyslog imjournal (journald → rsyslog directamente).

Tarea 12: Identificar “¿por qué se reinició?” usando vistas separadas por arranque del journal

cr0x@server:~$ journalctl --list-boots | tail -n 3
-2 2f1c1b2dd0e84fbb9a1f66b2ff0f8d1e Sun 2025-12-29 22:10:17 UTC—Sun 2025-12-29 23:52:01 UTC
-1 7d8c0e3fa0f44a3b8c0de74b8b9f41a2 Mon 2025-12-30 00:10:06 UTC—Mon 2025-12-30 09:09:55 UTC
 0 94f2b5d9f61e4f57b5f3c3c7a9c2a1d1 Mon 2025-12-30 09:10:06 UTC—Mon 2025-12-30 11:19:44 UTC

Significado: Se ven múltiples arranques, así que la persistencia funciona. Si solo ves “0”, probablemente eres volátil o el historial fue vaciado.

Decisión: Si los reinicios son misteriosos, asegura journald persistente y aumenta la retención para que “arranque anterior” exista cuando lo necesites.

Tarea 13: Extraer rápidamente la narrativa de apagado/caída

cr0x@server:~$ journalctl -b -1 -p warning..emerg --no-pager | tail -n 20
Dec 30 09:09:51 server kernel: Out of memory: Killed process 2211 (myapp) total-vm:...
Dec 30 09:09:52 server systemd[1]: myapp.service: Main process exited, code=killed, status=9/KILL
Dec 30 09:09:55 server systemd[1]: Reached target Reboot.

Significado: El último arranque muestra kill por OOM y muerte de servicio que conduce al reinicio. Este es el tipo de vista “una pantalla” en la que journald es excelente.

Decisión: Si los eventos del kernel/OOM son críticos, asegúrate de reenviarlos fuera del host y que no estén limitados por tasa bajo presión de memoria.

Tarea 14: Confirmar presión de disco en el sistema de archivos que aloja logs

cr0x@server:~$ df -h /var /run
Filesystem      Size  Used Avail Use% Mounted on
/dev/sda2        40G   34G  4.2G  90% /
tmpfs           3.1G  180M  2.9G   6% /run

Significado: /var está ajustado. Si los logs comparten el filesystem raíz, una ráfaga de logs puede convertirse en una indisponibilidad.

Decisión: Limita el uso de journald (SystemMaxUse), rota correctamente los logs en texto y envía fuera del host. Si es necesario, separa /var en su propio filesystem en entornos críticos.

Tarea 15: Cuantificar qué consumidores del journal son intensivos

cr0x@server:~$ journalctl --since "1 hour ago" -o json-pretty | head -n 20
{
        "_SYSTEMD_UNIT" : "myapp.service",
        "PRIORITY" : "6",
        "MESSAGE" : "processed batch id=9f1c...",
        "_PID" : "2211",
        "__REALTIME_TIMESTAMP" : "1735557650000000"
}

Significado: La salida JSON muestra campos por los que puedes filtrar. Si tu app está emitiendo “processed batch …” a nivel info con mucho volumen, ese es tu problema de disco y de tu yo futuro.

Decisión: Reduce el volumen en origen. Los sistemas de logging no son sustituto de métricas.

Tarea 16: Comprobar quién tiene acceso al journal (permisos de depuración)

cr0x@server:~$ id
uid=1000(cr0x) gid=1000(cr0x) groups=1000(cr0x),4(adm)

Significado: Usuarios en adm a menudo pueden leer muchos logs; el acceso a journald se otorga comúnmente vía el grupo systemd-journal o mediante sudo.

Decisión: Da a los ingenieros on-call los grupos mínimos necesarios para leer logs sin dar root completo. Luego audita esa decisión trimestralmente, porque los organigramas se desplazan.

Guion de diagnóstico rápido

Estás de guardia. La alerta dice “servicio caído”. Alguien dice “faltan logs”. No te metas a hurgar sin método. Haz esto en orden.

Primero: averigua si los eventos existen localmente

Revisa el journal para el servicio y el intervalo de tiempo. Filtra por unidad y prioridad. Si el journal lo tiene, tienes un punto de partida de verdad.
Revisa el arranque anterior. Si el host se reinició, tus “logs faltantes” podrían ser simplemente “estás mirando el arranque equivocado”.

cr0x@server:~$ journalctl -u myapp.service --since "30 min ago" -p info..emerg --no-pager | tail -n 30
Dec 30 11:03:01 server myapp[2211]: healthcheck failed: upstream timeout
Dec 30 11:03:02 server systemd[1]: myapp.service: Main process exited, code=exited, status=1/FAILURE

Interpretación: Si el journal tiene el evento, el servicio está registrando y journald lo está recogiendo. Tu problema probablemente esté en el reenvío, filtros de duplicado o expectativas basadas en archivos syslog.

Segundo: determina si se está descartando datos

Busca mensajes de supresión en journald.
Comprueba presión de disco. Los discos llenos causan comportamientos extraños y escrituras perdidas.
Revisa la salud de rsyslog y la validación de configuración.

Tercero: aisla el cuello de botella: captura, almacenamiento o envío

Cuello de botella en captura: la aplicación no registra, stdout no está conectado, desajuste del socket syslog, permisos.
Cuello de botella en almacenamiento: journald volátil, retención muy pequeña, disco lleno, vacuuming, rotación demasiado agresiva.
Cuello de botella en envío: rsyslog reenviando por UDP, sin colas, pérdidas de red, problemas DNS para el host de logs, TLS mal configurado.

Cuarto: demuéstralo con un mensaje de prueba controlado

cr0x@server:~$ logger -p authpriv.notice "LOGTEST authpriv notice from $(hostname) at $(date -Is)"
cr0x@server:~$ journalctl --since "1 min ago" | grep LOGTEST | tail -n 1
Dec 30 11:18:22 server cr0x: LOGTEST authpriv notice from server at 2025-12-30T11:18:22+00:00

Interpretación: Si está en el journal pero no en /var/log/syslog (o no en tu agregador), has acotado la falla al camino de entrega/ envío.

Errores comunes: síntomas → causa raíz → solución

1) “Los logs desaparecen después del reinicio”

Síntomas: journalctl --list-boots muestra solo el arranque 0; la investigación tras un fallo no tiene historial.

Causa raíz: journald está usando almacenamiento volátil (/run) porque no se habilitó persistencia o /var/log/journal no existe.

Solución: Crea /var/log/journal, establece Storage=persistent, reinicia journald y confirma que aparecen múltiples arranques. También establece límites de retención para que la persistencia no termine agotando el disco.

2) “Tenemos duplicados por todas partes”

Síntomas: La misma línea aparece dos veces en /var/log/syslog o dos veces en el agregador, a menudo con marcas temporales idénticas.

Causa raíz: Doble ingestión: la app escribe al socket syslog mientras journald reenvía a syslog y rsyslog también lee del journal (o viceversa).

Solución: Escoge uno: rsyslog lee desde imjournal o journald reenvía al socket syslog. No combines sin lógica deliberada de deduplicación.

3) “Los logs de autenticación faltan en el sistema central, pero están localmente”

Síntomas: /var/log/auth.log está poblado localmente; el SIEM carece de entradas durante fallos de red.

Causa raíz: Reenvío por UDP, o TCP sin colas en disco, o una caída del relay sin buffering.

Solución: Usa TCP con colas asistidas por disco o RELP a un relay diseñado para ingestión. Verifica ajustes de cola y prueba bloqueando la red temporalmente.

4) “Durante un incidente, journalctl está lento o da tiempo de espera”

Síntomas: Las consultas con journalctl tardan mucho, CPU en picos, esperas de I/O.

Causa raíz: Journals enormes en discos lentos, volumen de logging agresivo o contención en el filesystem subyacente. A veces es simplemente que intenta renderizar demasiada salida.

Solución: Filtra agresivamente (unidad, prioridad, tiempo), limita uso en disco, vacía entradas antiguas y mantiene logs fuera de tu almacenamiento más lento cuando sea posible.

5) “/var está lleno y ahora todo está en llamas”

Síntomas: Servicios no arrancan, actualizaciones fallan, logs dejan de actualizarse, daemons se caen al azar.

Causa raíz: Logs en archivos sin límites, journald mal configurado en retención o una app descontrolada escribiendo a alta tasa.

Solución: Establece límites en journald (SystemMaxUse, SystemKeepFree), asegura que logrotate funcione y corrige la app ruidosa. Si el entorno es crítico, aísla /var en su propio filesystem.

6) “Puedo ver los logs con sudo, pero no como mi usuario de on-call”

Síntomas: journalctl muestra “No journal files were found” o permiso denegado sin sudo.

Causa raíz: El usuario on-call no está en el grupo correcto (systemd-journal o adm según política), o se aplicaron permisos reforzados.

Solución: Concede acceso de lectura controlado vía membresía de grupo, no credenciales compartidas de root, y documenta el proceso.

Tres mini-historias corporativas desde las trincheras del logging

Mini-historia 1: Un incidente causado por una suposición equivocada

Una empresa mediana migró una flota de Ubuntu 20.04 a 24.04. Tenían un runbook gastado: revisar /var/log/syslog, revisar /var/log/auth.log, enviar a syslog central. La migración “funcionó”, los servicios arrancaron y el equipo siguió con su trabajo.

Dos semanas después, un lote de nodos se reinició por un kernel panic provocado por un firmware defectuoso de la NIC. El on-call sacó /var/log/syslog y vio… no mucho. Parecía que la máquina se había reiniciado de forma educada. El responsable del incidente pidió “los últimos 60 segundos”. El on-call tenía 3 segundos y una sensación creciente de pánico.

La suposición equivocada fue sutil: asumieron que rsyslog seguía siendo el colector primario para todo lo importante. Pero varios servicios eran nativos de systemd y registraban en stdout; journald los capturó, y solo un subconjunto se reenviaba a rsyslog. Los eventos “faltantes” no estaban “perdidos”. Estaban en almacenamiento de journal volátil que desapareció tras el reinicio en algunos perfiles de nodo.

La solución fue aburrida y efectiva: habilitaron persistencia de journald en todos los nodos no efímeros, establecieron límites de tamaño sensatos y enroutaron journald a rsyslog en una única ruta explícita. El siguiente reinicio aún fue desagradable, pero al menos los logs contaron la historia en vez de engañar a todos.

Mini-historia 2: Una optimización que salió mal

Un gran equipo de plataforma interna decidió que pagaban demasiado por almacenamiento de logs. Notaron que el journal crecía rápido en nodos con mucho ruido. Así que bajaron la retención de journald agresivamente y endurecieron límites de tasa. Su objetivo era razonable: mantener discos sanos y reducir ruido.

Durante un mes pareció una victoria. El uso de disco bajó. Los dashboards se veían más limpios. Entonces una dependencia empezó a fallar: fallos intermitentes de handshake TLS entre servicios. Los fallos duraban segundos, solo unas pocas veces por hora. Las métricas mostraban picos de error, pero los logs que habrían explicado el porqué a menudo faltaban. Los picos eran exactamente el tipo de eventos que se suprimen por límites de tasa y retención corta cuando múltiples componentes se vuelven ruidosos simultáneamente.

Eventualmente hallaron un patrón correlacionando unos pocos logs sobrevivientes con capturas de paquetes: mismatch de MTU tras un cambio de red. La lección real no fue sobre MTU. Fue que “optimizaron” logging eliminando justo los datos necesarios para depurar eventos raros, los que no puedes reproducir a voluntad.

El enfoque corregido fue reducir volumen en origen (niveles de log, muestreo, diseño de eventos estructurados), mantener retención suficiente para triage local y confiar en un almacén central para forense a largo plazo. Cortar la retención es un bisturí; ellos lo usaron como una podadora.

Mini-historia 3: Una práctica aburrida pero correcta que salvó el día

Un equipo de pagos operaba nodos Ubuntu que manejaban autenticación. Nada glamoroso: servicios systemd, reenvío rsyslog y un relay central. El equipo tenía un hábito que parecía excesivo: cada trimestre ejecutaban una prueba controlada de “fallo de envío de logs” en horario laboral.

La prueba era simple. Bloqueaban el egress hacia el relay de logs por unos minutos en un host canario, generaban un puñado de mensajes de prueba con logger en diferentes facilities y prioridades, y luego reactivaban el egress. La expectativa: los mensajes se ponen en cola localmente y luego aparecen en el agregador en orden, sin pérdida.

Un trimestre, la prueba falló. Los mensajes nunca aparecieron aguas arriba. Los logs locales existían, pero el reenvío no se puso al día. Como fue una prueba y no una caída, tuvieron tiempo de investigar sin adrenalina. Resultó que un cambio de configuración había cambiado el reenvío a UDP “temporalmente” y nadie lo volvió a cambiar. “Temporal” es la palabra más permanente en IT corporativa.

Revirtieron a TCP con colas en disco y escribieron un pequeño chequeo en CI que señalaba reenvíos UDP en configuraciones de producción. Un mes después, un incidente real afectó el segmento de red de su datacenter. La cola absorbió la caída, el SIEM se puso al día después y la revisión del incidente incluyó una frase poco común: “No se observó pérdida de datos.” Lo aburrido ganó. De nuevo.

Listas de verificación / plan paso a paso

Plan A (recomendado): journald persistente + rsyslog con un solo punto de ingestión

Haz persistente journald.

cr0x@server:~$ sudo mkdir -p /var/log/journal
cr0x@server:~$ sudo systemd-tmpfiles --create --prefix /var/log/journal
cr0x@server:~$ sudo sed -i 's/^#Storage=.*/Storage=persistent/' /etc/systemd/journald.conf
cr0x@server:~$ sudo systemctl restart systemd-journald

Qué verificar: journalctl --list-boots debería mostrar más que el arranque 0 después del siguiente reinicio, y /var/log/journal debería poblarse.

Establece límites de retención que no llenen discos.
```
cr0x@server:~$ sudo tee /etc/systemd/journald.conf.d/99-retention.conf >/dev/null <<'EOF'
[Journal]
SystemMaxUse=2G
SystemKeepFree=1G
MaxRetentionSec=14day
EOF
cr0x@server:~$ sudo systemctl restart systemd-journald
```
Decisión: Elige límites basados en el tamaño del disco y las necesidades de incidentes. En sistemas con raíz pequeña, sé conservador y envía fuera del host.

Elige la entrega a rsyslog: usa imjournal O ForwardToSyslog, no ambos.

Opción 1 (común): rsyslog lee el journal con imjournal.

cr0x@server:~$ sudo grep -R "module(load=\"imjournal" /etc/rsyslog.conf
module(load="imjournal" StateFile="imjournal.state")

Luego deshabilita el reenvío de journald a syslog para evitar duplicados si no lo estás usando:

cr0x@server:~$ sudo tee /etc/systemd/journald.conf.d/10-forwarding.conf >/dev/null <<'EOF'
[Journal]
ForwardToSyslog=no
EOF
cr0x@server:~$ sudo systemctl restart systemd-journald

Usa reenvío fiable (TCP + colas; RELP si está disponible).

cr0x@server:~$ sudo tee /etc/rsyslog.d/60-forward.conf >/dev/null <<'EOF'
# Forward everything to a relay over TCP with a disk-assisted queue.
# Adjust rules so you don't forward noisy debug logs if you don't need them.

action(
  type="omfwd"
  target="logrelay.internal"
  port="514"
  protocol="tcp"
  action.resumeRetryCount="-1"
  queue.type="LinkedList"
  queue.filename="fwdAll"
  queue.maxdiskspace="2g"
  queue.saveonshutdown="on"
  queue.dequeuebatchsize="500"
)
EOF
cr0x@server:~$ sudo rsyslogd -N1
cr0x@server:~$ sudo systemctl restart rsyslog

Decisión: Si tienes requisitos de cumplimiento, combina esto con un relay interno y considera RELP/TLS. TCP solo es una buena línea base, no una garantía.

Demuestra el flujo extremo a extremo con mensajes controlados.

cr0x@server:~$ logger -p user.notice "LOGPIPE e2e test id=$(uuidgen)"
cr0x@server:~$ journalctl --since "2 min ago" -o short-iso | grep LOGPIPE | tail -n 1
2025-12-30T11:20:41+00:00 server cr0x: LOGPIPE e2e test id=3e0c2aef-7e0f-4a43-a3c2-9c3e5c4f2f8b

Decisión: Si aparece localmente pero no centralmente, arregla el envío. Si no aparece localmente, arregla la captura.

Plan B: solo journald (aceptable para flotas efímeras con centralización fuerte)

Usa journald persistente solo si discos y políticas de retención lo permiten; de lo contrario confía en envío inmediato vía un colector compatible con journald.
Establece límites de tasa estrictos con cuidado: podrías proteger el nodo a costa de perder el único evento que necesitabas.
Asegúrate de tener siempre una copia fuera del host. “Solo local” es preludio de “no podemos demostrar qué pasó”.

Plan C: rsyslog como primario (solo si tienes restricciones legacy)

Es posible, pero aún tendrás journald capturando stdout/stderr para servicios systemd.
Si insistes en flujos basados en archivos, asegura que los servicios registren a syslog o a archivos intencionadamente. Si no, perseguirás eventos faltantes en dos mundos.
Sé explícito sobre las fuentes de logging del kernel para evitar huecos.

Preguntas frecuentes

1) En Ubuntu 24.04, ¿necesito rsyslog en absoluto?

Si necesitas diseños clásicos de archivos syslog, reglas de ruteo finas, colas asistidas por disco o compatibilidad amplia con el ecosistema syslog, sí. Si tienes un colector nativo de journald que envía fuera del host de forma fiable, puedes prescindir de rsyslog.

2) ¿Perderá journald logs?

Puedes perderlos. Si está configurado como volátil, los logs no sobrevivirán al reinicio. Si entran límites de tasa, puede suprimir mensajes durante ráfagas. Si el disco está lleno o los límites de retención son bajos, se vacían entradas antiguas. Nada de eso es maldad; es física.

3) ¿Los logs binarios son un problema para cumplimiento?

Usualmente el requisito de cumplimiento es “retención, integridad, control de acceso, auditabilidad”, no “debe ser texto plano”. La jugada real para cumplimiento es enviar fuera del host a almacenamiento inmutable y controlar el acceso. Binario vs texto es preferencia de herramientas, no una garantía.

4) ¿Por qué veo logs en journalctl pero no en /var/log/syslog?

Porque journald captura stdout/stderr de servicios systemd por defecto. A menos que reenvíes esas entradas a syslog, no aparecerán en archivos syslog. Además, filtros o mapeos de facility pueden enrutar mensajes de forma distinta.

5) ¿Debería reenviar desde journald a rsyslog o hacer que rsyslog lea el journal?

Escoge uno, según claridad y evitar duplicados. Yo prefiero que rsyslog lea el journal vía imjournal para tener un único punto de ingestión con colas y acciones de reenvío explícitas.

6) ¿Es aceptable el reenvío syslog por UDP alguna vez?

Para telemetría de bajo riesgo y streams de debug ruidosos donde la pérdida es aceptable, sí. Para autenticación, seguridad o logs críticos de incidentes: no. Usa TCP con buffering, o RELP si puedes.

7) ¿Cuánta retención del journal debería mantener?

Mantén lo suficiente para cubrir tu ventana de respuesta humana: al menos “arranque previo + unos días” en hosts importantes. Luego confía en la retención central para semanas/meses. Restringe el uso local para que no pueda comerse la máquina.

8) ¿Puedo hacer que journald escriba logs tradicionales en texto directamente?

No como su formato primario. journald puede reenviar a syslog, y demonios syslog pueden escribir archivos de texto. Ese es el puente soportado: journald captura, rsyslog escribe/reenvía.

9) ¿Qué pasa con los logs de contenedores?

Si los contenedores registran en stdout/stderr y el runtime se integra con systemd, journald puede capturar con metadatos ricos. Si usas otra ruta de runtime, asegúrate de que tu colector tome explícitamente logs de contenedores. No supongas.

10) ¿Cómo evito que los logs tumben el nodo?

Limita el uso de disco de journald, asegura que logrotate funcione para logs en texto y reduce el volumen de logs en origen. También evita poner logging pesado en el mismo filesystem restringido que tu base de datos.

Conclusión: pasos siguientes que no te traicionarán

Ubuntu 24.04 no impone una guerra religiosa entre journald y rsyslog. Te ofrece dos herramientas con distintos modos de fallo. En producción, el patrón correcto suele ser: journald persistente para la verdad local, más rsyslog para reenvío deliberado, con buffer y compatibilidad.

Próximos pasos:

Haz journald persistente en cualquier host que puedas depurar tras un reinicio, y límitalo para que no pueda llenar discos.
Decide tu único punto de ingestión hacia rsyslog para evitar duplicados.
Cambia el reenvío a TCP (o RELP) con colas asistidas por disco para todo aquello que no puedas permitirte perder.
Ejecuta trimestralmente una prueba de “fallo de envío de logs” en un canario. Si suena excesivo, espera hasta tu primera auditoría o incidente de seguridad.

El logging no es solo observabilidad. Es evidencia. Contrúyelo como si lo fueras a necesitar en un juicio—porque algún día, internamente, lo necesitarás.

Overclocking en 2026: hobby, lotería o ambos?

A las 02:13, tu estación de trabajo “estable” se reinicia durante una compilación. A las 09:40, la misma máquina pasa todos los benchmarks que encuentras. A las 11:05, aparece una discrepancia en la suma de verificación de una base de datos y de pronto todos recuerdan que activaste EXPO “porque era rendimiento gratis”.

El overclocking en 2026 no está muerto. Simplemente se ha movido. La acción tiene menos que ver con capturas de GHz heroicas y más con límites de potencia, comportamiento de boost, entrenamiento de memoria y la aburrida realidad de que los chips modernos ya corren al límite por sí solos. Si quieres velocidad, todavía puedes obtenerla. Si quieres fiabilidad, necesitas disciplina —y aceptar que algunas ganancias son puramente de lotería.

Qué significa realmente “overclocking” en 2026

Cuando la gente dice “overclocking”, todavía imaginan un multiplicador fijo, un voltaje fijo y un arranque triunfal en un sistema operativo que puede o no sobrevivir la semana. Eso todavía existe, pero en 2026 es la forma menos interesante (y menos sensata) de hacerlo para la mayoría de sistemas mainstream.

El tuning actual suele caer en cuatro categorías:

Modelado de límites de potencia: aumentar (o bajar) los límites de potencia del paquete para que la CPU/GPU pueda hacer boost más tiempo bajo carga sostenida.
Manipulación de la curva de boost: ajustar la lógica interna de boost de la CPU (piensa en cambios en la curva voltaje/frecuencia por núcleo) en lugar de forzar una única frecuencia para todos los núcleos.
Ajuste de memoria: perfiles EXPO/XMP, ajustes de voltaje del controlador de memoria, subtimming. Aquí es donde “parece bien” se convierte en “bits que se invierten a las 3 a.m.”
Undervolting: el movimiento silencioso y maduro—reducir voltaje para cortar calor y sostener el boost. Es el primo responsable del overclocking, y a menudo gana en cargas reales.

En términos de producción: overclockear es intentar empujar un sistema hacia un margen operativo diferente al validado por el proveedor. Ese margen no es solo frecuencia; incluye voltaje, temperatura, entrega de potencia, respuesta a transitorios, comportamiento del firmware e integridad de memoria. Cuantas más piezas toques, más formas de fallar tendrás.

Y sí, es a la vez hobby y lotería. Se convierte en hobby cuando lo tratas como ingeniería: hipótesis, control de cambios, reversión, medición. Se convierte en lotería cuando lo tratas como concurso de capturas de pantalla y declaras victoria tras una sola ejecución de benchmark.

Hobby vs lotería: de dónde viene la aleatoriedad

La aleatoriedad no es mística. Es variación de fabricación, variación de firmware y variación ambiental apiladas hasta que tu “misma configuración” se comporta distinto que la de tu amigo.

1) La variación del silicio es real, y no es nueva

Dentro del mismo modelo de CPU, dos chips pueden requerir voltajes significativamente diferentes para la misma frecuencia. Puedes llamarlo “lotería del silicio” o “variación de proceso”; el resultado es el mismo: un chip funciona bien, otro se queja. Los proveedores ya clasifican chips en bins, pero el binning está optimizado para su línea de producto, no para tu fantasía de voltaje/frecuencia personal.

2) Controladores de memoria y DIMM: la lotería silenciosa

La gente culpa a la “RAM mala”. A menudo es el controlador de memoria integrado (IMC), el trazado de la placa base o el algoritmo de entrenamiento en la BIOS. Puedes comprar DIMMs premium y aun así tener inestabilidad si el margen de la plataforma es estrecho. El overclocking de memoria es la forma de inestabilidad menos probada porque puede pasar horas de estrés básico y aún así corromper un archivo bajo un patrón de acceso extraño.

3) El firmware es ahora una política de rendimiento

Una actualización de BIOS puede cambiar el comportamiento de boost, tablas de voltaje, entrenamiento de memoria y límites de potencia—a veces mejorando la estabilidad, otras veces “optimizándote” hasta provocar reinicios. La placa base funciona efectivamente como un motor de políticas para tu CPU.

4) Tu disipador forma parte del plan de reloj

El boost moderno es oportunismo térmico. Si no tienes margen térmico, no tienes margen de frecuencia sostenida. Si tienes margen, puede que ni necesites un overclock: solo mejor refrigeración, mejor flujo de aire en la carcasa o menor voltaje.

Broma #1: El overclocking es como adoptar una mascota: la compra es la parte barata; la electricidad, la refrigeración y el apoyo emocional vienen después.

Hechos e historia que aún importan

Algunos puntos de contexto que explican por qué el overclocking se siente distinto ahora:

Finales de 1990–principios de 2000: las CPUs a menudo tenían gran margen porque los proveedores enviaban relojes conservadores para cubrir peores casos de silicio y refrigeración.
Cultura del “golden sample”: los entusiastas descubrieron que los chips individuales variaban ampliamente; el binning no era tan ajustado como lo es ahora para piezas mainstream.
Se popularizaron los bloqueos de multiplicador: los proveedores empujaron a los usuarios hacia SKU autorizados para overclocking; los fabricantes de placas respondieron con funciones que facilitaban el tuning de todos modos.
El Turbo Boost cambió el juego: las CPUs empezaron a auto-overclockearse dentro de límites de potencia/térmicos, reduciendo la brecha entre stock y “manual”.
Los perfiles de memoria se masificaron: XMP/EXPO convirtieron la “RAM overclockeada” en una función de un solo interruptor—también convirtiendo la RAM inestable en una falla de un solo interruptor.
La densidad de potencia aumentó bruscamente: nodos más pequeños y más núcleos incrementaron el flujo de calor; la calidad de la refrigeración ahora restringe el rendimiento tanto como el silicio.
La calidad del VRM se volvió diferenciadora: la entrega de potencia de la placa base dejó de ser una casilla y se convirtió en un factor de estabilidad bajo cargas transitorias.
Las GPUs normalizaron el boosting dinámico: el OC manual de GPU pasó a tratarse más de ajustar curvas de potencia/voltaje y perfiles de ventilador que de añadir MHz fijos.
La detección de errores mejoró—pero no es universal: ECC es común en servidores, raro en rigs de juego, y los errores de memoria todavía se filtran en flujos de trabajo de consumo.

Realidad moderna: algoritmos de turbo, límites de potencia y térmicos

En 2026, el comportamiento por defecto de la mayoría de CPUs es “hacer boost hasta que algo me detenga”. Ese “algo” suele ser uno de estos: límite de temperatura, límite de potencia del paquete, límite de corriente o restricciones de fiabilidad de voltaje. Cuando “overclockeas”, a menudo solo estás moviendo esos postes de meta.

Límites de potencia: la palanca furtiva que parece rendimiento gratis

Aumentar límites de potencia puede ofrecer ganancias reales en cargas todo-núcleo sostenidas—renders, compilaciones, simulación—porque reduces el throttling. Pero también aumenta calor, ruido de ventiladores y estrés en los VRM. El sistema puede parecer estable en una ejecución corta y luego fallar después de que la carcasa se caliente y las temperaturas de los VRM suban.

Ajuste de la curva de boost: rendimiento sin forzar voltajes en peores casos

El ajuste de curvas por núcleo (u mecanismos equivalentes) suele superar los overclocks fijos de todo-núcleo porque la CPU puede reducir la frecuencia en núcleos calientes y mantener núcleos eficientes en boost. Esto se parece más a “enseñar al chip que tu refrigeración es buena” que a “hacer que el chip se someta”.

Undervolting: el adulto en la sala

El undervolt puede aumentar el rendimiento sostenido al bajar los térmicos, lo que reduce el throttling. También puede reducir picos transitorios que activan la inestabilidad. La pega: un undervolt demasiado agresivo produce los mismos errores que un overclock: reinicios aleatorios, errores WHEA/MCE, fallos silenciosos en cálculos—solo con una gráfica de temperatura orgullosamente más baja.

Una verdad operacional: Estabilidad no es “no se bloquea”. Estabilidad es “produce resultados correctos a través de variación de tiempo, temperatura y carga”. Si administras un sistema donde la corrección importa—sistemas de ficheros, builds, bases de datos, cálculo científico—trata la inestabilidad como pérdida de datos, no como inconveniente.

Idea parafraseada, atribuida: “La esperanza no es una estrategia.” — Gene Kranz (idea parafraseada, citada ampliamente en contextos de ingeniería/operaciones). Se aplica perfectamente aquí: no esperes que tu OC sea estable; diseña un plan de pruebas que lo demuestre.

Qué ajustar (y qué dejar en paz)

Puedes ajustar casi cualquier cosa. La cuestión es qué vale la pena arriesgar.

CPU: prioriza rendimiento sostenido y comportamiento sin errores

Si tu carga es intermitente—juego, uso general de escritorio—la lógica de boost de stock ya es muy buena. Los overclocks manuales de todo-núcleo suelen reducir el boost de un solo núcleo y hacen el sistema más caliente por ganancias marginales.

Si tu carga es sostenida todo-núcleo—compilaciones, codificación, renderizado—los límites de potencia y mejoras de refrigeración suelen superar los incrementos de frecuencia fijos. Quieres que la CPU mantenga un clock medio más alto sin disparar límites térmicos o de corriente.

Memoria: la palanca de rendimiento con las cuchillas más afiladas

La frecuencia y temporizaciones de memoria importan para cargas sensibles a latencia y algunos juegos, pero los modos de error son brutales. Un crash de CPU es obvio. Un error de memoria puede ser un archivo corrupto, una build CI inestable o una página de base de datos que falla la suma de verificación la semana siguiente.

Si puedes usar ECC, úsalo. Si no puedes, sé conservador: considera dejar la memoria en un perfil validado y céntrate primero en el tuning de potencia/boost de CPU.

GPU: ajusta para la carga, no por relojes de vanidad

El tuning de GPU trata principalmente sobre el objetivo de potencia, eficiencia de la curva de voltaje y térmicos. Para cargas de cómputo, a menudo consigues mejor rendimiento por vatio con un ligero undervolt, permitiendo que la tarjeta mantenga relojes altos sin rebotar en límites de potencia.

Almacenamiento y PCIe: no “overclockees” la ruta de E/S

Si tu placa base ofrece conmutadores de spread-spectrum de PCIe, juegos raros de BCLK o ajustes experimentales de PCIe: no lo hagas. Los errores de almacenamiento son los que descubres cuando la restauración falla.

Broma #2: Si tu “overclock” estable solo se bloquea durante las copias de seguridad, no es un overclock—es un simulacro no solicitado de recuperación ante desastres.

Modelo de fiabilidad: modos de fallo que la gente finge no ver

La mayoría de consejos de overclocking buscan pasar un benchmark. Pensar en producción es distinto: nos importan los comportamientos de cola, no el comportamiento medio. La cola es donde vive el pager.

Modo de fallo A: inestabilidad obvia

Reinicios, pantallas azules, kernel panics, fallos de aplicaciones. Son irritantes pero diagnosticables. Normalmente verás logs, volcados de memoria o al menos un patrón bajo carga.

Modo de fallo B: fallos marginales de cómputo

El sistema se mantiene arriba pero produce resultados incorrectos ocasionalmente. Este es el modo pesadilla para quien hace trabajo científico, cálculos financieros o compiladores. Puede manifestarse como:

Fallos aleatorios en pruebas CI que desaparecen al reejecutar
Archivos corruptos con tamaños que parecen válidos
Divergencia en entrenamiento de modelos que “desaparece” al cambiar el tamaño de lote

Modo de fallo C: corrupción de E/S desencadenada por errores de memoria

Tu sistema de ficheros puede escribir la basura que la RAM le entrega. Los sistemas de ficheros con suma de verificación pueden detectarlo, pero detectar no es prevenir; aún puedes perder datos si la corrupción ocurre antes de que la redundancia ayude, o si la corrupción está en tránsito por encima de la capa de suma de verificación.

Modo de fallo D: degradación térmica y de VRM con el tiempo

Ese sistema “estable” en invierno se vuelve inestable en verano. Los VRM se empapan de calor. El polvo se acumula. La pasta térmica se seca. Los ventiladores desaceleran. Un overclock que no deja margen envejece mal.

Modo de fallo E: deriva de firmware

Actualización de BIOS, actualización de controlador GPU, microcódigo: el ajuste que era estable el mes pasado ahora produce errores. No porque la actualización sea “mala”, sino porque cambió la política de boost/potencia y te movió a otro borde.

Guía rápida de diagnóstico (encuentra el cuello de botella)

Este es el flujo de trabajo de “deja de adivinar”. Úsalo cuando el rendimiento sea decepcionante o cuando la estabilidad sea cuestionable después de ajustar.

Primero: confirma si estás thermal-throttling (o no)

Comprueba la frecuencia de la CPU bajo carga, la potencia del paquete y la temperatura.
Verifica si la CPU está alcanzando límite térmico o límite de potencia/corriente.
En GPUs, comprueba límite de potencia, límite térmico y comportamiento de reloj a lo largo del tiempo.

Segundo: aisla el subsistema (CPU vs memoria vs GPU vs almacenamiento)

Estrés solo CPU: ¿se bloquea o registra errores de machine check?
Estrés de memoria: ¿obtienes errores o eventos WHEA/MCE?
Estrés GPU: ¿ves reseteos de driver o errores PCIe?
Integridad de almacenamiento: ¿ves errores de checksum, errores de I/O o resets por timeout?

Tercero: determina si el problema es margen o configuración

Problemas de margen mejoran con más voltaje, menos frecuencia, menor temperatura o menor límite de potencia.
Problemas de configuración mejoran con actualizaciones/retrocesos de BIOS, perfil de memoria correcto, plan de energía correcto y deshabilitar funciones “auto-OC” conflictivas.

Cuarto: revierte cambios en orden de mayor riesgo

OC de memoria / EXPO/XMP y ajustes de voltaje del controlador de memoria
Offsets de undervolt y cambios del curve optimizer
Aumento de límites de potencia y sobreescrituras exóticas de boost
Multiplicadores fijos para todo-núcleo / cambios de BCLK

En la práctica: si ves rarezas, restablece la memoria a JEDEC primero. Es la forma más rápida de eliminar una gran clase de riesgos de corrupción silenciosa.

Tareas prácticas: comandos, salidas y decisiones (12+)

A continuación hay tareas prácticas que puedes ejecutar en un host Linux para evaluar rendimiento, estabilidad y si tu overclock ayuda o perjudica. Cada tarea incluye un comando, salida de ejemplo, qué significa y la decisión que tomas.

Task 1: Identificar modelo y topología de CPU (chequeo de cordura)

cr0x@server:~$ lscpu | egrep 'Model name|Socket|Core|Thread|CPU\(s\)|MHz'
CPU(s):                               32
Model name:                           AMD Ryzen 9 7950X
Thread(s) per core:                   2
Core(s) per socket:                   16
Socket(s):                            1
CPU MHz:                              5048.123

Qué significa: Confirma lo que realmente estás ajustando: recuento de núcleos, SMT y frecuencia reportada actual.

Decisión: Si la topología no coincide con lo esperado (SMT desactivado, núcleos aparcados), arregla eso antes de tocar relojes.

Task 2: Comprobar el governor actual y el comportamiento de escalado de frecuencia

cr0x@server:~$ cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor
schedutil

Qué significa: Estás usando el governor conducido por el scheduler del kernel, que generalmente se comporta bien para CPUs con boost.

Decisión: Si estás atascado en powersave con relojes bajos, arregla tu perfil de energía antes de culpar al silicio.

Task 3: Observar relojes, potencia y throttling en tiempo real (Intel/AMD vía turbostat)

cr0x@server:~$ sudo turbostat --Summary --interval 2
Avg_MHz  Busy%  Bzy_MHz  TSC_MHz  PkgTmp  PkgWatt
 4920     88.5    5560     4000     92     205.3
 4880     90.1    5410     4000     95     218.7

Qué significa: Estás caliente (92–95°C) y consumiendo mucha potencia del paquete. El boost es fuerte pero probablemente cerca de límites térmicos.

Decisión: Si PkgTmp roza el techo térmico, perseguir más MHz generalmente es una pérdida. Mejora la refrigeración o undervoltea para mantener relojes sostenidos.

Task 4: Confirmar que el kernel detecta eventos de thermal throttling

cr0x@server:~$ sudo dmesg -T | egrep -i 'thrott|thermal' | tail -n 5
[Sun Jan 12 10:14:31 2026] CPU0: Package temperature above threshold, cpu clock throttled
[Sun Jan 12 10:14:31 2026] CPU0: Package temperature/speed normal

Qué significa: La CPU está rebotando contra límites térmicos. Tu “overclock” puede ser un generador de calor, no una mejora de rendimiento.

Decisión: Reduce voltaje/límites de potencia o aumenta la refrigeración. Si quieres rendimiento estable, deja de depender de boosts transitorios.

Task 5: Buscar errores de machine check (MCE) que indiquen estabilidad marginal

cr0x@server:~$ sudo journalctl -k -b | egrep -i 'mce|machine check|hardware error|whea' | tail -n 8
Jan 12 10:22:08 server kernel: mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 27: baa0000000000108
Jan 12 10:22:08 server kernel: mce: [Hardware Error]: TSC 0 ADDR fef1a140 MISC d012000100000000 SYND 4d000000 IPID 1002e00000000

Qué significa: No estás “estable”. Entradas MCE durante carga son señales clásicas de voltaje insuficiente, curve optimizer demasiado agresivo o silicio demasiado caliente.

Decisión: Retrocede el undervolt/curve, reduce la frecuencia o mejora la refrigeración. Trata MCE como una falla de corrección, no como un “tal vez”.

Task 6: Estrés rápido de CPU para reproducir fallos (corto y ruidoso)

cr0x@server:~$ stress-ng --cpu 32 --cpu-method matrixprod --timeout 5m --metrics-brief
stress-ng: info:  [18422] dispatching hogs: 32 cpu
stress-ng: metrc: [18422] cpu                300.00s   12654.12 bogo ops/s
stress-ng: info:  [18422] successful run completed in 300.02s

Qué significa: Una ejecución corta solo-CPU se completó. Esto es necesario, no suficiente.

Decisión: Si falla rápidamente, tu OC es obviamente inestable. Si pasa, procede a pruebas de memoria y cargas mixtas.

Task 7: Estrés de memoria que realmente intenta romper cosas

cr0x@server:~$ stress-ng --vm 4 --vm-bytes 75% --vm-method all --timeout 30m --metrics-brief
stress-ng: info:  [18701] dispatching hogs: 4 vm
stress-ng: info:  [18701] successful run completed in 1800.03s

Qué significa: Has ejercitado la RAM intensamente. Aún no es una prueba definitiva, pero es una puerta útil.

Decisión: Si obtienes segfault, OOM extraño o MCE/WHEA durante esto, sospecha del OC de memoria/voltaje del IMC. Retrocede EXPO/XMP primero.

Task 8: Comprobar contadores de errores ECC (si tienes ECC)

cr0x@server:~$ sudo edac-util -v
edac-util: EDAC drivers loaded: amd64_edac
mc0: 0 Uncorrected Errors with no DIMM info
mc0: 2 Corrected Errors with no DIMM info

Qué significa: Ocurrieron errores corregidos. ECC te salvó, pero también te está indicando que estás operando cerca del límite.

Decisión: Cualquier cuenta de errores corregidos que crezca bajo carga es señal para reducir OC de memoria, bajar temperatura o aumentar márgenes de estabilidad. Errores no corregidos son territorio de “detenerse ahora”.

Task 9: Validar señales de integridad de almacenamiento (ejemplo ZFS)

cr0x@server:~$ sudo zpool status -x
all pools are healthy

Qué significa: No hay errores conocidos de ZFS por ahora.

Decisión: Si alguna vez ves errores de checksum tras ajustar RAM/CPU, asume primero inestabilidad de memoria, no “discos malos”. Los discos fallan; la RAM marginal también.

Task 10: Forzar un scrub y vigilar errores de checksum (ZFS)

cr0x@server:~$ sudo zpool scrub tank
cr0x@server:~$ sudo zpool status tank | egrep 'scan:|errors:'
  scan: scrub in progress since Sun Jan 12 10:55:11 2026
errors: No known data errors

Qué significa: El scrub está en progreso y actualmente limpio.

Decisión: Si un scrub informa errores de checksum después de cambiar ajustes de memoria, no empiezes reemplazando discos. Revierte el OC de memoria y vuelve a hacer scrub.

Task 11: Verificar síntomas de estabilidad PCIe/NVMe vía logs del kernel

cr0x@server:~$ sudo journalctl -k -b | egrep -i 'nvme|pcie|aer|reset' | tail -n 10
Jan 12 11:10:44 server kernel: nvme nvme0: I/O 123 QID 7 timeout, reset controller
Jan 12 11:10:45 server kernel: pcieport 0000:00:01.0: AER: Corrected error received: id=00e0

Qué significa: Tienes timeouts/resets y eventos AER de PCIe. Estos pueden ser provocados por BCLK inestable, undervolt o entrega de potencia de plataforma marginal.

Decisión: Detén cualquier experimentación con BCLK. Vuelve a configuraciones stock de PCIe. Valida la PSU y la estabilidad de la placa base. Los timeouts de almacenamiento no son “normales”.

Task 12: Medir si tu tuning ayudó la carga real (ejemplo: build)

cr0x@server:~$ /usr/bin/time -v make -j32
	Command being timed: "make -j32"
	User time (seconds): 512.43
	System time (seconds): 44.02
	Percent of CPU this job got: 3180%
	Elapsed (wall clock) time (h:mm:ss or m:ss): 0:18.20
	Maximum resident set size (kbytes): 2483100

Qué significa: Obtuviste un tiempo de build de 18.2s bajo una configuración definida. Ese es tu métrico de referencia, no el “score de Cinebench”.

Decisión: Si el tuning mejora benchmarks pero no el tiempo real de tu trabajo, revierte. Calor y riesgo son costes; págales solo por ganancias reales.

Task 13: Confirmar que no estás intercambiando (las “ganancias” de OC de memoria pueden ser falsas)

cr0x@server:~$ free -h
               total        used        free      shared  buff/cache   available
Mem:            64Gi        31Gi        18Gi       1.2Gi        15Gi        33Gi
Swap:          8.0Gi       0.0Gi       8.0Gi

Qué significa: No hay presión de swap en este instantáneo.

Decisión: Si el swap está en uso durante tus pruebas, tus resultados de benchmark miden comportamiento de almacenamiento y reclamación del SO, no pura velocidad CPU/memoria.

Task 14: Rastrear sensores de temperatura y comportamiento de ventiladores a lo largo del tiempo

cr0x@server:~$ sensors | egrep -i 'Package|Tctl|Core|VRM|edge|junction' | head
Tctl:         +94.8°C
Core 0:       +86.0°C
Core 1:       +88.0°C

Qué significa: Estás cerca del techo térmico.

Decisión: Si las temperaturas están cerca del límite durante cargas sostenidas, prioriza reducir voltaje o mejorar refrigeración en lugar de empujar la frecuencia.

Tres microhistorias corporativas del mundo real

Microhistoria #1: Un incidente causado por una suposición equivocada

Un equipo gestionaba una flota mixta de estaciones de trabajo de desarrollador y algunos agentes de build. Estaban orgullosos de su “imagen estándar” y de sus “ajustes de BIOS estándar”. Cuando llegó un lote nuevo de máquinas, alguien activó un perfil de memoria porque el marketing del proveedor lo llamaba “validado”. La suposición era simple: si hace boot y ejecuta algunas pruebas, está bien.

Dos semanas después, la pipeline de build comenzó a mostrar fallos intermitentes. No reproducibles localmente. No ligados a un repositorio. Simplemente aleatorios. Los ingenieros reejecutaban trabajos y pasaban. La firma del fallo no era un crash; era una discrepancia en una prueba unitaria, una descoincidencia de hash y, una vez, un error interno del compilador que desaparecía al reintentar.

SRE se involucró porque los fallos estaban consumiendo capacidad. Se culparon a los sospechosos habituales: almacenamiento inestable, hiccups de red, “caché mala”. Los logs estaban limpios. Las métricas del sistema estaban bien. El giro vino cuando alguien correlacionó fallos con un host específico—y luego con la temperatura ambiente de ese host. La máquina vivía junto a una ventana soleada. Se calentaba por la tarde. Los errores de memoria no necesitan un foco, solo margen.

La solución no fue heroica. Restablecieron la memoria a JEDEC, ejecutaron estrés de memoria más largo y los fallos desaparecieron. Más tarde reintrodujeron el perfil con una frecuencia menor y temporizaciones un poco más laxas y encontraron un punto estable. La lección cara: “validado” no es lo mismo que “validado para tu IMC, tu placa, tu refrigeración y tu carga a lo largo del tiempo”.

Microhistoria #2: Una optimización que salió mal

Un grupo orientado al rendimiento tenía cargas intensivas en GPU y un objetivo: reducir costes de ejecución. Leyeron sobre undervolting y decidieron implementar un “undervolt de flota” en un conjunto de nodos de cómputo. El razonamiento era sensato: menor voltaje, menos calor, boost sostenido, menos ruido de ventiladores, mejor rendimiento por vatio. Lo probaron con su suite de benchmarks y se veía genial.

Entonces llegó la realidad. Bajo ciertos trabajos—los que tenían comportamiento de potencia espikeado y ráfagas ocasionales de CPU—los nodos empezaron a caerse. No de forma consistente. No inmediatamente. A veces después de seis horas. El driver de GPU se reiniciaba. A veces el kernel registraba errores PCIe AER corregidos; a veces no. Lo peor: los trabajos completaban con salida incorrecta ocasionalmente. No era obvio—suficiente para fallar una validación downstream más tarde.

El equipo había optimizado para el rendimiento medio en cargas estables. Pero sus trabajos de producción no eran estables. Tenían fases mixtas CPU+GPU, ráfagas de almacenamiento y ciclos térmicos. El undervolt redujo el margen de voltaje lo justo para que transitorios raros se volvieran fatales. El benchmark no reproducía la forma de onda de potencia de la carga, así que el ajuste era “estable” solo en el mundo donde no ocurre nada inesperado.

Hicieron rollback, luego reintrodujeron el undervolt con salvaguardas: calificación por nodo, offsets conservadores y una política de “no ajustes que produzcan errores hardware corregidos”. Aún ahorraron energía, pero dejaron de apostar con la corrección.

Microhistoria #3: Una práctica aburrida pero correcta que salvó el día

Un equipo centrado en almacenamiento gestionaba algunas máquinas “todo en uno”: build, test y ocasionalmente hospedar datasets en ZFS. No overclockeaban esas cajas, pero hicieron algo poco fashion: documentaron ajustes de BIOS, fijaron versiones de firmware y mantuvieron un plan de reversión. También ejecutaban scrubs mensuales de ZFS y vigilaban contadores de errores.

Un día llegó una actualización de BIOS rutinaria con una nota de “mejor compatibilidad de memoria”. Un desarrollador la instaló en una máquina para “ver si ayuda el tiempo de arranque”. El sistema arrancó, funcionó bien y nadie notó nada. Semanas después, el scrub de ZFS reportó un pequeño número de errores de checksum solo en ese host. Los discos parecían sanos. SMART parecía bien. Olía a memoria o inestabilidad de plataforma.

Porque tenían disciplina aburrida, pudieron responder preguntas básicas rápidamente: qué cambió, cuándo y en qué host. Revirtieron la BIOS, restablecieron ajustes de entrenamiento de memoria, volvieron a hacer scrub y los errores pararon. No perdieron datos porque lo detectaron temprano y porque el sistema tenía checksum, redundancia y scrubs regulares.

La moraleja no es “nunca actualices BIOS”. Es “trata el firmware como código”. Versionarlo, desplegarlo gradualmente y observar señales de corrección que son aburridas hasta que dejan de serlo.

Errores comunes: síntomas → causa raíz → solución

Estos son los patrones que veo una y otra vez—los que desperdician fines de semana y arruinan datos en silencio.

1) Síntoma: Reinicios aleatorios solo bajo carga intensa

Causa raíz: Límite de potencia aumentado sin suficiente margen de refrigeración/VRM; respuesta transitoria de PSU insuficiente; OC agresivo de todo-núcleo.

Solución: Reduce límites de potencia del paquete; mejora el flujo de aire; confirma temperaturas de VRM; considera undervolt en lugar de aumentar frecuencia.

2) Síntoma: Pasa benchmarks cortos, falla renders o compilaciones largas

Causa raíz: Heat soak; el margen de estabilidad desaparece a medida que suben las temperaturas; curva de ventiladores demasiado tímida; recirculación en la carcasa.

Solución: Ejecuta pruebas de estabilidad más largas; ajusta curvas de ventilador para cargas sostenidas; mejora presión de caja; baja voltaje.

3) Síntoma: Fallos intermitentes en CI/tests que desaparecen al reejecutar

Causa raíz: OC de memoria/IMC marginal; undervolt causando fallos raros de cómputo; ajustes inestables de infinity fabric / controlador de memoria (dependiente de la plataforma).

Solución: Revierte memoria a JEDEC; ejecuta estrés de memoria; si los errores desaparecen, reintroduce ajustes de forma conservadora. Trata las “inestabilidades” como hardware hasta demostrar lo contrario.

4) Síntoma: Errores de checksum de ZFS o errores de scrub después de ajustar

Causa raíz: Inestabilidad de memoria que corrompe datos antes de que lleguen al disco; inestabilidad PCIe causando problemas DMA; timeouts NVMe.

Solución: Restablece OC de memoria; revisa logs del kernel por AER/NVMe resets; vuelve a scrappear tras estabilizar. No empieces reemplazando discos.

5) Síntoma: Reseteos de driver GPU durante cargas mixtas

Causa raíz: Undervolt demasiado agresivo para picos transitorios; límite de potencia demasiado estricto; hotspot térmico causando throttling local; OC de VRAM inestable.

Solución: Retrocede undervolt/OC de VRAM; aumenta ligeramente objetivo de potencia; mejora refrigeración; valida con estrés mixto largo CPU+GPU.

6) Síntoma: El sistema es “estable” pero más lento

Causa raíz: OC fijo de todo-núcleo reduce boost de un solo núcleo; throttling térmico reduce relojes medios; temporizaciones de memoria empeoran latencia mientras la frecuencia sube.

Solución: Mide tiempo real en tu carga; prefiere ajuste de curva de boost/undervolt y mejoras de refrigeración; no persigas MHz de titular.

7) Síntoma: Rendimiento varía enormemente entre ejecuciones

Causa raíz: Boost dependiente de temperatura; tareas en segundo plano; cambios de plan de energía; throttling térmico de VRM.

Solución: Fija condiciones de prueba; registra temperaturas y potencia; normaliza carga en segundo plano; asegura curvas de ventilador consistentes.

Listas de verificación / plan paso a paso

Así abordas el overclocking como alguien que ya se quemó antes.

Lista A: Decide si deberías overclockear en absoluto

Define la métrica de la carga: tiempo de build en reloj de pared, tiempo de render, consistencia del frame time, rendimiento de entrenamiento—algo real.
Define el requisito de corrección: “rig de juego” es distinto de “NAS de fotos familiares” y distinto de “pipeline de cómputo”.
Inventario de detección de errores: ¿ECC? ¿Suma de verificación en el sistema de ficheros? ¿Validación CI? Si no puedes detectar errores, vuelas a ciegas.
Revisa refrigeración y entrega de potencia: Si ya estás cerca del límite térmico en stock, no empieces subiendo potencia.

Lista B: Establece una línea base (no la omitas)

Registra versión de BIOS y ajustes clave (fotos cuentan como documentación).
Mide temperaturas y potencia de base bajo tu carga real.
Mide rendimiento base con un comando repetible (ver Task 12).
Ejecuta una barrida de estabilidad base: estrés CPU + estrés memoria + una carga mixta larga.

Lista C: Cambia una variable a la vez

Empieza con undervolt/eficiencia en lugar de frecuencia bruta.
Luego ajusta límites de potencia si estás throttling en cargas sostenidas.
Toca perfiles de memoria al final, y solo si tu carga se beneficia.
Después de cada cambio: vuelve a ejecutar el mismo plan de pruebas, compara con la línea base y registra resultados.

Lista D: Define “estable” como un adulto

No hay errores hardware MCE/WHEA del kernel durante estrés o cargas reales.
No hay errores de checksum en el sistema de ficheros, errores de scrub ni resets inexplicables de I/O.
Mejora de rendimiento en la carga real, no solo en una puntuación sintética.
Estabilidad a lo largo del tiempo: al menos una ejecución larga que alcance heat soak.

Lista E: Plan de reversión (antes de necesitarlo)

Sabe cómo limpiar CMOS y restaurar ajustes básicos.
Mantén copia de versiones de BIOS/firmware conocidas como buenas.
Si dependes de la máquina: programa cambios de tuning, no los hagas la noche antes de una entrega.

Preguntas frecuentes

¿Vale la pena el overclocking en 2026?

A veces. Para cargas sostenidas todo-núcleo, modelar límites de potencia y mejorar refrigeración puede dar ganancias reales. Para cargas intermitentes, el boost de stock suele estar muy cerca del óptimo. El ajuste de memoria puede ayudar, pero también es el riesgo más alto para errores silenciosos.

¿Por qué las CPUs modernas muestran ganancias de overclock menores que las antiguas?

Porque ya hacen boost agresivamente hasta límites térmicos/potencia. Los proveedores envían el hardware mucho más cerca del borde eficiente, y los algoritmos de boost aprovechan oportunísticamente el margen de tu refrigeración automáticamente.

¿Es más seguro el undervolting que el overclocking?

Más seguro en el sentido de que reduce calor y potencia, lo que puede mejorar la estabilidad. No es seguro en el sentido de “no puede romper la corrección”. Un undervolt excesivo puede causar errores MCE/WHEA y fallos raros de cálculo.

¿Cuál es el ajuste “fácil” más peligroso?

Perfiles de memoria de alta frecuencia habilitados sin validación. Son populares porque parecen sancionados, pero la inestabilidad de memoria puede ser sutil y destructiva.

¿Cómo sé si mi sistema está corrompiendo datos en silencio?

Normalmente no lo sabes—hasta que lo sabes. Por eso vigilas errores de machine check, ejecutas estrés mixto largo y confías en sumas de verificación cuando es posible (ECC, scrubs del sistema de ficheros, pipelines de validación).

¿Necesito ECC si hago overclock?

Si la corrección importa, ECC vale la pena priorizarlo independientemente del overclock. Si ajustas memoria agresivamente, ECC puede convertir corrupción silenciosa en errores corregidos que puedes observar—aún es un problema, pero al menos visible.

¿Debería overclockear un NAS o servidor de almacenamiento?

No. Si la máquina almacena datos importantes, prioriza márgenes de estabilidad, ECC, ajustes conservadores de memoria y térmicos predecibles. Los errores de almacenamiento son costosos y rara vez divertidos.

¿Por qué una actualización de BIOS cambió mi rendimiento o estabilidad?

Porque la BIOS controla política de boost, tablas de voltaje, entrenamiento de memoria y límites de potencia. Un firmware nuevo puede moverte a un punto operativo distinto, especialmente si ya estás cerca del borde con ajustes.

¿Cuál es la mejor mejora “barata” en lugar de overclocking?

Refrigeración y flujo de aire, además de un undervolt modesto. El rendimiento sostenido a menudo está limitado por térmicos. Menor temperatura puede significar más boost promedio con menos errores.

¿Qué pruebas debo ejecutar antes de declarar victoria?

Como mínimo: estrés CPU largo, estrés de memoria largo y una ejecución larga de tu carga real para alcanzar heat soak—mientras monitoreas logs por MCE/WHEA y resets de I/O. Si guardas datos: scrubs y comprobaciones de integridad.

Conclusión: pasos prácticos siguientes

El overclocking en 2026 sigue siendo un hobby y sigue siendo una lotería. La diferencia es que los boletos de lotería ahora están etiquetados “perfil de memoria”, “sobreescritura de boost” y “ajuste de curva”, y el pago suele ser unos pocos porcentajes—mientras que la desventaja va desde crashes molestos hasta fallos de corrección que no notarás hasta que no puedas confiar en tus resultados.

Haz esto:

Mide tu carga real y define una línea base.
Persigue rendimiento sostenido con refrigeración y undervolt modesto antes de ir tras MHz.
Valida con logs: no MCE/WHEA, no resets PCIe/NVMe, no sorpresas de checksum en el sistema de ficheros.
Trata el ajuste de memoria como peligroso. Si activas EXPO/XMP, demuéstralo con pruebas largas y ejecuciones de la carga real.
Mantén un plan de reversión y úsalo rápidamente cuando aparezcan rarezas.

Si quieres la regla de decisión más simple: overclockea por diversión en sistemas donde puedes permitir fallos. En sistemas donde la corrección importa, ajusta para eficiencia, margen y observabilidad—y deja la lotería a otro.