x86-64: por qué AMD acertó primero con los 64 bits

enero 6, 2026 • febrero 3, 2026 • Lectura: 26 min • Views: 6

¿Te fue útil?

Si alguna vez te han llamado porque una actualización “simple” convirtió una flota estable en un bucle de fallos, ya conoces el secreto sucio de la arquitectura de CPU: la elegancia importa menos que transiciones que se puedan sobrevivir.
El paso de x86 de 32 bits a 64 bits no lo ganó el conjunto de instrucciones más sofisticado. Lo ganó el que permitió a los operadores mantener los servicios en marcha.

AMD acertó primero con los 64 bits porque trató la compatibilidad hacia atrás como un requisito operativo de primera clase, no como un legado embarazoso. Intel acabó por aceptarlo—tras algunos desvíos costosos.

Tabla de contenidos

Qué significa “acertar” en producción
Hechos e historia que realmente importan
El diseño central: los compromisos prácticos de AMD64
Por qué Itanium perdió (y por qué los operadores se alegraron)
Cómo Intel alcanzó el ritmo: EM64T y la rendición silenciosa
Impactos en el mundo real: memoria, rendimiento y modos de fallo
Tres microhistorias corporativas desde las trincheras
Guía rápida de diagnóstico
Tareas prácticas: comandos, salidas y decisiones
Errores comunes: síntoma → causa raíz → solución
Listas de verificación / plan paso a paso
Preguntas frecuentes
Conclusión: siguientes pasos que realmente puedes hacer

Qué significa “acertar” en producción

“Acertar” no es un concurso de belleza. “Acertar” es: puedes desplegarlo gradualmente, ejecutar binarios antiguos, mantener tus herramientas y no reescribir todo tu portafolio de software solo para manejar más memoria.
En términos de SRE, “acertar” significa que la migración reduce el riesgo por unidad de avance. Significa que cada paso es reversible. Significa que no apuestas la empresa a una bandera del compilador.

AMD64 (x86-64) acertó porque permitió a la industria hacer una actualización rodante de la arquitectura de CPU sin requerir una reescritura sincronizada de todo lo que está por encima. Conservó el contrato desordenado pero valioso de x86: el software de ayer funciona mañana.

Además hizo algo más sutil: dio a los sistemas operativos un modelo de ejecución más claro y escalable manteniendo suficientes modos antiguos para arrancar y ejecutar cargas heredadas.
No es “puro”. Es rentable.

Hechos e historia que realmente importan

No necesitas memorizar fechas para operar sistemas, pero algunos hitos temporales explican por qué x86-64 ganó y por qué la otra senda de 64 bits seguía tropezando con la realidad.

AMD anunció x86-64 en 1999 como una extensión de x86, no como un reemplazo. La propuesta fue “64 bits sin abandonar 32 bits”.
AMD lanzó Opteron en 2003 con x86-64 y un controlador de memoria integrado—dos cambios que hicieron que la gente de servidores prestara atención.
Microsoft publicó Windows de 64 bits para x86-64 a mediados de los 2000 después de esfuerzos iniciales centrados en Itanium. El ecosistema siguió la plataforma con volumen.
Itanium de Intel (IA-64) no era x86-64; era una arquitectura distinta con un modelo de ejecución distinto (ideas tipo EPIC/VLIW) y una historia de compatibilidad dolorosa.
Intel adoptó “EM64T” (luego Intel 64)—un casi clon de AMD64—porque el mercado demandaba compatibilidad x86-64, no pureza arquitectónica.
Los primeros x86-64 usaban direcciones virtuales “canónicas” de 48 bits aunque los registros sean de 64 bits, una elección pragmática para mantener las tablas de páginas manejables y dejar espacio para crecer.
El soporte NX (no-execute) se volvió habitual en x86-64, mejorando mitigaciones contra exploits. A los equipos de seguridad les importó; a los equipos de operaciones les importó cuando los gusanos dejaron de tomar flotas tan fácilmente.
Linux y los BSD adoptaron AMD64 rápidamente porque los cambios en el kernel fueron evolutivos, no una reescritura. Portear un kernel es difícil; reescribir un ecosistema es peor.

El diseño central: los compromisos prácticos de AMD64

1) La compatibilidad hacia atrás no fue una tarea secundaria

El movimiento definitorio de AMD64 fue extender x86 en lugar de reemplazarlo. La CPU puede ejecutar múltiples modos, y esos modos permiten que un sistema arranque como si fuera 1989 y luego cambie a un mundo de 64 bits cuando el SO esté listo.
Eso importa porque la “primera instrucción ejecutada después del reset” sigue viviendo en un pantano de compatibilidad: supuestos del firmware, bootloaders, ROMs de opciones, hipervisores y rituales antiguos varios.

El long mode de AMD64 incluye:

64-bit mode: nuevos registros, punteros de 64 bits, una historia de segmentación modernizada.
compatibility mode: ejecutar aplicaciones de 32 y 16 bits en modo protegido bajo un kernel de 64 bits, con el SO controlando el entorno.

Esto es el sueño del operador: un kernel puede alojar ambos mundos. Puedes conservar ese binario de 32 bits del proveedor que odias, mientras avanzas con el resto del parque.

2) Direccionamiento relativamente plano vence a la sofisticación

x86 arrastra décadas de equipaje en torno a la segmentación. AMD64 no fingió que la segmentación iba a desaparecer de la noche a la mañana; en gran parte la hizo irrelevante para el código normal de 64 bits.
En long mode, la segmentación está mayormente desactivada para código/datos (FS/GS siguen siendo útiles para almacenamiento local por hilo). El resultado: un modelo mental más simple y menos investigaciones sobre “¿por qué este puntero funciona en el host A pero no en el host B?”.

3) Más registros: menos spills, menos dolor

AMD64 añadió ocho registros de propósito general más (pasando de 8 a 16). Esto no es académico. La presión de registros es uno de esos costes ocultos que se transforma en ciclos de CPU, fallos de caché y picos de latencia bajo carga.

Con más registros, los compiladores pueden mantener más valores en almacenamiento rápido en lugar de volcarlos a la pila. En cargas reales, eso puede significar menos accesos a memoria y mejor rendimiento—especialmente en bucles ajustados y en rutas con muchas llamadas al sistema.

4) Una convención de llamadas razonable en el mundo de 64 bits

Los ABIs modernos en x86-64 pasan argumentos por registros mucho más que x86 de 32 bits. Esto reduce el tráfico de la pila y puede mejorar el rendimiento.
También cambia los modos de fallo: depurar trazas de pila, desempaquetado y instrumentación pueden comportarse de forma distinta, especialmente si mezclas lenguajes y runtimes.

5) Evolución de paginación, no revolución

AMD64 extendió la paginación de x86 con un esquema de tablas de páginas multinivel que escala a espacios de direcciones virtuales mayores. La elección temprana de direccionamiento canónico de 48 bits fue un clásico intercambio de ingeniería:
no hacer que las tablas de páginas se vuelvan ingobernables desde el día uno; dejar espacio para el futuro.

Los operadores lo notaron de dos maneras:

Más espacio de direcciones significa que dejas de jugar Tetris con la RAM y los mapeos del espacio de usuario.
Más niveles de tablas de páginas significa más presión sobre la TLB y más coste de page-walk si eres descuidado con hugepages, la localidad de memoria o las configuraciones de virtualización.

6) La estrategia “no romper el mundo” en el conjunto de instrucciones

AMD64 mantuvo el conjunto central de instrucciones x86 y añadió extensiones (prefijos REX, nuevos registros, tamaño de operando de 64 bits) sin exigir una nueva cosmovisión del compilador.
Los compiladores ya eran buenos en x86. Las toolchains pudieron evolucionar en lugar de ser reemplazadas.

Primera broma, porque nos la hemos ganado: migrar a x86-64 fue como cambiar un motor mientras el coche está en marcha—salvo que el coche es tu sistema de nóminas y el conductor está dormido.

Por qué Itanium perdió (y por qué los operadores se alegraron)

El fracaso de Itanium no fue porque fuese “malo” en abstracto. Fue porque exigía que el mundo cambiara por él.
IA-64 apuntaba a paralelismo explícito: los compiladores programarían paquetes de instrucciones, el hardware los ejecutaría eficientemente y viviríamos felices para siempre.

En la práctica, “el compilador lo resolverá” es la misma clase de promesa que “el proveedor mandará un ingeniero mañana”. A veces es verdad. Casi nunca cuando estás en llamas.

IA-64 se enfrentó a tres realidades operativas brutales:

Impuesto de compatibilidad: ejecutar código x86 en Itanium implicaba traducción y rutas de emulación que rara vez se sentían como “simplemente funciona”. El rendimiento era desigual e impredecible—exactamente lo que odian los planificadores de capacidad.
Inercia del ecosistema de software: las empresas no portan todo rápidamente. Apenas parchean con rapidez.
Economía del hardware: las plataformas de volumen ganan. Los servidores x86 estaban en todas partes; Itanium era un pasillo especializado en una tienda que la gente dejó de visitar.

Itanium intentó vender un futuro limpio. AMD vendió un futuro que podías desplegar un martes sin reescribir 15 años de código interno ni discutir con 40 proveedores.
El martes gana.

Cómo Intel alcanzó el ritmo: EM64T y la rendición silenciosa

La adopción por parte de Intel de AMD64—con la marca EM64T, luego Intel 64—no fue un acto de caridad. Fue una corrección de mercado.
Los clientes querían 64 bits en x86 que ejecutara su software x86 existente, rápido, en servidores de consumo general.

La parte interesante es lo que no ocurrió: no hubo un gran anuncio ideológico de “estábamos equivocados”. Hubo simplemente envío.
En operaciones, así es como la realidad suele afirmarse: te despiertas y la “plataforma estratégica” ha desaparecido silenciosamente de la hoja de ruta.

Impactos en el mundo real: memoria, rendimiento y modos de fallo

Más de 4 GiB: la ganancia obvia que no lo es todo

Sí, los punteros de 64 bits permiten a los procesos direccionar mucha más memoria que los de 32 bits.
Pero la ganancia práctica no fue solo “más RAM”. Fue menos contorsión: menos hacks de PAE, menos mapas de memoria extraños, menos suposiciones rotas sobre la distribución del espacio de direcciones.

El coste: los punteros son más grandes, algunas estructuras de datos se inflan, las cachés contienen menos objetos y puedes degradar rendimiento si recompilas todo a 64 bits sin medir.
Los bugs de rendimiento más aburridos son “actualizamos y el rendimiento cayó 8%” seguido de tres semanas de negación.

Seguridad: NX y el cambio en la postura por defecto

El bit NX (execute-disable) se popularizó en la era x86-64 y ayudó a empujar la industria hacia protecciones tipo W^X, ASLR y mitigaciones de exploits más sensatas.
Eso no es solo una historia de seguridad; es una historia de disponibilidad. Los gusanos y brotes de RCE son incidentes operativos con otra gorra.

Virtualización: x86-64 hizo la consolidación más barata

Más registros, convenciones de llamadas más limpias y una ISA ampliamente compatible ayudaron a madurar a los hipervisores en x86.
Una vez que la industria estandarizó en x86-64, la consolidación se aceleró: menos builds especiales, menos “este producto solo corre en esa caja rara” excepciones.

Principio de ingeniería de confiabilidad (una cita)

Como parafrasea la idea de John Allspaw: “La confiabilidad es una característica, y solo la aprendes operando sistemas bajo fallos reales.”

Tres microhistorias corporativas desde las trincheras

Microhistoria #1: El incidente causado por una suposición equivocada

Una empresa SaaS de tamaño medio migró una flota de nodos de caché de userspace de 32 bits a userspace de 64 bits porque “ahora tenemos más RAM, así que estará bien”.
Mantuvieron el mismo ajuste del kernel, los mismos parámetros del asignador de memoria, los mismos dashboards de monitorización. También mantuvieron un agente de telemetría casero compilado años atrás.

Dos días después, la latencia comenzó a dispararse en un patrón que parecía jitter de red. Los gráficos de pérdida de paquetes subieron. La CPU no estaba al 100%, pero los softirqs aumentaron.
El on-call hizo lo habitual: culpó a la red, al hipervisor, a la luna.

La causa raíz real fue dolorosamente mundana: el agente de telemetría tenía una suposición de layout de struct integrada en un protocolo binario. En 64 bits, el tamaño de puntero y la alineación cambiaron el empaquetado de la estructura.
El agente empezó a emitir cargas de métricas corruptas. El colector intentó analizarlas, falló, reintentó agresivamente y creó una estampida de reconexiones que infló el trabajo de red del kernel.

La “suposición equivocada” no fue “64-bit cambia el tamaño de puntero”. Todo el mundo lo sabe.
La suposición equivocada fue “nuestras interfaces binarias internas son estables entre arquitecturas”. No lo eran. No estaban versionadas. No se describían por sí mismas. Eran solo vibras y structs en C.

La solución fue un incremento de versión del protocolo y serialización explícita. La lección fue más brutal: trata los cambios de arquitectura como cambios de API.
Si un componente habla en binario con otro, asume que te traicionará en cuanto dejes de prestarle atención.

Microhistoria #2: La optimización que salió mal

Una plataforma de servicios financieros quería exprimir más rendimiento de una canal de ingestión de órdenes. Pasaron a 64 bits, activaron hugepages y fijaron procesos a núcleos.
En staging, la utilización de CPU bajó y el rendimiento se veía genial. La dirección compró pasteles celebratorios. Producción, como siempre, no leyó el mismo guion.

Tras el despliegue, la latencia p99 se duplicó en las horas punta. Los gráficos mostraban menos cambios de contexto pero más tiempo en kernel. Algunas cajas estaban bien; otras eran catástrofes.
El equipo notó una correlación: los nodos peores eran también los más ocupados con interrupciones de red.

La “optimización” fue hugepages por todas partes, incluyendo un servicio JVM que no toleraba la configuración elegida. La memoria se volvió menos flexible bajo presión por fragmentación.
Cuando la carga cambió, el churn del asignador aumentó. Más importante, la afinidad de CPU fijada interactuó mal con la distribución de IRQ: los núcleos fijados también manejaban interrupciones del NIC, y ahora la app no podía escapar de la tormenta de interrupciones.

La solución no fue “desactivar hugepages”. Fue aplicarlas selectivamente, validar por carga de trabajo y separar la afinidad de IRQ del pinning de la aplicación.
También aprendieron la verdad aburrida: una optimización que mejora un microbenchmark puede seguir derritiendo tu sistema en p99 bajo tráfico mixto.

Microhistoria #3: La práctica aburrida pero correcta que salvó el día

Un gran equipo de plataforma interna planificó una migración de userspace de 32 bits en hosts legados a userspace de 64 bits en hardware nuevo.
Tenían docenas de servicios, incluidos algunos binarios antiguos que no podían recompilar. El plan de migración fue espectacularmente poco sexy: paquetes de build dual, despliegues canario y una suite de validación de compatibilidad que se ejecutaba en cada imagen de host.

La suite era simple: validar el modo del kernel, validar el comportamiento de glibc y del cargador, ejecutar un conjunto de entradas “conocidas malas” a través de parsers y codecs, y confirmar que los servicios de 32 bits aún corrían bajo el kernel de 64 bits cuando era necesario.
También comprobaba que los agentes de monitorización y los hooks de backup funcionaran—porque son las primeras cosas que olvidas hasta que las necesitas.

En la segunda ola de canarios, la suite detectó una regresión: un binario de proveedor de 32 bits intentaba cargar una librería compartida de 32 bits desde una ruta que ya no existía en la nueva imagen.
El instalador del proveedor había dependido de un efecto secundario del layout antiguo del sistema de ficheros. En la mitad de los canarios, el servicio no arrancó y habría causado una interrupción visible para clientes si se hubiera desplegado en masa.

La solución fue un paquete de compatibilidad que proporcionó la ruta de librería de 32 bits esperada y un wrapper que registró una advertencia con un plan de desaprobación claro.
Nadie recibió un ascenso por ello, pero nadie recibió una llamada a las 3 a.m. tampoco.

Segunda broma (y ya está): Itanium prometía el futuro; x86-64 lo entregó en un formato compatible con tu peor software de proveedor. El progreso a veces es simplemente un mejor compromiso.

Guía rápida de diagnóstico

Cuando una migración a 64 bits (o una flota mixta 32/64) se tuerce, la velocidad importa. Aquí está el orden que encuentra cuellos de botella rápido sin perderse en debates filosóficos.

Primero: confirma qué estás realmente ejecutando

Modo de CPU: ¿capaz de 64 bits o no? ¿El kernel es de 64 bits o de 32 bits? ¿Userspace de 64 bits o mixto?
Virtualización: ¿bare metal, KVM, VMware, cloud? ¿Virtualización anidada? ¿Características de CPU enmascaradas?
¿Estás accidentalmente ejecutando binarios de 32 bits en un kernel de 64 bits sin las librerías de compatibilidad?

Segundo: encuentra el recurso limitante (no adivines)

Memoria: fallos de página, swapping, crecimiento de slab, sobrecarga de tablas de páginas, comportamiento de THP.
CPU: cambios de contexto, cola de ejecución, cambios en IPC, escalado de frecuencia, coste de syscalls.
I/O: latencia de almacenamiento, fallos de caché del FS, presión del journal, stalls de writeback.
Red: saturación de softirq, desequilibrio de IRQ, caídas de buffers.

Tercero: aísla modos de fallo específicos de la arquitectura

Incompatibilidades de ABI (empaquetado de structs, suposiciones de endianness—menos comunes en x86 pero aún posibles con protocolos).
Problemas JIT/FFI (runtimes de lenguaje llamando código nativo).
Suposiciones sobre el espacio de direcciones (cast de punteros a int, uso de 32 bits con signo para tamaños).

Cuarto: decide si necesitas rollback o mitigación quirúrgica

Si la corrección está en duda: haz rollback y reagrupa.
Si es solo rendimiento: mitiga (ajuste de THP, política de hugepages, afinidad de IRQ, tuning del asignador) y mide.

Tareas prácticas: comandos, salidas y decisiones

Estas son comprobaciones de nivel operador. Cada tarea incluye un comando, qué significa una salida típica y la decisión que tomas. Ejecútalas en el host que duele, no en tu portátil.

Task 1: Confirmar la arquitectura del kernel

cr0x@server:~$ uname -m
x86_64

Meaning: x86_64 indica un kernel de 64 bits en x86-64. Si ves i686 o i386, estás en un kernel de 32 bits.
Decision: Si el kernel es de 32 bits, deja de discutir sobre el rendimiento en 64 bits; planifica primero una actualización del kernel/SO.

Task 2: Comprobar flags de CPU para soporte de long mode

cr0x@server:~$ lscpu | egrep -i 'Architecture|Model name|Flags'
Architecture:                         x86_64
Model name:                           AMD EPYC 7B12
Flags:                                ... lm ... nx ... svm ...

Meaning: lm significa que la CPU soporta long mode (64 bits). nx es execute-disable. svm es virtualización AMD.
Decision: Si falta lm, el host no puede ejecutar kernels de 64 bits. Si lm existe pero tu VM no lo ve, sospecha enmascaramiento de características en el hipervisor.

Task 3: Verificar si userspace es de 64 bits

cr0x@server:~$ getconf LONG_BIT
64

Meaning: 64 indica que el entorno libc/userspace es de 64 bits.
Decision: Si devuelve 32 en un kernel de 64 bits, estás en un setup multiarch o con contenedor restringido; verifica la imagen runtime y el conjunto de paquetes.

Task 4: Identificar la arquitectura de un binario (capturar 32-bit accidental)

cr0x@server:~$ file /usr/local/bin/myservice
/usr/local/bin/myservice: ELF 64-bit LSB pie executable, x86-64, dynamically linked, interpreter /lib64/ld-linux-x86-64.so.2, BuildID[sha1]=..., for GNU/Linux 3.2.0, stripped

Meaning: Confirma que el binario es ELF de 64 bits y qué loader dinámico espera.
Decision: Si es ELF de 32 bits, asegúrate de que existan las librerías de compatibilidad de 32 bits o recompila correctamente; no lo descubras durante un incidente.

Task 5: Comprobar dependencias dinámicas (faltar libs 32-bit es clásico)

cr0x@server:~$ ldd /usr/local/bin/legacy32
linux-gate.so.1 (0xf7f2f000)
libstdc++.so.6 => not found
libc.so.6 => /lib/i386-linux-gnu/libc.so.6 (0xf7cf2000)

Meaning: Falta una librería requerida (not found).
Decision: Instala el conjunto correcto de paquetes multiarch (o empaqueta las libs necesarias). Si no puedes, no puedes ejecutar de forma segura ese binario de 32 bits en esta imagen.

Task 6: Confirmar que la CPU no está reduciendo frecuencia bajo carga

cr0x@server:~$ lscpu | egrep -i 'MHz|max mhz|min mhz'
CPU MHz:                               1499.832
CPU max MHz:                           3200.0000
CPU min MHz:                           1500.0000

Meaning: La frecuencia actual está cerca del mínimo. Eso puede ser normal en reposo, o un problema de governor/energía bajo carga.
Decision: Si el sistema está ocupado pero atascado cerca de min MHz, investiga el governor de energía y la BIOS; regresiones de rendimiento pueden parecer “64-bit más lento” cuando en realidad “la CPU está dormida”.

Task 7: Identificar presión de memoria e intercambio

cr0x@server:~$ free -h
               total        used        free      shared  buff/cache   available
Mem:            62Gi        41Gi       2.1Gi       1.2Gi        19Gi        18Gi
Swap:          8.0Gi       3.4Gi       4.6Gi

Meaning: Se está usando swap. En un servicio sensible a latencia, eso suele ser el incidente.
Decision: Si el swap es distinto de cero y crece, determina si es transitorio o sostenido. Considera límites de memoria, fugas, comportamiento del asignador y si el bloat de punteros de 64 bits aumentó el RSS.

Task 8: Detectar grandes fallos de página y tormentas de paginación

cr0x@server:~$ vmstat 1 5
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 2  0 351232 2158920 102400 18432000  0   0     5    22  820 1400 12  6 78  4  0
 4  1 351232  932000  98400 17610000  0  64   110   280 1600 3200 25  9 54 12  0

Meaning: so (swap out) en aumento y wa (I/O wait) subiendo indican paginación y contención de I/O.
Decision: La paginación no es un ítem “ajustar después”. Reduce uso de memoria, arregla fugas, aumenta RAM o cambia cachés. Si esto empezó después de una reconstrucción a 64 bits, mide deltas de RSS.

Task 9: Comprobar el modo de Transparent Huge Pages (THP)

cr0x@server:~$ cat /sys/kernel/mm/transparent_hugepage/enabled
[always] madvise never

Meaning: THP está en always, lo cual puede causar picos de latencia para algunas cargas por el comportamiento de defrag y colapso de páginas.
Decision: Para servicios sensibles a latencia, considera madvise o never y valida con pruebas de carga. No lo copies sin medir; mide.

Task 10: Inspeccionar contadores relacionados con TLB/page-walk con perf (señal rápida)

cr0x@server:~$ sudo perf stat -e dTLB-load-misses,iTLB-load-misses,cycles,instructions -a -- sleep 5
 Performance counter stats for 'system wide':

       120,442      dTLB-load-misses
         3,102      iTLB-load-misses
 12,881,440,221      cycles
  8,102,331,007      instructions

       5.001234567 seconds time elapsed

Meaning: dTLB elevados pueden indicar mala localidad, exceso de presión en tablas de páginas o falta de hugepages donde sean apropiadas.
Decision: Si los misses de TLB están altos respecto al baseline, investiga la política de hugepages, cambios en el layout de memoria y si la migración aumentó la huella de memoria y fragmentación.

Task 11: Confirmar el espacio de direcciones y mapeos de un proceso (capturar hinchazón extraña)

cr0x@server:~$ sudo pmap -x $(pidof myservice) | tail -n 5
---------------- ------- ------- ------- ------- -------
total kB         812340  612220   48320       0

Meaning: Muestra memoria virtual total y resident set size. Los procesos de 64 bits suelen tener VMAs y mapeos mayores.
Decision: Si el RSS es inesperadamente mayor después de la migración a 64 bits, perfila asignaciones y tamaños de estructuras; considera tuning del asignador o reducir cachés en memoria.

Task 12: Verificar que kernel y userspace coinciden en supuestos de tamaño de puntero (sanity rápida)

cr0x@server:~$ python3 -c 'import struct; print(struct.calcsize("P")*8)'
64

Meaning: Confirma el ancho de puntero en runtime para módulos de extensión de Python y pilas con FFI intensivo.
Decision: Si esto no coincide con lo esperado (por ejemplo en un contenedor), podrías estar ejecutando una imagen userspace de 32 bits; revisa la imagen base y el pipeline de builds.

Task 13: Comprobar parámetros de arranque del kernel que afectan comportamiento de memoria

cr0x@server:~$ cat /proc/cmdline
BOOT_IMAGE=/boot/vmlinuz-6.1.0 root=/dev/mapper/vg0-root ro quiet transparent_hugepage=never intel_iommu=on

Meaning: Confirma ajustes persistentes como modo THP e IOMMU que pueden influir en rendimiento.
Decision: Si el rendimiento se degradó tras una actualización de kernel, compara parámetros cmdline entre imágenes antiguas y nuevas; no asumas que los defaults permanecieron iguales.

Task 14: Detectar si mezclas objetos compartidos de 32 y 64 bits

cr0x@server:~$ readelf -h /usr/lib/x86_64-linux-gnu/libssl.so.3 | egrep 'Class|Machine'
  Class:                             ELF64
  Machine:                           Advanced Micro Devices X86-64

Meaning: Verifica que el objeto compartido es de 64 bits para x86-64.
Decision: Si ocurre un error del loader, comprueba que cada dependencia coincida con la clase del binario (ELF32 vs ELF64). Fallos de linking mixto consumen horas.

Task 15: Comprobar desequilibrio de IRQ (común tras esquemas de “pin everything”)

cr0x@server:~$ cat /proc/interrupts | head
           CPU0       CPU1       CPU2       CPU3
  24:    882112       1200       1305       1101   PCI-MSI 524288-edge      eth0-TxRx-0
  25:      1100    903221       1188       1210   PCI-MSI 524289-edge      eth0-TxRx-1

Meaning: Las interrupciones de una cola están golpeando una CPU. Si esa CPU también ejecuta tus hilos más calientes, p99 sufre.
Decision: Ajusta afinidad de IRQ (o habilita irqbalance apropiadamente) y evita fijar toda tu app a los mismos CPUs que manejan interrupciones.

Task 16: Validar exposición de características de CPU en virtualización (las VMs mienten con educación)

cr0x@server:~$ grep -m1 -o 'lm' /proc/cpuinfo
lm

Meaning: Si esto no devuelve nada dentro de una VM, el invitado no puede entrar en long mode aunque el host lo soporte.
Decision: Arregla el passthrough de características de CPU / configuración del tipo de VM. No intentes invitados de 64 bits en una definición de VM que enmascara long mode.

Errores comunes: síntoma → causa raíz → solución

Aquí viven la mayoría de los incidentes de “migración a 64 bits”: no en la CPU, sino en suposiciones que fueron verdaderas por accidente durante años.

1) Servicio no arranca después de “moverse a x86-64”

Symptom: Error del loader, intérprete ausente, “No such file or directory” aunque el binario exista.
Root cause: Clase ELF errónea o ruta de loader dinámica faltante (/lib/ld-linux.so.2 vs /lib64/ld-linux-x86-64.so.2) y librerías de compatibilidad de 32 bits ausentes.
Fix: Usa file y ldd para confirmar la arquitectura; instala libs multiarch o recompila. Si necesitas soporte de 32 bits, inclúyelo deliberadamente en la imagen.

2) “Mismo código, más lento tras pasar a 64-bit”

Symptom: Rendimiento abajo; CPU no al 100%; fallos de caché arriba; RSS aumentado.
Root cause: El bloat de punteros incrementa el working set; la caché contiene menos objetos; cambia el comportamiento del asignador; más sobrecarga de tablas de páginas; ajustes THP distintos.
Fix: Mide RSS, tendencias de cache/TLB misses y tamaños de objetos. Considera reducir caches en memoria, usar estructuras más compactas, ajustar asignadores o usar hugepages selectivas.

3) Picos de latencia bajo carga tras activar hugepages

Symptom: p99 se dispara; stalls periódicos; CPU parece inactiva.
Root cause: Stalls por defrag y colapso de páginas de THP; o colisión entre afinidad de CPU fijada y manejo de interrupciones.
Fix: Pon THP en madvise o never para servicios sensibles; usa hugepages explícitas solo donde esté probado; separa conjuntos de CPU para IRQ y apps.

4) Corrupción de datos extraña entre componentes tras rebuild

Symptom: Fallos al parsear métricas, mensajes binarios garbled, mismatches de CRC.
Root cause: Suposiciones de empaquetado/alineación de structs y protocolos binarios sin versionar.
Fix: Usa formatos de serialización explícitos, versiona tu protocolo y añade tests CI cross-arch que intercambien mensajes entre builds de 32 y 64 bits.

5) “No podemos usar más de ~3 GiB por proceso” persiste

Symptom: OOM con poca memoria; errores de agotamiento de espacio de direcciones.
Root cause: Aún ejecutando userspace de 32 bits o proceso de 32 bits; imagen de contenedor es de 32 bits; o la aplicación usa indexación interna de 32 bits.
Fix: Confirma con getconf LONG_BIT, file en el binario y el tamaño de puntero del runtime. Luego audita tipos de la aplicación (size_t, offsets, tamaños de mmap).

6) Migración de VM rompe invitados de 64 bits

Symptom: Kernel del invitado panic temprano; “This kernel requires x86-64 CPU.”
Root cause: El modelo de CPU del hipervisor enmascara lm u otras flags requeridas; baseline de live migration incompatible.
Fix: Estandariza modelos de CPU entre clusters; asegura que long mode esté expuesto; valida con /proc/cpuinfo dentro del invitado antes del despliegue.

Listas de verificación / plan paso a paso

Paso a paso: migrar un servicio de 32 bits a x86-64 con drama mínimo

Inventario de binarios: identifica cuáles son de 32 bits, cuáles de 64 bits y cuáles no se pueden recompilar.
Define política de compatibilidad: decide si los binarios de 32 bits serán soportados en kernels de 64 bits (multiarch) y por cuánto tiempo.
Construye artefactos duales: mantiene builds de 32 y 64 bits en paralelo hasta tener confianza.
Versiona protocolos binarios: todo lo que use structs raw por la red debe arreglarse antes de la migración.
Linea base de rendimiento: captura CPU, RSS, latencia p50/p99, contadores de caché/TLB cuando sea posible.
Canary con tráfico real: las pruebas sintéticas son necesarias pero no suficientes.
Vigila el bloat de memoria: deltas de RSS son esperados; crecimiento incontrolado no lo es.
Decide THP/hugepages por workload: fija un default y luego opta dentro/fuera con evidencia.
Valida la observabilidad: métricas, logs, traces, settings de core dumps, paquetes de símbolos. Si no puedes depurarlo, no puedes operarlo.
Avanza con puertas: automatiza triggers de rollback por tasa de error y p99, no solo por uso de CPU.
Asegura lo aburrido: tests de imagen para rutas de loader, libs multiarch y supuestos runtime.
Planifica la retirada: programa la eliminación de compatibilidad de 32 bits una vez que proveedores y responsables internos cumplan.

Checklist: qué estandarizar en una flota

Arquitectura y política de versión del kernel (sin configuraciones peculiares).
Línea base de características de CPU para virtualización (long mode, NX, etc.).
Política THP y de hugepages por nivel de servicio.
Valores por defecto de asignadores y runtimes (jemalloc vs malloc de glibc, flags JVM, etc.).
Agentes de observabilidad verificados en x86-64 y bajo modo de compatibilidad si es necesario.
Higiene de protocolos binarios: serialización explícita, versionado, tests cross-arch.

Preguntas frecuentes

1) ¿x86-64 es lo mismo que AMD64?

Prácticamente, sí. “AMD64” es el nombre original; “x86-64” es un término genérico; “Intel 64” es la marca de Intel para la misma familia de extensiones ISA.

2) ¿Por qué la industria no migró a una arquitectura 64 bits “limpia”?

Porque los quiebres limpios son costosos. Las empresas tenían carteras masivas de software x86, herramientas, controladores y conocimiento operativo. AMD64 ofreció continuidad con beneficios incrementales.

3) ¿Fue Itanium técnicamente inferior?

No en todo. Pero exigía un ecosistema centrado en compiladores y ports y ofrecía compatibilidad x86 desigual. Para la mayoría de compradores, eso es inaceptable.

4) ¿Por qué AMD eligió direcciones virtuales de 48 bits al principio?

Para reducir el tamaño y la complejidad de las tablas de páginas manteniendo un espacio virtual enorme. El direccionamiento canónico también simplificó la comprobación de punteros inválidos.

5) ¿64 bits siempre mejora el rendimiento?

No. A menudo obtienes ganancias por más registros y mejores ABIs, pero puedes perder por punteros más grandes y conjuntos de trabajo mayores. Mide; no asumas.

6) ¿Puedo ejecutar apps de 32 bits en un kernel de 64 bits?

Usualmente sí, vía modo de compatibilidad y librerías multiarch. La pregunta operativa es si quieres soportarlo a largo plazo y cómo lo probarás continuamente.

7) ¿Cuál es la causa más común de outages en migraciones a 64 bits?

Incompatibilidades de ABI y empaquetado: arquitectura errónea del binario, rutas de loader faltantes, librerías de 32 bits ausentes para componentes legados o protocolos binarios sin versionar.

8) ¿Qué debo comprobar primero cuando un despliegue de 64 bits causa picos de latencia?

Comportamiento de memoria (swap, fallos de página, THP), colisiones IRQ/afinidad de CPU y escalado de frecuencia. Los incidentes de latencia suelen ser “el sistema espera”, no “la CPU es lenta”.

9) ¿Influyó AMD64 en la postura de seguridad?

Sí. NX se volvió común y los sistemas de 64 bits impulsaron una adopción más amplia de patrones de protección de memoria. No hizo al software seguro, pero elevó el coste de muchos exploits.

10) ¿Cuál es la lección operativa de “AMD acertó primero”?

Prefiere arquitecturas y plataformas que permitan migraciones incrementales con compatibilidad fuerte. Las reescrituras revolucionarias son para laboratorios greenfield, no para sistemas que generan ingresos.

Conclusión: siguientes pasos que realmente puedes hacer

AMD acertó primero con los 64 bits porque optimizó para la transición, no solo para el destino. Long mode más compatibility mode permitió a los operadores avanzar sin quemar el pasado.
La eventual adopción de AMD64 por Intel fue el mercado admitiendo lo mismo: la arquitectura ganadora es la que puedes desplegar con seguridad a escala.

Siguientes pasos prácticos:

Ejecuta las comprobaciones de “confirma qué estás realmente ejecutando” en algunos hosts y VMs. Anota el estado real, no el asumido.
Inventaría binarios de 32 bits y decide—explícitamente—si los soportarás bajo kernels de 64 bits y cómo los probarás de forma continua.
Establece línea base de huella de memoria y latencia p99 antes de cambiar valores por defecto de THP/hugepages. Si no puedes medir, estás apostando.
Audita protocolos binarios y límites FFI. Si structs de C cruzan procesos sin versionado, arréglalo antes de que la próxima migración te fuerce a hacerlo.