Si administras virtualización en producción, probablemente hayas tenido la misma conversación tres veces en el último año: finanzas pregunta por qué la renovación se duplicó, seguridad pregunta por qué no puedes parchear más rápido, y la dirección pregunta por qué sigues “en VMware” como si fuera un hobby personal.
En 2026, la conversación sobre VMware trata menos de características y más de la física de la adquisición. El licenciamiento se movió, el empaquetado cambió y muchas organizaciones descubrieron que “simplemente renovaremos” es un plan con un número sorprendente de bordes afilados.
Qué cambió en el licenciamiento de ESXi (y por qué importa operativamente)
El cambio principal no es un nuevo planificador del hipervisor ni una característica de almacenamiento ingeniosa. Es el empaquetado y los términos comerciales. La propiedad y el modelo de salida al mercado de VMware cambiaron, y la historia del producto cambió con ello: menos controles independientes, más paquetes, más énfasis en suscripciones y menos tolerancia a “solo necesito esta pequeña cosa”.
En términos prácticos para SRE, los cambios de licenciamiento se manifiestan como:
- Volatilidad presupuestaria: las renovaciones se vuelven menos predecibles, especialmente cuando el nuevo empaquetado te obliga a un nivel superior.
- Presión sobre la arquitectura: el licenciamiento por núcleo o en paquetes puede penalizar “muchos hosts pequeños” o recompensar la consolidación—a veces hasta un nivel no saludable.
- Fricción operativa: pasas más tiempo demostrando lo que ejecutas que ejecutándolo.
- Riesgo en la hoja de ruta: decisiones que antes eran reversibles (renovar otro año) se vuelven pegajosas (suscripciones plurianuales, acuerdos empresariales).
Los cambios concretos que debes asumir en 2026
Los SKUs exactos varían según contrato, región y comportamiento del distribuidor, pero la mayoría de los entornos encuentra los mismos temas:
- Economía basada en suscripción: la licencia perpetua perdió centralidad y los paquetes por suscripción dominan la compra.
- Consolidación de paquetes: características que antes eran independientes ahora están atadas a suites; puedes pagar por cosas que no usas y perder puntos de entrada de menor costo.
- Consideraciones por núcleo se convierten en la unidad del dolor: si escalaste con muchos núcleos para ganar tiempo (o porque los CPUs son densos), el licenciamiento puede crecer más rápido que tus ingresos.
- La cobertura de soporte importa tanto como las claves de licencia: ejecutar versiones sin soporte se vuelve un riesgo operativo mayor porque tanto los proveedores como los auditores lo consideran relevante.
Datos interesantes y contexto histórico (lo que explica el presente)
Aquí hay puntos de contexto concretos que ayudan a explicar por qué 2026 se ve así:
- ESX (el original) empezó como una arquitectura basada en Linux; ESXi eliminó más tarde la consola de servicios completa, reduciendo la superficie de ataque y cambiando cómo los administradores interactuaban con los hosts.
- vMotion cambió el contrato social del mantenimiento: el tiempo de inactividad dejó de ser “normal” y los clústeres se convirtieron en la unidad de operaciones.
- HA/DRS convirtieron “¿cuántos hosts necesitamos?” en una pregunta tanto de licenciamiento como de disponibilidad, porque la capacidad de reserva no es gratuita.
- vCenter evolucionó de una herramienta de conveniencia a infraestructura crítica; muchas organizaciones aprendieron por las malas que “podemos reconstruirlo” no es un plan de recuperación.
- vSAN normalizó el pensamiento hiperconvergente en entornos VMware, pero también ligó la arquitectura de almacenamiento a matrices de licencias y soporte.
- El auge de KVM hizo del “hipervisor” algo menos exclusivo y más commodity, empujando a los proveedores a monetizar gestión, seguridad y ecosistema.
- NVMe y 25/100GbE cambiaron los cuellos de botella: los clústeres modernos a menudo están limitados por CPU/licencias antes que por E/S, lo que altera los incentivos de consolidación.
- La adopción del cloud entrenó a los ejecutivos a esperar facturación por suscripción, aunque odien la factura; el software on‑prem siguió el dinero.
Una realidad operativa: no experimentas los cambios de licenciamiento en el momento de la compra. Los experimentas a las 02:13 durante un incidente, cuando alguien pregunta si está permitido añadir otro host para detener la hemorragia.
Broma corta #1: El licenciamiento es la única parte del stack que puede dejar en tierra la producción sin tocar un solo paquete.
Lo que “cambió” realmente significa para la arquitectura
Cuando el modelo comercial te empuja hacia cajas más grandes y menos numerosas, te tentarás a consolidar agresivamente. Eso puede ser correcto—hasta que no lo es. En el momento que pasas de “N+1” a “esperanza y oración”, tu dominio de falla crece. La falla de un host se convierte en una crisis de capacidad, no en un evento rutinario.
Entonces la pregunta correcta no es “¿cuál es la licencia más barata?”. Es:
- ¿Cuál es la licencia más barata que aún nos permite operar con sensatez durante fallos y mantenimiento?
- ¿Cuál es el costo de salida por migración si necesitamos pivotar en 18 meses?
- ¿Podemos demostrar cumplimiento con inventario real, no con conocimiento tribal?
Qué cuesta en 2026: cómo pensar el gasto sin adivinar
No voy a fingir que hay un solo precio. No lo hay. Los acuerdos varían por pacto empresarial, sector e incentivos del revendedor. Lo que sí puedes hacer, de forma fiable, es dejar de tratar la cotización de renovación como el tiempo y empezar a tratarla como un problema de ingeniería: medir entradas, modelar escenarios y luego decidir.
El modelo de costos: las variables que realmente mueven la aguja
Para la mayoría de entornos, estos son los impulsores de costo que importan más que el folleto:
- Total de núcleos físicos en hosts licenciados (o núcleos por CPU por el número de CPUs).
- Conteo de hosts (porque el soporte y las prácticas operativas escalan con él, incluso si el licenciamiento es por núcleo).
- Nivel del paquete (el fenómeno de “actualización forzada”: solo querías A, pero ahora compras A+B+C).
- Nivel de soporte (tiempos de respuesta y ventanas de cobertura afectan cómo organizas el on‑call).
- Componentes opcionales que en la práctica no son opcionales (integración de backups, monitorización, retención de logs, MFA/SSO).
- Tasa de crecimiento: si añades hosts trimestralmente, los costos por suscripción se componen más rápido de lo que piensas.
Deja de comparar facturas; compara arquitecturas
Cuando alguien dice “Proxmox es gratis” o “Hyper‑V está incluido”, suele comparar una línea de coste con un sistema. Eso no es serio.
Una comparación justa incluye:
- Tiempo de ingeniería para migración y re‑plataformado.
- Herramientas operativas: monitorización, backups, parcheo, secretos, RBAC, registro de auditoría.
- Costo de riesgo: probabilidad de downtime, tiempo de recuperación y radio de explosión.
- Costo de vendor lock‑in: opciones de salida cuando tu contrato se vuelve desagradable.
Aquí está la verdad brutal: VMware a menudo sigue siendo la opción operacional de menor riesgo cuando ya lo tienes, ya lo conoces y ya construiste procesos en torno a él. Pero cuando el modelo comercial cambia lo suficiente, la “curva de riesgo” se invierte: quedarse se vuelve el riesgo.
Cómo tomar una decisión de costos en 2026 sin dejarte engañar por tu propia hoja de cálculo
Usa tres escenarios:
- Renovación por statu quo: cuánto cuesta renovar y seguir haciendo lo que haces.
- Redimensionar + renovar: reducir núcleos/hosts, retirar clústeres muertos, estandarizar a menos SKUs y luego renovar.
- Salida por fases: mover primero cargas no críticas, mantener VMware para “lo difícil” (appliances legados, soporte de proveedores estricto) y reducir la huella con el tiempo.
El tercer escenario es donde muchas organizaciones maduras aterrizan en 2026. No es ideológico. Es gestión de riesgo.
Riesgo de auditoría y cumplimiento: dónde se sorprenden los equipos
Los problemas de licenciamiento raramente empiezan con mala intención. Empiezan con suposiciones: “este host es solo para DR”, “esos núcleos no cuentan”, “ese clúster de laboratorio no importa”, “lo regularizamos después”. Entonces alguien pide evidencia y descubres que tu evidencia es una página wiki obsoleta escrita por un ingeniero que se fue hace dos reorganizaciones.
Modos de fallo que crean conversaciones desagradables sobre licencias
- Clústeres sombra: clústeres de test/dev que se volvieron producción porque alguien necesitó capacidad “temporalmente”.
- DR que no es frío: hosts en espera que en realidad ejecutan cargas durante mantenimiento, volviéndolos operativamente “calientes” aunque los llames “DR”.
- Deriva por renovación de CPU: reemplazaste hosts de dos sockets por CPUs de alto conteo de núcleos y duplicaste accidentalmente tu exposición de licenciamiento.
- Creep de características: activaste funciones (encriptación, switching distribuido, almacenamiento avanzado) que te atan a un nivel superior.
- Desajuste contractual: compras por procurement una cosa; ingeniería desplegó otra. Nadie miente. Solo viven en universos diferentes.
Una cita para tener en la pared
Werner Vogels (CTO de Amazon) lo dijo claro: “Everything fails, all the time.” Si diseñas pensando en eso, las decisiones sobre licenciamiento y arquitectura se vuelven menos emocionales y más correctas.
Broma corta #2: Lo único más permanente que una VM temporal es el centro de costo en el que termina viviendo.
Guía de diagnóstico rápido: qué revisar primero/segundo/tercero para encontrar el cuello de botella rápidamente
Este es el flujo de triaje que uso cuando alguien dice “VMware está lento” y el subtexto es “deberíamos migrar”. A veces deberías migrar. A veces estás a una cola mal dimensionada de la paz.
Primero: confirma que el síntoma es real y está acotado
- ¿Es una VM, un host, un datastore o un clúster? Si no puedes responder, no estás diagnosticando—estás adivinando.
- ¿Es CPU ready/steal, latencia de almacenamiento, contención de memoria o pérdidas de red? Escoge el eje antes de escoger al villano.
- ¿Cambió algo? Parches, firmware, trabajos de backup, snapshots, nuevos agentes de seguridad, nuevo driver NIC. Culpa al cambio hasta que se pruebe lo contrario.
Segundo: aisla la clase de recurso
- Signos de bound por CPU: alto tiempo de CPU ready, colas de ejecución, co-stop frecuente en VMs SMP.
- Signos de bound por memoria: swapping, ballooning, presión de memoria comprimida, tormentas de paginación en el guest.
- Signos de bound por almacenamiento: picos sostenidos de latencia en datastore, saturación de profundidad de cola, thrashing de paths.
- Signos de bound por red: drops, retransmisiones, saturación de pNIC, MTU desajustada, configuración LACP errónea.
Tercero: demuestra si el cuello de botella es “plataforma” o “diseño”
Si tu diseño es frágil, cambiar de hipervisor no lo arreglará. La misma carga simplemente fallará con otro acento.
- Comprueba si estás operando al límite (sin margen para eventos HA).
- Comprueba el desorden de snapshots y la superposición de backups.
- Comprueba el diseño de almacenamiento (demasiadas VMs por datastore, recordsize/ZFS equivocado, ruleta de thin provisioning).
- Comprueba la red: MTU, offloads, compatibilidad driver/firmware.
Tareas prácticas con comandos: medir, decidir y evitar dolor autoinducido
Estas son comprobaciones prácticas que puedes ejecutar hoy. Algunas son específicas de ESXi (vía SSH y shell de ESXi). Otras provienen de nodos Linux que probablemente ya tengas (servidores de backup, cajas de monitorización) porque la operación real es multiplataforma. Cada tarea incluye: el comando, qué significa la salida y la decisión que impulsa.
Tarea 1: Identificar versión/build de ESXi en un host (base de soporte y vulnerabilidades)
cr0x@server:~$ ssh root@esxi-01 'vmware -vl'
VMware ESXi 8.0.2 build-23305546
VMware ESXi 8.0.2 GA
Salida significa: Estás en ESXi 8.0.2 con un build específico. Esto importa para elegibilidad de soporte, compatibilidad de drivers y si estás dentro de las matrices soportadas por el proveedor.
Decisión: Si estás atrasado en actualizaciones mayores o ejecutas un build fuera de soporte, soluciona eso antes de tomar una decisión de licenciamiento. Las plataformas sin soporte convierten cada incidente en un argumento de procurement.
Tarea 2: Inventariar núcleos físicos de CPU (la unidad que suele seguir la licencia)
cr0x@server:~$ ssh root@esxi-01 'esxcli hardware cpu global get'
Package Count: 2
Core Count: 32
Core Count Per Package: 16
Thread Count: 64
Thread Count Per Package: 32
HV Support: 3
HV Replay Support: 1
Salida significa: Este host tiene 32 núcleos físicos en total. Ignora hilos para discusiones de licenciamiento a menos que tu contrato diga lo contrario.
Decisión: Construye una hoja de conteo de núcleos a nivel de clúster usando datos reales de hosts. Si la cotización de renovación se basa en “núcleos estimados”, ya estás perdiendo.
Tarea 3: Confirmar qué hosts ESXi están conectados y saludables (evita licencias “fantasma”)
cr0x@server:~$ ssh root@vcenter-01 'vim-cmd vmsvc/getallvms | head'
Vmid Name File Guest OS Version Annotation
1 vcenter-01 [vsanDatastore] ... vmwarePhoton64 vmx-19
12 backup-proxy-01 [ssd01] backup-proxy... ubuntu64Guest vmx-19
34 app-prod-02 [ssd02] app-prod-02... centos64Guest vmx-19
Salida significa: Estás listando VMs registradas. Si ves cargas “lab” o “temporales” inesperadas, no son teóricas—consumen capacidad y posiblemente características licenciadas.
Decisión: Etiqueta y clasifica VMs (prod/dev/lab/DR). La reducción de costo más rápida es eliminar lo que ya no necesitas—tras verificar que esté verdaderamente muerto.
Tarea 4: Detectar proliferación de snapshots (imán de fallos de rendimiento y backup)
cr0x@server:~$ ssh root@esxi-02 'find /vmfs/volumes -name "*.vmsn" -o -name "*-delta.vmdk" | head'
/vmfs/volumes/datastore1/app-prod-02/app-prod-02-000002-delta.vmdk
/vmfs/volumes/datastore1/app-prod-02/app-prod-02-Snapshot2.vmsn
/vmfs/volumes/datastore2/db-prod-01/db-prod-01-000001-delta.vmdk
Salida significa: Existen discos delta y archivos de memoria de snapshot. Los snapshots de larga duración pueden arruinar la latencia, inflar el uso de almacenamiento y romper supuestos de RPO.
Decisión: Si ves muchos delta más antiguos que tus ventanas de cambio, detente y elimínalos con un plan controlado. Haz esto antes de migrar—snapshots más migración suelen significar pérdida creativa de datos.
Tarea 5: Comprobar latencia de datastore rápidamente (¿es el almacenamiento el cuello de botella?)
cr0x@server:~$ ssh root@esxi-01 'esxtop -b -n 2 -d 2 | grep -E "CMDS/s|DAVG/cmd|KAVG/cmd|GAVG/cmd" | head'
CMDS/s DAVG/cmd KAVG/cmd GAVG/cmd
120.00 8.12 0.44 8.56
135.00 22.50 0.60 23.10
Salida significa: GAVG es la latencia percibida por el guest. Picos sostenidos por encima de ~20ms a menudo correlacionan con “todo se siente lento”, especialmente bases de datos.
Decisión: Si GAVG sube, no culpes primero al hipervisor. Investiga el arreglo de almacenamiento, profundidad de cola, multipathing y vecinos ruidosos.
Tarea 6: Confirmar multipath y salud de paths (degradación silenciosa del almacenamiento)
cr0x@server:~$ ssh root@esxi-01 'esxcli storage core path list | head -n 12'
fc.20000024ff2a1b33:vmhba2:C0:T0:L12
Runtime Name: vmhba2:C0:T0:L12
Device: naa.600508b1001c3a2f9e3f0d2b7f3b0001
Device Display Name: DGC Fibre Channel Disk (naa.600508b1...)
Path State: active
Adapter: vmhba2
Target Identifier: 20000024ff2a1b33
LUN: 12
Salida significa: Tienes paths activos. Si ves “dead” o “standby” donde esperas active/active, el rendimiento y la resiliencia pueden estar comprometidos.
Decisión: Arregla el pathing antes de cambiar cualquier otra cosa. Una migración no arreglará una SAN fabric rota.
Tarea 7: Comprobar espacio libre en VMFS (la provisión delgada miente eventualmente)
cr0x@server:~$ ssh root@esxi-03 'df -h /vmfs/volumes/* | head'
Filesystem Size Used Available Use% Mounted on
/vmfs/volumes/datastore1 9.8T 9.1T 700G 93% /vmfs/volumes/datastore1
/vmfs/volumes/datastore2 7.3T 6.0T 1.3T 82% /vmfs/volumes/datastore2
Salida significa: datastore1 está al 93% usado. Ahí es donde los snapshots mueren y donde el rendimiento de almacenamiento se vuelve raro.
Decisión: Haz cumplir pisos de espacio libre (comúnmente 15–20%) y deja de sobreaprovisionar sin alertas. Si planeas una migración, necesitas espacio disponible.
Tarea 8: Validar NTP/deriva de reloj (porque Kerberos y logs son quisquillosos)
cr0x@server:~$ ssh root@esxi-01 'esxcli system time get'
Local Time: 2025-12-28 03:14:06
Universal Time: 2025-12-28 03:14:06
cr0x@server:~$ ssh root@esxi-01 'esxcli system ntp get'
Enabled: true
Servers: 10.0.0.10, 10.0.0.11
Salida significa: NTP está activado y apuntando a servidores internos.
Decisión: Si la hora está mal, arréglala antes de hacer cambios de autenticación, rotación de certificados o migraciones. Si no, depurarás fallos de login “aleatorios” que son física.
Tarea 9: Comprobar ballooning/swapping en el host (contención de memoria)
cr0x@server:~$ ssh root@esxi-02 'esxtop -b -n 2 -d 2 | grep -E "MCTL|SWCUR|MEMSZ" | head'
MCTL(GB) SWCUR(GB) MEMSZ(GB)
0.00 0.00 512.00
12.50 4.00 512.00
Salida significa: Ballooning (MCTL) y swapping (SWCUR) son distintos de cero en la segunda muestra—este host está bajo presión de memoria.
Decisión: Si hay contención de memoria, deja de consolidar “para ahorrar licencias”. Estás pagando con latencia, no con dólares, y los usuarios siempre notan la latencia primero.
Tarea 10: Confirmar estado de enlaces vSwitch / vmnic (problemas de red parecen problemas de aplicación)
cr0x@server:~$ ssh root@esxi-01 'esxcli network nic list'
Name PCI Device Driver Admin Status Link Status Speed Duplex MAC Address
vmnic0 0000:3b:00.0 i40en Up Up 25000 Full 3c:fd:fe:aa:bb:01
vmnic1 0000:3b:00.1 i40en Up Down 0 Half 3c:fd:fe:aa:bb:02
Salida significa: vmnic1 está administrativamente arriba pero el enlace abajo. Eso puede reducir redundancia o romper expectativas de LACP.
Decisión: Arregla problemas de enlace físico antes de perseguir “inestabilidad de VMware”. Tener la mitad de la red del clúster funcionando en una sola pierna no es un problema de la plataforma.
Tarea 11: Medir solapamiento de backups (el backup es una carga de rendimiento)
cr0x@server:~$ ssh root@backup-01 'systemctl status veeamservice | head -n 12'
● veeamservice.service - Veeam Service
Loaded: loaded (/lib/systemd/system/veeamservice.service; enabled)
Active: active (running) since Sun 2025-12-28 00:01:10 UTC; 3h 12min ago
Main PID: 2143 (veeamservice)
Tasks: 34
Memory: 1.2G
Salida significa: Tu servicio de backup está activo. Eso no significa que esté sano, pero confirma programación y tiempo de ejecución.
Decisión: Si las quejas de rendimiento coinciden con ventanas de backup, limita la concurrencia de backups o aísla a una red/datastore proxy. No migrues hipervisores para arreglar un problema de schedule.
Tarea 12: Estimar huella CPU/mem de VMs en guests Linux (redimensionar para cualquier plataforma)
cr0x@server:~$ ssh cr0x@app-prod-02 'uptime; free -h; nproc'
03:18:40 up 47 days, 6:22, 2 users, load average: 1.12, 0.98, 0.91
total used free shared buff/cache available
Mem: 32Gi 9.1Gi 2.3Gi 1.0Gi 21Gi 22Gi
Swap: 4.0Gi 0B 4.0Gi
16
Salida significa: La VM tiene 16 vCPU y 32GiB RAM; está usando ~9GiB RAM y carga CPU modesta. Probablemente está sobredimensionada.
Decisión: Redimensiona antes de renovaciones o migraciones. Las VMs sobredimensionadas inflan necesidades de núcleos, fuerzan hosts más grandes y hacen que el costo de licenciamiento parezca “inevitable”.
Tarea 13: Comprobar latencia de almacenamiento desde un VM Linux (chequeo de cordura desde el guest)
cr0x@server:~$ ssh cr0x@db-prod-01 'iostat -x 1 3 | sed -n "1,20p"'
Linux 6.5.0 (db-prod-01) 12/28/2025 _x86_64_ (16 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
6.21 0.00 2.10 9.88 0.00 81.81
Device r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 45.0 30.0 5.1 8.3 355.2 2.14 27.4 19.2 39.8 1.9 14.3
Salida significa: await alrededor de 27ms sugiere latencia de almacenamiento visible dentro de la VM.
Decisión: Si los guests ven alto await mientras los hosts también muestran latencia, es almacenamiento real. Si solo los guests lo ven, revisa sistema de archivos del guest, scheduler de I/O o un proceso ruidoso en el guest.
Tarea 14: Validar salud del pool ZFS en un nodo candidato Proxmox (si consideras HCI)
cr0x@server:~$ ssh root@pve-01 'zpool status -x'
all pools are healthy
Salida significa: No hay errores ZFS conocidos ahora mismo.
Decisión: Si evalúas Proxmox con ZFS, trata la salud del pool como un SLO de primera clase. Si no puedes mantener ZFS sano, no lo uses para cargas críticas todavía.
Tarea 15: Comprobar estado del clúster Ceph (si tu alternativa usa almacenamiento distribuido)
cr0x@server:~$ ssh root@pve-01 'ceph -s'
cluster:
id: 8b1b2c42-1a72-4c8d-8d4a-0a7c1c6b5d1a
health: HEALTH_WARN
1 osds down
services:
mon: 3 daemons, quorum pve-01,pve-02,pve-03 (age 2h)
mgr: pve-01(active, since 2h)
osd: 9 osds: 8 up (since 5m), 9 in (since 2h)
data:
pools: 2 pools, 128 pgs
objects: 2.1M objects, 8.3 TiB
usage: 24 TiB used, 48 TiB / 72 TiB avail
pgs: 126 active+clean, 2 active+degraded
Salida significa: El clúster tiene un warning: un OSD abajo, algunos PGs degradados. Rendimiento y resiliencia están reducidos hasta que la recuperación termine.
Decisión: Si no toleras estados degradados operativamente (alertas, respuesta on‑call, repuestos), no elijas una plataforma de almacenamiento distribuido de entrada para tu tier más crítico.
Tarea 16: Convertir y verificar una imagen de disco VMware para pruebas de migración (no adivines; prueba)
cr0x@server:~$ qemu-img info disk.vmdk
image: disk.vmdk
file format: vmdk
virtual size: 200 GiB (214748364800 bytes)
disk size: 78 GiB
cr0x@server:~$ qemu-img convert -p -f vmdk -O qcow2 disk.vmdk disk.qcow2
(100.00/100%)
cr0x@server:~$ qemu-img info disk.qcow2
image: disk.qcow2
file format: qcow2
virtual size: 200 GiB (214748364800 bytes)
disk size: 79 GiB
Salida significa: Validaste el formato de origen y lo convertiste a qcow2 para plataformas basadas en KVM (como Proxmox).
Decisión: Usa esto para arrancar una prueba aislada de una VM representativa. Si no arranca correctamente, aprendiste algo barato.
Tarea 17: Comprobar alineación de firmware/drivers en hosts Linux usados para virtualización (evita “reinicios misteriosos”)
cr0x@server:~$ sudo dmesg -T | grep -E "firmware|Microcode|IOMMU" | tail -n 8
[Sun Dec 28 02:41:11 2025] microcode: updated early: 0x2c -> 0x31, date = 2024-11-12
[Sun Dec 28 02:41:12 2025] DMAR: IOMMU enabled
[Sun Dec 28 02:41:12 2025] AMD-Vi: Interrupt remapping enabled
Salida significa: El microcode está actualizado y IOMMU está habilitado—importante para estabilidad y características de pass‑through.
Decisión: Si migras a KVM, asegúrate de que microcode y configuraciones BIOS sean de grado producción primero. “Lo afinaremos después” se convierte en “¿por qué el host se reinició bajo carga?”.
Tres micro-historias corporativas desde el terreno
Micro-historia #1 (incidente causado por una suposición equivocada): “DR no es un estilo de vida”
Una empresa SaaS de tamaño medio ejecutaba un clúster primario VMware y un “clúster DR” en una colocation más barata. El entorno de DR empezó como standby frío: hosts mínimos, suficiente almacenamiento para réplicas y un plan para encender capacidad extra durante un desastre.
Entonces la realidad hizo lo que siempre hace. El sitio de DR se volvió un lugar conveniente para ejecutar trabajos batch “temporales” y un par de servicios internos no críticos. Nadie quería arriesgar la capacidad de producción, así que en silencio movieron cargas a DR por “solo un mes”. Los meses se convirtieron en un año.
La suposición equivocada: finanzas y procurement seguían tratando a DR como capacidad inactiva. Ingeniería lo trataba como una extensión de producción. Durante las negociaciones de renovación, el proveedor pidió un inventario del entorno. El inventario mostró el clúster DR ejecutando cargas reales, con características habilitadas que coincidían con los patrones de producción.
El incidente no fue la auditoría en sí. El incidente fue el frenesí operativo que siguió: la dirección exigió evacuar cargas del DR inmediatamente para preservar la narrativa de “standby frío”. Intentaron vMotion y Storage vMotion agresivamente a través de un WAN limitado, en horario laboral, sobre un clúster ya muy cargado.
La latencia se disparó, los backups se retrasaron y una VM de base de datos sufrió una tormenta de consolidación de snapshots que arrastró un datastore al rojo. Resultado final: una caída visible por el usuario atribuida, en el postmortem, a “latencia de almacenamiento inesperada”. La verdadera causa raíz fue una falla de gobernanza: no tenían una definición exigible de DR ni salvaguardas que impidieran que se convirtiera en producción.
Micro-historia #2 (optimización que salió mal): “Consolidación: el asesino silencioso de SLOs”
Un equipo de TI empresarial enfrentó una cotización de renovación que hizo que los ejecutivos desarrollaran un interés repentino en la arquitectura de virtualización. El equipo propuso consolidar: menos hosts, CPUs más grandes, más núcleos por caja. La hoja de cálculo se veía genial. Los diagramas de rack se veían limpios. Todos aplaudieron.
Pasaron de un clúster cómodo con mucho margen a un diseño más ajustado. HA todavía “funcionaba”, en el sentido de que las VMs encendían en otro sitio tras la falla de un host. Pero el rendimiento durante una falla fue feo: el tiempo CPU ready subió, las colas de almacenamiento se saturaron y algunos servicios sensibles a la latencia empezaron a fallar bajo carga.
Luego una actualización rutinaria de firmware dejó un host abajo. Nada dramático—hasta que DRS reequilibró. El clúster estuvo efectivamente en modo de emergencia durante horas. Los usuarios se quejaron, los tickets de incidentes se acumularon y el equipo descubrió que se habían diseñado a sí mismos en un modo “degradado” permanente.
La optimización que salió mal no fue la consolidación en sí. Fue la falla en tratar el margen como un requisito, no como un lujo. La consolidación ahorró dinero en licencias y creó un impuesto de disponibilidad que se pagaba en cada ventana de mantenimiento y cada incidente.
Se recuperaron añadiendo un host más (sí, lo que intentaban evitar) y redimensionando VMs sobredimensionadas. El diseño final costó un poco más que la hoja de cálculo “perfecta”, pero mucho menos que la agitación operativa.
Micro-historia #3 (práctica aburrida pero correcta que salvó el día): “Inventario es una característica”
Una organización sanitaria tenía reputación de ser conservadora, que es una forma educada de decir “no les gustan las sorpresas”. Mantenían una exportación mensual automatizada del inventario de virtualización: especificaciones de hardware de hosts, conteo de núcleos, características habilitadas, recuento de VMs por tier y tendencias de consumo de almacenamiento.
Era trabajo aburrido. No recibía aplausos. Pero significaba que podían responder preguntas difíciles rápidamente: ¿qué ejecutamos, dónde vive y qué cuesta mantenerlo vivo?
Cuando el empaquetado de licencias cambió, no entraron en pánico. Ejecutaron escenarios usando su inventario, identificaron clústeres con capacidad sin usar y movieron cargas de bajo riesgo fuera de características premium. También encontraron VMs “legadas” que nadie poseía y las retiraron tras validar el impacto con los equipos de aplicaciones.
El resultado no fue una migración épica de última hora. Fue una negociación calma respaldada por datos. Renovaron una huella más pequeña y empezaron un piloto medido de alternativas sin apostar el hospital a un corte de fin de semana.
La práctica que salvó el día no fue un producto. Fue disciplina: inventario, clasificación y gestión de capacidad constante.
Mejores alternativas en 2026 (incluye Proxmox), con ventajas y desventajas
Las alternativas son reales ahora. No porque VMware dejara de ser bueno en virtualización, sino porque el mercado dejó de aceptar un impuesto de un solo proveedor como inevitable. Tu mejor alternativa depende de lo que realmente necesitas: semántica de HA, migración en vivo, integración de almacenamiento, ecosistema de backups, características de red y el factor humano—qué puede ejecutar tu equipo a las 03:00.
1) Proxmox VE (KVM + QEMU + LXC): el favorito pragmático
Proxmox es popular porque es directo: KVM para VMs, LXC para contenedores, clustering, migración en vivo y múltiples backends de almacenamiento. No es “VMware gratis”. Es un sistema distinto con sus propios bordes afilados.
Dónde brilla Proxmox:
- Control de costes: la suscripción es sobre todo soporte, no puertas de características, y puedes elegir niveles.
- Transparencia operativa: es Linux por debajo. Depurar no es una caja negra del proveedor.
- Almacenamiento flexible: ZFS para resiliencia local, Ceph para almacenamiento distribuido, NFS/iSCSI para arrays externos.
- Iteración rápida: actualizaciones y patrones comunitarios evolucionan rápido, y el ecosistema es activo.
Dónde muerde Proxmox:
- Asumes más integración: la profundidad de RBAC, integración IAM y cierto pulido de workflows empresariales requieren esfuerzo de ingeniería real.
- La corrección del almacenamiento es responsabilidad tuya: ZFS y Ceph son potentes, pero no son “configura y olvida”. Premian la competencia y castigan el optimismo.
- Soporte de vendors para appliances: algunos proveedores terceros aún solo aprueban VMware y usarán eso para negar tickets.
Mi opinión contundente: Proxmox es la mejor opción para “salir de la cárcel VMware” para equipos dispuestos a operar Linux seriamente. Si tu organización trata Linux como un hobby extraño, arréglalo primero.
2) Microsoft Hyper-V / Azure Stack HCI: el estandarizador corporativo
Hyper‑V rara vez es emocionante. Eso es un cumplido. Para entornos centrados en Windows, puede ser el camino de menor resistencia, especialmente si ya gestionas identidad y herramientas de Microsoft.
Fortalezas: buena integración con Windows, base de virtualización madura, amplio pool de talento operativo y familiaridad en procurement.
Debilidades: los guests Linux funcionan bien pero a veces se sienten operativamente de segunda categoría, y la historia de “solución completa” puede arrastrarte a stacks adyacentes de Microsoft que no planeabas adoptar.
Quién debería elegirlo: organizaciones con fuertes operaciones Microsoft y deseo de estandarizar en lugar de experimentar.
3) Nutanix AHV: plataforma integrada, economía distinta
Nutanix vende una plataforma: cómputo + almacenamiento + gestión. AHV es la pieza de hipervisor. La experiencia puede ser fluida y operativamente es un producto coherente.
Fortalezas: gestión integrada, fuerte historia HCI, buenas operaciones day‑2 para muchos entornos.
Debilidades: cambias una historia de proveedor por otra. Los costos de salida y la complejidad contractual son reales; compras un ecosistema, no solo un hipervisor.
Quién debería elegirlo: equipos que quieren una plataforma empaquetada y están cómodos con la dependencia del proveedor si reduce la carga operativa.
4) KVM/libvirt puro (DIY): control máximo, responsabilidad máxima
Sí, puedes ejecutar KVM con libvirt, Ansible y el backend de almacenamiento que elijas. Muchos proveedores de servicios lo hacen. Es potente y rentable.
Fortalezas: control total, fricción mínima de licencias, profundas opciones de automatización.
Debilidades: construyes tu propia capa operativa tipo “vCenter”—monitorización, RBAC, workflows, guardrails. Si tu equipo está corto de personal, DIY se convierte en “hazlo tú solo, de noche”.
Quién debería elegirlo: equipos con madurez Linux/SRE sólida y una cultura clara de automatización.
5) Cloud gestionado (IaaS): la opción nuclear que a veces es correcta
Mover cargas a IaaS cloud no es tanto una alternativa a VMware como un modelo operativo diferente. Puede reducir hardware y gestión de hipervisor, pero pagas en diseño de red, gobernanza de costes y límites de servicio.
Fortalezas: elasticidad, servicios gestionados y menos dolor por ciclo de vida de hardware.
Debilidades: sorpresas de coste, gravedad de datos y nuevos modos de falla (IAM, cuotas, incidentes a nivel de región).
Quién debería elegirlo: equipos que pueden hacer FinOps disciplinado y tienen cargas que encajan bien en servicios gestionados.
¿Y si mantenemos VMware y solo nos adaptamos?
A veces esa es la decisión correcta. Si tienes:
- mucha madurez operativa en VMware,
- un equipo de plataforma estable,
- appliances de proveedores críticos ligados a declaraciones de soporte de VMware,
- y un contrato negociado con el que puedes vivir,
…entonces renueva, estandariza y detén la hemorragia. Pero hazlo con datos y construye una rampa de salida de todos modos. “Nunca nos iremos” no es una estrategia; es una nota de rehenes escrita en Excel.
Errores comunes: síntomas → causa raíz → solución
1) Síntoma: la cotización de renovación explota tras una actualización de hardware
Causa raíz: aumentaste significativamente el conteo de núcleos por host y tu modelo de licenciamiento escala con núcleos o mínimos por paquete.
Solución: modela el impacto de licencias antes de la renovación de CPU. Considera menos núcleos con mayor frecuencia si cumple el rendimiento, o reequilibra clústeres (mantén hosts de alto conteo para dev/test densos).
2) Síntoma: “VMware está lento” tras consolidación
Causa raíz: eliminaste margen; eventos HA y mantenimiento ahora fuerzan contención (CPU ready, colas de almacenamiento).
Solución: aplica política de capacidad: margen N+1 más un buffer de rendimiento. Redimensiona VMs. Programa trabajos disruptivos (backups, escaneos) teniendo en cuenta la capacidad del clúster.
3) Síntoma: vMotion funciona pero el rendimiento se vuelve errático
Causa raíz: la redundancia de red está comprometida (links caídos, LACP mal configurado, MTU desajustada), o los paths de almacenamiento están degradados.
Solución: valida estado de NICs y salud de multipath de almacenamiento. Trata red y almacenamiento como dependencias de primera clase, no “problema de otro”.
4) Síntoma: los backups de repente tardan el doble e impactan producción
Causa raíz: proliferación de snapshots, inconsistencias de CBT o aumento de concurrencia de backups sin espacio de almacenamiento.
Solución: audita snapshots, ajusta la concurrencia de backups y aísla I/O de backup. No ejecutes “todos los jobs a medianoche” salvo que disfrutes del autosabotaje.
5) Síntoma: pruebas de migración a Proxmox arrancan pero las aplicaciones se comportan raro
Causa raíz: drivers de guest (VMware Tools vs virtio), cambios en nombres de NIC, diferencias en controladores de almacenamiento o diferencias en sincronización horaria.
Solución: estandariza drivers de guest y valida arranque + red + rendimiento de disco con un plan de pruebas. Trata la preparación del guest como un flujo de trabajo de migración, no como una ocurrencia tardía.
6) Síntoma: la dirección cree “simplemente cambiaremos de hipervisor” en un trimestre
Causa raíz: se subestima la complejidad de migración: red, almacenamiento, backups, monitorización y declaraciones de soporte de proveedores.
Solución: presenta un plan por fases con tiers de cargas y pruebas de aceptación. Ata los plazos a la realidad: control de cambios, ventanas de mantenimiento y planes de rollback.
Listas de verificación / plan paso a paso
Plan A: renovar VMware sin que te asalten financiera u operativamente
- Inventaria todo: hosts, núcleos, clústeres, características habilitadas, recuento de VMs por tier.
- Redimensiona VMs: reduce vCPU y RAM donde sea seguro; retira workloads muertos.
- Elimina características premium accidentales: si no necesitas redes/almacenamiento avanzado en todas partes, deja de usarlas en todas partes.
- Reconstruye la matemática del margen: demuestra que puedes sobrevivir a una falla de host y aún cumplir SLOs.
- Negocia con opciones: entra con un plan creíble de fase‑out. Los proveedores fijan precios distinto cuando creen que puedes irte.
- Documenta postura de cumplimiento: mantén exportaciones mensuales y registros de cambios.
Plan B: reducir la huella VMware manteniendo cargas críticas estables
- Clasifica cargas en: fáciles (apps sin estado), medias (servidores Linux/Windows estándar), difíciles (appliances de proveedores, BD sensibles a latencia).
- Elige una plataforma alternativa para cargas “fáciles” primero (a menudo Proxmox o Hyper‑V).
- Construye paridad operativa: monitorización, backups, parcheo, controles de acceso, logging.
- Ejecuta un piloto con 10–20 VMs representativas; valida rendimiento y recuperación (pruebas de restore, pruebas de failover).
- Mueve producción no crítica a continuación; mantén planes de rollback y dual‑run donde sea posible.
- Mantén VMware para cargas difíciles hasta que la alternativa pruebe su valía o los vendors actualicen declaraciones de soporte.
Plan C: migrar fuera de VMware decididamente (solo si estás dotado de personal)
- Congela la volatilidad arquitectónica durante la ventana de migración; deja de “mejorar” todo a la vez.
- Estandariza diseño de red (VLANs, MTU, enrutamiento, firewalling) antes de mover cargas.
- Define pruebas de aceptación de migración: arranque, salud de app, latencia, backup/restore, monitorización, logging, acceso SSO.
- Automatiza tanto como sea posible (conversión, provisión, validación) para reducir la variabilidad humana.
- Haz cortes por oleadas con criterios claros de rollback. Sin heroicidades.
- Descomisiona limpiamente: elimina hosts viejos, revoca accesos, actualiza CMDB y deja de pagar por fantasmas.
Preguntas frecuentes
1) ¿Sigue ESXi siendo técnicamente excelente en 2026?
Sí. La mayoría de los problemas atribuidos a ESXi son de capacidad, almacenamiento, red o procesos. El dolor de 2026 es riesgo comercial y operativo, no el planificador de CPU.
2) ¿Cuál es la trampa de licenciamiento más grande en la que caen los equipos?
No saber qué ejecutan realmente: conteos de núcleos, características habilitadas y clústeres “temporales”. El inventario es el antídoto.
3) ¿Deberíamos consolidar hosts para reducir licencias?
A veces. Hazlo solo después de demostrar que puedes sobrevivir a la falla de un host y mantenimiento sin vivir en contención. Consolidar sin margen es un ataque al SLO.
4) ¿Es Proxmox una opción empresarial real?
Sí, si gestionas bien Linux y estás dispuesto a asumir más trabajo de integración. Es especialmente fuerte para virtualización de propósito general y para equipos que valoran la transparencia.
5) ¿Proxmox es “gratis”?
El software puede usarse sin suscripción, pero los entornos de producción deben presupuestar soporte y tiempo de ingeniería para construir guardrails operativos.
6) ¿Qué pasa con los reemplazos de vSAN?
Patrones comunes: almacenamiento externo (iSCSI/FC/NFS), ZFS en discos locales para clústeres pequeños o Ceph para almacenamiento distribuido. Cada uno tiene distintos modos de fallo y requisitos operativos.
7) ¿Podemos migrar solo convirtiendo discos?
La conversión de discos es la parte fácil. La parte difícil son drivers de guest, red, backup/restore, monitorización, identidad de acceso y demostrar que la recuperación funciona.
8) ¿Cuál es el enfoque de migración más seguro?
Por fases: mueve cargas fáciles primero, construye paridad operativa y luego aborda tiers más difíciles. Mantén VMware para appliances ligados a proveedores hasta tener un plan de soporte.
9) ¿Cómo evitamos un pánico por auditoría?
Automatiza exportaciones de inventario mensuales, etiqueta cargas por tier/propietario y aplica control de cambios en expansión de clúster y habilitación de características.
10) Si nos quedamos en VMware, ¿qué debemos hacer diferente en 2026?
Gestionalo como un producto: SLOs de capacidad, estándares de configuración, inventario periódico, higiene de snapshots y revisiones arquitectónicas ligadas a la realidad del licenciamiento.
Conclusión: los siguientes pasos que realmente reducen el riesgo
En 2026, el licenciamiento de VMware ESXi no es solo un evento de procurement. Es una limitación arquitectónica y un multiplicador de riesgo operativo. No puedes discutirlo hasta la extenuación, pero sí puedes sobreingenierizarlo.
Pasos prácticos siguientes:
- Construye un inventario real (núcleos, hosts, características, tiers de VM). Trátalo como datos de producción.
- Redimensiona y limpia: snapshots, VMs muertas, guests sobredimensionados, datastores al 90%+.
- Reevalúa el margen: si la consolidación provoca contención, deja de llamarla optimización.
- Elige una rampa de salida aunque renueves: pilota Proxmox o Hyper‑V con cargas no críticas y construye paridad operativa.
- Toma decisiones con resultados de pruebas, no por ideología. Pruebas de arranque, restore, failover—luego negocia o migra.
Si quieres la postura más a prueba de futuro: reduce la dependencia de un solo proveedor haciendo tus cargas más portables, tu inventario más preciso y tus prácticas operativas menos mágicas. El hipervisor es solo una capa. Tu disciplina es la verdadera plataforma.