Proxmox vs VMware ESXi: ¿qué hipervisor deberías usar en 2026?

octubre 21, 2025 • febrero 3, 2026 • Lectura: 29 min • Views: 16

¿Te fue útil?

No eliges un hipervisor porque la interfaz se vea bonita. Lo eliges porque a las 02:13, cuando un datastore está lleno y un clúster está inestable, necesitas que la plataforma te diga la verdad y te dé palancas que realmente funcionen.

En 2026 la decisión Proxmox vs VMware ESXi ya no es un debate filosófico sobre código abierto. Es un problema de compras, un cálculo de riesgo operativo y un compromiso de arquitectura de almacenamiento. También: un riesgo de carrera, si tu plan asume “simplemente migramos más tarde.” Spoiler: más tarde es cuando estás más ocupado.

La realidad de 2026: qué cambió y por qué importa

Entre “VMware es lo predeterminado” y “todos deberían usar Proxmox” existe un punto intermedio desordenado: tu organización, tu presupuesto, tu postura regulatoria, tu hardware y las habilidades de las personas que realmente estarán de guardia.

En 2026, el cambio principal no es que ESXi haya empeorado en virtualización. Es que el contexto empresarial alrededor se ha agudizado: cambios en licencias y empaquetado empujaron a muchas compañías a reevaluar por qué pagan y si pagan por cosas que no usan. Mientras tanto, Proxmox maduró hasta convertirse en una plataforma creíble para una porción mucho mayor de cargas de producción —especialmente donde los equipos valoran el control y pueden tolerar (o incluso prefieren) operaciones centradas en Linux.

Así que: no preguntes “¿cuál es mejor?” Pregunta “¿qué modo de fallo prefiero?” Porque cada plataforma trae el suyo.

Recomendaciones rápidas (con opinión, porque el tiempo es dinero)

If you are a regulated enterprise with deep VMware muscle memory

Mantente con VMware ESXi solo si realmente estás usando la pila de valor añadido (operaciones de vCenter, patrones maduros de ciclo de vida de VM, herramientas de backup integradas, footprint existente de vSAN, perfiles de hosts estandarizados, procesos auditados). Si tu infraestructura es lo suficientemente grande como para que el coste del downtime eclipsе el coste de las licencias, la previsibilidad y el ecosistema de VMware aún pueden ser la opción de menor riesgo.

If you are cost-constrained, hardware-flexible, and can run Linux like adults

Elige Proxmox VE. Especialmente si manejas bien ZFS, quieres contenedores de primera clase (LXC) y te atrae la idea de que tu “hipervisor” sea un sistema basado en Debian que puedes inspeccionar, automatizar y recuperar con herramientas estándar.

If you are small/medium, with limited staff, but you still need HA

Proxmox gana más a menudo de lo que la gente admite—si mantienes el diseño aburrido: clúster pequeño, redes redundantes, ZFS sensato, backups probados y evitas heroísmos DIY con Ceph a menos que estés listo para operarlo.

If you run latency-sensitive storage or weird enterprise appliances

VMware puede ser más seguro, principalmente porque los proveedores prueban allí primero y los contratos de soporte son como sustantivos familiares. Pero no confundas “soportado” con “arreglarán rápido”.

Regla en una frase: Si tu organización no puede solucionar con confianza almacenamiento y redes Linux a las 03:00, no apuestes el negocio a un diseño Proxmox+Ceph sofisticado que encontraste en un hilo de foro.

Algunos hechos útiles e hitos históricos (para no repetirlos)

La ventaja temprana de VMware fue la abstracción de hardware a escala: ESX/ESXi normalizó la virtualización x86 mucho antes de que “la nube” fuera un reflejo empresarial.
KVM entró en el kernel de Linux en 2007, convirtiendo a Linux en una plataforma hipervisor de primera clase y sentando las bases para proyectos como Proxmox VE.
La identidad de Proxmox VE es “Linux-first”: es una distribución basada en Debian con herramientas de gestión, no una caja negra que pretende no ser Linux.
ZFS se popularizó en homelabs antes de llegar a empresas, y luego se volvió “serio” cuando la gente entendió que snapshots, checksums y send/receive resuelven dolores operativos reales.
El ecosistema de VMware se volvió un pozo gravitacional: una vez que tienes vCenter, integraciones de backup empresariales y operaciones estandarizadas, el coste de cambio es tan real como cualquier cuota de licencia.
Los contenedores cambiaron expectativas: el soporte LXC de Proxmox hace que “VM o contenedor?” sea una pregunta nativa del clúster, no una decisión entre plataformas separadas.
Ceph demostró que el almacenamiento escalable funciona, pero también demostró que “definido por software” significa que posees los modos de fallo del software.
La proliferación de snapshots ha sido un asesino silencioso en producción por más de una década en ambas plataformas; no es nuevo, solo se redescubre cada trimestre.

Coste: licencias, suscripciones, hardware y los costes ocultos

El coste es donde la mayoría de los debates de hipervisores pretenden ser técnicos. En realidad, compras dos cosas: funciones y transferencia de riesgo.

VMware ESXi cost in 2026: you pay for the stack, not just the hypervisor

ESXi en sí mismo es solo parte de la historia. En la mayoría de entornos reales pagas por:

Gestión (vCenter) y funciones de clúster (HA/DRS-equivalentes según el paquete)
Almacenamiento (vSAN, si estás en ese mundo)
Soporte y previsibilidad del ciclo de vida
Validación de compatibilidad (procurement guiado por HCL)

El mayor coste de VMware no es la factura. Es el encierro organizacional que construyes sin querer al permitir que cada equipo dependa de flujos de trabajo específicos de VMware sin documentar resultados reproducibles en otro lado.

Proxmox cost in 2026: cheap to acquire, not free to run

El modelo de licencias de Proxmox VE es refrescantemente directo: el software está disponible y compras soporte/suscripción según tus necesidades. Tus costes se desplazan hacia:

Personas: competencia en Linux, almacenamiento y redes
Diseño: tus decisiones de arquitectura pesan más
Validación: te conviertes en tu propio “laboratorio de compatibilidad” a menos que estandarices cuidadosamente
Tiempo: las actualizaciones y cambios son tuyos para planear y ejecutar

The stealth costs most teams miss

Licencias e integración de backup: el hipervisor más barato puede volverse caro si los backups se vuelven frágiles o manuales.
Amplificación de almacenamiento: aprovisionamiento fino + snapshots + clonación ansiosa puede multiplicar silenciosamente las necesidades reales de capacidad.
Complejidad de red: “Haremos VLANs” se convierte en “¿por qué tenemos desajustes de MTU en el clúster?”
Tiempo de incidente: si una plataforma reduce consistentemente el mean-time-to-restore, es más barata aunque su coste sea mayor.

Broma #1: Si tu modelo de costes asume “los ingenieros son gratis”, felicidades — has inventado movimiento perpetuo, y finanzas igual lo rechazará.

Funciones que realmente importan (y las que no)

Cluster management and HA: “works” vs “operationally boring”

VMware hace tiempo que es excelente en hacer que los clústeres se sientan como una sola máquina: control centralizado, flujos de trabajo previsibles y años de pulido empresarial. Los comportamientos de HA y los modos de mantenimiento son bien entendidos en muchas organizaciones.

Proxmox también hace clustering y HA, y es sólido—especialmente para arquitecturas directas. La diferencia es que Proxmox es transparente: cuando algo falla, verás Linux, systemd, corosync, pve-ha-manager, y logs de la pila de almacenamiento. Esa transparencia es una ventaja si sabes leerla; es una desventaja si no.

Live migration

Ambas plataformas soportan migración en vivo. Tu restricción real será:

Calidad del almacenamiento compartido (latencia, throughput, consistencia)
Ancho de banda de red y corrección de MTU
Compatibilidad de características de CPU entre hosts

En Proxmox, también te importará cómo gestionas los tipos de CPU (por ejemplo, “host” vs un baseline). En VMware, el comportamiento tipo EVC forma parte de muchos playbooks establecidos.

Containers: Proxmox has an “extra gear”

Si tienes una carga mixta (algunas apps quieren VMs, otras aislamiento ligero), la integración LXC de Proxmox es realmente útil. No es “Kubernetes” y no pretende serlo. Es rápido, simple y operativo para servicios de infra (DNS, monitorización, pequeños servicios web) donde una VM completa es excesiva.

Backup: VMware ecosystem vs Proxmox Backup Server

VMware gana en amplitud de ecosistema: muchos productos de backup empresariales tienen integraciones maduras con VMware, patrones de change block tracking y opciones de reporting para cumplimiento.

Proxmox tiene una historia sólida con Proxmox Backup Server (PBS): deduplicado, incremental, soporte de cifrado, integración estrecha y un flujo de trabajo que parece diseñado por gente que ha restaurado VMs bajo presión. Pero aún debes diseñar retenciones, estrategia offsite y pruebas de restauración.

Security and isolation

Ambas se pueden endurecer bien. La ventaja de VMware suele ser “defaults empresariales y controles existentes.” La ventaja de Proxmox es “es Linux; puedes endurecerlo con herramientas estándar y auditarlo profundamente.”

No confundas ninguna con un escudo mágico. Si expones interfaces de gestión casualmente, los atacantes tratarán tu hipervisor como una piñata.

Rendimiento: cómputo, red y almacenamiento—qué medir y cómo

Los hipervisores rara vez son tu cuello de botella hasta que lo son. La mayoría de fallos de rendimiento son en realidad latencia de almacenamiento, oversubscription o errores de diseño de red disfrazados de problema de hipervisor.

Compute performance: CPU scheduling and oversubscription reality

Tanto ESXi como KVM (bajo Proxmox) pueden ofrecer excelente rendimiento de CPU. Las diferencias prácticas aparecen en:

Cómo estableces expectativas: el overcommit de vCPU es normal; el descontrol total de vCPU no lo es.
Conciencia NUMA: el pinning y la topología pueden importar para VMs grandes.
Compatibilidad del modelo de CPU: restricciones de migración entre generaciones.

Qué debes medir: CPU ready time (VMware) o steal time/contención de scheduling (Linux/KVM), más carga del host y latencia a nivel VM. “La CPU está al 40%” no significa “todo está bien”.

Network performance: the hidden killer

Si recuerdas una sola cosa: los desajustes de MTU crean problemas de rendimiento que parecen problemas de almacenamiento. El síntoma suele ser “lentitud aleatoria” y la causa raíz es “en algún punto del camino, los jumbo frames no son realmente jumbo.”

En Proxmox, probablemente uses bridges de Linux, bonds y VLANs. En VMware, vSwitches y distributed switches (si están licenciados) son maduros y familiares. De cualquier manera: verifica, no supongas.

Storage performance: latency is king, and caches lie

Las VMs no se preocupan por tu diapositiva de throughput máximo. Se preocupan por la latencia bajo I/O mixto y en condiciones de fallo.

Proxmox te ofrece buenas opciones: ZFS (local o compartido vía replicación), Ceph (clusterizado, flexible) o SAN/NFS/iSCSI clásico. VMware funciona bien con SAN/NFS y vSAN. Pero el almacenamiento es donde tu elección se vuelve un estilo de vida.

Broma #2: El almacenamiento es fácil—hasta que necesitas que sea correcto, rápido y barato al mismo tiempo.

Opciones de almacenamiento: ZFS, Ceph, vSAN, SAN/NAS—elige tu dolor

ZFS on Proxmox: high leverage, high responsibility

ZFS es atractivo porque es operacionalmente rico: snapshots, replicación, checksums, compresión y herramientas claras. La trampa es tratar ZFS como una controladora RAID. No lo es. Es una plataforma de almacenamiento.

Dónde ZFS brilla en Proxmox:

ZFS local para almacenamiento rápido y predecible por nodo
Flujos basados en snapshots, replicación y rollback rápidos
Compresión para intercambiar CPU por I/O (a menudo una ganancia)

Dónde ZFS muerde:

Suposiciones malas de dimensionamiento ARC en hosts con poca memoria
Cargas de escritura síncrona sin planificación de SLOG (o con un SLOG mediocre)
Esperarlo como almacenamiento compartido sin diseñarlo para tal

Ceph on Proxmox: shared storage with sharp edges

Ceph te da almacenamiento distribuido con redundancia y flexibilidad. También te da un nuevo dominio operativo. Ahora estás ejecutando un clúster de almacenamiento dentro de tu clúster de virtualización—genial cuando está bien hecho, ruidoso cuando está mal hecho.

Ceph tiene sentido cuando:

Necesitas almacenamiento compartido y quieres evitar dependencia SAN
Tienes al menos 3+ nodos y puedes dedicar redes rápidas (10/25/40/100G según escala)
Puedes estandarizar discos y planificar dominios de fallo

Ceph es un mal momento cuando:

Subdimensionas la red o mezclas clases de disco a la ligera
Esperas comportamiento “set and forget”
No tienes tiempo para aprender qué hacen realmente los PGs, backfill y recovery a la latencia

vSAN: strong integration, but you’re buying the whole story

vSAN puede ser excelente cuando está bien dimensionado y operado. Su ventaja principal es la integración con el modelo de gestión de VMware y la soportabilidad en entornos centrados en VMware. El intercambio es el coste y la realidad de que vSAN es un producto con sus propios requisitos y ajustes. No puedes tratarlo como “almacenamiento compartido mágico”.

SAN/NFS: still boring, still effective

El almacenamiento externo sigue siendo la opción “aburrida pero correcta” para muchos entornos. Cuando tu SAN/NAS está bien gestionado, desacopla el ciclo de vida del cómputo del ciclo de vida del almacenamiento. Puedes reemplazar hosts sin tocar la colocación de datos. Eso es una ventaja operativa real.

La trampa: añade un proveedor y una dependencia de red, y necesitas entender multipathing y queue depths. Ignorar esos detalles es cómo terminas con 30% de CPU del host ociosa mientras tus VMs esperan I/O.

Operaciones: day-2 work, upgrades, automation, and troubleshooting

Upgrades and lifecycle management

VMware suele tener patrones de actualización muy trillados, especialmente con ventanas de cambio establecidas y proveedores que proporcionan matrices de compatibilidad. Esa previsibilidad importa.

Proxmox las actualizaciones son generalmente directas, pero son actualizaciones de Linux. Estás viviendo en el mundo APT, kernel y firmware. Esto es una ventaja si te gusta el control; es un impuesto si no quieres pensar en ello.

Automation and IaC

Ambas se pueden automatizar. VMware tiene herramientas maduras en muchas organizaciones y décadas de atención del ecosistema. Proxmox también soporta automatización impulsada por API de forma limpia; si tienes una cultura fuerte de Linux/IaC, puedes moverte muy rápido.

La pregunta práctica: ¿puedes hacer que la plataforma haga lo mismo cada vez, con control de cambios y evidencia de auditoría? Si no, no tienes automatización—tienes scripts.

Troubleshooting philosophy: black box vs glass box

VMware a menudo se comporta como un appliance: interfaces pulidas, logs estructurados y vías de soporte proveedor. Proxmox se comporta como Linux: si sabes dónde mirar, puedes entender y arreglar casi cualquier cosa. Si no, también puedes romper casi cualquier cosa. La libertad es así.

Una cita operativa que sostiene: “La esperanza no es una estrategia.” — General Gordon R. Sullivan. Debe estar en cada revisión de incidente y en cada plan de migración.

Tres micro-historias corporativas desde la trinchera

Mini-story #1: the incident caused by a wrong assumption

La compañía estaba en plena migración de un clúster VMware antiguo a un nuevo clúster Proxmox. El plan del proyecto tenía una hoja de cálculo bonita: VLANs mapeadas, rangos IP reservados, pools de almacenamiento nombrados. Todos se sentían organizados. Todos también estaban asumiendo lo mismo: los jumbo frames ya estaban “habilitados”.

Montaron un clúster Proxmox con backend Ceph y empezaron a mover unas cuantas bases de datos medianas. La primera semana fue bien—porque la carga era baja. La segunda semana, los trabajos de reporting pegaron, Ceph inició recovery tras el reemplazo de un disco y la latencia se descontroló. El equipo persiguió al culpable equivocado: afinó Ceph, ajustó recovery, movió pesos de OSD. Ayudó un poco, pero no lo suficiente.

Finalmente alguien hizo la comprobación poco glamorosa: MTU end-to-end. Un switch en la ruta tenía MTU desajustada. No “ligeramente mal.” De hecho fragmentaba y descartaba paquetes en un patrón que castigaba exactamente el tráfico del que Ceph depende. El clúster no estaba “lento”. Estaba luchando contra la red.

La solución fue aburrida: corregir la MTU en el switch, validar con pings de tamaño de paquete y repetir las pruebas de rendimiento. La latencia se normalizó. La nota post-incidente fue aún más aburrida: “Dejen de asumir que las configuraciones de red son consistentes. Verifiquen.” Esa nota les salvó más tarde cuando añadieron un segundo rack con otro modelo de switch.

La lección: los problemas de almacenamiento a menudo comienzan como mentiras de la red.

Mini-story #2: the optimization that backfired

Otra organización ejecutaba VMware con un SAN. Estaban orgullosos de su cultura de tuning de rendimiento—queue depths, multipathing, todo el desfile. Alguien notó picos periódicos de latencia y decidió que el SAN debía ser “demasiado conservador” con el caching. El plan: aumentar la agresividad, ajustar parámetros del host y exprimir más throughput.

Durante un mes se vio genial. Los benchmarks mejoraron. Los dashboards mostraban mejores promedios. El problema fue que la carga real no era promedio. Era ráfaga y castigadora: ETL nocturno más OLTP constante más ventanas de backup.

Un viernes, durante una pesada ronda de snapshots y backups, el comportamiento del cache del SAN cambió bajo presión. La latencia se disparó, las VMs quedaron bloqueadas, los timeouts de aplicación se propagaron y el incidente se convirtió en un festival de culpas entre equipos. El tuning no era “malo”, pero eliminó márgenes de seguridad que no sabían que necesitaban.

Revirtieron los cambios agresivos, construyeron un benchmark más realista basado en patrones I/O de producción y añadieron guardrails: los cambios de rendimiento requieren una ventana canaria y criterios explícitos de rollback. La optimización no era malvada. La suposición sin prueba sí lo fue.

Mini-story #3: the boring but correct practice that saved the day

Una compañía SaaS mediana corría Proxmox con ZFS local en cada nodo y usaba Proxmox Backup Server para backups nocturnos más sincronización semanal offsite. También hacían algo poco cool: ejercicios trimestrales de restauración. No un “ejercicio en mesa.” Restauraciones reales en una red aislada, con propietarios de aplicación validando datos.

Un trimestre, un desarrollador ejecutó por accidente un script de migración destructivo contra producción. No fue malicioso. Fue una variable de entorno mal puesta y un viernes por la tarde. Los datos se corrompieron lógicamente y los snapshots del sistema de almacenamiento no ayudaron porque la corrupción se propagó rápido.

El equipo declaró incidente, congeló escrituras y restauró desde PBS a un conjunto de VMs limpias. La restauración tomó tiempo, pero fue tiempo predecible. Su runbook tenía los comandos exactos, el throughput esperado y los puntos de control para validación. Nada de heroísmos. Nada de pánicos. Solo ejecución.

Luego, la dirección preguntó por qué el incidente no fue peor. La respuesta fue dolorosamente aburrida: “Porque practicamos restauraciones como si importara.” Así compras fiabilidad sin comprar milagros.

Tareas prácticas: 12+ comandos para verificar la realidad

Estos son los chequeos que corro antes de creer cualquier dashboard. Cada uno incluye (1) un comando, (2) qué significa la salida y (3) la decisión que tomas.

1) Proxmox: check cluster quorum and node health

cr0x@server:~$ pvecm status
Quorum information
------------------
Date:             2025-12-28 10:22:11
Quorum provider:  corosync_votequorum
Nodes:            3
Node ID:          0x00000001
Ring ID:          1/24
Quorate:          Yes

Votequorum information
----------------------
Expected votes:   3
Highest expected: 3
Total votes:      3
Quorum:           2
Flags:            Quorate

Significado: “Quorate: Yes” significa que el clúster puede tomar decisiones HA de forma segura. Si no está quorate, HA está efectivamente comprometida.

Decisión: Si no hay quórum, detén migraciones y mantenimiento planeado. Arregla primero la conectividad de corosync (red, configuración multicast/unicast, alcanzabilidad de nodos).

2) Proxmox: find HA resources stuck or flapping

cr0x@server:~$ ha-manager status
quorum OK
master pve01 (active, Fri Dec 28 10:22:30 2025)

service vm:101 (started)
service vm:120 (error)
  last error: unable to acquire lock - timeout

Significado: Un recurso en error frecuentemente indica problemas de bloqueo de almacenamiento, particiones de red o un nodo sin acceso al almacenamiento requerido.

Decisión: No “reintentes hasta que funcione.” Identifica por qué no se pueden adquirir locks: disponibilidad de almacenamiento, estado del sistema de ficheros del clúster o un nodo con estado obsoleto.

3) Proxmox: confirm storage backends and free space

cr0x@server:~$ pvesm status
Name             Type     Status           Total            Used       Available        %
local             dir     active        19660800        10526720         9134080   53.55%
local-zfs         zfspool active        499963904       402653184        97310720   80.54%
ceph-rbd          rbd     active       2097152000       805306368      1291845632   38.41%

Significado: Buscas storages cerca del lleno (ZFS en ~80% ya es señal de advertencia según la carga).

Decisión: Si ZFS tiende a alto uso, planifica reclamación o expansión antes de que el rendimiento y la fragmentación empeoren. Para Ceph, investiga cuotas de pool y overhead de replicación.

4) Linux/KVM host: check memory pressure (swap activity)

cr0x@server:~$ vmstat 1 5
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 2  0  10240  61248  14400 820000    0    0    10    40  220  310 12  4 78  6  0
 4  1  10240  59812  14388 818900    0    0   120   200  410  620 22  6 58 14  0
 3  0  10240  59010  14380 817500    0    0   130   180  405  610 20  5 61 14  0
 5  1  10240  58500  14376 816800    0    0   160   220  430  670 25  6 55 14  0
 4  0  10240  58020  14370 816100    0    0   150   210  420  650 23  6 57 14  0

Significado: si/so cerca de cero significa sin swapping activo (bien). wa alto sugiere I/O wait.

Decisión: Si si/so sube, reduce overcommit de memoria o arregla comportamiento de ballooning; si wa es alto, ve a comprobaciones de almacenamiento.

5) Proxmox: identify which VMs are heavy on disk I/O

cr0x@server:~$ pvesh get /nodes/pve01/qemu --output-format json-pretty
[
  {
    "vmid": 101,
    "name": "db01",
    "status": "running",
    "cpu": 0.62,
    "mem": 17179869184,
    "maxmem": 34359738368,
    "diskread": 104857600,
    "diskwrite": 52428800,
    "netin": 8388608,
    "netout": 9437184
  }
]

Significado: Los contadores diskread/diskwrite te señalan vecinos ruidosos.

Decisión: Si una VM domina, considera moverla a almacenamiento más rápido, aislarla o arreglar el patrón I/O de la aplicación antes de culpar al hipervisor.

6) ZFS: check pool health and errors

cr0x@server:~$ zpool status -x
all pools are healthy

Significado: No hay errores conocidos en vdev, ni pool degradado.

Decisión: Si ves errores de checksum o un vdev degradado, trátalo como incidente de hardware y planifica reemplazo; no “esperes y veas” mientras las VMs se corrompen en silencio.

7) ZFS: check dataset properties that affect VM latency

cr0x@server:~$ zfs get compression,recordsize,atime,sync tank/vmdata
NAME         PROPERTY     VALUE     SOURCE
tank/vmdata  compression  lz4       local
tank/vmdata  recordsize   128K      local
tank/vmdata  atime        off       local
tank/vmdata  sync         standard  local

Significado: compression=lz4 suele ser una ganancia. Recordsize afecta cargas secuenciales; los patrones de bloque de VM varían. sync importa mucho para bases de datos.

Decisión: Para VMs con DB intensas, valida el comportamiento de sync y considera datasets separados o planificar SLOG. No copies configuraciones de recordsize sin medir.

8) Ceph: check cluster health and recovery impact

cr0x@server:~$ ceph -s
  cluster:
    id:     7c2a9d8b-1b2f-4c2c-9d4e-1a2b3c4d5e6f
    health: HEALTH_WARN
            1 osds down
            Degraded data redundancy: 12/360 objects degraded

  services:
    mon: 3 daemons, quorum pve01,pve02,pve03
    mgr: pve01(active), standbys: pve02
    osd: 9 osds: 8 up, 9 in

  data:
    pools:   3 pools, 192 pgs
    objects: 120k objects, 460 GiB
    usage:   1.4 TiB used, 3.2 TiB / 4.6 TiB avail
    pgs:     12 active+undersized+degraded, 180 active+clean

Significado: PGs degradados y OSD down significa que recovery/backfill competirá con I/O cliente y aumentará la latencia.

Decisión: Arregla el OSD caído y considera ajustar temporalmente los límites de recovery/backfill durante horas de negocio—con cuidado—luego restaura los valores por defecto.

9) Ceph: spot slow ops (latency smoking gun)

cr0x@server:~$ ceph health detail
HEALTH_WARN 1 osds down; Degraded data redundancy
[WRN] OSD_DOWN: 1 osds down
    osd.7 is down
[WRN] SLOW_OPS: 12 slow ops, oldest one blocked for 33 sec, osd.3 has slow ops

Significado: Slow ops indican que el clúster de almacenamiento no puede seguir el ritmo (disco, red, recovery o configuración).

Decisión: Correlaciona con errores de red y latencia de disco en nodos OSD. No migres más VMs a un clúster en apuros.

10) Network: verify MTU end-to-end (jumbo frames)

cr0x@server:~$ ping -M do -s 8972 -c 3 10.20.30.11
PING 10.20.30.11 (10.20.30.11) 8972(9000) bytes of data.
8980 bytes from 10.20.30.11: icmp_seq=1 ttl=64 time=0.412 ms
8980 bytes from 10.20.30.11: icmp_seq=2 ttl=64 time=0.398 ms
8980 bytes from 10.20.30.11: icmp_seq=3 ttl=64 time=0.405 ms

--- 10.20.30.11 ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2003ms

Significado: Pings con payload grande exitosos indican que MTU 9000 funciona en esa ruta (al menos con ICMP).

Decisión: Si esto falla, deja de discutir sobre tuning de almacenamiento y arregla la consistencia de MTU en NICs, bonds, bridges, switches y VLANs.

11) Linux host: check NIC errors and drops

cr0x@server:~$ ip -s link show dev bond0
3: bond0: <BROADCAST,MULTICAST,MASTER,UP,LOWER_UP> mtu 9000 qdisc noqueue state UP mode DEFAULT group default qlen 1000
    link/ether 3c:fd:fe:aa:bb:cc brd ff:ff:ff:ff:ff:ff
    RX:  bytes packets errors dropped  missed   mcast
    981G  812M      0     124       0  1023
    TX:  bytes packets errors dropped carrier collsns
    870G  790M      0       2       0       0

Significado: Drops pueden indicar congestión, problemas de buffers o mala configuración. Errores indican problemas físicos o de driver.

Decisión: Si los drops suben durante incidentes, investiga buffers de switch, LACP, driver/firmware de NIC y shaping de tráfico para redes de Ceph/almacenamiento.

12) Proxmox: check if a node is overloaded (CPU, iowait)

cr0x@server:~$ pveperf
CPU BOGOMIPS:      153600.00
REGEX/SECOND:      2345678
HD SIZE:           102400.00 GB (tank)
FSYNCS/SECOND:     1890.12
DNS EXT:           52.34 ms
DNS INT:           0.19 ms

Significado: FSYNCS/SECOND es un proxy rápido para rendimiento de escrituras sync. Picos en DNS EXT pueden indicar problemas de red o resolvers.

Decisión: Si fsync es bajo respecto a la expectativa, revisa comportamiento sync de ZFS, SLOG, latencia de disco y ajustes de controladora antes de culpar a las VMs.

13) VMware ESXi: check host hardware and driver health

cr0x@server:~$ esxcli hardware platform get
Platform Information
   UUID: 4c4c4544-0038-4b10-8050-b3c04f4b4c31
   Product Name: PowerEdge R750
   Vendor Name: Dell Inc.
   Serial Number: ABCDEF1
   Enclosure Serial Number: XYZ1234

Significado: Confirma la identidad del host—útil cuando sospechas que estás en “ese nodo raro” con firmware distinto.

Decisión: Si un nodo se comporta diferente, verifica paridad de firmware/driver en todo el clúster, no solo paridad de configuración.

14) VMware ESXi: check datastore capacity and thin provisioning risk

cr0x@server:~$ esxcli storage filesystem list
Mount Point                                        Volume Name  UUID                                 Mounted  Type        Size        Free
/vmfs/volumes/64f0a2b2-9c7a12e0-1b2c-001b21aabbcc  datastore1   64f0a2b2-9c7a12e0-1b2c-001b21aabbcc  true     VMFS-6  1099511627776  85899345920

Significado: 1 TB de datastore con ~80 GB libres está peligrosamente cerca de fallo operativo dependiendo de patrones de snapshots y swaps.

Decisión: Si el espacio libre es bajo, borra/commit snapshots, migra VMs o expande capacidad inmediatamente. Eventos de datastore-full no construyen carácter.

15) VMware ESXi: check NIC link status and speed/duplex

cr0x@server:~$ esxcli network nic list
Name    PCI Device    Driver  Admin Status  Link Status  Speed  Duplex  MAC Address         MTU  Description
vmnic0  0000:3b:00.0  i40en   Up            Up           25000  Full    3c:fd:fe:11:22:33  9000 Intel(R) Ethernet Controller E810

Significado: Confirma que el enlace está arriba a la velocidad y MTU esperadas. Un host negociando a 10G en un clúster 25G arruinará tu día silenciosamente.

Decisión: Si la velocidad del enlace es incorrecta, revisa configuración del puerto en el switch, transceptores, cableado y firmware de NIC; no compenses en software.

Guion de diagnóstico rápido: encuentra el cuello de botella

Este es el flujo “deja de mirar dashboards y empieza a aislar”. Úsalo tanto para entornos Proxmox como VMware.

First: determine if the problem is compute, storage, or network

Comprueba la contención de CPU del host: carga alta más latencia de VM puede ser scheduling de CPU. Si la CPU está baja pero las apps son lentas, suele ser almacenamiento o red.
Comprueba I/O wait: en hosts Linux, wa alto en vmstat es señal de almacenamiento. En VMware, correlaciona latencia de datastore y latencia a nivel VM.
Comprueba drops/errores de red: un pequeño número de drops en pico puede crear grandes problemas de aplicación “aleatorios”.

Second: check “shared dependencies” that create blast radius

Salud de almacenamiento compartido (salud de Ceph, estado de pools ZFS, pathing SAN)
Salud de quórum/gestión de clúster (quórum corosync, disponibilidad de vCenter)
DNS/deriva de tiempo (DNS malo puede parecer que todo está roto; deriva de tiempo rompe autenticación y clustering)

Third: isolate a canary VM and measure

Elige una VM afectada y realiza una comprobación a nivel aplicación (latencia de transacción, tiempo de consulta).
Correlaciona con métricas del host y métricas de almacenamiento.
Si mover la VM a otro host cambia el síntoma, tienes un “nodo malo” o un problema de localidad.

Fourth: stop the bleeding before you optimize

Pausa migraciones si el clúster está inestable.
Reduce temporalmente la agresividad de recovery/backfill si el recovery de almacenamiento está aplastando la latencia.
Libera espacio inmediatamente si un datastore/pool está cerca de llenarse.

Errores comunes: síntomas → causa raíz → solución

1) Symptom: VM migrations are slow or fail randomly

Causa raíz: Desajuste de MTU, pérdida de paquetes en la red de almacenamiento/migración o incompatibilidad de modelo de CPU entre hosts.

Solución: Verifica MTU end-to-end con pings grandes; revisa drops en NIC; estandariza tipo de CPU/baseline en el clúster y valida antes de upgrades.

2) Symptom: “Storage is slow” only during rebuilds or disk failures

Causa raíz: Recovery/backfill de Ceph/vSAN compite con I/O cliente; procesos de rebuild del SAN saturan el backend; resilver de ZFS en pool ocupado.

Solución: Diseña para el fallo: discos más rápidos, redes separadas, redundancia adecuada y throttles de recovery documentados con procedimiento y rollback.

3) Symptom: periodic latency spikes, then everything looks fine

Causa raíz: Tormentas de snapshots, ventanas de backup, ráfagas por rotación de logs, límites de queue depth o uplinks sobrecommitados.

Solución: Mueve ventanas de backup, limita edad de snapshots, valida queue depth y multipathing, y mide utilización de uplinks con drops/errores.

4) Symptom: cluster shows healthy, but app timeouts increase

Causa raíz: Problemas de DNS, deriva de tiempo o dependencias de aplicación fallando (no visibles al nivel del hipervisor).

Solución: Revisa NTP/chrony, latencia de resolvers y métricas a nivel de aplicación. No dejes que “clúster verde” cierre la investigación.

5) Symptom: ZFS pool looks healthy, but VM disk latency is high

Causa raíz: Presión de escrituras sync sin SLOG adecuado, pool demasiado lleno y fragmentación, o diseño de workload vs vdev mal alineado.

Solución: Mantén espacio libre saludable en el pool, valida comportamiento sync por dataset y dimensiona vdevs para IOPS (mirrors para IOPS, RAIDZ para capacidad).

6) Symptom: “We added faster SSDs but it didn’t help”

Causa raíz: El cuello de botella es la red (drops/MTU), contención de CPU o límites del protocolo de almacenamiento (ruta única, multipathing malo).

Solución: Recorre el guion de diagnóstico rápido; confirma dónde se origina la latencia antes de comprar más hardware.

Listas de verificación / plan paso a paso

Checklist A: choosing Proxmox in 2026 (the sane path)

Decide tu modelo de almacenamiento primero: ZFS local + replicación, Ceph o SAN/NFS externo. No “lo resolveremos después”.
Estandariza hardware: mismas NICs, mismas clases de disco, mismo firmware. La heterogeneidad es cómo nacen los misterios.
Diseña redes explícitamente: gestión, tráfico de VM, almacenamiento (Ceph), migración. Documenta MTU por red y valídalo.
Elige una estrategia de backup: PBS con sincronización offsite; define RPO/RTO y prueba restauraciones trimestralmente.
Construye pensando en el fallo: planifica para un nodo caído, un disco caído, un switch caído—y luego prueba.
Ejecuta un piloto con cargas reales: no solo sintéticas, no “VMs hola mundo”. Incluye backups, restauraciones y ventanas de mantenimiento.

Checklist B: staying on VMware ESXi without sleepwalking into cost shock

Inventaria lo que realmente usas: HA, comportamiento tipo DRS, vSAN, switching distribuido, integraciones de backup.
Mapea costes de funciones a resultados: “Pagamos por X” debería traducirse a “X reduce incidentes o trabajo”. Si no, cuestionalo.
Valida opciones de salida: asegúrate de que formatos de VM, restauraciones de backup y diseños de red no sean imposibles de reproducir en otro sitio.
Limpia snapshots e higiene de datastores: la mayoría de “problemas de rendimiento VMware” son fallos de gobernanza.
Estandariza firmware y drivers de host: los bugs más raros suelen vivir en el borde de “casi lo mismo”.

Checklist C: migration plan (ESXi → Proxmox) that won’t wreck a quarter

Clasifica cargas: pets (legacy, frágiles) vs cattle (stateless, reconstruibles) y migra cattle primero.
Define métricas de éxito: latencia, throughput, tiempo de backup, tiempo de restauración, tasa de incidentes.
Construye redes equivalentes: VLANs, routing, firewalling, MTU. Verifica con pruebas, no solo diagramas.
Elige un enfoque de conversión: exportar/convertir por VM, backup-restore, o reconstrucción a nivel de aplicación para servicios modernos.
Ejecuta backups paralelos por un periodo: los backups de la nueva plataforma deben estar probados antes de desmantelar la red de seguridad antigua.
Programa cutovers con rollback: cada ola de migración necesita un “cómo revertimos” que puedas ejecutar rápido.

Preguntas frecuentes

1) Is Proxmox “enterprise-ready” in 2026?

Sí, si lo operas como una plataforma empresarial: hardware estandarizado, control de cambios disciplinado, backups probados y personas que puedan depurar almacenamiento y redes Linux. Si quieres una experiencia appliance con un gran ecosistema de proveedor, VMware aún tiene ventaja.

2) Will performance be worse on Proxmox than ESXi?

No automáticamente. KVM tiene buen rendimiento. La diferencia suele venir del diseño de almacenamiento y red, no de la sobrecarga de virtualización de CPU. Mide latencia y contención, no sensaciones.

3) Should I run Ceph with only three nodes?

Puedes, pero sé honesto sobre los trade-offs: flexibilidad limitada en dominios de fallo y presión de recovery pueden ser duros. Si tus cargas son modestas, ZFS local + replicación + buenos backups puede ser una historia de fiabilidad mejor.

4) Is vSAN easier than Ceph?

Operativamente, vSAN suele ser más fácil en organizaciones centradas en VMware porque encaja con herramientas y modelos mentales. Ceph es potente pero exige más alfabetización. La facilidad depende de lo que tu equipo ya conozca.

5) What’s the biggest reason Proxmox deployments fail?

Los equipos lo tratan como “VMware barato” y saltan la ingeniería: separación de red, validación de MTU, dimensionamiento de almacenamiento y pruebas de restauración. El hipervisor no te salva de atajos de diseño.

6) What’s the biggest reason VMware deployments fail?

Podredumbre de gobernanza: proliferación de snapshots, overcommit sin monitorización, negligencia de capacidad de datastore y “actualizaremos después” hasta que después sea un incidente. Las herramientas son excelentes; las personas son la variable.

7) Can I mix containers and VMs safely on Proxmox?

Sí. LXC es útil, pero trata los contenedores como un modelo de aislamiento distinto al de las VMs. Aplica hardening del host, principio de mínimo privilegio y políticas de red cuidadas. Y no ejecutes “contenedores misteriosos” como root porque es cómodo.

8) What should I standardize first if I’m building a new cluster?

Redes y almacenamiento. CPU y RAM son comparativamente más tolerantes. Un clúster con MTU inconsistente, firmware de NIC mixto y almacenamiento improvisado es un generador de incidentes con GUI.

9) Do I need a SAN if I choose Proxmox?

No. Pero necesitas una historia de almacenamiento coherente. Si no quieres operar almacenamiento distribuido, un SAN/NAS puede ser la opción más operativamente aburrida—y por tanto confiable.

10) How do I avoid lock-in either way?

Diseña alrededor de resultados: RPO/RTO documentados, portabilidad de backups, reproducibilidad de red y “workload-as-code” donde sea posible. El vendor lock-in ocurre cuando solo una herramienta puede expresar tu intención operativa.

Próximos pasos que puedes hacer esta semana

Si estás decidiendo para 2026, deja de debatir y empieza a validar:

Ejecuta un piloto con el hardware que realmente puedes comprar y soportar. No hagas benchmarking en un servidor unicornio.
Mide latencia de almacenamiento bajo fallo: simula disco caído o recovery/backfill y observa qué pasa con tiempos de respuesta de VM.
Prueba tiempo de restauración: elige una VM representativa y haz un drill completo de restauración. Cronométralo. Documentalo. Repítelo.
Inventaria dependencias ocultas: agentes de backup, monitorización, reporting de cumplimiento, appliances de proveedores. Haz una lista de lo que debe funcionar el día uno.
Elige la plataforma que coincida con la competencia de tu equipo, no la que hace la mejor diapositiva. La fiabilidad es una propiedad organizacional con sombrero técnico.

Si quieres una conclusión directa: Proxmox es la mejor elección para muchas organizaciones que pueden operar bien con Linux y valoran el control de costes y la transparencia. VMware sigue siendo una opción fuerte cuando compras madurez del ecosistema y memoria institucional. Elige según el incidente que puedas permitirte—y el que no.