On ne choisit pas un hyperviseur parce que l’interface a l’air jolie. On le choisit parce qu’à 02:13, quand un datastore est plein et qu’un cluster bat des ailes, il faut que la plateforme dise la vérité et fournisse des leviers qui fonctionnent réellement.
En 2026, la décision Proxmox vs VMware ESXi n’est pas un débat philosophique sur l’open source. C’est un problème d’approvisionnement, un calcul de risque opérationnel et un engagement d’architecture de stockage. Aussi : un risque de carrière, si votre plan suppose « on migrera plus tard ». Spoiler : le « plus tard » correspond souvent à vos heures les plus chargées.
Le point réalité 2026 : ce qui a changé et pourquoi c’est important
Entre « VMware est la valeur par défaut » et « tout le monde devrait utiliser Proxmox » se trouve un milieu désordonné : votre organisation, votre budget, votre posture réglementaire, votre matériel et les compétences des personnes qui seront effectivement d’astreinte.
En 2026, le changement le plus marquant n’est pas qu’ESXi se soit détérioré en virtualisation. C’est que le contexte business autour s’est durci : des révisions de licences et de packaging ont poussé de nombreuses entreprises à réévaluer ce pour quoi elles paient et si elles paient pour des choses non utilisées. Parallèlement, Proxmox a mûri jusqu’à devenir une plateforme crédible pour une part bien plus large de charges de production — surtout quand les équipes valorisent le contrôle et peuvent tolérer (ou préfèrent) une exploitation orientée Linux.
Donc : ne demandez pas « lequel est meilleur ? » Demandez « quel mode de panne je préfère ? » Car chaque plateforme vient avec le sien.
Recommandations rapides (opinionnées, parce que le temps c’est de l’argent)
If you are a regulated enterprise with deep VMware muscle memory
Si vous êtes une entreprise réglementée avec une forte mémoire opérationnelle VMware
Restez sur VMware ESXi seulement si vous utilisez réellement la pile à valeur ajoutée (opérations vCenter, modèles matures de cycle de vie des VM, outils de sauvegarde intégrés, empreinte vSAN existante, profils d’hôte standardisés, processus audités). Si votre parc est suffisamment grand pour que les coûts d’arrêt dépassent les coûts de licence, la prévisibilité et l’écosystème VMware peuvent rester l’option la moins risquée.
If you are cost-constrained, hardware-flexible, and can run Linux like adults
Si vous avez des contraintes de coût, une flexibilité matérielle et pouvez gérer Linux
Choisissez Proxmox VE. Surtout si vous maîtrisez ZFS, souhaitez des conteneurs de première classe (LXC) et appréciez que votre « hyperviseur » soit un système basé sur Debian que vous pouvez inspecter, automatiser et récupérer avec des outils standards.
If you are small/medium, with limited staff, but you still need HA
Si vous êtes petite/moyenne structure avec peu de personnel mais avez besoin de HA
Proxmox l’emporte plus souvent qu’on ne l’admet — si vous gardez le design simple : petit cluster, réseau redondant, ZFS sain, sauvegardes testées, et évitez les initiatives héroïques DIY avec Ceph sauf si vous êtes prêts à l’exploiter.
If you run latency-sensitive storage or weird enterprise appliances
Si vous exécutez du stockage sensible à la latence ou des appliances d’entreprise atypiques
VMware peut être plus sûr, principalement parce que les éditeurs testent d’abord sur cette plateforme et que les contrats de support sont des réalités familières. Mais ne confondez pas « supporté » avec « sera rapidement corrigé ».
Règle en une phrase : Si votre organisation ne peut pas dépanner avec confiance le stockage et le réseau Linux à 03:00, ne misez pas l’entreprise sur un design Proxmox+Ceph sophistiqué trouvé sur un fil de forum.
Quelques faits utiles et points historiques (pour ne pas les répéter)
- L’avantage précoce de VMware fut l’abstraction matérielle à grande échelle : ESX/ESXi a normalisé la virtualisation x86 bien avant que le « cloud » ne devienne une réaction de conseil d’administration.
- KVM est entré dans le noyau Linux en 2007, faisant du noyau Linux une plateforme d’hyperviseur à part entière et ouvrant la voie à des projets comme Proxmox VE.
- L’identité de Proxmox VE est « Linux‑first » : c’est une distribution basée sur Debian avec des outils de gestion, pas une boîte noire prétendant ne pas être Linux.
- ZFS a percé dans les homelabs avant d’entrer en entreprise, puis est devenu « sérieux » quand on a réalisé que snapshots, checksums et send/receive résolvent de vraies douleurs opérationnelles.
- L’écosystème VMware est devenu un puits gravitationnel : une fois que vous aviez vCenter, les intégrations de sauvegarde et des opérations standardisées, le coût de changement était aussi réel que n’importe quelle licence.
- Les conteneurs ont changé les attentes : le support LXC de Proxmox rend la question « VM ou conteneur ? » native au cluster, pas une décision entre plateformes.
- Ceph a prouvé que le stockage scale‑out fonctionne, mais il a aussi prouvé que « software‑defined » signifie que vous possédez les modes de panne du logiciel.
- La prolifération des snapshots a été un tueur silencieux en production depuis plus d’une décennie sur les deux plateformes ; ce n’est pas nouveau, juste redécouvert chaque trimestre.
Coût : licences, abonnements, matériel et les coûts cachés
Le coût est l’endroit où la plupart des débats sur les hyperviseurs prétendent être techniques. En réalité, vous achetez deux choses : des fonctionnalités et un transfert de risque.
Coût de VMware ESXi en 2026 : vous payez la pile, pas seulement l’hyperviseur
ESXi lui‑même n’est qu’une partie de l’histoire. Dans la plupart des environnements réels, vous payez pour :
- La gestion (vCenter) et les fonctionnalités de cluster (équivalents HA/DRS selon le packaging)
- Le stockage (vSAN, si vous êtes dans cet univers)
- Le support et la prévisibilité du cycle de vie
- La validation de compatibilité (approvisionnement guidé par la HCL)
Le plus gros coût VMware n’est pas la facture. C’est la dépendance organisationnelle que vous construisez accidentellement en laissant chaque équipe dépendre de workflows spécifiques à VMware sans documenter des résultats reproductibles ailleurs.
Coût de Proxmox en 2026 : bon marché à l’acquisition, pas gratuit à faire tourner
Le modèle de licence de Proxmox VE est rafraîchissant de simplicité : le logiciel est disponible et vous achetez un support/abonnement selon vos besoins. Vos coûts se déplacent vers :
- Les personnes : compétences Linux, stockage, réseau
- La conception : vos décisions d’architecture comptent davantage
- La validation : vous devenez votre propre « laboratoire de compatibilité » à moins de standardiser soigneusement
- Le temps : les mises à jour et changements sont à planifier et exécuter par vous
Les coûts cachés que la plupart des équipes manquent
- Licence et intégration des sauvegardes : l’hyperviseur le moins cher peut devenir coûteux si les sauvegardes deviennent fragiles ou manuelles.
- Amplification du stockage : thin provisioning + snapshots + clones eagerness peuvent multiplier silencieusement les besoins réels en capacité.
- Complexité réseau : « On fera juste des VLANs » devient « pourquoi avons‑nous des mismatches MTU dans le cluster ? »
- Temps d’incident : si une plateforme réduit de façon constante le mean‑time‑to‑restore, elle revient moins chère même si elle coûte plus cher.
Blague #1 : Si votre modèle de coût suppose « les ingénieurs sont gratuits », félicitations — vous avez inventé le mouvement perpétuel, et la finance le rejettera quand même.
Fonctionnalités qui font la différence (et celles qui n’en font pas)
Gestion de cluster et HA : « ça marche » vs « opérationnellement ennuyeux »
VMware excelle depuis longtemps à faire ressentir un cluster comme une machine unique : contrôle centralisé, workflows prévisibles et années de finition en entreprise. Les comportements HA et les modes de maintenance sont bien compris dans de nombreuses organisations.
Proxmox gère aussi le clustering et la HA, et c’est solide — surtout pour des architectures simples. La différence est que Proxmox est transparent : quand quelque chose casse, vous verrez Linux, systemd, corosync, pve‑ha‑manager, les logs de la pile de stockage. Cette transparence est une fonctionnalité si vous savez la lire ; c’est une responsabilité si vous ne savez pas.
Migration à chaud
Les deux plateformes supportent la migration à chaud. Votre contrainte réelle sera :
- La qualité du stockage partagé (latence, débit, cohérence)
- La bande passante réseau et la justesse du MTU
- La compatibilité des fonctionnalités CPU entre hôtes
Dans Proxmox, vous vous soucirez aussi de la gestion des types de CPU (par ex. « host » vs un baseline). Dans VMware, un comportement de type EVC fait partie de nombreuses recettes établies.
Conteneurs : Proxmox a un « rapport supplémentaire »
Si vous avez une charge mixte (certaines apps veulent des VM, d’autres une isolation légère), l’intégration LXC de Proxmox est vraiment utile. Ce n’est pas « Kubernetes », et ce n’est pas conçu pour l’être. C’est rapide, simple et opérationnellement pratique pour des services infra (DNS, monitoring, petits services web) où une VM complète est excessif.
Sauvegarde : écosystème VMware vs Proxmox Backup Server
VMware gagne sur la largeur de l’écosystème : de nombreux produits de sauvegarde d’entreprise ont des intégrations matures avec VMware, des schémas de change block tracking et des options de reporting conformité.
Proxmox a une histoire forte avec Proxmox Backup Server (PBS) : déduplication, incrémentiels, chiffrement, intégration étroite et un workflow qui semble conçu par des gens qui ont réellement restauré des VM en situation critique. Mais vous devez toujours concevoir la rétention, la stratégie hors site et tester les restaurations.
Sécurité et isolation
Les deux peuvent être bien verrouillés. L’avantage de VMware est souvent les « defaults entreprise » et les contrôles existants. L’avantage de Proxmox est « c’est Linux ; vous pouvez le durcir avec des outils standards et l’auditer en profondeur. »
Ne confondez aucune des deux avec un bouclier magique. Si vous exposez les interfaces de gestion à la légère, les attaquants traiteront votre hyperviseur comme une piñata.
Performance : calcul, réseau et stockage — quoi mesurer et comment
Les hyperviseurs ne sont rarement votre goulot d’étranglement jusqu’à ce qu’ils le deviennent. La plupart des défaillances de performance sont en réalité des problèmes de latence de stockage, de sur‑souscription ou des erreurs de conception réseau déguisées en problèmes d’hyperviseur.
Performance CPU : ordonnancement et réalité de la sur‑réservation
ESXi et KVM (sous Proxmox) peuvent tous les deux fournir d’excellentes performances CPU. Les différences pratiques apparaissent dans :
- Comment vous définissez les attentes : l’overcommit de vCPU est normal ; l’explosion incontrôlée de vCPU ne l’est pas.
- Conscience NUMA : le pinning et la topologie peuvent importer pour les grosses VM.
- Compatibilité du modèle CPU : contraintes de migration entre générations.
Ce que vous devriez mesurer : le temps CPU ready (VMware) ou le steal time/la contention d’ordonnancement (Linux/KVM), plus la charge de l’hôte et la latence côté VM. « Le CPU est utilisé à 40 % » ne signifie pas « tout va bien ».
Performance réseau : le tueur caché
Si vous ne retenez qu’une chose : les mismatches MTU créent des problèmes de performance qui ressemblent à des problèmes de stockage. Le symptôme est souvent une « lenteur aléatoire », et la cause racine est « quelque part sur le chemin, les jumbo frames ne sont pas réellement jumbo ».
Sur Proxmox, vous utiliserez probablement des bridges Linux, des bonds et des VLANs. Sur VMware, vSwitches et distributed switches (si licenciés) sont matures et familiers. Dans tous les cas : vérifiez, n’assumez pas.
Performance stockage : la latence est roi, et les caches mentent
Les VM ne se soucient pas de vos slides sur le débit de pointe. Elles se soucient de la latence sous I/O mixte et en conditions de panne.
Proxmox vous donne des choix solides : ZFS (local ou partagé via des patterns de réplication), Ceph (clusterisé, flexible) ou SAN/NFS/iSCSI classique. VMware s’accorde bien avec SAN/NFS et vSAN. Mais le stockage est l’endroit où votre choix devient un mode de vie.
Blague #2 : Le stockage est facile — jusqu’à ce que vous ayez besoin qu’il soit correct, rapide et peu cher en même temps.
Choix de stockage : ZFS, Ceph, vSAN, SAN/NAS — choisissez votre douleur
ZFS sur Proxmox : fort effet de levier, forte responsabilité
ZFS attire parce qu’il est riche opérationnellement : snapshots, réplication, checksums, compression et outils clairs. Le piège est de traiter ZFS comme un contrôleur RAID. Ce n’en est pas un. C’est une plateforme de stockage.
Où ZFS brille sur Proxmox :
- ZFS local pour un stockage rapide et prévisible par nœud
- Workflows basés sur les snapshots, réplication et rollbacks rapides
- Compression pour échanger CPU contre I/O (souvent un gain)
Où ZFS peut mordre :
- Mauvaises hypothèses de dimensionnement de l’ARC sur des hôtes à mémoire réduite
- Workloads d’écriture sync sans planification SLOG (ou avec un SLOG médiocre)
- S’attendre à ce qu’il se comporte comme un stockage partagé sans le concevoir ainsi
Ceph sur Proxmox : stockage partagé aux arêtes vives
Ceph vous offre du stockage distribué avec redondance et flexibilité. Il vous offre aussi un nouveau domaine opérationnel. Vous exécutez maintenant un cluster de stockage à l’intérieur de votre cluster de virtualisation — génial quand c’est bien fait, bruyant quand c’est mal fait.
Ceph a du sens quand :
- Vous avez besoin de stockage partagé et souhaitez éviter une dépendance SAN
- Vous disposez d’au moins 3+ nœuds et pouvez dédier des réseaux rapides (10/25/40/100G selon l’échelle)
- Vous pouvez standardiser les disques et planifier les domaines de panne
Ceph est une mauvaise idée quand :
- Vous sous‑dimensionnez le réseau ou mélangez des classes de disques sans précaution
- Vous attendez un comportement « set and forget »
- Vous n’avez pas le temps d’apprendre ce que les PGs, backfill et recovery font réellement à la latence
vSAN : intégration forte, mais vous achetez l’histoire complète
vSAN peut être excellent quand il est correctement dimensionné et exploité. Son avantage principal est l’intégration au modèle de gestion VMware et la supportabilité dans les organisations centrées VMware. Le compromis est le coût et la réalité que vSAN est un produit avec ses propres exigences et réglages. Vous ne pouvez pas le traiter comme un « stockage partagé magique ».
SAN/NFS : toujours ennuyeux, toujours efficace
Le stockage externe reste l’option « ennuyeuse mais correcte » pour de nombreux environnements. Quand votre SAN/NAS est bien géré, il découple le cycle de vie compute du cycle de vie stockage. Vous pouvez remplacer des hôtes sans toucher au placement des données. C’est un avantage opérationnel réel.
L’astuce : cela ajoute un fournisseur et une dépendance réseau, et vous devez comprendre le multipathing et les profondeurs de file d’attente. Ignorer ces détails, c’est finir avec 30 % de CPU hôte inactif pendant que vos VM calment sur I/O.
Opérations : day‑2, mises à jour, automatisation et dépannage
Mises à jour et gestion du cycle de vie
VMware a souvent des schémas de mise à jour bien balisés, surtout avec des fenêtres de changement établies et des éditeurs qui fournissent des matrices de compatibilité. Cette prévisibilité compte.
Proxmox : les mises à jour sont généralement simples, mais ce sont des mises à jour Linux. Vous vivez dans le monde APT, kernel, firmware. C’est une fonctionnalité si vous aimez le contrôle ; c’est une taxe si vous ne voulez pas y penser.
Automatisation et IaC
Les deux peuvent être automatisés. VMware dispose d’outils mûrs dans de nombreuses entreprises et de décennies d’attention écosystémique. Proxmox prend également en charge l’automatisation via API de manière propre ; si vous avez une forte culture Linux/IaC, vous pouvez aller très vite.
La question pratique : pouvez‑vous faire répéter la plateforme de la même façon à chaque fois, avec contrôle des changements et preuves d’audit ? Sinon, vous n’avez pas d’automatisation — vous avez des scripts.
Philosophie de dépannage : boîte noire vs boîte en verre
VMware se comporte souvent comme un appliance : interfaces polies, logs structurés et voies de support éditeur. Proxmox se comporte comme Linux : si vous savez où regarder, vous pouvez comprendre et réparer presque tout. Si vous ne savez pas, vous pouvez aussi casser presque tout. La liberté, c’est comme ça.
Une citation opérationnelle qui tient : « L’espérance n’est pas une stratégie. »
— General Gordon R. Sullivan. Elle doit figurer dans chaque revue d’incident et chaque plan de migration.
Trois mini‑histoires d’entreprise depuis le terrain
Mini‑histoire n°1 : l’incident causé par une mauvaise hypothèse
L’entreprise était en pleine migration d’un ancien cluster VMware vers un nouveau cluster Proxmox. Le plan de projet avait un joli tableau : VLANs mappés, plages IP réservées, pools de stockage nommés. Tout le monde se sentait organisé. Tout le monde supposait aussi la même chose : les jumbo frames étaient « déjà activés ».
Ils ont construit un cluster Proxmox backed par Ceph et ont commencé à déplacer quelques bases de données moyennes. La première semaine s’est bien passée — parce que la charge était faible. La deuxième semaine, les jobs de reporting ont frappé, une récupération Ceph s’est déclenchée après le remplacement d’un disque, et la latence est partie de travers. L’équipe a poursuivi le mauvais coupable : ils ont tuné Ceph, ajusté les paramètres de recovery, déplacé les poids OSD. Ça a aidé un peu, mais pas assez.
Finalement, quelqu’un a fait la vérification peu glamour : MTU bout à bout. Un switch sur le chemin avait un MTU non concordant. Pas « légèrement différent ». Il fragmentait et dropait dans un schéma qui pénalisait exactement le trafic dont dépend Ceph. Le cluster n’était pas « lent ». Il se battait avec le réseau.
La correction fut ennuyeuse : corriger le MTU sur le switch, valider avec des pings de taille de paquet, et relancer les tests de performance. La latence s’est normalisée. La note post‑incident fut encore plus ennuyeuse : « Cessez de supposer que les paramètres réseau sont cohérents. Vérifiez. » Cette note leur a sauvé la vie plus tard lorsqu’ils ont ajouté un second rack avec un modèle de switch différent.
La leçon : les problèmes de stockage commencent souvent par des mensonges réseau.
Mini‑histoire n°2 : l’optimisation qui s’est retournée contre eux
Une autre organisation tournait VMware avec un SAN. Ils étaient fiers de leur culture de tuning performance — profondeurs de file, multipathing, toute la parade. Quelqu’un a remarqué des pics de latence périodiques et a décidé que le SAN devait être « trop conservateur » avec le cache. Le plan : accroître l’agressivité, tuner les paramètres hôtes et tirer plus de débit.
Pendant un mois, ça a paru formidable. Les benchmarks s’amélioraient. Les tableaux de bord montraient de meilleures moyennes. Le problème était que la charge réelle n’était pas moyenne. Elle était bursty et impitoyable : jobs ETL nocturnes plus OLTP soutenu plus fenêtres de sauvegarde.
Un vendredi, pendant une sauvegarde riche en snapshots, le comportement du cache SAN a changé sous la pression. La latence a explosé, les VM se sont figées, les timeouts applicatifs se sont enchaînés et l’incident est devenu un festival de blâme multi‑équipes. Le tuning n’était pas « mal », mais il a supprimé des marges de sécurité dont ils ne mesuraient pas le besoin.
Ils ont annulé les changements agressifs, construit un benchmark plus réaliste basé sur les patterns I/O de production et ajouté des garde‑fous : tout changement de performance nécessite une fenêtre canari et des critères explicites de rollback. L’optimisation n’était pas malveillante. L’hypothèse non testée l’était.
Mini‑histoire n°3 : la pratique ennuyeuse mais correcte qui a sauvé la mise
Une entreprise SaaS de taille moyenne tournait Proxmox avec ZFS local sur chaque nœud et utilisait Proxmox Backup Server pour des sauvegardes nocturnes plus une synchronisation hebdomadaire hors site. Ils faisaient aussi quelque chose d’impopulaire : des exercices trimestriels de restauration. Pas un « exercice sur table ». Des restaurations réelles dans un réseau isolé, avec les responsables applicatifs validant les données.
Un trimestre, un développeur a accidentellement exécuté un script de migration destructeur contre la production. Ce n’était pas malveillant. C’était une mauvaise variable d’environnement et un vendredi après‑midi. Les données ont été corrompues logiquement, et les snapshots du système de stockage n’ont pas aidé car la corruption s’est propagée rapidement.
L’équipe a déclaré un incident, gelé les écritures et restauré depuis PBS vers un ensemble de VM propres. La restauration a pris du temps, mais ce fut un temps prévisible. Leur runbook avait les commandes exactes, le débit attendu et les points de contrôle pour la validation. Pas d’héroïsme. Pas de tuning panique. Juste de l’exécution.
Plus tard, la direction a demandé pourquoi l’incident n’avait pas empiré. La réponse fut douloureusement terne : « Parce que nous avons pratiqué les restaurations comme si nous le pensions vraiment. » C’est ainsi qu’on achète de la fiabilité sans acheter de miracles.
Tâches pratiques : 12+ commandes pour vérifier la réalité
Voici les vérifications que j’exécute avant de croire un tableau de bord. Chaque élément inclut (1) une commande, (2) ce que signifie la sortie, et (3) la décision que vous prenez.
1) Proxmox : vérifier le quorum du cluster et la santé des nœuds
cr0x@server:~$ pvecm status
Quorum information
------------------
Date: 2025-12-28 10:22:11
Quorum provider: corosync_votequorum
Nodes: 3
Node ID: 0x00000001
Ring ID: 1/24
Quorate: Yes
Votequorum information
----------------------
Expected votes: 3
Highest expected: 3
Total votes: 3
Quorum: 2
Flags: Quorate
Signe : « Quorate: Yes » signifie que le cluster peut prendre des décisions HA en toute sécurité. S’il n’est pas quorate, la HA est effectivement compromise.
Décision : Si non quorate, arrêtez les migrations et la maintenance planifiée. Réparez d’abord la connectivité corosync (réseau, configuration multicast/unicast, reachability des nœuds).
2) Proxmox : trouver les ressources HA bloquées ou en oscillation
cr0x@server:~$ ha-manager status
quorum OK
master pve01 (active, Fri Dec 28 10:22:30 2025)
service vm:101 (started)
service vm:120 (error)
last error: unable to acquire lock - timeout
Signe : Une ressource en error indique souvent des problèmes de verrouillage de stockage, partitions réseau ou un nœud qui n’a pas accès au stockage requis.
Décision : Ne faites pas de « retry until it works ». Identifiez pourquoi les locks ne peuvent être acquis : disponibilité du stockage, état du système de fichiers cluster, ou nœud avec état obsolète.
3) Proxmox : confirmer les backends de stockage et l’espace libre
cr0x@server:~$ pvesm status
Name Type Status Total Used Available %
local dir active 19660800 10526720 9134080 53.55%
local-zfs zfspool active 499963904 402653184 97310720 80.54%
ceph-rbd rbd active 2097152000 805306368 1291845632 38.41%
Signe : Vous cherchez des stockages proches du plein (ZFS à ~80% est déjà un signal d’alerte selon la charge).
Décision : Si ZFS tend vers le haut, planifiez de la réclamation ou une expansion avant que la performance et la fragmentation ne deviennent problématiques. Pour Ceph, regardez les quotas de pool et le surcoût de réplication.
4) Hôte Linux/KVM : vérifier la pression mémoire (activité de swap)
cr0x@server:~$ vmstat 1 5
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
2 0 10240 61248 14400 820000 0 0 10 40 220 310 12 4 78 6 0
4 1 10240 59812 14388 818900 0 0 120 200 410 620 22 6 58 14 0
3 0 10240 59010 14380 817500 0 0 130 180 405 610 20 5 61 14 0
5 1 10240 58500 14376 816800 0 0 160 220 430 670 25 6 55 14 0
4 0 10240 58020 14370 816100 0 0 150 210 420 650 23 6 57 14 0
Signe : si/so proches de zéro signifie pas de swap actif (bon). Un wa élevé suggère un I/O wait.
Décision : Si si/so augmente, réduisez l’overcommit mémoire ou corrigez le comportement de ballooning ; si wa est élevé, passez aux vérifications de stockage.
5) Proxmox : identifier quelles VM consomment beaucoup d’I/O disque
cr0x@server:~$ pvesh get /nodes/pve01/qemu --output-format json-pretty
[
{
"vmid": 101,
"name": "db01",
"status": "running",
"cpu": 0.62,
"mem": 17179869184,
"maxmem": 34359738368,
"diskread": 104857600,
"diskwrite": 52428800,
"netin": 8388608,
"netout": 9437184
}
]
Signe : Les compteurs diskread/diskwrite aident à pointer les voisins bruyants.
Décision : Si une VM domine, envisagez de la déplacer vers un stockage plus rapide, l’isoler ou corriger le pattern I/O applicatif avant d’accuser l’hyperviseur.
6) ZFS : vérifier l’état du pool et les erreurs
cr0x@server:~$ zpool status -x
all pools are healthy
Signe : Pas d’erreurs de vdev connues, pas de pool dégradé.
Décision : Si vous voyez des erreurs de checksum ou un vdev dégradé, traitez‑le comme un incident matériel et planifiez un remplacement ; ne « attendez et voyez » pas pendant que des VM se corrompent silencieusement.
7) ZFS : vérifier les propriétés des datasets qui affectent la latence VM
cr0x@server:~$ zfs get compression,recordsize,atime,sync tank/vmdata
NAME PROPERTY VALUE SOURCE
tank/vmdata compression lz4 local
tank/vmdata recordsize 128K local
tank/vmdata atime off local
tank/vmdata sync standard local
Signe : compression=lz4 est généralement avantageux. Le recordsize affecte les workloads séquentiels ; les patterns de bloc VM varient. sync importe beaucoup pour les bases de données.
Décision : Pour les VM DB‑heavy, validez le comportement sync et envisagez des datasets séparés ou une planification SLOG. Ne copiez pas bêtement des changements de recordsize sans mesurer.
8) Ceph : vérifier la santé du cluster et l’impact de la recovery
cr0x@server:~$ ceph -s
cluster:
id: 7c2a9d8b-1b2f-4c2c-9d4e-1a2b3c4d5e6f
health: HEALTH_WARN
1 osds down
Degraded data redundancy: 12/360 objects degraded
services:
mon: 3 daemons, quorum pve01,pve02,pve03
mgr: pve01(active), standbys: pve02
osd: 9 osds: 8 up, 9 in
data:
pools: 3 pools, 192 pgs
objects: 120k objects, 460 GiB
usage: 1.4 TiB used, 3.2 TiB / 4.6 TiB avail
pgs: 12 active+undersized+degraded, 180 active+clean
Signe : PGs dégradés et OSD down signifient que la recovery/backfill concurrencera l’I/O client et augmentera la latence.
Décision : Réparez l’OSD down et envisagez de limiter temporairement recovery/backfill pendant les heures ouvrées — avec précaution — puis restaurez les valeurs par défaut.
9) Ceph : repérer les slow ops (fumée de latence)
cr0x@server:~$ ceph health detail
HEALTH_WARN 1 osds down; Degraded data redundancy
[WRN] OSD_DOWN: 1 osds down
osd.7 is down
[WRN] SLOW_OPS: 12 slow ops, oldest one blocked for 33 sec, osd.3 has slow ops
Signe : Les slow ops indiquent que le cluster de stockage ne peut pas suivre (disque, réseau, recovery, ou configuration).
Décision : Corrélez avec les erreurs réseau et la latence disque sur les nœuds OSD. N’ajoutez pas d’autres VM sur un cluster en difficulté.
10) Réseau : vérifier le MTU bout à bout (jumbo frames)
cr0x@server:~$ ping -M do -s 8972 -c 3 10.20.30.11
PING 10.20.30.11 (10.20.30.11) 8972(9000) bytes of data.
8980 bytes from 10.20.30.11: icmp_seq=1 ttl=64 time=0.412 ms
8980 bytes from 10.20.30.11: icmp_seq=2 ttl=64 time=0.398 ms
8980 bytes from 10.20.30.11: icmp_seq=3 ttl=64 time=0.405 ms
--- 10.20.30.11 ping statistics ---
3 packets transmitted, 3 received, 0% packet loss, time 2003ms
Signe : Des pings à gros payload réussis indiquent que MTU 9000 fonctionne sur ce chemin (au moins en ICMP).
Décision : Si cela échoue, cessez de débattre du tuning stockage et corrigez la consistance MTU entre NICs, bonds, bridges, switches et VLANs.
11) Hôte Linux : vérifier erreurs et drops NIC
cr0x@server:~$ ip -s link show dev bond0
3: bond0: <BROADCAST,MULTICAST,MASTER,UP,LOWER_UP> mtu 9000 qdisc noqueue state UP mode DEFAULT group default qlen 1000
link/ether 3c:fd:fe:aa:bb:cc brd ff:ff:ff:ff:ff:ff
RX: bytes packets errors dropped missed mcast
981G 812M 0 124 0 1023
TX: bytes packets errors dropped carrier collsns
870G 790M 0 2 0 0
Signe : Les drops peuvent indiquer congestion, problèmes de buffer ou mauvaise configuration. Les erreurs indiquent des problèmes physiques ou de pilote.
Décision : Si les drops augmentent pendant les incidents, investiguez les buffers de switch, LACP, pilote/firmware NIC et shaping du trafic pour les réseaux Ceph/stockage.
12) Proxmox : vérifier si un nœud est surchargé (CPU, iowait)
cr0x@server:~$ pveperf
CPU BOGOMIPS: 153600.00
REGEX/SECOND: 2345678
HD SIZE: 102400.00 GB (tank)
FSYNCS/SECOND: 1890.12
DNS EXT: 52.34 ms
DNS INT: 0.19 ms
Signe : FSYNCS/SECOND est un proxy rapide pour la performance des écritures sync. Les spikes DNS EXT peuvent indiquer des problèmes réseau ou de résolveur.
Décision : Si fsync est bas par rapport aux attentes, regardez le comportement sync ZFS, SLOG, latence disque et réglages du contrôleur avant d’accuser les VM.
13) VMware ESXi : vérifier le matériel hôte et la santé des pilotes
cr0x@server:~$ esxcli hardware platform get
Platform Information
UUID: 4c4c4544-0038-4b10-8050-b3c04f4b4c31
Product Name: PowerEdge R750
Vendor Name: Dell Inc.
Serial Number: ABCDEF1
Enclosure Serial Number: XYZ1234
Signe : Confirme l’identité de l’hôte — utile quand vous suspectez un « nœud bizarre » avec un firmware différent.
Décision : Si un nœud se comporte différemment, vérifiez la parité firmware/driver à travers le cluster, pas seulement la parité de configuration.
14) VMware ESXi : vérifier la capacité du datastore et le risque de thin provisioning
cr0x@server:~$ esxcli storage filesystem list
Mount Point Volume Name UUID Mounted Type Size Free
/vmfs/volumes/64f0a2b2-9c7a12e0-1b2c-001b21aabbcc datastore1 64f0a2b2-9c7a12e0-1b2c-001b21aabbcc true VMFS-6 1099511627776 85899345920
Signe : Un datastore de 1 To avec ~80 Go libre est dangereusement proche d’un échec opérationnel selon les patterns de snapshot et swap.
Décision : Si l’espace libre est faible, supprimez/committez les snapshots, migrez des VM ou augmentez la capacité immédiatement. Les événements de datastore plein ne sont pas une leçon de caractère.
15) VMware ESXi : vérifier l’état des liens NIC et la vitesse/duplex
cr0x@server:~$ esxcli network nic list
Name PCI Device Driver Admin Status Link Status Speed Duplex MAC Address MTU Description
vmnic0 0000:3b:00.0 i40en Up Up 25000 Full 3c:fd:fe:11:22:33 9000 Intel(R) Ethernet Controller E810
Signe : Confirme que le lien est up à la vitesse et au MTU attendus. Un seul hôte négociant à 10G dans un cluster 25G ruine votre journée en silence.
Décision : Si la vitesse du lien est erronée, vérifiez la configuration du port switch, les transceivers, le câblage et le firmware NIC ; ne compensez pas en logiciel.
Mode opératoire de diagnostic rapide : trouver le goulot vite
Voici le flux « arrêtez de scroller les dashboards et commencez à isoler ». Utilisez‑le pour Proxmox et VMware.
Première étape : déterminer si le problème est compute, stockage ou réseau
- Vérifiez la contention CPU de l’hôte : une charge élevée plus une latence VM peut être de l’ordonnancement CPU. Si le CPU est bas mais les apps lentes, c’est généralement stockage ou réseau.
- Vérifiez le I/O wait : sur les hôtes Linux, un
waélevé dansvmstatest un signal stockage. Sur VMware, corrélez la latence datastore et la latence au niveau VM. - Vérifiez les drops/erreurs réseau : un petit nombre de drops pendant un pic peut créer de gros problèmes applicatifs « aléatoires ».
Deuxième : vérifier les « dépendances partagées » qui créent un rayon d’explosion
- Santé du stockage partagé (Ceph health, état pool ZFS, pathing SAN)
- Santé du quorum/gestion du cluster (corosync quorum, disponibilité vCenter)
- DNS/dérive temporelle (un mauvais DNS peut ressembler à tout qui est cassé ; la dérive temporelle casse l’auth et le clustering)
Troisième : isoler une VM canari et mesurer
- Choisissez une VM affectée et exécutez une vérification applicative (latence transactionnelle, temps de requête).
- Corrélez avec les métriques hôte et stockage.
- Si déplacer la VM sur un autre hôte change le symptôme, vous avez un « nœud mauvais » ou un problème de localité.
Quatrième : arrêter l’hémorragie avant d’optimiser
- Pausez les migrations si le cluster est instable.
- Réduisez temporairement l’agressivité de recovery/backfill si la recovery stockage écrase la latence.
- Libérez de l’espace immédiatement si un datastore/pool est proche du plein.
Erreurs courantes : symptômes → cause racine → correction
1) Symptom: VM migrations are slow or fail randomly
1) Symptom : les migrations VM sont lentes ou échouent aléatoirement
Cause racine : MTU mismatch, pertes de paquets sur le réseau de stockage/migration, ou incompatibilité des modèles CPU entre hôtes.
Correction : Vérifiez le MTU bout à bout avec de gros pings ; contrôlez les drops NIC ; standardisez le type CPU/baseline à travers le cluster et validez avant les mises à jour.
2) Symptom: “Storage is slow” only during rebuilds or disk failures
2) Symptom : « Le stockage est lent » seulement pendant les rebuilds ou pannes disque
Cause racine : recovery/backfill Ceph/vSAN qui concurrence l’I/O client ; processus de rebuild SAN qui saturent le backend ; resilver ZFS sur un pool occupé.
Correction : Conception pour la panne : disques plus rapides, réseaux séparés, redondance appropriée, et throttles de recovery explicites avec procédure documentée et rollback.
3) Symptom: periodic latency spikes, then everything looks fine
3) Symptom : pics de latence périodiques, puis tout redevient normal
Cause racine : orages de snapshots, fenêtres de sauvegarde, pics de rotation de logs, limites de queue depth, ou uplinks sur‑sous‑dimensionnés.
Correction : Déplacez les fenêtres de sauvegarde, limitez l’âge des snapshots, validez queue depth et multipathing, et mesurez l’utilisation uplink avec drops/erreurs.
4) Symptom: cluster shows healthy, but app timeouts increase
4) Symptom : le cluster est vert, mais les timeouts applicatifs augmentent
Cause racine : problèmes DNS, dérive temporelle, ou dépendances applicatives qui échouent (non visibles au niveau hyperviseur).
Correction : Vérifiez NTP/chrony, latence du résolveur et métriques applicatives. Ne laissez pas un « cluster green » clore l’investigation.
5) Symptom: ZFS pool looks healthy, but VM disk latency is high
5) Symptom : le pool ZFS semble sain, mais la latence disque VM est élevée
Cause racine : pression d’écritures sync sans SLOG adéquat, pool trop plein avec fragmentation, ou mauvais alignement workload → vdev.
Correction : Gardez de l’espace libre dans le pool, validez le comportement sync par dataset et dimensionnez les vdevs pour les IOPS (mirrors pour IOPS, RAIDZ pour capacité).
6) Symptom: “We added faster SSDs but it didn’t help”
6) Symptom : « On a ajouté des SSD plus rapides mais ça n’a rien changé »
Cause racine : le goulot est réseau (drops/MTU), contention CPU, ou limites du protocole de stockage (chemin unique, mauvais multipathing).
Correction : Reprenez le playbook de diagnostic rapide ; confirmez où la latence prend naissance avant d’acheter plus de matériel.
Listes de contrôle / plan étape par étape
Checklist A: choosing Proxmox in 2026 (the sane path)
Checklist A : choisir Proxmox en 2026 (la voie sensée)
- Décidez d’abord de votre modèle de stockage : ZFS local + réplication, Ceph, ou SAN/NFS externe. Ne « réglez pas ça plus tard ».
- Standardisez le matériel : mêmes NICs, mêmes classes de disques, même firmware. L’hétérogénéité est la naissance des mystères.
- Concevez les réseaux explicitement : management, trafic VM, stockage (Ceph), migration. Documentez le MTU par réseau et validez‑le.
- Choisissez une stratégie de sauvegarde : PBS avec sync hors site ; définissez RPO/RTO et testez les restaurations trimestriellement.
- Construisez en pensant à la panne : planifiez un nœud down, un disque down, un switch down — puis testez.
- Exécutez un pilote avec de vraies charges : pas seulement des synthétiques, pas des VM « hello world ». Incluez sauvegardes, restaurations et fenêtres de maintenance.
Checklist B: staying on VMware ESXi without sleepwalking into cost shock
Checklist B : rester sur VMware ESXi sans s’endormir jusqu’au choc des coûts
- Inventoriez ce que vous utilisez réellement : HA, comportement type DRS, vSAN, switching distribué, intégrations de sauvegarde.
- Mappez le coût des fonctionnalités aux résultats : « Nous payons pour X » devrait se traduire par « X réduit les incidents ou le travail ». Si non, questionnez‑le.
- Validez les options de sortie : assurez‑vous que les formats VM, restaurations de sauvegarde et designs réseau sont reproductibles ailleurs.
- Nettoyez l’hygiène des snapshots et datastores : la plupart des problèmes de performance VMware sont des échecs de gouvernance.
- Standardisez firmware et drivers des hôtes : les bugs les plus bizarres vivent souvent à la frontière du « presque pareil ».
Checklist C: migration plan (ESXi → Proxmox) that won’t wreck a quarter
Checklist C : plan de migration (ESXi → Proxmox) qui ne ruinera pas un trimestre
- Classez les charges : pets (legacy, fragile) vs cattle (stateless, reconstruisible) et migrez les cattle en premier.
- Définissez des métriques de succès : latence, débit, temps de sauvegarde, temps de restauration, taux d’incidents.
- Construisez un réseau équivalent : VLANs, routage, firewalling, MTU. Validez avec des tests, pas des diagrammes.
- Choisissez une approche de conversion : export/convert par VM, sauvegarde‑restauration, ou rebuild applicatif pour les services modernes.
- Exécutez des sauvegardes en parallèle pendant une période : les sauvegardes sur la nouvelle plateforme doivent être prouvées avant de décommissionner l’ancien filet de sécurité.
- Planifiez les basculements avec rollback : chaque vague de migration a besoin d’un « comment revenir » exécutable rapidement.
FAQ
1) Is Proxmox “enterprise-ready” in 2026?
1) Proxmox est‑il « prêt pour l’entreprise » en 2026 ?
Oui, si vous l’exploitez comme une plateforme d’entreprise : matériel standardisé, contrôle discipliné des changements, sauvegardes testées et personnes capables de déboguer le stockage et le réseau Linux. Si vous voulez une expérience appliance avec un énorme écosystème vendeur, VMware garde un avantage.
2) Will performance be worse on Proxmox than ESXi?
2) Les performances sont‑elles moins bonnes sur Proxmox que sur ESXi ?
Pas automatiquement. KVM offre de bonnes performances. La différence vient généralement du stockage et du design réseau, pas du surcoût de virtualisation CPU. Mesurez la latence et la contention, pas l’impression.
3) Should I run Ceph with only three nodes?
3) Dois‑je exécuter Ceph avec seulement trois nœuds ?
Vous pouvez, mais soyez honnête sur les compromis : flexibilité limitée des domaines de panne et pression de recovery peuvent être dures. Si vos charges sont modestes, ZFS local + réplication + bonnes sauvegardes peut offrir une histoire de fiabilité meilleure.
4) Is vSAN easier than Ceph?
4) vSAN est‑il plus simple que Ceph ?
Opérationnellement, vSAN est souvent plus simple dans les organisations centrées VMware parce qu’il s’intègre aux outils et modèles mentaux existants. Ceph est puissant mais demande plus de maîtrise. La facilité dépend de ce que votre équipe connaît déjà.
5) What’s the biggest reason Proxmox deployments fail?
5) Quelle est la principale raison d’échec des déploiements Proxmox ?
Les équipes le traitent comme un « VMware bon marché » et sautent l’ingénierie : séparation réseau, validation MTU, dimensionnement du stockage et tests de restauration. L’hyperviseur ne vous protège pas des raccourcis de conception.
6) What’s the biggest reason VMware deployments fail?
6) Quelle est la principale raison d’échec des déploiements VMware ?
La pourriture de gouvernance : prolifération des snapshots, overcommit sans supervision, négligence de la capacité des datastores et « on mettra à jour plus tard » jusqu’à ce que « plus tard » devienne un incident. Les outils sont excellents ; les humains sont la variable.
7) Can I mix containers and VMs safely on Proxmox?
7) Puis‑je mélanger conteneurs et VM en sécurité sur Proxmox ?
Oui. LXC est utile, mais traitez les conteneurs comme un modèle d’isolation différent des VM. Appliquez un renforcement hôte plus strict, le principe du moindre privilège et des politiques réseau prudentes. Et ne lancez pas des « conteneurs mystère » en root parce que c’est pratique.
8) What should I standardize first if I’m building a new cluster?
8) Que devrais‑je standardiser en premier si je construis un nouveau cluster ?
Le réseau et le stockage. Le CPU et la RAM sont comparatively indulgents. Un cluster avec MTU incohérent, firmware NIC mixte et stockage improvisé est un générateur d’incidents avec une GUI.
9) Do I need a SAN if I choose Proxmox?
9) Ai‑je besoin d’un SAN si je choisis Proxmox ?
Non. Mais vous avez besoin d’une histoire de stockage cohérente. Si vous ne voulez pas exploiter un stockage distribué, un SAN/NAS peut être l’option la plus ennuyeuse — et donc la plus fiable — opérationnellement.
10) How do I avoid lock-in either way?
10) Comment éviter le verrouillage fournisseur dans les deux cas ?
Concevez autour des résultats : RPO/RTO documentés, portabilité des sauvegardes, reproductibilité réseau et « workload as code » quand c’est possible. Le verrouillage survient quand un seul outil peut exprimer votre intention opérationnelle.
Étapes suivantes à réaliser cette semaine
Si vous décidez pour 2026, cessez de débattre et commencez à valider :
- Exécutez un pilote sur le matériel que vous pouvez réellement acheter et supporter. Ne benchmarkez pas sur un serveur licorne.
- Mesurez la latence de stockage en panne : simulez un disque down ou un recovery/backfill et observez l’effet sur les temps de réponse des VM.
- Prouvez le temps de restauration : choisissez une VM représentative et faites une restauration complète. Chronométrez‑la. Documentez‑la. Répétez.
- Inventoriez les dépendances cachées : agents de sauvegarde, monitoring, reporting conformité, appliances vendor. Faites une liste de ce qui doit fonctionner le jour J.
- Choisissez la plateforme qui correspond aux compétences de votre équipe, pas celle qui fait la plus belle slide. La fiabilité est une propriété organisationnelle portant un chapeau technique.
Si vous voulez un avis franc et direct : Proxmox est le meilleur choix pour de nombreuses organisations capables de bien exploiter Linux et qui valorisent le contrôle des coûts et la transparence. VMware reste un bon choix quand vous achetez la maturité de l’écosystème et la mémoire institutionnelle. Choisissez en fonction de l’incident que vous pouvez vous permettre — et celui que vous ne pouvez pas.