Latences RAM sans douleur : MHz vs CL et quoi acheter

novembre 10, 2025 • février 3, 2026 • Lecture : 31 min • Views: 0

Cet article vous a aidé ?

Douleur réelle : vous avez mis à niveau la mémoire, votre BIOS affiche fièrement un chiffre plus élevé, et pourtant votre compilation, rendu ou jeu semble… identique. Ou pire : redémarrages aléatoires, erreurs WHEA et une instabilité qui vous fait douter de vos choix de vie.

Le marketing de la RAM est un tour de magie à deux chiffres : MHz (ou MT/s) en gros, CL sur le côté, et beaucoup de « faites-moi confiance » dans l’air. Transformons cela en une décision que vous pouvez prendre en connaissance de cause, et en une panne que vous pouvez diagnostiquer rapidement, en adoptant la même approche que pour garder des systèmes de production ennuyeux.

Les deux chiffres : MT/s et CL (et pourquoi les deux peuvent induire en erreur)

La plupart des gens achètent de la RAM comme ils choisissent un forfait Internet : le chiffre le plus grand gagne. Les vendeurs de RAM encouragent cela. Mais la « vitesse RAM » n’est pas une seule chose. C’est un ensemble : bande passante, latence, comportement du contrôleur, topologie et une couche d’entraînement mémoire du BIOS qui ressemble à une petite négociation au démarrage avec les lois de la physique.

Première chose : « MHz » sur la RAM DDR est généralement MT/s

Quand vous voyez DDR4-3200 ou DDR5-6000, ce nombre est le débit de données, en MT/s (méga-transferts par seconde). Les gens l’appellent MHz parce que ça ressemble à du MHz et que les marketeurs ne les corrigent pas.

DDR = double data rate. Les données se déplacent sur les deux fronts d’horloge.
Donc l’horloge est environ la moitié de la valeur MT/s. DDR4-3200 a une horloge d’environ 1600 MHz.
La vignette indique généralement « 3200 MHz » parce que l’autocollant n’aime pas l’exactitude.

Deuxième chose : CL est des cycles, pas du temps

CL (CAS Latency) est mesuré en cycles. Moins c’est mieux… sauf si vous avez aussi changé l’horloge. Un kit CL16 à 3200 MT/s n’est pas automatiquement meilleur qu’un kit CL36 à 7200 MT/s. L’un a moins de cycles, l’autre a des cycles plus courts.

Et CL n’est pas toute l’histoire des timings. La RAM a un petit livre de timings (tRCD, tRP, tRAS, tRFC, command rate) qui importent différemment selon les modèles d’accès. Mais vous n’avez pas besoin de les mémoriser pour acheter de la RAM intelligemment.

Impact sur la décision : arrêtez de comparer des chiffres CL à travers différentes vitesses comme s’ils étaient interchangeables. Convertissez en nanosecondes pour garder la raison.

Faits intéressants et contexte historique (court et concret)

Fait 1 : Les noms de timings SDRAM comme CAS latency viennent d’une époque où les puces mémoire avaient des schémas d’accès plus prévisibles et plus simples qu’aujourd’hui avec des configurations multi-bank et multi-channel.
Fait 2 : DDR est apparu autour de 2000 dans les PC grand public ; avant cela, la SDR SDRAM faisait un transfert par cycle, rendant « MHz » moins trompeur.
Fait 3 : DDR2 a introduit un préfetch plus élevé (4-bit) pour augmenter la bande passante sans augmenter agressivement la fréquence cœur.
Fait 4 : DDR3 a poussé le préfetch encore plus loin (8-bit) et a rendu le marketing de la « vitesse effective » quasi permanent.
Fait 5 : DDR4 a resserré la gestion d’alimentation (par ex. bank groups) mais a aussi compliqué le mythe d’un timing unique expliquant tout.
Fait 6 : DDR5 a divisé les DIMM en deux sous-canaux 32-bit (sur les UDIMM typiques), améliorant le parallélisme et changeant certains comportements de tuning pratiques.
Fait 7 : Les profils XMP des constructeurs ont commencé comme une commodité ; ils sont maintenant fonctionnellement des « presets d’overclocking » que les gens prennent pour des valeurs par défaut.
Fait 8 : Les plateformes serveurs se sont appuyées pendant des décennies sur les spécifications JEDEC et l’ECC parce que « ça démarre » n’est pas la même chose que « ça tourne pendant 18 mois ».

Blague n°1 : les spécifications RAM sont comme des CV — tout le monde prétend être « dynamique », mais un seul se présentera à l’heure.

Le seul calcul de latence dont vous avez réellement besoin

Quand les gens débattent « 3200 CL16 vs 3600 CL18 », ils essaient de comparer du temps. CL n’est pas du temps. On calcule donc le temps.

Vraie latence CAS (approximative, mais utile)

Latence CAS approximative en nanosecondes :

tCAS(ns) ≈ (CL / (MT/s ÷ 2)) × 1000

Pourquoi ? MT/s ÷ 2 donne l’horloge en MHz. 1 MHz = 1 microseconde par cycle ; multipliez de façon appropriée et vous obtenez des nanosecondes.

Exemples :

DDR4-3200 CL16 : horloge ~1600 MHz → 16/1600 µs = 0.010 µs = 10 ns
DDR4-3600 CL18 : horloge ~1800 MHz → 18/1800 µs = 0.010 µs = 10 ns
DDR5-6000 CL30 : horloge ~3000 MHz → 30/3000 µs = 0.010 µs = 10 ns

Ces trois kits sont « équivalents » en latence CAS, du moins sur le papier. Mais ils peuvent différer notablement en bande passante, timings secondaires, tension imposée au contrôleur mémoire et marge de stabilité.

La latence, c’est plus que le CAS

La latence d’accès mémoire aléatoire inclut plus que le CAS : activation de ligne, précharge, conflits de banques, mise en file d’attente dans le contrôleur mémoire et effets de la hiérarchie de cache. Votre application ne vit pas uniquement dans la latence CAS. Le chiffre « 10 ns » est un indicateur, pas une prophétie.

Règle pratique : si deux kits ont à peu près la même vraie latence (ns), préférez celui avec un débit de données plus élevé si vous savez que votre plateforme le fera fonctionner de façon stable. Sinon, privilégiez la stabilité et la capacité.

Bande passante vs latence : choisissez le vrai goulot

Certaines charges recherchent la bande passante : GPU intégré, lectures/écritures en flux massif, CPU multi-cœur effectuant des scans parallèles, compression et certaines opérations de bases de données. D’autres recherchent la latence : jeux avec simulation côté CPU et beaucoup de pointer-chasing, certains outils EDA, certains compilateurs et la réactivité générale du bureau.

Et puis il y a la vérité gênante : pour beaucoup d’utilisateurs, le goulot est « pas assez de RAM », donc tout swappe, et discuter du CL revient à parler de pression des pneus alors que la voiture est en feu.

Ce qui compte selon la charge : jeux, dev, données, VMs, stockage

Jeux (GPU discret)

Les jeux modernes sont souvent sensibles à la latence mémoire et à la régularité des temps de frame. Un kit mémoire légèrement meilleur peut améliorer les 1% lows plus que le FPS moyen. Mais la capacité et la stabilité dominent encore l’expérience : les saccades dues au paging ou aux erreurs mémoire ne sont pas du « caractère ».

À faire : visez une vitesse « sweet spot » sensée pour votre plateforme (plus loin dans l’article).
Éviter : courir après des débits DDR5 extrêmes si cela oblige à des timings lâches, des tensions élevées ou une instabilité.
Réalité capacité : 32 GB est le palier moderne « n’y pensez plus » pour le jeu + applications en arrière-plan.

Jeux (GPU intégré / APU)

Si votre GPU utilise la mémoire système, la bande passante est reine. C’est là que des MT/s plus élevés peuvent vraiment payer. Mais la plateforme doit rester stable sous charge soutenue — les iGPU vont réellement solliciter la mémoire.

Développement logiciel : compilateurs, systèmes de build, containers

Les compilations sollicitent fortement les caches CPU, mais de grands builds provoquent aussi beaucoup de trafic mémoire : lecture d’en-têtes, linkage et jobs parallèles. Si vous êtes limité par le CPU, une RAM plus rapide fait rarement des miracles. Si vous êtes limité par l’E/S (stockage lent, cache froid), la vitesse de la RAM n’est pas votre premier levier.

Là où la RAM aide le plus les développeurs : plus de capacité, pour que votre working set reste en mémoire, que le cache du système de fichiers reste chaud et que vos containers ne se battent pas pour des miettes.

Travail sur données : analytique, ETL, scans colonne

Les scans massifs et opérations vectorisées peuvent aimer la bande passante, surtout quand le CPU a de nombreux cœurs et peut émettre beaucoup de requêtes concurrentes. Ici, augmenter les MT/s et utiliser le dual-channel (ou plus de channels sur HEDT/serveur) vaut souvent plus qu’économiser une nanoseconde sur le CAS.

Virtualisation et homelabs

Les hôtes VM sont sensibles à la latence de façon agrégée et à la bande passante sous charge. Mais ils sont intolérants aux pannes. Si vous exécutez des VMs, valorisez la stabilité, l’ECC (quand disponible) et la capacité. Overclocker la mémoire sur un hôte VM, c’est comme exécuter une base de données sur un portable posé sur une machine à laver en marche : techniquement possible, moralement pas.

Systèmes axés stockage (ZFS, bases de données, cache)

En tant qu’ingénieur stockage, voici mon biais : les performances RAM comptent moins que la correction. ZFS, les bases de données et les systèmes de fichiers utilisent la mémoire comme plan de contrôle. Un bit flip peut être une très mauvaise journée.

Si vous gérez du stockage sérieux, privilégiez les plateformes compatibles ECC, évitez de mélanger les DIMM et ne traitez pas XMP/EXPO comme un « gain gratuit ». Ce n’est pas gratuit ; c’est un prêt avec intérêt.

Une idée citée (paraphrase) : « L’espoir n’est pas une stratégie. » — souvent attribué à la culture ops ; l’idée est largement utilisée en ingénierie de fiabilité.

DDR4 vs DDR5 : ce qui a changé, ce qui n’a pas changé

DDR5 tend à démarrer « haute latence, haute bande passante »

Les premiers kits DDR5 avaient des timings CAS en cycles plus élevés, ce qui paraissait effrayant. Mais comme montré ci-dessus, la latence en nanosecondes peut être comparable. Le bénéfice principal de DDR5 est la bande passante et le parallélisme ; son avantage pratique est que les plateformes récentes sont conçues autour de DDR5.

Deux sous-canaux par DIMM change le comportement

Les UDIMM DDR5 typiques se présentent comme deux canaux 32-bit (plus les bits ECC sur l’ODC, qui n’est pas la même chose que l’ECC système). Cela améliore l’efficacité sur certains motifs d’accès parce que le contrôleur peut mieux intercaler les accès.

L’on-die ECC n’est pas l’ECC système que vous voulez

Les puces DDR5 incluent une correction d’erreur on-die pour le rendement de fabrication et la fiabilité à haute densité. Cela ne remplace pas les DIMM ECC + le support plateforme, qui protègent les données de bout en bout. Si vous avez besoin de détection/correction d’erreurs dans la mémoire système, vous avez toujours besoin de mémoire ECC et d’un CPU/carte mère qui le supporte.

Tension et PMIC déplacés sur le DIMM

Les DIMM DDR5 ont souvent un Power Management IC (PMIC) sur le module. Cela change les caractéristiques d’alimentation et peut affecter le comportement d’overclocking et les échanges thermiques. Ce n’est pas automatiquement mieux ; ce sont des compromis d’ingénierie différents.

QVL de la carte mère et entraînement mémoire : votre taxe de stabilité

Chaque plateforme a une zone de confort où le contrôleur mémoire, le BIOS et les DIMM coopèrent. Sortez de cette zone et vous payez en temps de boot allongé, en échecs d’entraînement ou en erreurs subtiles qui se manifestent comme des plantages « aléatoires ». Rien n’est aléatoire. C’est juste pas encore compris.

La QVL n’est pas un catalogue marketing ; c’est une liste de risques

Les vendeurs de cartes mères publient une Qualified Vendor List (QVL) : des kits mémoire spécifiques validés pour la carte à certaines vitesses et configurations. La QVL est-elle exhaustive ? Non. Est-elle utile ? Absolument, surtout pour les kits haute capacité, configurations 4-DIMM ou DDR5 à haut MT/s.

L’entraînement mémoire est un vrai travail

Au démarrage, le système entraîne les timings et les tensions mémoire pour trouver un point de fonctionnement stable. Plus le MT/s est élevé, plus il y a de DIMM et plus la densité est élevée, plus l’entraînement est complexe. Si votre temps de démarrage est passé de 10 secondes à 60 secondes après une mise à niveau RAM, ce n’est pas « votre SSD qui déconne ». C’est votre plateforme qui négocie avec vos DIMM.

Blague n°2 : regarder l’entraînement DDR5, c’est comme attendre le début d’une réunion — tout le monde est présent, mais rien de productif ne se passe pendant un moment.

Que acheter : recommandations pratiques (sans adorer les specs)

Je vais vous donner des conseils d’achat qui tiennent dans la réalité : mises à jour BIOS, charges mixtes et le fait que vous préférez utiliser votre ordinateur plutôt que de le benchmarker.

Ordre de priorité : capacité → stabilité → channels → vitesse sensée → timings

Capacité : assez pour éviter le swapping et garder le cache chaud.
Stabilité : un kit 5200 stable bat un kit 7200 instable tous les jours.
Channels/rangs : le dual-channel compte. La configuration de rangs peut importer. N’ignorez pas cela.
Débit de données sensé : proche du sweet spot de la plateforme, pas en limite extrême.
Timings : optimisez une fois les points ci-dessus satisfaits.

Recommandations « par défaut ennuyeuses » (guide général)

Plateformes DDR4 grand public : 3200–3600 avec des timings décents est généralement la zone de valeur. Si vous ne touchez pas aux réglages, choisissez un kit reconnu et passez à autre chose.
Plateformes DDR5 grand public : 5600–6400 est souvent une plage sensée selon la génération CPU et la qualité de la carte mère. Plus haut est possible, mais la taxe de stabilité augmente.
Stations de travail / hôtes VM : priorisez la capacité et les plateformes compatibles ECC. Utilisez les vitesses JEDEC à moins d’avoir une raison testée de faire autrement.
iGPU/APU : priorisez la bande passante et le dual-channel ; des MT/s plus élevés peuvent rapporter sensiblement.

Ce qu’il faut éviter (opinionné, parce que votre temps compte)

Mélanger des kits (même marque/modèle) si vous tenez à la stabilité. Les lots de fabrication diffèrent ; les subtimings diffèrent ; la tristesse suit.
Quatre DIMM à des « vitesses héroïques » sur des cartes grand public, sauf si vous aimez l’archéologie BIOS.
Poursuivre le CL le plus bas sans convertir en nanosecondes et sans considérer les timings secondaires.
Supposer que XMP/EXPO est « par défaut ». C’est un profil d’overclock. Parfois c’est simple ; parfois c’est un problème que vous avez adopté.

Rangs, nombre de DIMM, et pourquoi 2×32 peut battre 4×16

Deux DIMM sont généralement plus faciles pour le contrôleur mémoire que quatre, surtout à haute vitesse. Si vous avez besoin de 64 GB, 2×32 est souvent plus stable que 4×16 à la même MT/s. Aussi, les DIMM dual-rank peuvent améliorer les performances sur certaines charges grâce à un meilleur interleaving — jusqu’à ce qu’ils stressent le contrôleur à haute vitesse. C’est toujours un compromis.

Trois mini-histoires d’entreprise sorties des tranchées

1) Incident causé par une mauvaise hypothèse : « la RAM c’est la RAM »

Une entreprise de taille moyenne exploitait une flotte de serveurs de build qui compilait de gros projets C++ toute la journée. Le renouvellement hardware semblait simple : même ligne de CPU, plus de cœurs, plus de RAM, cartes plus récentes. L’équipe achat a choisi les kits mémoire par prix et le plus grand MT/s disponible dans le budget.

En une semaine, des échecs étranges sont apparus. Les builds échouaient de manière non déterministe — fichiers et erreurs différents, parfois un crash de linker, parfois un test unitaire qui « ne devrait pas échouer ». L’instinct premier de l’équipe fut une régression logicielle. Ils ont rétabli toolchains, figé des versions de compilateur et passé des jours à bisecter des changements qui n’étaient pas la cause.

Finalement, quelqu’un a vérifié les logs système et a trouvé des avertissements WHEA liés à la mémoire sur une partie des machines. Ces boîtiers faisaient tourner XMP à la vitesse annoncée, mais pas de façon stable sous une charge soutenue et hautement parallèle. La mauvaise hypothèse était que si une machine démarre et passe un test rapide, elle est prête pour la production.

La correction fut ennuyeuse : désactiver XMP, utiliser JEDEC, mettre à jour le BIOS, puis réactiver à une vitesse plus basse validée uniquement sur les cartes qui s’entraînaient de façon fiable. La perte de performance sur papier était faible ; le gain de productivité fut énorme parce que les builds sont redevenus déterministes. Voilà le genre d’« optimisation » qui compte vraiment.

2) Optimisation qui a mal tourné : courir après la latence mémoire pour une base de données

Un groupe d’ingénierie avait un service basé sur une base de données avec des pics de latence tail. Quelqu’un a vu un fil de forum affirmant que des timings RAM serrés réduisent la variance de latence. Cette personne n’avait pas tort en théorie ; elle s’était juste trompée sur le goulot.

Ils ont acheté des kits premium à faible latence et réglé manuellement les timings dans le BIOS pour quelques nœuds. Les benchmarks ont amélioré les tests mémoire synthétiques. Puis le système réel a commencé à montrer des comportements étranges : crashs rares sous pic de trafic et un cas particulièrement grave de corruption de système de fichiers sur un nœud qui exécutait aussi une couche de cache.

Cause racine : le tuning des timings avait poussé la plateforme hors des marges stables. Sous température élevée et charge soutenue, des erreurs sont apparues. Les pics de latence tail qu’ils cherchaient se sont révélés être une saturation de files d’attente I/O et de mauvais plans de requête, pas la latence mémoire. Ils ont optimisé la mauvaise couche et payé la fiabilité.

Le plan de récupération consistait à revenir aux timings d’origine, valider avec des tests mémoire longs et se concentrer sur l’optimisation des requêtes et la latence de stockage. La leçon : si vous n’avez pas de preuve que la mémoire est votre facteur limitant, ne faites pas de chirurgie amateur sur votre contrôleur mémoire.

3) Pratique ennuyeuse mais correcte qui a sauvé la mise : kits standard + validation

Une autre organisation exploitait un environnement mixte : des nœuds pour CI, d’autres pour analytique, d’autres pour services virtualisés. Ils avaient une politique qui semblait conservatrice au point d’être agaçante : choisir des kits mémoire listés sur la QVL de la carte mère, standardiser sur deux configurations et valider avec un test overnight avant de mettre un nœud en service.

Cette politique énervait exactement les personnes attendues : celles qui voulaient « la chose la plus rapide ». Mais elle a aussi permis d’avoir une base connue. Quand un lot de DIMM d’un fournisseur est arrivé avec une stabilité marginale à haute température, cela a été détecté pendant le burn-in. Les nœuds n’ont jamais atteint la production.

Le rapport d’incident fut court. Aucun impact client, pas de sauvetage nocturne, pas de redémarrages « mystère ». Juste un retour fournisseur et un rappel calme que, en ops, la meilleure catastrophe est celle qui devient un ticket au lieu d’un postmortem.

Si vous gérez des systèmes pour vivre, vous voulez plus de ça : des pratiques ennuyeuses et correctes qui empêchent le drame.

Tâches pratiques : 12+ commandes, sorties et décisions

Voici des vérifications pratiques que vous pouvez exécuter sur une machine Linux pour comprendre ce que fait votre RAM, si elle est stable et si elle est réellement le goulot. Chaque tâche inclut : une commande, une sortie d’exemple, ce que cela signifie et la décision à prendre.

Task 1: Confirm installed DIMMs, speed, and form factor

cr0x@server:~$ sudo dmidecode -t memory | egrep -i 'Locator:|Size:|Speed:|Configured Memory Speed:|Type:|Manufacturer:|Part Number:'
Locator: DIMM_A1
Size: 32768 MB
Type: DDR5
Speed: 4800 MT/s
Configured Memory Speed: 4800 MT/s
Manufacturer: ExampleVendor
Part Number: EV-32G-6000C30
Locator: DIMM_B1
Size: 32768 MB
Type: DDR5
Speed: 4800 MT/s
Configured Memory Speed: 4800 MT/s
Manufacturer: ExampleVendor
Part Number: EV-32G-6000C30

Ce que cela signifie : Votre kit est annoncé pour 6000C30, mais il tourne actuellement à 4800 MT/s (fallback JEDEC, ou XMP/EXPO non activé/échoué).

Décision : Si vous attendiez XMP/EXPO : activez-le dans le BIOS et retestez la stabilité. Si c’est un serveur/hôte VM : envisagez de laisser JEDEC sauf si vous avez une preuve que cela importe.

Task 2: Check actual memory frequency from the OS (quick sanity)

cr0x@server:~$ sudo lshw -class memory -short
H/W path          Device  Class          Description
/system/memory            memory         64GiB System Memory
/system/memory/bank:0     memory         32GiB DIMM DDR5 4800MT/s
/system/memory/bank:1     memory         32GiB DIMM DDR5 4800MT/s

Ce que cela signifie : Confirme la vitesse visible par l’OS, en accord avec dmidecode.

Décision : Si votre carte s’est entraînée sur une vitesse inférieure, ne vous obstinez pas — mettez à jour le BIOS, vérifiez la QVL et réduisez la MT/s cible.

Task 3: Verify channels and topology (detect single-channel mistakes)

cr0x@server:~$ sudo lscpu | egrep -i 'Model name|Socket|NUMA|L3 cache'
Model name:                       AMD Ryzen 9 Example 7900X
Socket(s):                        1
NUMA node(s):                     1
L3 cache:                         64 MiB (1 instance)

Ce que cela signifie : Cela n’affiche pas les channels directement, mais cadre les attentes : CPU grand public, socket unique, NUMA unique.

Décision : Si les performances sont basses, vérifiez ensuite la bande passante mémoire via un benchmark et assurez-vous que les DIMM sont dans les emplacements corrects pour le dual-channel.

Task 4: Check kernel-reported EDAC (ECC error reporting)

cr0x@server:~$ dmesg | egrep -i 'edac|ecc|mc0|memory error' | tail -n 10
[    2.114321] EDAC MC: Ver: 3.0.0
[    2.114901] EDAC amd64: Node 0: DRAM ECC enabled.
[ 3921.550122] EDAC amd64: CE ERROR 0x0000000000000000 on CPU#0Channel#1_DIMM#0 (channel:1 slot:0 page:0x12345 offset:0x0 grain:64 syndrome:0x0)

Ce que cela signifie : L’ECC est activé et vous avez eu une erreur corrigée (CE). Ce n’est pas « acceptable ». C’est un signal d’alerte.

Décision : Examinez la santé du DIMM et les thermiques ; envisagez de remplacer le DIMM ou de réduire la vitesse/tension mémoire. Les erreurs corrigées restent un risque opérationnel.

Task 5: Check for WHEA-like symptoms on Linux (MCE events)

cr0x@server:~$ journalctl -k -b | egrep -i 'mce|machine check|hardware error|corrected' | tail -n 20
Jan 09 10:12:31 server kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 5: bea0000000000108
Jan 09 10:12:31 server kernel: mce: [Hardware Error]: TSC 0 ADDR fef1c140 MISC d012000100000000
Jan 09 10:12:31 server kernel: mce: [Hardware Error]: PROCESSOR 2:a20f12 TIME 1704791551 SOCKET 0 APIC 0 microcode 0xa201016

Ce que cela signifie : Les événements machine check peuvent provenir du CPU, du contrôleur mémoire ou de l’instabilité du sous-système mémoire.

Décision : Si ces événements apparaissent après activation de XMP/EXPO ou après avoir resserré des timings, revenez en arrière. La stabilité d’abord.

Task 6: Confirm swap usage and memory pressure (capacity bottleneck check)

cr0x@server:~$ free -h
               total        used        free      shared  buff/cache   available
Mem:            62Gi        54Gi       1.2Gi       1.1Gi       6.8Gi       2.6Gi
Swap:           16Gi        9.5Gi       6.5Gi

Ce que cela signifie : Vous swappez fortement. Les timings RAM ne sont pas votre premier problème ; c’est la capacité.

Décision : Ajoutez de la RAM ou réduisez l’empreinte de la charge. Si vous ne pouvez pas, ajustez swappiness et investiguez les processus gourmands — mais n’achetez pas un CL plus bas comme substitut à suffisamment de mémoire.

Task 7: Identify top memory consumers (find the real culprit)

cr0x@server:~$ ps aux --sort=-rss | head -n 6
USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
app       2112 180  42.1 24578164 27011240 ?   Sl   09:01  58:44 java -Xmx28g -jar service.jar
postgres  1440  35  18.2 1123456 1165432 ?     S    08:55  12:31 postgres: checkpointer
root       922   2   3.1  512340  204112 ?     Ss   08:54   0:42 /usr/bin/containerd

Ce que cela signifie : Une JVM consomme la majeure partie de la mémoire ; le système swappe à cause de l’empreinte, pas de la « RAM lente ».

Décision : Ajustez le heap JVM, les limites de container ou ajoutez de la RAM. L’optimisation commence par contrôler le working set.

Task 8: Detect memory throttling or thermal issues (indirect)

cr0x@server:~$ sudo sensors | egrep -i 'temp|tctl|dram|mem'
Tctl:         +89.5°C
temp1:        +78.0°C

Ce que cela signifie : Des thermiques élevées peuvent réduire les marges de stabilité, surtout avec des profils mémoire de haute tension.

Décision : Améliorez le flux d’air, réduisez la tension DRAM / MT/s ou reconsidérez le « kit rapide » si le refroidissement du boîtier n’est pas adapté.

Task 9: Quick memory bandwidth sanity check with sysbench

cr0x@server:~$ sysbench memory --memory-block-size=1M --memory-total-size=20G run
sysbench 1.0.20 (using system LuaJIT 2.1.0-beta3)

Total operations: 20480 (  6121.45 per second)

20480.00 MiB transferred (6121.45 MiB/sec)

Ce que cela signifie : Un chiffre de bande passante approximatif. Il ne correspondra pas aux revendications du vendeur, mais il aide à comparer « avant vs après » sur le même système.

Décision : Si activer XMP/EXPO change la bande passante de 5–15% mais introduit des erreurs, gardez JEDEC. Si c’est stable et améliore une charge réelle, conservez-le.

Task 10: Observe NUMA effects (on multi-socket or NUMA systems)

cr0x@server:~$ numactl --hardware
available: 2 nodes (0-1)
node 0 cpus: 0 1 2 3 4 5 6 7
node 0 size: 64500 MB
node 0 free: 12000 MB
node 1 cpus: 8 9 10 11 12 13 14 15
node 1 size: 64500 MB
node 1 free: 58000 MB

Ce que cela signifie : La mémoire est utilisée de façon inégale entre les nœuds. L’accès mémoire distant augmente la latence.

Décision : Pignez les charges ou corrigez les politiques d’allocation avant de blâmer les timings RAM. Les problèmes de latence sur NUMA sont souvent une « mauvaise localisation », pas des DIMM lents.

Task 11: Check transparent huge pages status (latency and fragmentation impacts)

cr0x@server:~$ cat /sys/kernel/mm/transparent_hugepage/enabled
[always] madvise never

Ce que cela signifie : THP est toujours activé. Cela peut aider certaines charges et en nuire à d’autres (notamment certaines bases de données) à cause de pics de latence lors de la compaction.

Décision : Si vous observez des pics de latence, évaluez les réglages THP avant de dépenser de l’argent pour de la « RAM plus rapide ».

Task 12: Measure page faults and swapping behavior under load

cr0x@server:~$ vmstat 1 5
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 5  1  982340 120000  82000 540000   12   44   120   300 2100 3900 65 10 15 10  0
 6  2  982340 110000  82000 530000    0   80     0   600 2500 4200 70 12  8 10  0
 7  2  990512  98000  81000 520000    0  220     0  1400 2700 4500 72 14  2 12  0

Ce que cela signifie : « so » (swap out) est actif et le CPU idle est bas ; vous subissez une pression mémoire et de l’I/O wait (« wa ») est présent.

Décision : Ajoutez de la RAM ou réduisez l’utilisation mémoire ; ne dépensez pas d’argent sur des timings serrés pendant que vous swappez.

Task 13: Confirm current DRAM timings from userspace (when available)

cr0x@server:~$ sudo decode-dimms 2>/dev/null | head -n 12
Memory Serial Presence Detect Decoder
# decode-dimms version 4.0

Decoding EEPROM: /sys/bus/i2c/drivers/ee1004/0-0050
Guessing DIMM is in                             bank 0
---=== SPD EEPROM Information ===---
Module Part Number                       EV-32G-6000C30
Module Revision Code                     0x00

Ce que cela signifie : Vous pouvez lire les infos SPD ; cela aide à confirmer ce que le DIMM prétend pouvoir faire (profils), ce qui peut différer de ce qu’il est configuré pour faire.

Décision : Utilisez cela pour vérifier que vous n’avez pas reçu le mauvais kit ou un remplacement non apparié.

Task 14: Stress test memory (catch errors you’ll otherwise blame on “software”)

cr0x@server:~$ sudo memtester 4096 3
memtester version 4.6.0 (64-bit)
testing 4096MB:
  Stuck Address       : ok
  Random Value        : ok
  Compare XOR         : ok
  Compare SUB         : ok
  Compare MUL         : ok
  Compare DIV         : ok
  Compare OR          : ok
  Compare AND         : ok
  Sequential Increment: ok
  Solid Bits          : ok
  Block Sequential    : ok
  Checkerboard        : ok
  Bit Spread          : ok
  Bit Flip            : ok
  Walking Ones        : ok
  Walking Zeroes      : ok
  8-bit Writes        : ok
  16-bit Writes       : ok
done

Ce que cela signifie : Un test mémoire userspace de base est passé. Ce n’est pas exhaustif (et ne teste pas toute la RAM), mais il repère beaucoup de configurations instables.

Décision : Si cela échoue avec XMP/EXPO mais passe en JEDEC, vous avez votre réponse : le profil « annoncé » n’est pas stable sur votre plateforme.

Task 15: Check BIOS/UEFI version (stability often lives here)

cr0x@server:~$ sudo dmidecode -t bios | egrep -i 'Vendor:|Version:|Release Date:'
Vendor: ExampleBoardCo
Version: 1.24
Release Date: 11/15/2025

Ce que cela signifie : La version du BIOS est visible ; un BIOS plus récent améliore souvent la compatibilité et l’entraînement mémoire.

Décision : Si vous dépannez la stabilité RAM, mettez à jour le BIOS tôt (avec contrôle de changement approprié). Ne réglez pas les timings sur un firmware buggy.

Carnet de diagnostic rapide : quoi vérifier en premier/deuxième/troisième

Ceci est le flux « je n’ai pas toute la journée ». Il est conçu pour répondre rapidement à une question : la RAM est-elle le goulot, ou juste le bouc émissaire ?

Premier (5 minutes) : éliminer capacité et swap

Exécutez free -h. Si le swap est fortement utilisé ou si « available » est bas sous charge normale, vous avez besoin de plus de RAM ou de réduire l’usage.
Exécutez vmstat 1 5. Si des swap-out sont actifs, cessez de penser au CL.
Vérifiez les processus avec ps aux --sort=-rss. Trouvez le gourmand et maîtrisez-le.

Décision : Si vous paginez, achetez de la capacité (ou réduisez l’empreinte). Si vous ne paginez pas, continuez.

Deuxième (10–20 minutes) : confirmer la configuration par rapport à l’intention

Utilisez dmidecode pour confirmer la vitesse configurée et le placement des DIMM.
Confirmez que vous êtes en dual-channel (physiquement : bons slots ; logiquement : sanity check de performance).
Vérifiez la version du BIOS ; mettez à jour si vous avez une vieille version et que vous utilisez du DDR5 ou du DDR4 haute densité.

Décision : Si le système s’est entraîné sur une vitesse inférieure, corrigez BIOS/QVL/emplacements avant d’acheter de la RAM.

Troisième (30–120 minutes) : tester stabilité, puis performance

Exécutez un test de stress mémoire (memtester, tests plus longs si disponibles) sur le profil cible.
Vérifiez les logs pour MCE/EDAC.
Benchmarquez bande passante/latence rapidement (ex. sysbench memory) puis mesurez votre charge.

Décision : Si la stabilité est douteuse, réduisez la MT/s d’un cran, relâchez les timings, augmentez la tension prudemment (desktop) ou revenez en JEDEC (serveurs). N’achetez un autre kit que si la plateforme ne peut pas fonctionner de façon stable à des réglages raisonnables.

Erreurs courantes : symptôme → cause racine → correctif

1) Symptom: PC boots, but games crash randomly or desktop apps silently exit

Cause racine : Le profil XMP/EXPO est instable sur le contrôleur mémoire de votre CPU ou sur le routage de la carte mère ; les erreurs apparaissent sous chaleur et charge.

Correctif : Mettez à jour le BIOS, réduisez la MT/s d’un cran ou passez de 4 DIMM à 2 DIMM. Validez avec memtester et surveillez les logs pour MCE/EDAC.

2) Symptom: “Rated 6000” kit runs at 4800 after enabling EXPO/XMP

Cause racine : L’entraînement a échoué et le BIOS est revenu en arrière, ou la carte a appliqué des valeurs sûres à cause de subtimings incompatibles.

Correctif : Vérifiez la QVL, mettez à jour le BIOS, essayez un preset de vitesse inférieur, vérifiez que les DIMM sont dans les slots recommandés et évitez de mélanger les kits.

3) Symptom: Boot time becomes extremely long after RAM change

Cause racine : L’entraînement mémoire réessaie à une MT/s élevée ou avec quatre DIMM/haute densité.

Correctif : Réduisez la MT/s, configurez avec précaution les options de restauration du contexte mémoire (dépend de la plateforme), mettez à jour le BIOS. Préférez 2 DIMM pour les hautes vitesses.

4) Symptom: Micro-stutter and poor 1% lows even with high FPS

Cause racine : Variance de latence due à une mémoire instable, paging en arrière-plan ou ordonnancement CPU ; parfois RAM en simple channel.

Correctif : Assurez le dual-channel, vérifiez l’usage du swap, validez la stabilité et gardez des timings raisonnables plutôt que extrêmes.

5) Symptom: Benchmark says memory faster, but real workload unchanged

Cause racine : La charge est CPU-bound, storage-bound ou cache-friendly ; la RAM n’était pas le goulot.

Correctif : Profilez la charge. Pour les builds : vérifiez l’I/O et le parallélisme. Pour les bases de données : vérifiez les plans de requêtes et la latence de stockage. Pour l’analytique : vérifiez l’utilisation CPU et la vectorisation.

6) Symptom: ECC corrected errors start appearing after enabling XMP

Cause racine : Stabilité marginale ; l’ECC attrape des problèmes que vous auriez vus comme des corruptions ou des crashs.

Correctif : Revenez en JEDEC ou réduisez la MT/s, améliorez le refroidissement et envisagez de remplacer les DIMM si les erreurs corrigées persistent.

7) Symptom: System stable with two sticks, unstable with four

Cause racine : Charge électrique et complexité de signalisation accrues ; le contrôleur mémoire ne peut pas maintenir la même vitesse/timings avec quatre DIMM.

Correctif : Utilisez 2× DIMM de plus grande capacité plutôt que 4× petites ; réduisez la vitesse ; suivez la QVL pour les configs 4-DIMM.

8) Symptom: “Lower CL” kit performs worse than expected

Cause racine : CL plus bas en cycles mais MT/s plus bas, ou timings secondaires lâches ; possible aussi des changements de mode qui augmentent la latence effective.

Correctif : Comparez la vraie latence en ns, pas le CL seul. Évaluez les timings complets et le comportement du mode plateforme, puis testez votre charge.

Listes de contrôle / plan pas à pas

Check-list d’achat (10 minutes, épargne des heures après)

Décidez de la capacité selon la charge et la marge (prévoir la croissance). Si vous êtes proche de la limite aujourd’hui, achetez plus.
Confirmez la plateforme : DDR4 vs DDR5, vitesse maximale supportée et si l’ECC est supporté/requis.
Privilégiez un kit apparié (2× ou 4× en kit), pas des achats séparés.
Vérifiez la QVL de la carte mère pour votre kit exact et configuration (particulièrement pour 2×32, 4×DIMM, DDR5 à haut MT/s).
Choisissez une vitesse proche du sweet spot de la plateforme, pas la plus haute du magasin.
Choisissez des timings raisonnables ; convertissez en ns pour garder la raison.
Planifiez le refroidissement : les kits DDR5 rapides peuvent ajouter de la chaleur et réduire la marge de stabilité.

Check-list de mise à niveau (faites dans l’ordre)

Mettez à jour le BIOS/UEFI avant d’installer la nouvelle RAM (quand c’est faisable et sûr).
Installez les DIMM dans les slots recommandés pour le dual-channel (consultez le manuel carte mère).
Démarrez d’abord sur les valeurs JEDEC. Confirmez la stabilité.
Activez XMP/EXPO. Si ça démarre, exécutez des stress tests et vérifiez les logs.
Si instable : réduisez la MT/s d’un cran, retestez ; puis envisagez des ajustements de tension légers (desktop) ou revenez en JEDEC (serveurs).
Uniquement après stabilité : faites des benchmarks et décidez si la performance en vaut la peine.

Check-list de tuning (si vous insistez, faites-le comme un adulte)

Changez une variable à la fois : vitesse, puis timings primaires, puis secondaires.
Consignez chaque changement (oui, comme un ticket de changement).
Validez avec plusieurs heures de tests de stress et une exécution de charge réelle.
Surveillez les logs pour erreurs corrigées et événements MCE.
Arrêtez-vous si vous voyez des erreurs. La performance sans correction est un passe-temps, pas de l’ingénierie.

FAQ

1) Le MT/s plus élevé est-il toujours meilleur ?

Non. Un MT/s plus élevé augmente la bande passante et peut aider certaines charges, mais il sollicite aussi le contrôleur mémoire et peut nécessiter des timings plus lâches. La stabilité compte plus que le chiffre.

2) Un CL plus bas est-il toujours mieux ?

Non. CL est en cycles, pas en temps. Comparez la vraie latence en nanosecondes. De plus, les timings secondaires et les modes plateforme peuvent dominer la latence réelle.

3) Comment comparer rapidement deux kits ?

Calculez tCAS approximatif en ns à partir de CL et MT/s. S’ils sont similaires, préférez le kit que votre carte/CPU peut faire tourner de façon stable et qui répond à vos besoins de capacité.

4) Quelle est la différence entre XMP et EXPO ?

Ce sont des formats de profil pour les réglages d’overclock stockés sur le DIMM : XMP est courant dans l’écosystème Intel, EXPO est courant pour AMD DDR5. Les deux sont des presets « essayez ces réglages ». Ils ne sont pas garantis.

5) Pourquoi mon système ne tourne-t-il pas à la vitesse annoncée ?

Parce que la vitesse annoncée est souvent un profil d’overclock, et que le contrôleur mémoire de votre CPU + carte mère peut ne pas le supporter dans votre configuration (surtout avec 4 DIMM ou modules haute densité). La maturité du BIOS compte aussi.

6) DDR5 bat-elle automatiquement DDR4 ?

Pas automatiquement. DDR5 offre plus de bande passante et un meilleur parallélisme, mais la latence dépend du kit et de la plateforme. Certaines configurations DDR4 restent très compétitives pour les tâches sensibles à la latence.

7) Dois-je acheter 2 sticks ou 4 sticks ?

Pour la plupart des plateformes grand public : préférez 2 sticks (dual-channel) pour des vitesses atteignables plus élevées et une stabilité plus facile. Utilisez 4 sticks quand vous avez besoin de capacité et que votre carte/CPU est connu pour le supporter à la vitesse ciblée.

8) Est-il acceptable de mélanger des barrettes RAM ?

Parfois ça marche. Souvent cela crée des instabilités subtiles ou force le système à tourner au plus petit dénominateur commun. Si la fiabilité compte, ne mélangez pas les kits.

9) L’ECC en vaut-il la peine ?

Si vous exécutez des VMs, du stockage ou quoi que ce soit où la correction est plus importante que les chiffres : oui, quand votre plateforme le supporte. Si vous jouez sur du matériel grand public, ce n’est généralement pas disponible et pas nécessaire.

10) Que dois-je upgrader en premier : RAM plus rapide ou plus de RAM ?

Plus de RAM, si vous swappez ou êtes proche de la limite. La RAM plus rapide n’aide que lorsque votre working set tient confortablement en mémoire et que la charge est réellement limitée par la mémoire.

Étapes suivantes que vous pouvez faire aujourd’hui

Mesurez avant d’acheter : exécutez free -h et vmstat 1 5 pendant votre charge réelle. Si vous swappez, achetez de la capacité.
Vérifiez ce que vous exécutez réellement : regardez dmidecode -t memory pour la vitesse configurée. Beaucoup de systèmes tournent silencieusement en JEDEC.
Stabilisez d’abord : mettez à jour le BIOS, utilisez un kit apparié et validez avec memtester. Les erreurs signifient que vous opérez hors spécification pour votre plateforme.
Choisissez de la RAM sensée : visez le sweet spot stable de votre plateforme, pas le MT/s le plus élevé. Convertissez CL en nanosecondes pour ne pas vous laisser berner par le comptage de cycles.
Rendez-le ennuyeux : la meilleure mise à jour RAM est celle dont vous oubliez parce qu’elle ne plante jamais et ne corrompt rien.

Si vous voulez une recommandation concrète pour votre système exact, fournissez : modèle CPU, modèle carte mère/version BIOS, kit RAM actuel (part number), capacité cible et charge de travail. Nous pourrons alors choisir un kit qui fonctionne dans le monde réel, pas seulement sur une fiche produit.