Votre GPU va « bien » jusqu’au jour où il ne l’est plus. Un jour, un job d’entraînement commence à ralentir sans raison apparente. Un jeu qui tournait à plus de 1900 MHz flirte soudain avec 1200. Les ventilateurs hurlent, le temps de frame explose, et votre tableau de bord de monitoring ressemble à une scène de crime.
Le coupable n’est souvent ni le silicium, ni les pilotes, ni l’alimentation. C’est cette substance molle à 10 € dont vous aviez oublié l’existence : les pads thermiques. Et quand ils ont la mauvaise épaisseur, la mauvaise dureté, sont mal alignés, desséchés ou simplement fatigués, ils peuvent saboter une carte par ailleurs saine avec la même assurance discrète qu’un cron mal configuré.
Ce que font vraiment les pads thermiques (et ce qu’ils ne font pas)
Un refroidisseur GPU n’est pas une seule surface. C’est un petit écosystème : le die GPU (ou le package), les puces mémoire autour, les étages VRM, les inductances, parfois une backplate, et un ensemble radiateur qui ne peut pas toucher parfaitement toutes ces pièces en même temps.
La pâte thermique sert pour des gaps très fins et une forte pression de serrage : die GPU vers cold plate. Les pads thermiques servent pour des gaps plus larges et des empilements inégaux : puces mémoire vers radiateur, composants VRM vers une plaque secondaire, parfois contact avec la backplate.
Les pads remplissent deux rôles :
- Combler le gap entre un composant chaud et la surface du radiateur qui n’est pas parfaitement coplanaire.
- Transmettre la chaleur à travers un matériau ayant une résistance thermique acceptable tout en restant mécaniquement stable.
Ce que les pads ne font pas bien :
- Compensez une pression incorrecte. Si le pad est trop épais, il peut empêcher la cold plate d’appuyer sur le die. C’est une « réparation » catastrophique.
- Dépassez la pâte au niveau du die. Les pads sont presque toujours moins performants qu’une bonne pâte pour le contact primaire avec le die.
- Vous sauver d’un mauvais flux d’air. Si le boîtier ou le guidage d’air est une torréfaction, les pads ne font que répartir mieux la cuisson.
Le modèle mental clé : vous n’achetez pas du « W/mK ». Vous achetez une résistance thermique totale plus faible dans votre géométrie spécifique. La conductivité thermique est une spécification ; l’empilement est la réalité.
Faits intéressants et un peu d’histoire
Quelques points de contexte qui rendent le travail moderne sur les pads plus compréhensible :
- Les matériaux d’interface thermique (TIM) ont explosé avec l’emballage électronique dense. Une fois que les radiateurs ont cessé d’être de simples blocs et sont devenus des assemblages multi-contact, les pads sont devenus la « taxe des tolérances de fabrication ».
- GDDR6X a rendu les températures de mémoire problématiques grand public. Les générations antérieures chauffaient aussi, mais la densité de puissance de GDDR6X a transformé « VRAM tiède » en « votre carte se bride à cause de la mémoire ».
- Les capteurs de « hotspot » ont changé notre perception du refroidissement. Les GPU modernes exposent des télémétries de jonction/hotspot qui révèlent des problèmes de contact local, pas seulement la température moyenne du die.
- Les backplates n’étaient pas à l’origine des dispositifs thermiques. Beaucoup ont commencé comme éléments structurels et esthétiques ; des designs ultérieurs ont commencé à les utiliser comme dissipateurs avec des pads.
- La dureté des pads compte autant que l’épaisseur. Deux pads de 2,0 mm avec compressibilités différentes se comporteront comme des épaisseurs différentes sous le même couple.
- Les pads d’usine sont souvent choisis pour le rendement en production, pas la performance maximale. Les fournisseurs optimisent pour « marche sur chaque unité de la ligne », pas « meilleures températures possibles sur votre carte spécifique ».
- Les pads thermiques vieillissent. Les cycles thermiques et le temps peuvent rigidifier les pads, réduire la conformité et dégrader le contact—surtout près des VRM.
- Les designs des fabricants de cartes varient énormément. Deux cartes avec le même GPU peuvent avoir des cartographies de pads, des agencements VRM et des plaques de contact complètement différentes.
Pourquoi des pads à 10 € peuvent changer une carte entière
Dans des systèmes de production, de petits points de friction créent des pannes disproportionnées. Sur un GPU, les pads thermiques sont un de ces points de friction. Ils se placent entre des composants critiques et la seule chose qui les empêche de « cuire » : le radiateur.
Si le die GPU est bien repasté mais que vos pads mémoire sont incorrects, vos performances peuvent s’effondrer. Pourquoi ? Parce que les cartes modernes freinent selon la première limite atteinte : puissance, température, limites de fiabilité de tension, jonction mémoire, températures VRM, ou même des deltas de hotspot impliquant un mauvais contact.
Les résultats les plus courants après un repad correct sont ennuyeux mais mesurables :
- La jonction mémoire baisse suffisamment pour empêcher le bridage induit par la mémoire.
- Le delta de hotspot diminue parce que le radiateur s’ajuste correctement après correction de l’empilement des pads.
- Les ventilateurs se calment car le contrôleur ne court plus après des températures locales incontrôlées.
- Les fréquences se stabilisent parce que la carte reste dans ses enveloppes thermiques et électriques.
Les pads sont aussi le moyen le plus simple de casser, par accident, le comportement thermique d’une carte. Il n’existe pas d’« épaisseur universelle idéale ». Il n’y a que « l’épaisseur qui permet à la cold plate de s’appliquer correctement tout en assurant le contact complet mémoire/VRM ».
Blague #1 (court, pertinent) : Un pad thermique, c’est comme une invitation à une réunion—trop épais et personne ne peut se rapprocher pour faire du vrai travail.
La physique, sans les maths prétentieuses
Le flux de chaleur à travers un pad est dominé par la résistance thermique. Grosso modo, pad plus épais = plus de résistance, à moins que l’alternative soit un vide d’air (l’air est un excellent isolant et un choix terrible pour refroidir la VRAM).
Mais vous ne pouvez pas choisir l’épaisseur librement. Vous êtes contraint par :
- Les tolérances de hauteur des composants (packages mémoire, chokes, MOSFETs).
- La planéité du radiateur et les variations d’usinage.
- Le couple des vis et la pression des ressorts.
- La compressibilité des pads et le fluage dans le temps.
Donc le « correctif à 10 € » n’est pas « coller des pads plus épais ». C’est « restaurer un contact correct sur l’ensemble de l’empilement ».
Ce que « meilleurs pads » signifie souvent en pratique
Le marketing adore les chiffres en W/mK. L’ingénierie pratique aime les résultats. D’après mon expérience, « meilleurs pads » signifie généralement une ou plusieurs des choses suivantes :
- Bonne épaisseur (la chose la plus importante).
- Matériau plus compliant qui se comprime pour accommoder de petites variations sans soulever la cold plate.
- Installation plus propre : placement correct, pas de plis, pas de pads déplacés qui manquent la puce.
- Matériau neuf qui ne s’est pas durci après des années de cycles thermiques.
Feuille de route pour un diagnostic rapide (trouver le goulet vite)
Quand un GPU sous-performe ou est instable, vous pouvez perdre des heures à « tuner » les limites de puissance et les undervolts. Ne le faites pas. Déterminez d’abord ce qui vous limite réellement.
Première étape : identifier le limiteur (thermique vs puissance vs logiciel)
- Vérifiez les clocks et les raisons du throttling sous charge. Si les fréquences chutent alors que l’utilisation est élevée, vous atteignez probablement une limite.
- Vérifiez le hotspot et les températures mémoire (si exposées). Un grand delta de hotspot ou une jonction mémoire élevée est un signal classique de problème de pad/contact.
- Vérifiez le comportement des ventilateurs. Si les ventilateurs montent en régime mais que la température du core semble « correcte », c’est souvent le hotspot/mémoire/VRM qui tire les ficelles.
Deuxième étape : isoler quelle surface perd le contact
- Grand delta de hotspot (hotspot bien plus chaud que la temp GPU) : suspectez un mauvais contact du die ou un radiateur qui ne s’assoit pas à cause de l’épaisseur des pads.
- Jonction mémoire élevée avec un core raisonnable : suspectez les pads mémoire, le placement des pads ou le transfert via la backplate.
- Plantages sous charge transitoire (pas en régime stable) : suspectez la thermique des VRM ou la stabilité de l’alimentation, que les pads peuvent influencer indirectement.
Troisième étape : décider si vous avez besoin d’un repaste, d’un repad, de modifications d’aération, ou des trois
- Repaste uniquement quand le delta de hotspot indique un problème de contact du die et que les températures mémoire sont correctes.
- Repads uniquement quand les températures mémoire/VRM sont élevées et que le contact du core est sain.
- Les deux quand le radiateur est enlevé de toute façon sur une carte ancienne, ou quand vous suspectez que les pads soulèvent le radiateur.
- Aération/ducting quand tout s’améliore avec le panneau latéral ouvert ou avec un ventilateur externe d’appoint.
L’ordre compte parce que le mode de défaillance compte. Réparer la mauvaise chose et vous pouvez empirer la bonne chose.
Outils et métriques qui comptent
Vous n’avez pas besoin d’une caméra thermique pour prendre de bonnes décisions (même si c’est sympa). Vous avez besoin d’une télémétrie cohérente et d’une charge reproductible.
Métriques à surveiller
- Température GPU : état thermique général du core, mais pas suffisant seul.
- Température hotspot/jonction : révèle la qualité du contact et le chauffage localisé.
- Température jonction mémoire : surtout sur les cartes qui l’exposent ; fortement liée à l’efficacité des pads.
- Vitesse et duty des ventilateurs : indique ce que le contrôleur tente de gérer.
- Fréquences et tension : montrent le throttling et la stabilité.
- Consommation : confirme si vous êtes limité par la puissance ou par la température.
- Compteurs d’erreurs : Xid, ECC (si présent), resets du driver—ils peuvent se corréler à une surchauffe mémoire/VRM.
Une citation sur la fiabilité (idée paraphrasée)
Idée paraphrasée de John Allspaw : la fiabilité vient de la compréhension du comportement normal et de l’instrumentation des systèmes pour voir quand la réalité diverge.
Cela s’applique parfaitement ici : normalisez votre « normal », puis cherchez la divergence quand la charge change.
Tâches pratiques : commandes, sorties et décisions (12+)
Celles-ci sont volontairement opérationnelles. Chaque tâche inclut : une commande, ce que signifie la sortie, et la décision à en tirer. Les commandes sont focalisées Linux, car la production tend à l’être.
Task 1: Confirm the GPU and driver stack
cr0x@server:~$ nvidia-smi
Wed Jan 21 10:17:02 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14 Driver Version: 550.54.14 CUDA Version: 12.4 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 3080 Off | 00000000:01:00.0 On | N/A |
| 72% 76C P2 320W / 340W | 8900MiB / 10018MiB | 98% Default |
+-----------------------------------------+------------------------+----------------------+
Signification : Confirme le modèle, la version du driver et l’utilisation/puissance de base. Cela vous dit si vous êtes proche du cap de puissance et si la charge est réelle.
Décision : Si vous voyez une faible utilisation et des clocks bas, n’accusez pas encore les thermiques—cherchez d’abord un goulot logiciel. Si l’utilisation est élevée et que les clocks chutent, passez aux vérifications thermiques.
Task 2: Log temps, clocks, power every second during a known load
cr0x@server:~$ nvidia-smi --query-gpu=timestamp,temperature.gpu,clocks.sm,clocks.mem,power.draw,fan.speed,utilization.gpu --format=csv -l 1
timestamp, temperature.gpu, clocks.sm, clocks.mem, power.draw, fan.speed, utilization.gpu
2026/01/21 10:17:10, 77, 1710, 9501, 323.45, 74, 99
2026/01/21 10:17:11, 78, 1695, 9501, 327.10, 76, 99
2026/01/21 10:17:12, 78, 1545, 9501, 310.02, 78, 99
Signification : Des clocks qui diminuent alors que l’utilisation reste élevée indiquent généralement un limiteur (thermique, tension ou puissance).
Décision : Si la consommation chute avec les clocks tandis que la température augmente lentement, vous atteignez probablement un seuil thermique ou un limiteur hotspot/mémoire. Ensuite : vérifiez le hotspot et les températures mémoire si possible.
Task 3: Pull detailed sensor telemetry (including hotspot/mem if exposed)
cr0x@server:~$ nvidia-smi -q -d TEMPERATURE,CLOCK,PERFORMANCE
==============NVSMI LOG==============
Temperature
GPU Current Temp : 78 C
GPU Shutdown Temp : 93 C
GPU Slowdown Temp : 83 C
GPU Max Operating Temp : 83 C
Clocks
Graphics : 1545 MHz
SM : 1545 MHz
Memory : 9501 MHz
Performance State
Performance State : P2
Signification : « Slowdown temp » est un indice. Si vous vous en approchez et que les clocks baissent, vous êtes probablement limité par une sonde thermique que le driver surveille.
Décision : Si le ralentissement est atteint à des températures core relativement modestes, suspectez le hotspot/la mémoire/les VRM plutôt que la température moyenne du core.
Task 4: Check kernel logs for GPU resets and thermal events
cr0x@server:~$ sudo dmesg -T | egrep -i "nvrm|xid|thermal|throttle" | tail -n 20
[Wed Jan 21 10:15:42 2026] NVRM: Xid (PCI:0000:01:00): 31, pid=18422, Ch 00000008, intr 00000000
[Wed Jan 21 10:15:43 2026] NVRM: GPU at PCI:0000:01:00: GPU has fallen off the bus.
[Wed Jan 21 10:16:10 2026] thermal thermal_zone0: throttling, current_temp=92000
Signification : Les événements Xid et « fallen off the bus » peuvent être dus à la puissance, au driver ou à une instabilité thermique. S’ils coïncident avec une charge lourde et des températures élevées, le refroidissement devient suspect.
Décision : Si vous voyez des Xid répétés sous charge après des mois de stabilité, vérifiez les thermiques (pads/contact VRM) avant de pourchasser des fantômes de driver.
Task 5: Check PCIe link state (bad seating can mimic “thermal instability”)
cr0x@server:~$ sudo lspci -s 01:00.0 -vv | egrep -i "LnkSta|SltSta|Errors|Speed|Width"
LnkSta: Speed 16GT/s, Width x16
SltSta: AttnBtn- PwrCtrl- MRL- AttnInd- PwrInd- HotPlug- Surprise- Interlock- NoCompl+
Errors: Correctable- Non-Fatal- Fatal- Unsupported-
Signification : Confirme que le lien est stable et négocié correctement. Les problèmes PCIe peuvent causer des resets qui ressemblent à des problèmes thermiques.
Décision : Si la vitesse/la largeur du lien varie ou si des erreurs apparaissent, n’ouvrez pas le radiateur en premier—réinsérez la carte, inspectez les câbles d’alim et validez le slot.
Task 6: Inspect GPU utilization vs CPU bottleneck
cr0x@server:~$ mpstat -P ALL 1 3
Linux 6.5.0 (server) 01/21/2026 _x86_64_ (32 CPU)
10:17:35 AM CPU %usr %nice %sys %iowait %irq %soft %steal %idle
10:17:36 AM all 35.12 0.00 4.01 0.12 0.00 0.31 0.00 60.44
10:17:36 AM 7 99.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00
Signification : Un CPU à 99% alors que l’utilisation GPU est inconstante peut indiquer un goulet CPU ou un problème d’alimentation mono-thread du feed.
Décision : Si le CPU est le limiteur, travailler sur les pads ne vous apportera rien. Corrigez d’abord le pipeline.
Task 7: Confirm fan control and whether the GPU is stuck in a conservative profile
cr0x@server:~$ nvidia-settings -q GPUFanControlState -q GPUTargetFanSpeed
Attribute 'GPUFanControlState' (server:0[gpu:0]): 0.
Attribute 'GPUTargetFanSpeed' (server:0[gpu:0]): 74.
Signification : L’état de contrôle des ventilateurs 0 est automatique. La vitesse cible indique que le contrôleur tente activement de gérer les thermiques.
Décision : Si les ventilateurs sont bas alors que les températures montent, vous pouvez avoir un problème de contrôle des ventilateurs. N’accusez pas les pads tant que le comportement des ventilateurs n’a pas de sens.
Task 8: Stress the GPU consistently (compute) and watch stability
cr0x@server:~$ sudo apt-get install -y stress-ng
Reading package lists... Done
Building dependency tree... Done
stress-ng is already the newest version (0.15.06-1ubuntu1).
cr0x@server:~$ stress-ng --cpu 16 --timeout 60s --metrics-brief
stress-ng: info: [20133] dispatching hogs: 16 cpu
stress-ng: info: [20133] successful run completed in 60.01s
Signification : Cela ne stresse pas le GPU ; cela stabilise le comportement côté CPU pour que votre workload GPU ne soit pas affamé ou sujet à du jitter.
Décision : Si les thermiques GPU semblent mauvais uniquement quand le CPU est aussi chargé, vous avez peut-être un problème d’aération du boîtier ou d’interaction thermique PSU, pas seulement des pads.
Task 9: Measure “hotspot delta” when available (proxy via sensors)
cr0x@server:~$ sudo apt-get install -y lm-sensors
Reading package lists... Done
Building dependency tree... Done
lm-sensors is already the newest version (1:3.6.0-7ubuntu1).
cr0x@server:~$ sensors
nvme-pci-0200
Adapter: PCI adapter
Composite: +47.9°C (low = -273.1°C, high = +84.8°C)
acpitz-acpi-0
Adapter: ACPI interface
temp1: +62.0°C
coretemp-isa-0000
Adapter: ISA adapter
Package id 0: +71.0°C
Signification : Beaucoup de systèmes n’exposeront pas le hotspot GPU via lm-sensors ; c’est OK. Utilisez nvidia-smi et les logs d’application.
Décision : Si la plateforme chauffe globalement, votre travail de refroidissement GPU est plus difficile. Traitez l’admission/débit d’air avant des travaux chirurgicaux sur les pads.
Task 10: Validate power limit and whether you’re power-throttling
cr0x@server:~$ nvidia-smi -q -d POWER | egrep -i "Power Limit|Enforced|Default|Min|Max"
Power Limit : 340.00 W
Default Power Limit : 340.00 W
Enforced Power Limit : 340.00 W
Min Power Limit : 100.00 W
Max Power Limit : 370.00 W
Signification : Confirme que vous n’êtes pas accidentellement plafonné. Dans des flottes d’entreprise, quelqu’un a souvent « temporairement » baissé les limites de puissance et oublié.
Décision : Si la limite de puissance est bien inférieure à la valeur par défaut, corrigez cela avant d’ouvrir le matériel. Si la puissance est normale et que les clocks chutent malgré la montée des températures, poursuivez l’investigation thermique.
Task 11: Watch application-level throughput during a thermal event
cr0x@server:~$ tail -n 8 /var/log/gpu-job.log
step=1840 imgs/sec=1210 gpu_util=99% sm_clock=1710 mem_clock=9501 temp=77
step=1841 imgs/sec=1198 gpu_util=99% sm_clock=1695 mem_clock=9501 temp=78
step=1842 imgs/sec=1042 gpu_util=99% sm_clock=1545 mem_clock=9501 temp=78
step=1843 imgs/sec=1035 gpu_util=99% sm_clock=1545 mem_clock=9501 temp=79
Signification : Le débit chute en parallèle avec la fréquence SM. Ce n’est pas une « lenteur aléatoire ». C’est un limiteur.
Décision : Si le débit se corrèle fortement avec la température, vous avez un problème de contrôle thermique à résoudre, et les pads sont un suspect principal quand la mémoire/le hotspot sont impliqués.
Task 12: Verify the system isn’t heat-soaking due to fan curves or chassis control
cr0x@server:~$ sudo ipmitool sdr type fan
FAN1 | 4200 RPM | ok
FAN2 | 4100 RPM | ok
FAN3 | 1900 RPM | ok
FAN4 | 1800 RPM | ok
Signification : En serveurs, les ventilateurs du châssis peuvent être en profil silencieux qui prive les GPUs d’air frais.
Décision : Si les ventilateurs du châssis sont bas alors que les GPUs sont chauds, réglez la politique des ventilateurs de la plateforme d’abord. Un repad ne vaincra pas un châssis qui refuse de pousser de l’air.
Task 13: Baseline after changes with a consistent capture
cr0x@server:~$ mkdir -p ~/gpu-thermal-baselines
cr0x@server:~$ nvidia-smi --query-gpu=timestamp,temperature.gpu,clocks.sm,power.draw,fan.speed,utilization.gpu --format=csv -l 2 | head -n 10 | tee ~/gpu-thermal-baselines/baseline.csv
timestamp, temperature.gpu, clocks.sm, power.draw, fan.speed, utilization.gpu
2026/01/21 10:20:10, 44, 210, 24.12, 30, 0
2026/01/21 10:20:12, 45, 210, 24.05, 30, 0
2026/01/21 10:20:14, 45, 210, 24.01, 30, 0
Signification : Un fichier de baseline vous donne une preuve « avant/après ». Sinon vous dépendrez des impressions, ce qui n’est pas une métrique.
Décision : Ne faites pas de travail de pads sans baseline. Si vous ne pouvez pas prouver l’amélioration, vous ne saurez pas si vous avez introduit un nouveau risque.
Choisir les pads : épaisseur, dureté, conductivité et réalité
L’épaisseur est la cheffe
La décision numéro un est l’épaisseur. Pas la marque. Pas le W/mK. L’épaisseur.
Pourquoi ? Parce que l’épaisseur détermine si vous avez un contact du tout, et si vous réduisez accidentellement la pression sur le die. Le die GPU est impitoyable : si la cold plate n’est pas correctement assise, le hotspot monte, les clocks descendent, et vous avez échangé un problème mémoire contre un problème core.
Conseils pratiques :
- Commencez par des cartographies d’épaisseur connues pour votre variante de carte exacte quand c’est possible. « Même modèle GPU » n’est pas « même PCB ».
- Si vous devez mesurer, mesurez les anciens pads et vérifiez avec des tests d’empreinte (imprint) (plus loin). Les anciens pads peuvent être compressés ou déformés, traitez la mesure comme un point de départ, pas un évangile.
- Ne mélangez pas les épaisseurs au hasard. Si une section devient plus épaisse, vous pouvez soulever une autre surface de contact.
Dureté/compressibilité : la variable cachée
Les pads ne sont pas que de l’épaisseur ; ce sont des ressorts avec une conductivité thermique. Les pads durs résistent à la compression, ce qui peut être utile pour garder le contact sur des composants hauts, mais risqué pour l’assise du die. Les pads plus souples se conforment mieux, mais peuvent « fluer » avec le temps et réduire la pression constante.
Quand vous voyez des gens rapporter des résultats très différents avec « la même épaisseur », la dureté est généralement la raison.
La conductivité thermique (W/mK) n’est pas un mensonge, juste incomplète
Un W/mK plus élevé peut aider, mais seulement si :
- le pad contacte réellement les deux surfaces,
- il se comprime correctement,
- il n’introduit pas un gap plus grand ailleurs.
De plus : les datasheets sont souvent testées sous compression et conditions de température spécifiques. Votre GPU est un laboratoire chaotique avec pression inégale, micro-espaces et limitations d’aération.
Pad vs pâte / putty : sachez ce que vous échangez
La pâte de comblement (thermal putty) est devenue populaire car elle se conforme facilement aux surfaces inégales et peut réduire le risque d’« épaisseur mauvaise ». Elle peut être excellente pour les VRM/formes étranges.
Points négatifs :
- Plus salissante, plus difficile à retravailler proprement.
- Peut migrer si appliquée en excès.
- La stabilité à long terme varie selon le composé et les cycles thermiques.
Si vous gérez des GPUs de production où la répétabilité compte plus que les joutes internet, les pads restent le choix prévisible—quand vous avez la bonne épaisseur.
Quand la backplate fait partie du système thermique
Certaines cartes s’appuient sur des pads de backplate pour évacuer la chaleur de la mémoire ou de l’arrière du PCB. Si ces pads manquent ou sont trop fins, vous perdez une surface d’étalement de la chaleur. S’ils sont trop épais, vous pouvez voiler le PCB et créer de nouveaux problèmes de contact à l’avant.
Le flambage du PCB n’est pas qu’esthétique. Les cartes voilées changent la distribution de pression, ce qui peut augmenter le delta de hotspot même si votre pâte est parfaite.
Blague #2 (court, pertinent) : Les pads thermiques vieillissent comme du lait, pas comme le vin—si vous avez de la chance, vous sentez le problème avant le crash.
Listes de contrôle / plan pas-à-pas (repaste + repad sans regret)
Checklist pré-vol : décidez si vous devez ouvrir la carte
- Collectez des baselines : températures, clocks, ventilateurs, puissance sous une charge reproductible (voir tâches ci-dessus).
- Confirmez le limiteur : est-ce la jonction mémoire, le delta hotspot, ou juste l’aération du boîtier ?
- Confirmez la variante : modèle exact du board partner et révision si possible.
- Acceptez le compromis de garantie : si vous ne pouvez pas prendre le risque, ne le faites pas. La production ne se soucie pas de votre curiosité.
- Planifiez une fenêtre de maintenance : traitez cela comme une opération de maintenance.
Outils et fournitures (minimaux mais corrects)
- Précautions ESD (bracelet ou au moins mise à la terre disciplinée).
- Embouts de tournevis corrects (n’endommagez pas les petites vis et n’improvisez pas comme un vilain).
- Alcool isopropylique et lingettes non pelucheuses.
- Pâte thermique pour le die (un composé connu et stable).
- Pads thermiques aux épaisseurs correctes ; achetez-en des supplémentaires.
- Pied à coulisse (utile) et un carnet pour la cartographie des pads.
Étapes de démontage avec un état d’esprit SRE
- Coupez l’alimentation, débranchez, déchargez. Retirez la carte, étiquetez-la, et prenez des photos au fur et à mesure. Les photos sont votre plan de rollback.
- Retirez le radiateur uniformément. Dévissez en croix. Vous essayez d’éviter des contraintes inégales sur le PCB.
- Documentez l’emplacement et l’épaisseur des pads. Créez une « carte des pads » dans vos notes : pads mémoire, pads VRM, pads backplate, emplacements particuliers.
- Inspectez les anciens pads. Recherchez des zones brillantes non usées (pas de contact), des sections déchirées (pads déplacés), ou du matériau cassant/durci (vieillissement).
- Nettoyez la pâte et les résidus. Enlevez l’ancienne pâte du die et de la cold plate soigneusement. Nettoyez les résidus de pad si besoin sans gratter les composants.
Étapes d’installation des nouveaux pads sans soulever la cold plate
- Découpez les pads proprement. Légèrement plus petits que l’empreinte du composant est généralement plus sûr qu’un débord pouvant interférer avec d’autres surfaces.
- Placez les pads avec précision. Les mémoires doivent être entièrement couvertes. Les pads VRM doivent couvrir les composants destinés ; ne « chevauchez » pas sur des condensateurs sauf si le design l’attend.
- Faites attention aux films protecteurs. Retirez les deux côtés. En laisser un crée une couche isolante avec d’excellentes vibrations et de terribles performances thermiques.
- Appliquez la pâte sur le die. Utilisez une méthode fiable (fine couche ou petit point central selon la viscosité et la taille du die). L’objectif est une couverture complète sans excès.
- Test d’ajustement et d’empreinte (recommandé). Avant l’assemblage final, posez légèrement le radiateur puis retirez-le pour inspecter les marques de compression des pads et la répartition de la pâte. Vous cherchez « contact partout » et « cold plate assise ».
- Assemblage final avec discipline de couple. Serrez en croix par petites incréments. Si les vis ont des ressorts, compressez-les de manière uniforme.
Checklist post-opération : prouver la réparation
- Vérification au démarrage et au repos : vérifiez que les ventilateurs tournent, pas d’artefacts, pas de problèmes de driver.
- Test sous charge : lancez la même charge que la baseline. Capturez la même télémétrie.
- Comparez les deltas : température core, delta hotspot (si disponible), températures mémoire, clocks sous charge, vitesse ventilateur pour le même débit.
- Test de stabilité : 30–60 minutes. Les problèmes thermiques apparaissent souvent après le heat soak, pas dans la première minute.
Trois mini-récits d’entreprise (réalistes et douloureux)
1) Incident causé par une mauvaise hypothèse : « Même modèle GPU signifie même épaisseur de pad »
Une équipe avec laquelle j’ai travaillé avait une flotte mixte de GPUs achetés sur plusieurs trimestres. Même nom de GPU sur le papier, même vendor, même image pilote. Quelqu’un a remarqué des températures de jonction mémoire qui montaient sur un sous-ensemble de nœuds et a proposé une campagne de repad. Sensé. La maintenance préventive coûte moins qu’une panne surprise.
Ils ont commandé des pads basés sur une cartographie d’épaisseur publiée pour « ce GPU ». Les premières cartes se sont améliorées. La confiance a augmenté. Le déploiement s’est accéléré, parce que les humains aiment une histoire de succès et détestent attendre.
Puis un lot différent a commencé à échouer en validation : le hotspot montait, les clocks chutaient, et un système a commencé à se réinitialiser sous charge. Les graphiques étaient insultants : la mémoire paraissait meilleure, mais le core commençait à se brider plus tôt qu’avant.
La cause racine n’était pas mystérieuse. Le lot suivant avait une cold plate et un empilement de composants légèrement différents. L’épaisseur « universelle » a soulevé la cold plate juste assez pour réduire la pression sur le die et créer un problème de hotspot. La mémoire était plus fraîche ; le core était désormais le facteur limitant.
La réparation fut lente et peu glorieuse : arrêter le déploiement, identifier les révisions de carte, construire une cartographie d’épaisseur par révision, et retravailler les cartes déjà modifiées qui étaient devenues pires. La leçon n’était pas « ne jamais repadder ». C’était « ne jamais supposer l’équivalence mécanique à partir d’un nom marketing ».
2) Optimisation qui s’est retournée contre eux : « Max W/mK partout »
Dans un autre labo, un ingénieur orienté performance a décidé de standardiser un matériau pad premium à haute conductivité pour tout : VRAM, plaque VRM, backplate, même là où l’usine utilisait des pads plus souples. Le but était noble : réduire la vitesse des ventilateurs et améliorer les clocks soutenues.
Sur le banc, la première carte semblait bien pour un test court. Les ventilateurs étaient plus calmes. Les températures mémoire ont un peu baissé. Le changement a été déclaré gagnant et répété sur un petit lot.
Deux semaines plus tard, tickets de support : instabilité intermittente sous de longues runs de training. Rien d’évident dans la température core. Quelques nœuds ont lancé des resets de driver après des heures, pas des minutes. L’équipe a fait ce que font les équipes : blâmer d’abord le logiciel. Ils ont reconstruit des images, figé des versions de drivers, changé des câbles, même questionné les rails PSU.
Le vrai problème était mécanique. Les pads « premium » étaient significativement plus durs. Sous le même couple, ils ne se comprimaient pas comme les pads d’origine, ce qui a changé la distribution de pression. Le contact die était encore « OK » au début, mais après des cycles thermiques répétés, micro-mouvements et fluage ont empiré la situation. Le delta de hotspot a augmenté et le stress thermique local a accru la probabilité d’erreurs.
La solution n’était pas d’abandonner de meilleurs matériaux ; c’était de respecter le système. Ils ont basculé vers un pad plus conforme pour des zones spécifiques et utilisé des pads haute conductivité uniquement là où l’écart et la pression étaient appropriés. Les performances sont revenues, et la stabilité aussi. L’optimisation a échoué parce qu’elle a optimisé une fiche technique, pas un assemblage mécanique.
3) La pratique ennuyeuse mais correcte qui a sauvé la mise : « Baseline, changer une chose, valider »
Une équipe axée fiabilité avait une politique : pas de maintenance thermique sans artefact avant/après. Chaque nœud avait un script simple qui capturait la télémétrie nvidia-smi sous une charge standardisée. Le fichier atterrissait dans un emplacement central. Ce n’était pas flashy, mais c’était cohérent.
Un jour, un nouveau technicien a repaddé une carte et le GPU a commencé à sous-performer. Ils n’ont pas discuté de la sensation de lenteur. Ils ont sorti la baseline et comparé. Les clocks post-changement étaient 10–15% plus basses à la même utilisation, avec une vitesse de ventilateur plus élevée. C’est un changement défaillant, pas une « variance ».
Parce qu’ils avaient l’artefact, le rollback a été simple : ouvrir la carte à nouveau, inspecter les marques de contact, et corriger l’épaisseur d’un pad qui empêchait la cold plate de s’assoir entièrement. Après correction, la télémétrie correspondait à la baseline originale et la température mémoire s’en est trouvée légèrement meilleure.
La politique semblait bureaucratique jusqu’au moment où elle ne l’était pas. Tout l’incident s’est réglé en une après-midi au lieu d’une semaine d’archéologie forum/drivers. Le processus ennuyeux a sauvé du temps réel, qui est la seule métrique qui compte pendant un incident.
Erreurs courantes : symptômes → cause racine → correctif
1) Températures mémoire pires après repad
- Symptômes : La jonction mémoire monte plus vite qu’avant ; les ventilateurs montent ; les performances chutent après heat soak.
- Cause racine : Pads ne touchant pas le radiateur (trop fins), film protecteur laissé, pad déplacé hors de la puce, ou pad découpé trop petit laissant un espace en bordure.
- Correctif : Rouvrez et inspectez les marques de compression ; vérifiez la suppression du film ; confirmez que l’empreinte du pad couvre entièrement la mémoire IC ; ajustez l’épaisseur par zone.
2) Delta de hotspot du core augmente après repad
- Symptômes : La température core semble « normale », mais le hotspot est beaucoup plus élevé ; les clocks se brident plus tôt ; l’empreinte de pâte semble inégale.
- Cause racine : Pads trop épais ou trop durs, soulevant la cold plate ou réduisant la pression de montage sur le die.
- Correctif : Réduire l’épaisseur des pads ou passer à des pads plus conformes ; retorquer en croix ; effectuer un test d’empreinte pour confirmer l’assise.
3) Plantages aléatoires après 20–60 minutes
- Symptômes : Instabilité sur longues périodes ; resets du driver ; pas de shutdown thermique immédiat.
- Cause racine : Stress thermique des VRM dû à un mauvais contact des pads sur MOSFETs/plaques, ou flambage du PCB provoquant un chauffage localisé.
- Correctif : Vérifier le placement et la couverture des pads VRM ; assurer la bonne épaisseur ; contrôler si la backplate a des pads trop épais créant du gauchissement.
4) Ventilateurs plus bruyants mais températures inchangées
- Symptômes : Températures identiques à un duty ventilateur plus élevé ; bruit augmenté ; peu d’amélioration des performances.
- Cause racine : Vous avez amélioré un chemin (par ex. mémoire vers backplate) mais le chemin limitant est l’aération du boîtier ; ou le radiateur est encrassé/poussiéreux.
- Correctif : Nettoyer les ailettes du radiateur ; corriger l’entrée/sortie d’air ; envisager un ducting ; vérifier que les ventilateurs du châssis ne sont pas en mode silence.
5) La pâte « s’échappe » rapidement après un repad
- Symptômes : Bonnes températures pendant un jour, pire une semaine plus tard ; le delta de hotspot augmente progressivement.
- Cause racine : Pression inégale ou mouvement excessif dû à des pads agissant comme des ressorts rigides ; les cycles thermiques déplacent la pâte hors du centre du die.
- Correctif : Corriger la compressibilité des pads ; utiliser une pâte stable ; vérifier la consistance de la pression de montage ; éviter de trop serrer et déformer l’assemblage.
6) « Tout est plus frais » mais les performances restent basses
- Symptômes : Températures améliorées, mais les clocks ne remontent pas.
- Cause racine : Limite de puissance ou courbe tension/fréquence, ou la charge a changé ; parfois un driver ou un réglage firmware a été modifié pendant la maintenance.
- Correctif : Revérifier les limites de puissance, la configuration applicative et les raisons du throttling ; comparer aux baselines pré-changements.
FAQ
1) Les pads thermiques « s’usent » vraiment ?
Oui. Les cycles thermiques peuvent durcir les pads, réduire leur conformité et dégrader le contact. Ils ne s’évaporent pas, mais ils cessent de se comporter comme de bons combleurs de gap.
2) Dois-je toujours remplacer les pads quand je repaste ?
Si la carte est ancienne ou que vous l’avez déjà ouverte, souvent oui—parce que réutiliser des pads perturbés revient à jouer à la roulette quant au contact. Si la carte est neuve et que les pads sont intacts, vous pouvez seulement repaster, mais faites attention à ne pas déchirer ou déplacer les pads pendant le démontage.
3) Un W/mK plus élevé est-il toujours mieux ?
Pas automatiquement. Un pad avec un W/mK légèrement inférieur qui se comprime correctement et préserve le contact die peut surpasser un « meilleur » pad qui soulève le radiateur.
4) Comment connaître la bonne épaisseur de pad pour mon GPU ?
Idéalement : une cartographie d’épaisseur pour votre révision de carte exacte. Si vous devez mesurer : utilisez les pads originaux comme point de départ, puis confirmez avec des tests d’empreinte pour assurer le contact et l’assise.
5) Des pads incorrects peuvent-ils endommager le GPU ?
Indirectement, oui—en causant une surchauffe soutenue de la mémoire ou des VRM, ou en voilant le PCB et en stressant les soudures sur le long terme. Le risque immédiat est le throttling et l’instabilité ; le risque à long terme est une usure invisible.
6) Pourquoi ma temp core semble correcte mais je me bride quand même ?
Parce que la « temp core » est souvent pas le capteur le plus chaud. Hotspot et jonction mémoire peuvent atteindre leurs limites en premier. Un mauvais contact peut créer des hotspots locaux que la température moyenne masque.
7) Dois-je padder la backplate ?
Seulement si le design l’attend ou si vous pouvez vérifier que cela améliore l’étalement thermique sans voiler la carte. Un padding au hasard de la backplate peut créer plus de problèmes qu’il n’en résout.
8) Pads ou pâte pour la VRAM ?
Les pads sont plus propres et plus répétables si vous connaissez l’épaisseur. La pâte est plus indulgente pour des gaps inégaux mais plus salissante et plus variable à long terme. Dans les flottes, la répétabilité gagne généralement.
9) Quel est un « bon » delta de hotspot ?
Cela varie selon le GPU et le design du radiateur, mais de grands deltas signalent souvent des problèmes de contact. Si votre delta augmente significativement après maintenance, supposez que vous avez mal fait quelque chose et revérifiez l’assise.
10) Combien de temps devrais-je soak-tester après un repad ?
Au moins 30 minutes sous charge soutenue, et idéalement une durée plus longue qui ressemble à votre workload réel. Beaucoup de défaillances apparaissent après le heat-soak complet.
Conclusion : prochaines étapes pratiques
Les pads thermiques ne sont pas une amélioration magique. Ce sont des interfaces mécaniques qui décident si la mémoire et les VRM de votre GPU partagent un radiateur ou se débrouillent seuls.
Si vous observez des températures de jonction mémoire élevées, des runs longs instables, ou un delta de hotspot qui n’a pas de sens, traitez les pads comme un suspect prioritaire. Mais faites-le comme en exploitation, pas comme un hobby : baseline, changez une chose, validez, et gardez un plan de rollback.
- Capturez une baseline sous une charge reproductible (températures, clocks, puissance, ventilateurs).
- Identifiez le limiteur (core, hotspot, mémoire, VRM, flux d’air, puissance).
- Si les pads sont impliqués, sourcez les bonnes épaisseurs pour votre révision de carte.
- Repaste/repad avec test d’empreinte et couple discipliné.
- Prouvez le résultat avec la même capture télémétrique que celle de départ.
Le meilleur indicateur que vous avez bien fait est que cela vous paraît ennuyeux. C’est comme ça que vous savez que c’est niveau production.