Vous repastez pour faire tourner plus frais. Puis la machine ne démarre plus, ou elle démarre mais bride plus qu’avant, ou elle « marche » pendant un mois puis les ventilateurs hurlent et l’image saccade. Vous n’avez pas seulement amélioré le refroidissement — vous avez ouvert un mode de panne qui se comporte comme un bug de stockage intermittent : difficile à reproduire, coûteux à diagnostiquer et parfaitement synchronisé pour tomber au pire moment.
Le métal liquide est la promesse la plus séduisante de « gain facile » pour les amateurs de thermique : brillant, scientifique et souvent efficace. C’est aussi un multiplicateur de risque. En termes de production, c’est un changement qui augmente la performance tout en réduisant la marge de sécurité — sauf si vous le traitez comme un matériau dangereux avec une procédure, pas comme du dentifrice.
Pourquoi le métal liquide pose problème (et pourquoi il semble correct au début)
Les matériaux d’interface thermique (TIM) à base de métal liquide — typiquement des alliages à base de gallium — peuvent transférer la chaleur bien mieux que les pâtes courantes. C’est l’argument commercial. La réalité opérationnelle est qu’ils sont électriquement conducteurs, qu’ils mouillent les surfaces d’une manière que la pâte ne fait pas, et qu’ils réagissent avec certains métaux. Cette combinaison les fait se comporter moins comme un consommable et plus comme un produit chimique à faible viscosité qui aime explorer.
La plupart des « catastrophes de métal liquide » ne sont pas des feux d’artifice instantanés. Ce sont des pannes lentes :
- Une perle minuscule migre sur des semaines de cycles thermiques, puis finit par ponter deux pastilles.
- La corrosion galvanique ronge silencieusement une interface de dissipateur jusqu’à ce que la pression de contact change et que les températures augmentent.
- Des films d’oxyde se forment, l’alliage s’épaissit et le contact se dégrade — entraînant un bridage qui ressemble à une régression logicielle.
C’est aussi une parfaite tempête de facteurs humains. Les mises à niveau au métal liquide sont souvent faites tard le soir, à la hâte, avec la confiance d’une vidéo YouTube et des attentes de disponibilité de production. C’est là que naît la cause racine classique d’une panne : « changement + pas de plan de retour arrière ».
Opinion tranchée : si le système est critique — station de travail pour des délais, portable pour les déplacements, nœud homelab qui héberge vos sauvegardes — le métal liquide n’est justifié que si vous pouvez aussi justifier les contrôles : isolation, confinement, calendrier d’inspections et procédure documentée de retour à une pâte conventionnelle.
Une plaisanterie, parce qu’un peu de légèreté aide : le métal liquide, c’est comme une mise à niveau gratuite qui inclut un DLC surprise intitulé « Dépannage avancé ».
La physique qui le rend séduisant
Les chiffres de conductivité thermique pour les TIM à base de gallium sont souvent cités dans les dizaines de W/m·K. Les pâtes à base de silicone peuvent être bien plus basses. Les écarts réels dépendent de la pression de montage, de la planéité du die, de la qualité de l’IHS et du design du dissipateur. Mais le métal liquide peut absolument réduire les températures en charge — parfois de manière spectaculaire — surtout sur CPU « direct-die » ou deliddés et certains designs de laptops.
Les propriétés qui le rendent risqué
- Conducteur : une trace sur des composants CMS peut court-circuiter des signaux ou des rails d’alimentation.
- Basse viscosité : sous pression et cycles thermiques, il peut migrer.
- Chimiquement actif : le gallium peut attaquer l’aluminium et s’alliage à certaines surfaces.
- Mouillage des surfaces : il s’étale et adhère aux métaux, ce qui est excellent pour le transfert de chaleur et terrible pour le nettoyage.
Faits et historique : comment on en est arrivé là
Un peu de contexte compte, parce que beaucoup de mauvaises décisions viennent du fait de traiter le métal liquide comme une « meilleure pâte ». Ce n’en est pas une. Voici des faits concrets et des points historiques qui devraient changer votre manière de l’aborder :
- Le gallium fond près de la température ambiante (environ 30°C), c’est pourquoi il est liquide en fonctionnement normal et plus solide dans une pièce froide.
- Le gallium attaque agressivement l’aluminium en diffusant dedans et en l’affaiblissant. C’est pourquoi les dissipateurs en aluminium et les métaux liquides à base de gallium sont une mauvaise combinaison.
- Le nickelage est largement utilisé sur les dissipateurs en cuivre et les surfaces d’IHS parce qu’il fournit une barrière plus stable et réduit la réaction directe comparée au cuivre nu.
- Le delidding est devenu courant parce que certaines générations de CPU utilisaient un TIM interne qui limitait le transfert de chaleur ; les amateurs le remplaçaient pour réduire les températures et améliorer le comportement en boost.
- Les constructeurs de laptops ont commencé à expédier du métal liquide sur certains modèles pour gérer les châssis fins — prouvant que ça peut être fiable quand c’est conçu avec confinement et QA, pas quand c’est appliqué sur une table de cuisine.
- La performance thermique n’est pas monotone avec « plus de TIM » ; en mettre trop peut augmenter le pump-out et le risque de migration sans améliorer la qualité du contact.
- Le cycle thermique est un test de contrainte mécanique : les dilatations/contractions répétées du die, de l’IHS et du dissipateur peuvent déplacer lentement le matériau. C’est pourquoi « ça a bien marché deux semaines » n’est pas une preuve de succès.
- Beaucoup de problèmes « mystérieux » après repaste sont liés au montage : pression inégale, tolérances des entretoises ou un espaceur oublié peuvent provoquer des températures pires qu’avant, métal liquide ou non.
- Les dégâts par ESD et les éclaboussures de métal liquide se confondent parce que les deux peuvent se manifester par un non-démarrage soudain après manipulation ; la différence est que le métal liquide laisse souvent un résidu visible si vous savez où regarder.
Une idée paraphrasée à garder sur le banc, attribuée à Gene Kranz : l’idée paraphrasée : « Dur et compétent » bat l’ingéniosité quand les choses tournent mal.
C’est la culture de la fiabilité en une ligne.
Modes de panne qui transforment un « mieux » en « RMA »
1) Courts-circuits électriques : l’évidence qu’on rate encore
Le métal liquide est conducteur. Il n’a pas besoin de combler une grosse distance. Une quantité minime entre des pastilles CMS adjacentes peut créer des fautes intermittentes — boucles de démarrage, USB instable, erreurs WHEA aléatoires, artefacts GPU. L’intermittence rend tout coûteux : on ne peut pas se fier à un seul démarrage propre.
Où il a tendance à aller :
- Le long du bord d’un package CPU/GPU de portable vers des composants passifs proches.
- Sous un rebord de refroidisseur ou dans les zones de retenue du socket.
- Sur les composants VRM proches du die parce que la pression du dissipateur le « pousse » vers l’extérieur.
Pourquoi vous le diagnez mal : parce que le système peut parfois démarrer, et les logs blâment pilotes, firmware ou « erreur matérielle inconnue ». Les courts-circuits sont ennuyeux. Ils se présentent rarement de manière polie.
2) Corrosion galvanique et incompatibilité des matériaux
Le gallium et l’aluminium, c’est le classique « à ne pas faire ». Mais même avec du cuivre, vous pouvez obtenir des changements de surface : taches, alliages, rugosité. Le nickelage aide. Ce n’est pas un bouclier magique si il est fin, rayé ou mal lié.
Schéma de panne : les températures s’aggravent lentement, les ventilateurs montent en régime. Vous repastez, voyez une surface piquée, et réalisez que vous ne faites pas de la « maintenance », vous consommez le dissipateur.
3) Pump-out, dessèchement et films d’oxyde
Le métal liquide peut former des oxydes. Il peut aussi se redistribuer sous pression et cycles thermiques. La zone de contact qui comptait — directement au-dessus des points chauds — peut s’amincir tandis que le matériau migre vers l’extérieur. Résultat : la température « moyenne » peut sembler correcte, mais le delta de hotspot augmente et le CPU bride plus tôt.
4) Échec de confinement sur portable : la gravité et le mouvement existent
Les postes fixes restent en place. Les portables voyagent. Ils sont tournés, mis dans un sac, heurtés, chauffés dans un sac à dos, refroidis sur une tablette. L’environnement mécanique est plus agressif. Les implémentations OEM de métal liquide pour laptops incluent souvent des bourrelets en mousse, des mastics ou des barrières conformes. Si vous appliquez du métal liquide sans confinement, vous misez votre carte mère contre la turbulence aérienne.
5) Pression de montage et erreurs de couple : le tueur furtif
Beaucoup de « problèmes de métal liquide » sont en réalité des problèmes de montage. Si vous ne serrez pas les vis en croix, ou si vous manquez une vis à ressort, vous obtenez une pression inégale. Le métal liquide semble alors être présent mais le transfert thermique est mauvais car l’interface n’est pas uniforme.
6) Indicateurs trompeurs : « températures au repos plus basses » n’est pas une victoire
Les températures au repos peuvent s’améliorer alors que la stabilité en charge se dégrade. Les bons indicateurs sont la puissance soutenue du package, les fréquences en charge et le delta hotspot-vers-moyenne. Traitez cela comme de l’ingénierie de performance : vous avez besoin d’un workload répétable et d’une base de référence.
Deuxième et dernière plaisanterie : le métal liquide est la seule mise à niveau où « ça tourne plus frais » peut signifier « c’est sur le point de ne plus jamais tourner ».
Trois mini-récits d’entreprise depuis le terrain
Mini-récit n°1 : L’incident provoqué par une mauvaise hypothèse
Une équipe média avait quelques laptops haut de gamme pour le montage sur site. Ils étaient toujours chauds, toujours bruyants, et les monteurs se plaignaient que les exports ralentissaient en cours de rendu. Un technicien informatique bien intentionné — débrouillard, manuel, motivé — a proposé le métal liquide comme solution. L’hypothèse était simple : « C’est juste une meilleure pâte thermique. »
Le repaste a été fait avec soin, du moins selon les standards hobbyistes. Les températures ont chuté le premier jour. Le monteur était ravi. Deux semaines plus tard, pendant un événement client, le portable a redémarré trois fois sous charge puis a refusé de démarrer. L’unité de secours a eu une panne similaire un jour plus tard.
De retour à l’établi, la carte mère montrait de minuscules résidus métalliques près des étages d’alimentation GPU. Pas une inondation. Un éclat. Assez. Les cycles thermiques plus le mouvement avaient encouragé la migration. Au microscope, c’était clair : un petit pont entre des composants adjacents qui ne devraient pas se toucher.
L’hypothèse erronée n’était pas « le métal liquide fonctionne ». C’était d’assumer qu’une méthode grand public se transpose proprement dans une flotte mobile. Le coût n’était pas seulement des cartes. C’était le risque pour l’événement, la confiance du client et le temps non planifié passé à déboguer des fautes matérielles intermittentes qui ressemblent à du logiciel.
La solution : une politique : pas de métal liquide sur les appareils mobiles sauf si l’OEM l’a conçu, et toute réparation thermique doit inclure des mesures de confinement et un intervalle d’inspection programmé. L’équipe a aussi standardisé l’undervolting et les limites de puissance en priorité — moins sexy, plus fiable.
Mini-récit n°2 : L’optimisation qui a tourné au vinaigre
Un petit cluster de calcul utilisait quelques tours classe workstation pour des builds CI et des tests GPU. Quelqu’un a constaté qu’en charge soutenue, les packages CPU étaient chauds et les fréquences chutaient. Il y avait la pression pour augmenter le débit sans acheter plus de nœuds. Métal liquide + delid est apparu sur un tableau blanc, encerclé deux fois.
L’« optimisation » a fonctionné — initialement. Les benchmarks se sont améliorés. Les graphiques avaient fière allure. Tout le monde est passé à autre chose. Trois mois plus tard, l’instabilité des nœuds a commencé : exceptions machine check sporadiques, périphériques PCIe déconnectés, redémarrages aléatoires. Les pannes étaient assez rares pour être ignorées, puis assez fréquentes pour ruiner la fiabilité des builds.
Ils ont chassé les pilotes. Ils ont mis à jour le BIOS. Ils ont échangé la RAM. Ils ont même soupçonné l’onduleur. Finalement, lors d’un démontage, ils ont trouvé que le métal liquide avait légèrement migré au-delà de la zone prévue, et la plaque froide du dissipateur présentait de légères taches et un contact inégal. L’interface n’était pas catastrophique ; elle était incohérente. Sous certains états thermiques, le système atteignait des conditions d’erreur qui ressemblaient à une alimentation marginale.
Ils ont fini par revenir à une pâte conventionnelle de haute qualité, ajouter un meilleur refroidisseur et limiter la puissance soutenue du package pour garder une performance constante. Le débit a un peu baissé, mais le taux de panne a fortement chuté. C’est le compromis souhaitable en production : une performance prévisible vaut mieux qu’un pic de performance.
La leçon n’était pas « ne jamais optimiser ». C’était « optimiser le système entier ». Si vous augmentez la performance mais accroissez la variance, vous créez une taxe de fiabilité qui finira par être payée avec intérêts.
Mini-récit n°3 : La pratique ennuyeuse mais correcte qui a sauvé la situation
Un groupe de recherche avait quelques stations de travail de bureau pour des simulations longues. Un des ingénieurs voulait essayer le métal liquide pour réduire le bruit et améliorer les fréquences soutenues. Le responsable IT ne l’a pas interdit. À la place, ils l’ont traité comme un changement contrôlé en environnement de production.
Ils ont documenté la base : températures en charge soutenue, courbes de ventilateur, fréquences, puissance package et métriques de stabilité. Ils ont préparé un kit de retour : alcool isopropylique, chiffons non pelucheux, ruban Kapton, revêtement conforme, pâte conventionnelle et visserie de rechange. Ils ont aussi exigé une procédure à deux personnes : une applique, l’autre inspecte à la loupe avant le remontage.
Après application, ils ont exécuté un programme de burn-in : plusieurs cycles thermiques, tests de stress longs et une vérification du couple après refroidissement. Ils ont programmé un rappel calendaire pour inspecter après deux semaines puis après deux mois. C’était fastidieux et ça semblait excessif.
À l’inspection de deux semaines, ils ont trouvé le début d’une migration vers le bord de l’IHS — rien de dramatique, mais suffisant pour justifier une reprise et un meilleur scellement. Parce que la station n’était pas encore « morte », la réparation a été peu coûteuse : nettoyage, réapplication correcte, ajout de confinement et on passe à autre chose.
La pratique ennuyeuse a sauvé la situation : métriques de base, inspection par un pair et recontrôles programmés. C’est la même mentalité qui prévient les pannes de stockage : vous ne faites pas confiance à un changement tant qu’il n’a pas survécu au temps et à la charge.
Mode d’emploi pour diagnostic rapide (contrôles 1er/2e/3e)
Quand une machine fait des siennes après une « mise à niveau » au métal liquide, votre travail est d’identifier vite le goulot d’étranglement et de décider si vous êtes face à du thermique, de la puissance ou un court-circuit électrique. Voici l’ordre pratique qui minimise le temps perdu.
Premier : établissez s’il s’agit de bridage thermique ou d’instabilité
- Vérifiez les flags de throttling et les températures sous une charge connue. Si le système reste stable mais que les fréquences chutent, vous êtes en territoire thermique/firmware.
- Si vous avez des redémarrages, WHEA/MCE ou des périphériques qui disparaissent, suspectez des problèmes électriques ou un contact marginal provoquant des fautes transitoires.
Deuxième : inspectez les logs pour des signatures d’erreur matérielle
- Motifs WHEA/MCE, erreurs PCIe AER, réinitialisations GPU et indices de coupure d’alimentation.
- Événements d’arrêt thermique versus réinitialisations par watchdog.
Troisième : faites une inspection physique avant de « tuner » le logiciel
- Si vous voyez un résidu en dehors de la zone de contact prévue, arrêtez-vous. Nettoyez correctement et revenez à un état sûr.
- Vérifiez la pression du dissipateur, l’ordre de serrage, les entretoises et les barrières d’isolation.
Points de décision
- Bridage thermique uniquement : revérifiez le montage, la couverture et les limites de puissance ; envisagez de revenir à une pâte si la variance est élevée.
- Instabilité intermittente : supposez une contamination conductrice jusqu’à preuve du contraire ; nettoyez et inspectez à la loupe.
- Pas de démarrage : tests d’alimentation minimaux, puis démontage. Ne « réessayez » pas en boucle et n’enracinez pas le problème.
Tâches pratiques : commandes, sorties et décisions (12+)
Voici des tâches de terrain que vous pouvez exécuter sur des postes/serveurs Linux pour décider si vous êtes face à un bridage thermique, une limitation de puissance ou des fautes matérielles déclenchées par une interface défectueuse. Chaque tâche inclut : commande, sortie d’exemple, ce que cela signifie et la décision suivante.
Task 1: Confirm CPU thermal throttling in kernel logs
cr0x@server:~$ sudo dmesg -T | egrep -i "thrott|thermal|temperature" | tail -n 20
[Mon Jan 22 09:41:12 2026] CPU0: Core temperature above threshold, cpu clock throttled (total events = 41)
[Mon Jan 22 09:41:12 2026] CPU0: Package temperature above threshold, cpu clock throttled (total events = 41)
[Mon Jan 22 09:52:10 2026] thermal thermal_zone0: critical temperature reached, shutting down
Signification : Vous avez une preuve explicite dans le noyau d’un bridage thermique et possiblement d’un arrêt thermique.
Décision : Arrêtez de « tuner » le logiciel. Inspectez le montage/contact et vérifiez le chemin de dissipation (ventilateurs, poussière, contact dissipateur). Envisagez de revenir à une pâte si vous ne pouvez pas garantir le confinement.
Task 2: Check for machine check errors (MCE) that suggest electrical/marginal hardware
cr0x@server:~$ sudo journalctl -k -b | egrep -i "mce|machine check|hardware error|whea" | tail -n 30
Jan 22 09:33:18 server kernel: mce: [Hardware Error]: CPU 7: Machine Check: 0 Bank 27: b200000000070005
Jan 22 09:33:18 server kernel: mce: [Hardware Error]: TSC 0 ADDR fef1c140 MISC d012000100000000
Jan 22 09:33:18 server kernel: mce: [Hardware Error]: PROCESSOR 2:a20f12 TIME 1705912398 SOCKET 0 APIC 14 microcode 0xffffffff
Signification : Les erreurs matérielles sous charge apparaissent souvent ici. Après un repaste, cela peut être causé par une surchauffe, mais aussi par des courts/contaminations ou un mauvais contact provoquant des fautes transitoires.
Décision : Si les erreurs corrèlent avec des pics de température, traitez comme thermique. Si elles apparaissent à températures modérées ou pendant le mouvement, suspectez migration/short de métal liquide. Prévoyez un démontage/nettoyage.
Task 3: Verify CPU frequency behavior during a load
cr0x@server:~$ lscpu | egrep "Model name|CPU max MHz|CPU MHz"
Model name: Intel(R) Core(TM) i9-12900K
CPU MHz: 4890.123
CPU max MHz: 5200.0000
Signification : Instantané seulement ; utile comme vérification rapide « est-ce bloqué bas ? ».
Décision : Si le CPU MHz reste bien en dessous de l’attendu en charge, passez au monitoring soutenu et confirmez si la cause est une limite de puissance ou thermique.
Task 4: Monitor temperatures and throttling status (Intel) with turbostat
cr0x@server:~$ sudo turbostat --Summary --quiet --interval 2 --num_iterations 5
Avg_MHz Busy% Bzy_MHz TSC_MHz PkgTmp PkgWatt
4123 92.1 4476 4200 97 189.4
4010 91.8 4361 4200 99 190.2
3720 93.0 3998 4200 100 189.9
3560 94.2 3779 4200 100 189.7
3490 94.5 3686 4200 100 189.6
Signification : La température du package proche de 100°C avec une fréquence en baisse suggère un bridage par limite thermique.
Décision : Réinstallez le refroidisseur et vérifiez l’application du TIM. Si c’est un portable, envisagez une limitation de puissance en attendant de reprendre le travail sur le métal liquide en sécurité.
Task 5: Monitor AMD CPU temps (example) via sensors
cr0x@server:~$ sensors
k10temp-pci-00c3
Adapter: PCI adapter
Tctl: +95.5°C
Tdie: +95.5°C
nvme-pci-0100
Adapter: PCI adapter
Composite: +54.9°C
Signification : Le CPU est très chaud ; le NVMe est normal. Cela pointe vers le refroidissement CPU, pas une surchauffe générale du boîtier.
Décision : Vérifiez la pression du dissipateur, le fonctionnement des ventilateurs/pompe et la couverture du TIM. Si les températures sont anormales par rapport à la base, suspectez un problème de montage ou de dégradation du TIM.
Task 6: Confirm fan and pump behavior
cr0x@server:~$ sensors | egrep -i "fan|pump"
cpu_fan: 2480 RPM
sys_fan1: 1320 RPM
aio_pump: 2980 RPM
Signification : Les ventilateurs et la pompe tournent. Cela ne prouve pas le débit, mais écarte une broche morte.
Décision : Si les thermiques restent mauvaises, regardez l’interface/contact plutôt que de blâmer d’abord la courbe des ventilateurs.
Task 7: Look for GPU resets or PCIe AER spam that can accompany shorts or instability
cr0x@server:~$ sudo journalctl -k -b | egrep -i "aer|pcie|nvrm|amdgpu|gpu reset" | tail -n 30
Jan 22 10:05:44 server kernel: pcieport 0000:00:1c.0: AER: Corrected error received: 0000:01:00.0
Jan 22 10:05:44 server kernel: pcieport 0000:00:1c.0: AER: PCIe Bus Error: severity=Corrected, type=Physical Layer
Jan 22 10:05:47 server kernel: NVRM: Xid (PCI:0000:01:00): 79, GPU has fallen off the bus.
Signification : Le GPU « est tombé du bus ». Après un travail au métal liquide près d’un die GPU/VRM, traitez cela comme une possible contamination ou un problème de montage/pression, pas seulement une crise de pilote.
Décision : Inspection physique immédiate. Ne continuez pas les tests de stress ; vous pourriez aggraver les dégâts.
Task 8: Check if the system is hitting power limits (often mistaken for “bad paste”)
cr0x@server:~$ sudo turbostat --quiet --Summary --interval 1 --num_iterations 3 | cat
Avg_MHz Busy% Bzy_MHz PkgTmp PkgWatt
3600 95.0 3780 82 125.0
3590 95.3 3771 83 125.0
3610 95.1 3792 83 125.0
Signification : Un plateau de wattage stable avec des températures modérées peut indiquer une limitation de puissance plutôt qu’un bridage thermique.
Décision : Si les températures sont correctes mais que la performance est plafonnée, ajustez les limites de puissance dans le BIOS ou la gestion d’énergie OS plutôt que de refaire le TIM.
Task 9: Verify CPU governor and power profile (common post-maintenance drift)
cr0x@server:~$ cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor
powersave
Signification : Vous êtes en mode powersave. Cela peut ressembler à un « problème thermique » parce que les fréquences ne tiennent pas.
Décision : Passez en performance pour les tests, puis choisissez la politique intentionnellement.
cr0x@server:~$ sudo cpupower frequency-set -g performance
Setting cpu: 0
Setting cpu: 1
Setting cpu: 2
Setting cpu: 3
Signification : Le gouverneur a été changé pour les conditions de test.
Décision : Relancez votre workload. Si la performance revient sans pics de température, votre « problème métal liquide » était une dérive de politique.
Task 10: Run a controlled CPU stress test and watch temps (don’t freestyle)
cr0x@server:~$ sudo apt-get install -y stress-ng
Reading package lists... Done
Building dependency tree... Done
The following NEW packages will be installed:
stress-ng
cr0x@server:~$ stress-ng --cpu 0 --timeout 60s --metrics-brief
stress-ng: info: [4120] setting to a 60 second run per stressor
stress-ng: info: [4120] dispatching hogs: 16 cpu
stress-ng: info: [4120] successful run completed in 60.01s
stress-ng: info: [4120] metrics: 12345.67 bogo ops/s
Signification : Vous avez maintenant une charge répétable de 60 s pour comparer avant/après.
Décision : Associez cela à turbostat/sensors. Si vous touchez les limites thermiques instantanément, c’est montage/TIM/dissipateur. Si c’est stable, poursuivez l’investigation.
Task 11: Check SMART/NVMe errors (because heat issues can cascade)
cr0x@server:~$ sudo smartctl -a /dev/nvme0n1 | egrep "Temperature:|Critical Warning|Media and Data Integrity Errors|Error Information Log Entries"
Critical Warning: 0x00
Temperature: 55 Celsius
Media and Data Integrity Errors: 0
Error Information Log Entries: 0
Signification : NVMe est sain. Cela écarte le scénario « tout surchauffe ».
Décision : Concentrez-vous sur l’interface CPU/GPU et les zones VRM locales — là où le métal liquide a été appliqué.
Task 12: Check system reboots and power loss patterns
cr0x@server:~$ last -x | head -n 12
reboot system boot 6.6.9-rt Mon Jan 22 10:12 still running
shutdown system down 6.6.9-rt Mon Jan 22 10:10 - 10:12 (00:02)
reboot system boot 6.6.9-rt Mon Jan 22 09:58 - 10:10 (00:12)
reboot system boot 6.6.9-rt Mon Jan 22 09:41 - 09:58 (00:17)
Signification : Plusieurs courtes durées d’activité suggèrent des réinitialisations. Si elles coïncident avec des événements de charge, suspectez un arrêt thermique ou une faute matérielle.
Décision : Corrélez avec les horodatages de journalctl. S’il n’y a pas d’arrêt propre consigné, suspectez une coupure d’alimentation abrupte (court/ protection VRM) ou une coupure thermique dure.
Task 13: Check ACPI thermal zones (useful on laptops)
cr0x@server:~$ for z in /sys/class/thermal/thermal_zone*/type; do echo "$z: $(cat $z)"; done
/sys/class/thermal/thermal_zone0/type: x86_pkg_temp
/sys/class/thermal/thermal_zone1/type: acpitz
cr0x@server:~$ for t in /sys/class/thermal/thermal_zone*/temp; do echo "$t: $(cat $t)"; done
/sys/class/thermal/thermal_zone0/temp: 98000
/sys/class/thermal/thermal_zone1/temp: 45000
Signification : Le package CPU est à 98°C pendant que la zone ACPI est normale. Cela localise encore l’anomalie sur le refroidissement CPU, pas l’ambiance.
Décision : Traitez comme interface/montage. Si c’est après application de métal liquide, prévoyez un démontage et vérifiez confinement et couverture.
Task 14: Validate that fans aren’t being artificially capped by a profile
cr0x@server:~$ systemctl status thermald --no-pager
● thermald.service - Thermal Daemon Service
Loaded: loaded (/lib/systemd/system/thermald.service; enabled; preset: enabled)
Active: active (running) since Mon 2026-01-22 09:11:03 UTC; 1h 2min ago
Signification : thermald est actif ; sur certains systèmes il peut influencer le comportement thermique.
Décision : Ne désactivez pas la sécurité thermique définitivement. Pour le débogage, vous pouvez comparer le comportement avec/sans utilitaires vendor, mais la solution est physique si l’interface est mauvaise.
Erreurs courantes : symptôme → cause racine → correction
C’est la section que j’aimerais que plus de gens lisent avant d’ouvrir le châssis.
Symptôme : Les températures s’améliorent pendant une semaine, puis deviennent pires qu’avant
Cause racine : Migration/pump-out ou formation d’un film d’oxyde réduisant le contact effectif aux hotspots ; parfois combiné à une pression inégale.
Correction : Démontage, nettoyage complet, réappliquer en quantité minimale et étaler correctement, ajouter du confinement (bourrelet en mousse, mastic adapté à la plateforme), vérifier le couple uniforme en croix. Si vous ne pouvez pas mettre en place de confinement, revenez à une pâte de haute qualité.
Symptôme : Redémarrages aléatoires sous charge, pas de logs logiciels clairs
Cause racine : Contamination conductrice causant des courts intermittents ; la protection VRM se déclenche et ressemble à une perte d’alimentation.
Correction : Arrêtez les tentatives de démarrage répétées. Désassemblez et inspectez à la loupe autour des bords du die et des passifs/VRM voisins. Nettoyez soigneusement ; si le résidu a atteint des zones à pas fin, envisagez un nettoyage ultrason professionnel plutôt que de gratter.
Symptôme : Le système démarre, mais le GPU « tombe du bus » ou montre des artefacts
Cause racine : Métal liquide migré vers des composants CMS près du package GPU ; ou contact du dissipateur inégal provoquant une instabilité de hotspot.
Correction : Inspection physique et reprise. Vérifiez aussi la pression de montage et les éventuels pads thermiques manquants qui supportent le plan du dissipateur.
Symptôme : Pas de démarrage après repaste ; ventilateurs tournent, pas d’affichage
Cause racine : Rails court-circuités près du CPU/GPU ou contamination sous le support ; alternativement dommage ESD pendant la manipulation.
Correction : Inspectez d’abord la présence de résidu de métal liquide (c’est la cause réversible la plus simple). Nettoyez. Si pas de résidu et pas d’avancée, passez au diagnostic au niveau carte.
Symptôme : Températures CPU normales, mais performance plafonnée et fréquences basses
Cause racine : Politiques de puissance, mises à jour firmware remettant à zéro PL1/PL2, ou changement de gouverneur OS — sans rapport avec le métal liquide.
Correction : Confirmez les réglages de gestion d’énergie, les limites BIOS et le gouverneur. Ne refaites le TIM que si les températures sont réellement le facteur limitant.
Symptôme : Surface du dissipateur tachée/piquée après nettoyage
Cause racine : Réaction/alliage avec du cuivre nu ou nickelage compromis ; exposition possible d’aluminium si le dissipateur n’est pas compatible.
Correction : N’appliquez pas davantage de métal liquide sur une surface endommagée. Remplacez le dissipateur ou revenez à la pâte. Si de l’aluminium est impliqué, arrêtez immédiatement et remplacez les composants concernés.
Symptôme : Le portable fonctionne sur le bureau, mais échoue après un déplacement
Cause racine : Le mouvement plus le cycle thermique ont déplacé le métal liquide au-delà de la limite prévue ; confinement absent ou insuffisant.
Correction : Refaire avec confinement adéquat ou revenir à la méthode approuvée OEM. Traitez le métal liquide mobile comme un cas spécial, pas comme une habitude de bureau.
Checklists / plan pas-à-pas
Checklist décisionnelle : devriez-vous utiliser du métal liquide du tout ?
- La surface de contact du dissipateur est-elle nickelée ? Si vous ne pouvez pas le confirmer, supposez le risque.
- Y a-t-il de l’aluminium dans le chemin de contact ? Si oui, n’utilisez pas de métal liquide à base de gallium.
- L’appareil est-il mobile (laptop) ou manipulé fréquemment ? Si oui, exigez confinement et inspections — ou n’en faites pas.
- Pouvez-vous tolérer une indisponibilité ? Si non, n’introduisez pas un mode de panne que vous ne pouvez pas réparer rapidement.
- Avez-vous une loupe et les bons produits de nettoyage ? Si non, vous n’êtes pas équipé.
Checklist préparation : quoi avoir sur le banc
- Bracelet ESD et un espace de travail propre et bien éclairé
- Alcool isopropylique haute concentration, chiffons non pelucheux, écouvillons
- Ruban Kapton (résistant à la chaleur) pour masquage/isolation
- Revêtement conforme ou barrière isolante appropriée (dépend de la plateforme)
- Tournevis corrects, sens du couple et cartographie des vis (les photos comptent)
- Pâte conventionnelle pour retour arrière
- Plan de test de stress connu et métriques de base
Étapes pas-à-pas : application plus sûre du métal liquide (desktop ou laptop réparable)
- Base de référence d’abord : enregistrez températures soutenues, fréquences et comportement sonore. Si vous ne mesurez pas, vous faites de l’ingénierie à l’intuition.
- Démontez lentement : photographiez chaque couche. Surtout le placement et l’épaisseur des pads thermiques.
- Nettoyez complètement : enlevez l’ancienne pâte et tout résidu. Ne laissez pas de fibres ; elles deviennent des mèches.
- Masquez la zone dangereuse : utilisez du Kapton autour du die/IHS pour réduire le risque de contact errant. Sur un package bare-die, protégez les CMS voisins.
- Ajoutez du confinement : barrières en mousse ou bourrelets OEM là où c’est approprié. L’objectif est de garder le matériau à sa place malgré les cycles et les mouvements.
- Appliquez en quantité minimale : une couche fine et contrôlée. Si ça ressemble à une flaque, c’est une flaque.
- Étalez intentionnellement : assurez la couverture de la zone de contact sans le pousser vers l’extérieur. Évitez le « raclage jusqu’au bord ».
- Montez avec discipline : serrez en croix, progressivement, pour une pression uniforme. Ne serrez pas complètement un coin en premier.
- Premier démarrage : bootez vers le BIOS ou l’OS et surveillez immédiatement les températures. Éteignez si les températures grimpent anormalement vite.
- Burn-in par cycles thermiques : exécutez des tests de stress contrôlés avec périodes de refroidissement pour simuler le cycle thermique réel.
- Réinspectez : si la plateforme le permet, rouvrez après les cycles initiaux pour confirmer l’absence de migration. Cette étape attrape les problèmes quand ils sont encore peu coûteux.
- Fixez un intervalle de maintenance : si vous utilisez du métal liquide, acceptez qu’il puisse nécessiter des inspections/réinterventions plus fréquentes que la pâte.
Étapes pas-à-pas : réponse à une fuite et contamination (n’improvisez pas)
- Coupez l’alimentation immédiatement. Retirez le courant et la batterie si possible.
- Ne continuez pas à tenter de démarrer. Les cycles répétés peuvent transformer un court récupérable en dommage de composant.
- Démontez et isolez. Accédez directement à la zone affectée ; ne l’étendez pas.
- Élimination mécanique d’abord : utilisez des écouvillons et des essuyages précautionneux pour soulever le matériau ; évitez de le pousser dans des crevasses.
- Nettoyage par solvant ensuite : isopropyl pour la contamination environnante ; notez que le métal liquide ne « se dissout » pas comme une pâte — le nettoyage est souvent mécanique.
- Inspectez à la loupe. Regardez les bords des packages, les composants VRM et les zones de connecteurs.
- Ce n’est qu’après nettoyage : remontez et effectuez un démarrage minimal avec surveillance.
- Si le résidu est sous des composants ou en pas fin : escaladez vers un nettoyage professionnel/réparation. Ce n’est pas l’endroit pour l’orgueil.
FAQ
Le métal liquide est-il toujours meilleur que la pâte thermique ?
Non. Il peut réduire les températures, mais il augmente les risques : conductivité, migration et réactions de matériaux. « Mieux » dépend de votre tolérance à la maintenance et aux modes de panne.
Le métal liquide peut-il endommager mon dissipateur ?
Oui, surtout si de l’aluminium est impliqué (ne le faites pas). Sur le cuivre, vous pouvez voir des taches ou des modifications de surface ; le nickelage aide mais n’est pas invincible.
Pourquoi mes températures ont-elles empiré après l’application du métal liquide ?
Généralement une des trois choses : trop de matière provoquant un mauvais assise/migration, pression de montage inégale, ou oxydation/migration réduisant le contact aux hotspots. Une mauvaise application peut être pire qu’une pâte correcte.
Quel est le plus grand indice d’un court-circuit dû au métal liquide ?
Crashes intermittents, redémarrages soudains en charge, déconnexions GPU, ou non-démarrage après le repaste — surtout si les températures ne sont pas extrêmes. Une inspection visuelle trouve souvent une minuscule trace brillante près de composants CMS.
Le métal liquide est-il sûr dans les portables ?
Ça peut l’être lorsque l’OEM a conçu un confinement dans le module de refroidissement. Le métal liquide DIY sur laptop sans confinement est un pari à haut risque parce que les portables bougent et se retournent.
À quelle fréquence dois-je refaire le métal liquide ?
Il n’y a pas de calendrier universel. Certaines configurations tiennent longtemps ; d’autres se dégradent rapidement. Si vous choisissez le métal liquide, engagez-vous à des inspections périodiques, surtout après les cycles thermiques initiaux et après des déplacements.
Dois-je utiliser un revêtement conforme ou du ruban Kapton ?
Pour les packages bare-die et les zones CMS denses : oui, une forme d’isolation/confinement est judicieuse. Le Kapton est courant pour masquer ; le revêtement conforme peut ajouter une barrière mais doit être appliqué soigneusement et laissé durcir.
Mon système bride à 80–85°C. Est-ce un problème de métal liquide ?
Pas nécessairement. Les limites de puissance, les courbes firmware et les capteurs hotspot peuvent déclencher un comportement conservateur. Confirmez avec turbostat/sensors et les logs avant de refaire le travail matériel.
Puis-je nettoyer le métal liquide avec de l’alcool isopropylique ?
L’alcool aide à nettoyer la saleté environnante et la pâte résiduelle, mais le nettoyage du métal liquide est souvent mécanique : essuyage/levage soigneux. S’il est sous des composants, l’alcool ne le résoudra pas magiquement.
L’undervolting est-il une alternative plus sûre ?
Souvent, oui. Réduire la puissance réduit la chaleur avec moins de risques mécaniques et électriques. Pour la fiabilité en production, l’undervolting/limitation de puissance est généralement le premier levier à actionner.
Prochaines étapes concrètes
Si vous envisagez le métal liquide, traitez-le comme une demande de changement, pas comme un hobby du week-end :
- Mesurez une base de référence (températures, fréquences, puissance soutenue) avant de toucher quoi que ce soit.
- Déterminez si votre plateforme mérite le risque : les desktops sont plus permissifs ; les laptops exigent confinement et inspections.
- Utilisez le mode d’emploi de diagnostic rapide si vous avez déjà appliqué le métal liquide et que quelque chose cloche — ne chassez pas d’abord les pilotes.
- Adoptez le rollback comme fonctionnalité : gardez de la pâte conventionnelle et soyez prêt à revenir en arrière si la variance ou l’instabilité augmente.
- Notez ce que vous avez changé et quand. Votre futur vous sera reconnaissant face aux mystères.
Le métal liquide peut être un outil légitime. Il peut aussi être une facture de réparation avec étapes en plus. Si vous voulez la performance, méritez-la par le processus : confinement, inspection et métriques. Voilà comment empêcher une « mise à niveau de refroidissement » de se transformer en rapport d’incident.