GPU d’occasion après minage : comment vérifier avant d’acheter

Cet article vous a aidé ?

Vous avez trouvé un GPU « légèrement utilisé » vendu à un prix qui semble suspectement bon (il n’est pas tombé d’un camion ; il est tombé d’une ferme de minage). Vous êtes tenté.
Vous avez aussi une saine appréhension d’acheter une brique de silicium surchauffée avec des ventilateurs qui ressemblent à une audition de souffleur de feuilles.

Voici le guide pratique que j’aurais souhaité que tout acheteur suive avant de remettre de l’argent. Il est construit comme un runbook opérationnel :
vérifier l’identité, détecter toute altération, mesurer les thermiques, valider la VRAM, surveiller le throttling, et seulement ensuite décider si l’affaire est sérieuse.

Pourquoi les GPU d’occasion issus du minage sont particuliers (et parfois acceptables)

Un GPU d’occasion destiné au jeu est généralement « par à-coups » : utilisation variable le soir et le week-end, nombreux cycles thermiques.
Un GPU de minage est en « état permanent » : longues heures, charge constante, souvent undervolté, parfois maintenu au frais… et parfois cuit dans un sauna de poussière.

Ce détail de l’état permanent compte. L’électronique déteste en général les cycles thermiques. Les ventilateurs détestent les heures d’utilisation.
La VRAM peut souffrir d’un mauvais refroidissement. L’alimentation déteste les alimentations bon marché et le flux d’air médiocre. Et vous, acheteur, détestez les surprises.

L’objectif n’est pas de prouver que le GPU est « comme neuf ». C’est de prouver qu’il est prévisible :
qu’il s’identifie correctement, qu’il fonctionne de manière stable à l’état stock, qu’il n’affiche pas d’erreurs mémoire, qu’il ne bride pas de façon étrange et qu’il n’a pas de firmware bidouillé.

Blague n°1 : Acheter un GPU issu du minage sans test, c’est comme déployer un vendredi — techniquement possible, spirituellement discutable.

Faits intéressants et brève histoire (pour arrêter de deviner)

  • Le minage GPU n’a pas toujours été « minage GPU ». Le minage crypto a débuté sur CPU ; les GPU sont devenus dominants quand le hachage parallèle a écrasé les performances CPU.
  • 2013–2014 a été une répétition générale de la pénurie de GPU.La demande à l’époque de Litecoin a fait flamber certains modèles AMD bien avant la grosse vague de 2020–2022.
  • L’essor d’Ethereum a fait de la VRAM et de la bande passante mémoire les éléments cruciaux.Beaucoup d’installations de minage ont optimisé les fréquences/tensions mémoire plus que le cœur.
  • Le bidouillage du firmware est devenu une industrie.Des VBIOS modifiés pour des timings mémoire serrés étaient courants sur certaines générations AMD, et cela peut persister lors de la revente.
  • L’undervolting est souvent une bonne pratique de minage.Beaucoup de mineurs réduisaient la tension du cœur pour améliorer l’efficacité, ce qui peut en réalité réduire le stress—si le refroidissement est correct.
  • Les ventilateurs sont les victimes habituelles.Les roulements s’usent après de longues opérations continues ; la panne des ventilateurs est parmi les événements « hier c’était ok » les plus communs.
  • Les pads thermiques comptent plus que la pâte thermique.Sur beaucoup de cartes, le refroidissement VRAM/VRM dépend des pads ; des pads desséchés ou mal dimensionnés provoquent erreurs mémoire et throttling.
  • « Reconditionné » signifie parfois « lavé ». On peut nettoyer une carte pour qu’elle paraisse propre tout en laissant des connecteurs corrodés ou des pads cuits intacts.
  • Le « post-merge » a inondé le marché d’occasion.Quand Ethereum a quitté le proof-of-work, beaucoup de GPU sont soudain devenus disponibles, avec une qualité très variable.

Ce que le minage fait réellement à un GPU

La chaleur est le sujet principal ; les heures de ventilateur sont le vrai coût

Les fermes de minage tournent généralement 24/7. Si l’opérateur s’en souciait, il undervoltait, assurait un bon flux d’air et gardait les points chauds et la VRAM
à des températures raisonnables. S’il ne s’en souciait pas, la carte a pu vivre en marge du throttling pendant des mois. Les deux cartes seront annoncées « testées, fonctionnelles ».
Une seule mérite votre argent.

L’histoire des ventilateurs est plus simple : les heures, c’est les heures. Un ventilateur qui a tourné 18 mois en continu a vécu sa vie.
Vous pouvez remplacer les ventilateurs. Mais vous devez prévoir ce coût et vérifier que la carte n’a pas d’autres comportements de « système fatigué ».

La santé de la VRAM est le différenciateur silencieux

Pour le jeu, beaucoup de problèmes apparaissent sous forme d’artefacts occasionnels que les utilisateurs tolèrent jusqu’à un seuil.
Pour le calcul, les erreurs VRAM deviennent des résultats incorrects ou des crashs. Le minage attaque spécifiquement la mémoire. Si une carte a une VRAM marginale,
le minage le révélait. Parfois, le mineur « corrige » ça en sous-fréquençant la mémoire. Puis vous l’achetez, remettez les paramètres d’origine et tout s’effondre.

Le firmware et les limites d’alimentation peuvent être piégés

Certaines cartes ex-minage portent des VBIOS modifiés : limites de puissance altérées, timings/straps mémoire changés, sorties désactivées sur certains modèles,
ou courbes de ventilateur étranges. Une carte qui « fonctionne dans le mineur » peut rester problématique sur un PC de bureau classique.

La fiabilité tient à éliminer les inconnues

Adoptez l’état d’esprit de l’exploitation : vous n’avez pas besoin de perfection. Vous avez besoin d’un système contrôlé avec des modes de défaillance connus.
Quand vous achetez du matériel d’occasion, vous achetez les inconnues de quelqu’un d’autre. Vos tests servent à les rendre connues.

Une citation à coller au-dessus de votre écran : « L’espoir n’est pas une stratégie. » — General Gordon R. Sullivan

Avant de rencontrer le vendeur : quoi demander, quoi refuser

Demandez des preuves ennuyeuses, pas des impressions

  • Nom exact du modèle et photos des autocollants : face, plaque arrière, zone du connecteur PCIe, et l’étiquette avec le numéro de série/modèle.
  • Statut du VBIOS d’origine : « Jamais flashé » est une affirmation ; votre travail est de vérifier ensuite. Mais demandez quand même et observez la réponse.
  • Mode d’utilisation : « dans mon PC de jeu » vs « sur une baie, 24/7 ». Ne moralisez pas ; évaluez le risque correctement.
  • Raison de la vente : méfiez-vous des réponses évasives. « Mise à niveau » est acceptable. « Pas le temps » est acceptable. « Il faut juste des drivers » n’est pas acceptable.
  • Fenêtre de retour : même 24 heures aide. Pas de retour n’est acceptable que si le prix est fortement réduit et que vous pouvez tester sur place.

Refusez les transactions qui bloquent la vérification

Partez si l’une de ces situations se présente :

  • Vous ne pouvez rien brancher pour le tester.
  • Ils refusent que vous fassiez un test de stress « parce que ça prend trop de temps ».
  • La carte est « déjà emballée et scellée » sans que le numéro de série soit visible.
  • Ils insistent pour se rencontrer dans un endroit où vous ne pouvez pas brancher la carte.

Vous n’êtes pas difficile. Vous êtes un adulte avec un budget.

Inspection physique : ce que le logiciel ne peut pas réparer

Recherchez la négligence thermique et la fatigue mécanique

  • Décoloration du PCB : zones assombries autour des étages VRM ou des connecteurs d’alimentation peuvent indiquer une chaleur soutenue.
  • Déformation : un léger affaissement est normal ; une déformation évidente du PCB ne l’est pas. Les rigs de minage montent parfois les cartes de façon atypique.
  • Usure des connecteurs : les contacts du bord PCIe doivent être propres et usés de manière uniforme ; des rayures profondes ou des piqûres peuvent indiquer une corrosion.
  • Jeu des ventilateurs : faites tourner doucement les ventilateurs. Ils doivent tourner sans grincement et s’arrêter graduellement.
  • Motifs de poussière sur le dissipateur : « propre dehors, tassé dedans » suggère un nettoyage cosmétique uniquement.
  • Boulons manquants / boulons mélangés : signe d’un démontage préalable. Le démontage n’est pas mal en soi, mais il augmente l’exigence de vos tests logiciels.
  • Corrosion de la plaque arrière / de l’équerre IO : surtout près de l’air salin. C’est généralement une histoire environnementale, pas de performance—jusqu’à ce que ça le devienne.

Test olfactif (oui, vraiment)

Une forte odeur d’électronique brûlée autour de la zone du connecteur d’alimentation n’est pas « normalement usé ». C’est « quelque chose a chauffé au point de laisser une trace ».
Certaines personnes ignorent cela et n’ont pas de problèmes. D’autres ont des écrans noirs intermittents pendant des mois. Décidez quel hobby vous voulez.

Blague n°2 : Si le GPU sent le barbecue, vous n’avez pas acheté une carte graphique — vous avez adopté un récit prudent.

Playbook de diagnostic rapide (premiers/deuxièmes/troisièmes contrôles)

C’est la version « j’ai 20 minutes avec le vendeur et une seule machine Linux ». L’ordre compte.
Vous essayez de détecter tôt les principaux défauts rédhibitoires : identité erronée, firmware étrange, VRAM instable, emballement thermique.

Première étape : identité et sanity des drivers (2 minutes)

  • Confirmez que la carte est bien ce qu’elle prétend être (modèle, taille de VRAM, largeur de bus/lien PCIe).
  • Confirmez que le pilote communique proprement avec elle (pas de spam Xid, pas de « fallen off the bus »).

Deuxième étape : thermiques à l’arrêt et sous charge courte (5–7 minutes)

  • Vérifiez la température au repos et le comportement des ventilateurs.
  • Effectuez une charge courte et lourde, et observez la température GPU, le hotspot (si disponible) et la consommation.
  • Recherchez un throttling immédiat, des défaillances d’augmentation des ventilateurs ou des bizarreries de limite de puissance.

Troisième étape : stabilité axée VRAM (10–15 minutes)

  • Lancez un test intensif en mémoire (pas seulement centré sur le cœur).
  • Surveillez les artefacts, les plantages d’application, les réinitialisations de pilote, les erreurs mémoire corrigées/non corrigées (si la plateforme les expose).

Si elle passe ces trois étapes, elle mérite un test plus approfondi plus tard

Les tests sur place ne remplacent pas un burn-in complet. C’est un triage. Votre objectif est de ne pas acheter du matériel manifestement défectueux.
Après l’achat (idéalement pendant la fenêtre de retour), faites la suite de tests plus longue.

Contrôles pilotés par commandes : tâches pratiques avec sorties et décisions

Ci-dessous figurent des tâches que vous pouvez réellement exécuter. Elles sont écrites pour Linux parce que Linux est honnête et rapide pour dire la vérité sur le matériel.
Si vous achetez pour du jeu uniquement sous Windows, vous pouvez quand même lancer ces tests depuis une clé USB live. Oui, ça vaut le coup.

Hypothèses :

  • Les cartes NVIDIA utilisent nvidia-smi.
  • Les cartes AMD utilisent les pilotes noyau et des outils comme lspci, journalctl, rocm-smi quand disponibles.
  • Outils de stress : stress-ng, glmark2, gpu-burn (si disponible), et des charges OpenGL/Vulkan simples.

Tâche 1 : identifier le GPU et confirmer qu’il apparaît sur le bus PCIe

cr0x@server:~$ lspci -nn | grep -Ei 'vga|3d|display'
01:00.0 VGA compatible controller [0300]: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] [10de:1b06] (rev a1)

Ce que cela signifie : Vous obtenez les identifiants vendeur et device. Si l’affichage indique « RTX 3080 » et que vous voyez GP102, c’est terminé — partez.
Si rien n’apparaît, la carte n’est pas énumérée (carte morte, problème d’alimentation ou slot de la carte mère défaillant).

Décision : Mismatch = pas d’achat. Périphérique manquant = dépanner seulement si vous contrôlez le banc de test et pouvez changer de slot/PSU rapidement.

Tâche 2 : vérifier la largeur et la vitesse du lien PCIe (indice de performance et stabilité)

cr0x@server:~$ sudo lspci -s 01:00.0 -vv | grep -E 'LnkCap|LnkSta'
LnkCap: Port #0, Speed 8GT/s, Width x16
LnkSta: Speed 8GT/s (ok), Width x16 (ok)

Ce que cela signifie : Si une carte x16 fonctionne en x1 ou x4 de manière inattendue, vous avez peut-être un connecteur sale, des broches endommagées,
un problème de carte mère, ou une usure liée à l’utilisation de risers en minage.

Décision : Tout ce qui est en dessous de la largeur attendue sur un slot connu bon est un signal d’alerte. Nettoyez et resserrez une fois ; si ça persiste, passez.

Tâche 3 : vérifier la communication du driver NVIDIA et la télémétrie basique

cr0x@server:~$ nvidia-smi
Tue Jan 21 12:10:11 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------|
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  GeForce RTX 3080               Off |   00000000:01:00.0  Off |                  N/A |
| 55%   44C    P8              36W / 320W |      500MiB / 10240MiB |      3%      Default |
+-----------------------------------------+------------------------+----------------------+

Ce que cela signifie : La carte est vivante, le pilote la voit, et les capteurs basiques fonctionnent.
Des capteurs manquants, des « N/A » là où vous attendriez une valeur (à part l’ECC sur les cartes grand public), ou une consommation au repos dingue peuvent indiquer des bizarreries firmware.

Décision : Si nvidia-smi renvoie une erreur ou se bloque, arrêtez. Ce n’est pas un simple « problème de pilote » tant que ce n’est pas prouvé sur une autre machine.

Tâche 4 : extraire l’identité détaillée de la carte NVIDIA et la version du VBIOS

cr0x@server:~$ nvidia-smi -q | sed -n '1,120p'
==============NVSMI LOG==============

Timestamp                                 : Tue Jan 21 12:11:03 2026
Driver Version                            : 550.54.14
CUDA Version                              : 12.4

Attached GPUs                             : 1
GPU 00000000:01:00.0
    Product Name                          : GeForce RTX 3080
    Product Brand                         : GeForce
    VBIOS Version                         : 94.02.42.40.9B
    PCI Device/Vendor ID                  : 2206/10DE
    GPU UUID                              : GPU-aaaaaaaa-bbbb-cccc-dddd-eeeeeeeeeeee

Ce que cela signifie : Vous obtenez la version du VBIOS et un UUID stable. Un champ VBIOS étrange ou vide peut être un avertissement.
La version du VBIOS ne prouve pas à elle seule qu’elle est d’origine, mais elle vous donne un point de comparaison pour plus tard.

Décision : Si le vendeur affirme « jamais flashé » et que le VBIOS est manifestement non standard pour ce modèle, négociez ou partez.

Tâche 5 : vérifier les erreurs noyau/driver au repos

cr0x@server:~$ sudo journalctl -k --since "10 min ago" | grep -Ei 'nvrm|xid|amdgpu|gpu|pcie' | tail -n 20
kernel: NVRM: loading NVIDIA UNIX x86_64 Kernel Module  550.54.14  Tue Jan 14 20:11:31 UTC 2026
kernel: nvidia 0000:01:00.0: enabling device (0000 -> 0003)

Ce que cela signifie : Vous recherchez des signaux de stabilité : erreurs Xid (NVIDIA), réinitialisations GPU, spam AER PCIe, timeouts de ring amdgpu.
Un journal propre au repos est la base.

Décision : Des réinitialisations GPU récurrentes ou des erreurs PCIe au repos ? Partez. Sous charge, vous pouvez tester plus avant pour confirmer ; au repos, c’est déjà mauvais.

Tâche 6 : vérifier les thermiques au repos et le RPM du ventilateur (si exposé)

cr0x@server:~$ nvidia-smi --query-gpu=temperature.gpu,fan.speed,power.draw,clocks.gr,clocks.mem --format=csv
temperature.gpu, fan.speed [%], power.draw [W], clocks.current.graphics [MHz], clocks.current.memory [MHz]
44, 55, 36.12, 210, 405

Ce que cela signifie : Une température au repos dans les 30–50 °C peut être normale selon l’ambiance et la politique d’arrêt des ventilateurs.
Mais une consommation au repos élevée (par ex. 70–100W) sans écran attaché peut indiquer des bizarreries firmware/driver, ou que la carte est bloquée dans un état de performance.

Décision : Une consommation au repos élevée ou un ventilateur bloqué à 100% avec de basses températures suggère des problèmes de capteur/contrôle. N’achetez pas un « contrôleur mystère ».

Tâche 7 : test de charge rapide et observation des horloges, de la consommation et des raisons de throttle

cr0x@server:~$ timeout 60s glmark2 --off-screen
=======================================================
    glmark2 2021.02
=======================================================
[build] use-vbo=false: FPS:  945 FrameTime: 1.058 ms
[build] use-vbo=true:  FPS: 1204 FrameTime: 0.831 ms
=======================================================
                                  glmark2 Score:  10843
=======================================================

Ce que cela signifie : Vous voulez que « ça tourne » sans artefacts, réinitialisations du pilote, ou effondrements soudains du score en plein test.
Les scores varient selon le CPU et le pilote, donc concentrez-vous sur la stabilité.

Décision : Toute corruption visuelle, crash ou gel du test est un échec catégorique.

Tâche 8 : surveiller la télémétrie en direct pendant la charge (détecter rapidement un emballement thermique)

cr0x@server:~$ nvidia-smi dmon -s pucmt
# gpu   pwr  u   c   m   t
# Idx     W  %  %  %  C
  0     302  99  96  78  83
  0     309  99  97  79  86
  0     312  99  97  80  89

Ce que cela signifie : Vous regardez la puissance (pwr), l’utilisation (u), l’utilisation des horloges (c), la mémoire (m) et la température (t).
Des températures qui montent en flèche et ne se stabilisent pas suggèrent un mauvais contact du refroidisseur, ventilateurs morts, ailettes bouchées, ou pads cramés.

Décision : Si elle atteint rapidement la limite thermique et que les horloges chutent, négociez une repaste/remplacement de pads (et assumez le risque) ou partez.

Tâche 9 : vérifier les raisons de throttling (NVIDIA)

cr0x@server:~$ nvidia-smi -q -d PERFORMANCE | sed -n '1,140p'
    Performance State                    : P2
    Clocks Throttle Reasons
        Idle                             : Not Active
        Applications Clocks Setting       : Not Active
        SW Power Cap                      : Not Active
        HW Slowdown                       : Not Active
        HW Thermal Slowdown               : Not Active
        HW Power Brake Slowdown           : Not Active
        Sync Boost                        : Not Active
        SW Thermal Slowdown               : Not Active

Ce que cela signifie : Vous voulez que les throttles soient « Not Active » pendant une charge modérée. Sous charge extrême, la limite de puissance peut s’activer—c’est normal.
Un ralentissement thermique actif à des températures modestes est suspect : calibration de capteur mauvaise, limites firmware, ou mauvais contact avec le hotspot/VRAM.

Décision : Un thermal slowdown persistant ou un power-brake slowdown sous des tests normaux est un non-achat à moins d’en faire un projet de réparation.

Tâche 10 : stress mémoire intensif (repérer une VRAM marginale)

cr0x@server:~$ stress-ng --gpu 1 --gpu-ops 200000 --timeout 10m --metrics-brief
stress-ng: info:  [2147] dispatching hogs: 1 gpu
stress-ng: info:  [2147] successful run completed in 600.01s
stress-ng: info:  [2147] metrics: 200000 gpu ops, 333.33 ops/s

Ce que cela signifie : Vous voulez qu’il termine sans erreurs, sans réinitialisation du pilote, et sans remplissage du journal système d’erreurs GPU.
Ce n’est pas le seul test VRAM, mais c’est une charge accessible qui répond à la question « est-ce que ça s’effondre ? ».

Décision : Tout crash/réinitialisation/artefact durant 10 minutes de charge mémoire ? Supposez VRAM ou problèmes d’alimentation. Partez.

Tâche 11 : scan des logs après stress (parce que le log dit la vérité quand l’interface ment)

cr0x@server:~$ sudo journalctl -k --since "20 min ago" | grep -Ei 'xid|nvrm|amdgpu|ring|timeout|pcie|aer' | tail -n 50
kernel: NVRM: Xid (PCI:0000:01:00): 13, pid=3121, Graphics Exception: ESR 0x404600=0x80000002

Ce que cela signifie : Xid 13 et consorts peuvent indiquer des problèmes de pilote, mais dans le monde du matériel d’occasion, considérez-les comme « le matériel peut être marginal »
à moins que vous puissiez reproduire proprement sur un autre OS/une autre version de pilote rapidement.

Décision : Toute Xid ou timeout de ring AMD pendant vos courts tests est un signal majeur d’alerte. N’achetez pas sur l’espoir.

Tâche 12 : vérifier l’alimentation système et les signaux de stabilité PCIe (compteurs AER)

cr0x@server:~$ sudo journalctl -k --since "30 min ago" | grep -i 'AER' | tail -n 20
kernel: pcieport 0000:00:01.0: AER: Corrected error received: 0000:01:00.0
kernel: pcieport 0000:00:01.0: AER: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)

Ce que cela signifie : Les erreurs corrigées peuvent venir de mauvais risers, d’intégrité de signal limite, ou de connecteurs sales. Les rigs de minage utilisaient beaucoup de risers.
Sur un slot direct propre, un spam AER persistant suggère un problème matériel.

Décision : Si des erreurs corrigées apparaissent répétitivement sous charge, ne considérez pas que c’est « acceptable ». Ça tend à devenir « inacceptable » plus tard.

Tâche 13 : confirmer que le GPU ne tourne pas avec des clocks d’application étranges ou des modes persistants

cr0x@server:~$ nvidia-smi -q | grep -E 'Persistence Mode|Applications Clocks|Auto Boost' -n
75:    Persistence Mode                   : Disabled
112:    Applications Clocks                : Not Active
130:    Auto Boost                         : On

Ce que cela signifie : Certaines configurations de minage fixent les horloges ou utilisent le mode persistant ; parfois cela persiste dans l’environnement du vendeur.
Vous voulez un comportement proche du stock pour évaluer la carte équitablement.

Décision : Si l’environnement du vendeur est fortement modifié, exigez un test depuis un environnement live propre — ou considérez les résultats comme non fiables.

Tâche 14 (axée AMD) : vérifier la détection amdgpu et les erreurs

cr0x@server:~$ dmesg | grep -Ei 'amdgpu|ring|gpu reset|vram' | tail -n 30
[    2.913] amdgpu 0000:03:00.0: VRAM: 8192M 0x000000F400000000 - 0x000000F5FFFFFFFF (8192M used)
[    3.102] [drm] Initialized amdgpu 3.54.0 20150101 for 0000:03:00.0 on minor 0

Ce que cela signifie : Vous recherchez une initialisation propre. Les timeouts de ring, les « GPU reset », ou les fautes VRAM sont mauvais signes.

Décision : Tout message de réinitialisation pendant les tests de base = partez sauf si vous achetez explicitement un projet de réparation.

Tâche 15 : test simple d’allocation VRAM (rapide et rustique, mais utile)

cr0x@server:~$ python3 - <<'PY'
import torch, time
print(torch.cuda.get_device_name(0))
x = torch.empty((1024,1024,1024), device='cuda', dtype=torch.float16)
torch.cuda.synchronize()
print("allocated:", x.numel()*2/1024/1024, "MiB")
time.sleep(2)
PY
GeForce RTX 3080
allocated: 2048.0 MiB

Ce que cela signifie : C’est un contrôle basique « puis-je allouer et toucher la mémoire GPU sans fautes immédiates ? ».
Ça ne détectera pas chaque cellule mémoire marginale, mais ça repère vite les échecs spectaculaires.

Décision : Si les allocations échouent ou que le pilote se réinitialise, n’essayez pas de rationaliser. Le matériel doit allouer la mémoire de façon fiable.

Tâche 16 : confirmer qu’il n’y a pas d’undervolt/overclock surprise en logiciel (ce que vous pouvez détecter)

cr0x@server:~$ nvidia-smi --query-gpu=power.limit,power.default_limit,clocks.max.graphics,clocks.max.memory --format=csv
power.limit [W], power.default_limit [W], clocks.max.graphics [MHz], clocks.max.memory [MHz]
320.00, 320.00, 2100, 9501

Ce que cela signifie : Une limite de puissance égale à la valeur par défaut est rassurante. Si la limite de puissance est inhabituellement basse/haute par rapport au défaut,
quelque chose a été modifié (logiciel ou firmware).

Décision : Des limites de puissance non standard sur une carte d’occasion ne sont pas automatiquement mauvaises, mais augmentent le risque. Exigez des tests propres stock avant d’acheter.

Trois mini-histoires du monde de l’entreprise (toutes anonymisées, toutes douloureusement plausibles)

1) L’incident provoqué par une mauvaise hypothèse : « Ça minait bien, donc c’est stable. »

Une entreprise d’analyse de taille moyenne avait besoin de plus de GPU pour un pipeline de vision par ordinateur. Le budget était serré, les délais aussi.
Un responsable des achats a trouvé un lot de cartes d’occasion chez un liquidateur. Le vendeur a fourni des captures d’écran de tableaux de hachage et a affirmé
« toutes testées, stables, 90 jours nonstop. »

L’hypothèse de l’équipe était subtilement erronée : si un GPU peut miner pendant des mois, il peut exécuter leurs jobs de formation. Ils ont fait un test d’amorçage basique,
installé les pilotes et lancé un bref test. Tout semblait OK. Ils ont monté les machines et lancé un long entraînement le week-end.

Le lundi matin a été un festival de jobs échoués. Pas tous les nœuds—juste quelques-uns. Les relances fonctionnaient parfois. Parfois non.
Les logs montraient des réinitialisations GPU intermittentes sous forte pression mémoire. La charge de minage sur laquelle ils s’étaient appuyés était certes gourmande en mémoire,
mais elle était aussi prévisible et souvent ajustée avec des fréquences mémoire plus basses pour rester efficace. Leur entraînement frappait la mémoire différemment,
avec des rafales qui poussaient les timings et les thermiques d’une manière que le mineur n’avait jamais provoquée.

La correction n’était pas glamour : ils ont isolé les cartes défaillantes, remplacé les pads thermiques sur certaines, et exécuté une longue routine de burn-in axée VRAM.
Quelques cartes se sont stabilisées après entretien. D’autres jamais et ont été reléguées à des tâches moins critiques jusqu’à remplacement.

La leçon réelle : « stable » dépend de la charge. N’acceptez pas la stabilité en minage comme preuve de stabilité pour du calcul à fréquence stock, dans votre environnement.
Exécutez vos propres tests, incluant spécifiquement l’allocation mémoire et des vérifications thermiques soutenues.

2) L’optimisation qui s’est retournée contre eux : poursuivre l’efficacité, acheter un problème de maintenance

Une entreprise média a construit une ferme de rendu interne. Ils ont été astucieux : acheter des GPU ex-minage pas chers, les undervolter, brider la puissance,
et les faire « tourner frais et efficaces ». Sur le papier, c’était parfait : factures d’électricité plus faibles, plus de GPU par baie, moins de disjonctions.

Ils ont standardisé des courbes de ventilateurs agressives pour garder les températures basses. Les ventilateurs tournaient fort, tout le temps.
Les cartes étaient stables, les performances acceptables, et la finance contente—jusqu’à environ six mois plus tard, quand les pannes ont commencé à se regrouper.

Les pannes n’étaient pas spectaculaires. Elles étaient agaçantes. Un ventilateur ici, un ventilateur là. Puis une carte throttle thermique, parce que son ventilateur commençait à caler.
Ensuite un job prenait 2× plus de temps, manquait sa fenêtre, et ça a cascaded dans le planning. L’équipe a passé plus d’heures à remplacer des ventilateurs qu’à améliorer le débit.

Le postmortem fut franc : ils avaient optimisé pour l’efficacité énergétique mais accidentellement optimisé pour l’usure des ventilateurs.
Ils avaient transformé un coût électrique prévisible en un coût d’exploitation imprévisible. Leurs « GPU pas chers » n’étaient plus si bon marché une fois le travail humain ajouté.

La correction finale fut de traiter les ventilateurs comme des consommables : stocker des remplacements, réduire les politiques de RPM permanentes élevées, et introduire
une inspection trimestrielle rapide des baselines thermiques. Ils ont aussi commencé à appliquer une « taxe maintenance » au prix des GPU d’occasion.

3) La pratique ennuyeuse mais juste qui a sauvé la mise : quarantaine et burn-in sérieux

Une équipe fintech a étendu un cluster de modélisation de risque en utilisant des GPU. Ils avaient une règle : aucun matériel neuf—surtout d’occasion—ne va directement en production.
Tout passe d’abord par une baie de quarantaine pour burn-in et vérification d’identité. Ce n’est pas sexy, mais c’est survivable.

Ils ont acheté un lot de cartes d’occasion auprès de vendeurs multiples. Chaque GPU a reçu une étiquette, un numéro de série enregistré, et une suite de tests standardisée :
télémétrie au repos, télémétrie en charge, test d’allocation VRAM, et une course de stress de deux heures avec capture des logs. Les cartes étaient ensuite notées :
« propre », « nécessite maintenance », ou « rejeter ».

Deux cartes furent héroïnes du récit en étant vilaines tôt. Elles ont passé un benchmark court mais ont échoué pendant la course plus longue
avec des erreurs PCIe corrigées et des réinitialisations de pilote intermittentes. Si ces cartes avaient été mises en production, elles auraient causé des échecs de modèle sporadiques
ressemblant à des « bugs logiciels » pendant des semaines.

Au lieu de cela, l’équipe a rejeté ces unités immédiatement alors qu’elles étaient encore dans la fenêtre de retour. Pas de panne, pas d’appels incident le week-end,
pas de conversations gênantes avec la direction sur pourquoi les maths sont soudain hantées.

La pratique n’était pas brillante. Elle était disciplinée : quarantaine, tester, logguer, décider. L’ennuyeux est bon quand on gère de vrais systèmes.

Listes de vérification / plan étape par étape

Checklist d’achat sur place (20–30 minutes)

  1. Inspection visuelle : connecteurs, boulons, jeu des ventilateurs, poussière, corrosion, décoloration du PCB.
  2. Montez la carte directement dans un slot PCIe connu bon : évitez les risers pour les tests.
  3. Démarrage et identification : lspci correspond au modèle ; confirmez que la largeur du lien PCIe est raisonnable.
  4. Vérification télémétrie : nvidia-smi (ou logs AMD) montrent des températures, consommation et ventilateurs cohérents.
  5. Charge courte : lancez glmark2 --off-screen ou équivalent ; surveillez artefacts et crashs.
  6. Stress rapide : 10 minutes de charge mémoire active ; puis scannez les logs pour fautes GPU.
  7. Décision : n’achetez que si identité, stabilité et thermiques sont sains ; sinon négociez fort ou partez.

Checklist burn-in après achat (le même jour, avant de lui faire confiance)

  1. Enregistrer la baseline : version VBIOS, UUID, version pilote, températures/puissance au repos.
  2. Deux charges différentes : une lourde en graphismes, une lourde en mémoire.
  3. Course plus longue : 1–2 heures de charge soutenue tout en loggant la télémétrie toutes les quelques secondes.
  4. Revue des logs : cherchez Xid, timeouts de ring, réinitialisations, spam AER.
  5. Sanité thermique : confirmez qu’elle atteint un état stable, pas une montée continue.
  6. Décidez de la maintenance : repaste/repads uniquement si les symptômes le justifient (ou si vous l’aviez prévu et facturé).

Que faire si vous suspectez un usage intensif en minage

  • Supposez que les pads thermiques peuvent être fatigués ou mal remplacés.
  • Supposez que les ventilateurs ont consommé une part de leur durée de vie.
  • Supposez que le firmware peut avoir été flashé.
  • Prix en conséquence : « fonctionne aujourd’hui » n’est pas équivalent à « fiable ».

Erreurs courantes : symptôme → cause racine → correction

1) Symptomatique : écran noir sous charge, puis récupération

Cause racine : réinitialisation du pilote due à une instabilité d’alimentation, un cœur GPU marginal, ou une surchauffe du VRM.

Correction : testez avec une alimentation connue bonne et des câbles PCIe directs (pas en chaîne). Surveillez la consommation et les raisons de throttling. Si ça persiste, rejetez.

2) Symptomatique : artefacts seulement après 5–15 minutes

Cause racine : surchauffe de la VRAM (pads), VRAM marginale, ou timings mémoire trop agressifs (VBIOS modifié possible).

Correction : lancez un stress mémoire et surveillez les températures ; essayez des fréquences stock sur un OS propre. Si les artefacts persistent en stock, n’achetez pas.

3) Symptomatique : ventilateurs montent à 100% de façon aléatoire

Cause racine : mauvais signal tach du ventilateur, roulements usés, ou courbe de ventilateur firmware étrange.

Correction : vérifiez le RPM si disponible ; écoutez pour du grincement ; vérifiez si le comportement corrèle avec la température. Prévoyez le remplacement des ventilateurs ou refusez.

4) Symptomatique : GPU bloqué à forte consommation au repos

Cause racine : configurations multi-écrans/haute fréquence, compute en arrière-plan, ou état pilote/firmware bloqué.

Correction : testez en simple écran ou en mode headless ; vérifiez l’état de performance et les processus en cours. Si ça reste haut après des démarrages propres, méfiez-vous.

5) Symptomatique : largeur du lien PCIe chute (x16 → x1) ou fluctue

Cause racine : contacteur de bord sale, slot contaminé, dommage physique de risers, ou signal PCIe limite.

Correction : resserrez une fois, nettoyez soigneusement, retestez dans un autre slot/carte mère. Si le problème persiste : rejetez.

6) Symptomatique : le test de stress termine, mais les logs montrent des erreurs PCIe corrigées

Cause racine : intégrité de signal limite ; souvent « ça marche jusqu’à ce que ça ne marche plus ».

Correction : n’ignorez pas. Retestez dans un système différent. Si répété, rejetez ou quarantaine pour usage non critique uniquement.

7) Symptomatique : bons benchmarks mais crashs dans votre application spécifique

Cause racine : inadéquation de la charge (compute vs graphics), différents patterns d’accès mémoire, ou profil thermique/puissance différent.

Correction : incluez un test représentatif de votre application dans le burn-in. Si vous ne pouvez pas reproduire rapidement l’échec, vous ne pouvez pas faire confiance à la carte.

Prix, risque et comment négocier comme un adulte

Les GPU d’occasion ne sont pas une question morale. Le minage n’est pas automatiquement mauvais ; les mauvais opérateurs sont mauvais.
Votre travail est de convertir l’incertitude en un nombre.

Comment j’évalue le risque ex-minage

  • Pas de fenêtre de retour : exigez un fort rabais. Vous prenez tous les risques résiduels.
  • Signes de démontage visibles : ristourne sauf si le vendeur peut expliquer et fournir des preuves avant/après (pads/pâte/ventilos).
  • Indicateurs d’usure des ventilateurs : rabais correspondant au coût de remplacement attendu plus votre temps.
  • Toute erreur dans les logs pendant les tests : ne pas négocier—refuser. Les systèmes de production meurent d’un « presque OK ».
  • Throttling thermique : considérez comme maintenance requise. Si vous n’aimez pas repadder, n’achetez pas le projet.

Scripts de négociation efficaces

Restez technique et calme :

  • « Le lien PCIe se négocie à x4 dans un slot propre. C’est un risque de fiabilité. Je ne peux l’acheter qu’au prix pièces. »
  • « Stable 60 secondes mais génère des erreurs noyau sous charge. Je ne parie pas là-dessus. »
  • « Les ventilateurs vibrent et montent de façon incohérente. Si je l’achète, je les remplace. Voici mon offre. »

Ce qu’il ne faut pas faire

  • Ne pas accepter « ça marche dans ma config » comme preuve. Leur configuration n’est pas la vôtre.
  • Ne laissez pas le prix supplanter les preuves. Le matériel bon marché coûte cher quand il provoque des interruptions.
  • Ne discutez pas de l’éthique du minage. C’est de l’ingénierie, pas de la philosophie.

FAQ

Un GPU ex-minage est-il toujours un mauvais achat ?

Non. Certains sont d’excellentes affaires—surtout si le mineur a undervolté, bien refroidi et entretenu pads/ventilos.
Mais la variance est énorme, donc vous devez tester.

Quelle est la chose la plus importante à tester ?

La stabilité sous charge soutenue et un journal système propre. Un score de benchmark est de la vanité ; des logs sans erreurs sont la raison.

Les cartes minées ont-elles une durée de vie plus courte parce qu’elles ont tourné 24/7 ?

Pas automatiquement. Une température constante peut être moins pénible pour les soudures que des cycles thermiques quotidiens. Les ventilateurs, en revanche, accumulent clairement l’usure.

Dois-je repaster et remplacer les pads thermiques immédiatement ?

Seulement si vous voyez des symptômes thermiques (montée continue, problème de hotspot, instabilité liée à la VRAM), ou si vous avez acheté la carte comme projet de maintenance.
Le démontage inutile ajoute du risque si vous n’êtes pas expérimenté.

Comment savoir si le VBIOS a été modifié ?

Vous ne pouvez pas le prouver simplement par impression. Comparez l’identité, les limites de puissance et le comportement aux attentes stock connues, et cherchez des valeurs par défaut étranges.
Si vous avez une procédure sûre, vous pouvez reflasher vers le stock plus tard, mais considérez tout « histoire de firmware » comme un risque supplémentaire.

Quelles températures sont « trop élevées » pendant un test de stress ?

Cela dépend du modèle, du refroidissement et de l’ambiance. Mais les motifs comptent :
si la température monte indéfiniment, si elle throttle tôt, ou si les ventilateurs montent à 100% pour maintenir des températures à peine tolérables, le système de refroidissement a besoin d’attention.

L’undervolting en minage peut-il être un bon signe ?

Parfois. L’undervolting réduit puissance et chaleur. Mais il peut aussi masquer une instabilité à fréquence stock.
Votre test doit inclure le comportement stock—car c’est ainsi que la plupart des acheteurs l’exploiteront.

Est-il sûr d’acheter sans tester si le vendeur a de bonnes évaluations ?

Les évaluations réduisent le risque de fraude, pas la variance matérielle. Un vendeur peut être honnête et vendre une carte marginale qu’il n’a pas complètement diagnostiquée.
Testez quand même.

Qu’en est-il des cartes « reconditionnées » de revendeurs en gros ?

« Reconditionné » peut signifier « nettoyé et allumé 30 secondes ». Demandez ce qui a réellement été fait : pads, pâte, ventilateurs, firmware, et quels tests ont été effectués.
S’ils ne peuvent pas répondre, considérez-la comme non reconditionnée.

Quel est le temps de test minimum raisonnable avant d’acheter ?

Si vous ne pouvez faire qu’une seule chose : 10–15 minutes de charge soutenue avec télémétrie en direct et scan des logs ensuite.
Cela détecte une grande partie des mauvais éléments.

Conclusion : prochaines étapes pour éviter les ennuis

Le marché des GPU d’occasion est un casino qui vend parfois d’excellents composants. Votre travail est d’arrêter de parier et de commencer à mesurer.
Faites les vérifications d’identité. Faites les contrôles télémétriques. Faites la charge soutenue. Lisez les logs. Si quelque chose sent mauvais—au sens propre ou figuré—partez.

Prochaines étapes pratiques :

  1. Montez ou empruntez un banc de test propre avec une alimentation connue bonne et des câbles PCIe directs.
  2. Gardez une clé USB Linux live avec glmark2 et stress-ng prête.
  3. Exécutez le playbook de diagnostic rapide sur place ; lancez le burn-in plus long le même jour.
  4. Conservez la carte seulement si elle est stable en stock, que les thermiques se stabilisent et que les logs restent propres.

Achetez le matériel comme vous gérez la production : ne supposez rien, mesurez tout, et ne négociez pas avec la physique.

← Précédent
PostgreSQL vs Elasticsearch : recherche full-text intégrée vs cluster de recherche — quel est le moins coûteux à long terme
Suivant →
La naissance des accélérateurs 3D : quand le GPU est devenu un monde à part

Laisser un commentaire