GPU d’ordinateurs portables : pourquoi un même nom peut cacher cinq niveaux de performance

Cet article vous a aidé ?

Vous achetez un portable « RTX Quelque-chose ». La boîte semble correcte. La fiche technique semble correcte. Les tests semblent corrects.
Puis vos rendus prennent deux fois plus de temps que ceux d’un collègue ayant le « même GPU », ou votre jeu tourne comme s’il traînait une valise pleine de briques.

Ce n’est pas une erreur d’utilisateur. C’est le marché des GPU de portables qui fait ce qu’il sait faire de mieux : vendre un nom unique couvrant plusieurs configurations silicium,
limites d’alimentation, enveloppes thermiques et choix de routage d’affichage. En termes de production, le SKU est une étiquette — votre débit réel est déterminé par
les contraintes dans lesquelles vous opérez.

Le vrai problème : le nom n’est pas le produit

Dans les serveurs, vous n’achetez pas « un CPU ». Vous achetez un modèle de CPU plus une conception VRM de la carte mère, une politique d’alimentation, une conception thermique, un flux d’air, des réglages BIOS,
et une attente réaliste de charge soutenue. Les GPU de portables, c’est la même histoire, sauf que le service marketing est autorisé à faire comme si ce n’était pas le cas.

Un « nom de modèle » de GPU de portable (par exemple « RTX 4060 Laptop GPU ») couvre souvent :

  • Différentes limites d’alimentation (TGP/TDP), parfois par 2–3×
  • Différentes capacités de refroidissement (châssis fin vs workstation épais)
  • Différentes configurations mémoire (taille de VRAM, largeur du bus, vitesse mémoire)
  • Différents routages GPU (MUX vs passage par iGPU/Optimus)
  • Différents appariements CPU et budgets thermiques partagés
  • Différentes politiques firmware (comportement de boost, courbes de ventilateur, cibles de température)

Si vous avez déjà fait de l’intervention d’incident, vous savez déjà ce qui se passe ensuite : deux appareils avec « la même chose » se comportent différemment sous charge,
et tout le monde perd du temps à discuter de qui a tort au lieu de mesurer les contraintes. Les GPU de portables sont un exercice de contraintes.

Cinq niveaux de performance cachés sous un même nom de GPU

Quand on dit « un nom peut cacher cinq niveaux de performance », ce n’est pas exagéré. Vous pouvez obtenir des écarts de performance légitimes, reproductibles et soutenus
qui ressemblent à des gammes de produits différentes. Voici les cinq « niveaux » les plus courants, du meilleur au pire, qui peuvent exister sous un même nom de GPU.

Niveau 1 : TGP élevé, bon refroidissement, chemin d’affichage dGPU (MUX)

C’est la configuration « unité de test » que tout le monde veut. TGP soutenu élevé, un système de refroidissement capable d’évacuer cette chaleur en continu, et un commutateur MUX
(ou équivalent) qui routage l’affichage directement depuis le GPU discret.

Ce que vous verrez :

  • Horloges stables pendant des charges de 10–30 minutes (pas seulement un pic de benchmark de 60 secondes)
  • Utilisation GPU proche de 95–100 % lorsque la charge est limitée par le GPU
  • La consommation atteint et maintient la limite configurée
  • Pas d’à-coups étranges dus aux chemins de copie entre iGPU et dGPU

Niveau 2 : TGP élevé, refroidissement médiocre (boost, puis chute)

Beaucoup de portables atteignent le comportement de boost annoncé pendant une courte période, puis throttlent pour thermique. C’est là que les benchmarks vus en ligne
(runs courts, appareil froid, branché, ventilateurs au max) ne correspondent pas au travail réel (runs longs, salle chaude, réunions, poussière dans le sac à dos).

Ce n’est pas un « mauvais silicium ». C’est un système qui peut sprinter mais pas tenir la course.

Niveau 3 : SKU configuré en TGP moyen/faible (le silencieux plus lent)

Même nom de GPU, objectif de puissance soutenue inférieur. Les vendeurs font cela pour rentrer dans un châssis fin, atteindre des objectifs acoustiques, ou préserver l’autonomie.
Ce ne sont pas des défectueux ; ils sont configurés.

C’est là que vous entendez le plus « mais c’est le même GPU ! ». C’est le même libellé marketing. Votre budget en watts est différent.

Niveau 4 : surcharge du chemin d’affichage via iGPU (Optimus / taxe du moteur de copie)

Si le portable route les images via le GPU intégré (fréquent pour économiser la batterie), vous pouvez subir une taxe de performance.
La taxe dépend de la résolution, du taux de rafraîchissement, de la charge de travail et du comportement du pilote.

Certains jeux et applications en temps réel la manifestent par des FPS plus bas et des 1% lows pires (saccades). Certaines charges de calcul s’en fichent.
Mais si vous achetez pour du gaming, de la VR ou du travail créatif sensible à la latence, cela compte plus que ce que l’on avoue.

Niveau 5 : « Même nom » mais mémoire ou lotage silicium matériellement différents

Parfois un même label couvre différentes tailles de VRAM, vitesses mémoire, ou même des configurations de puce légèrement différentes.
Et même quand le silicium est identique, il existe des bins : une machine tient des horloges plus élevées avec un voltage donné ; une autre nécessite plus de voltage et chauffe plus vite.

Vous ne pouvez pas battre la physique par optimisme. (Vous ne pouvez pas non plus la battre avec du RGB, même si les fabricants continuent de tester cette hypothèse.)

Faits intéressants et contexte historique

Un peu de contexte vous aide à prédire le bazar. Voici des points historiques concrets qui expliquent pourquoi le nommage des GPU de portables est devenu une danse d’interprétation.

  1. « Max-Q » a commencé comme un programme de marque Nvidia pour signaler des designs optimisés pour l’efficacité, mais avec le temps le marquage est devenu incohérent et parfois disparu alors que le comportement restait.
  2. Les anciens suffixes « M » (comme GTX 980M) montraient clairement que vous n’achetiez pas la pièce desktop ; la nomenclature moderne enlève souvent cette clarté.
  3. La variabilité des limites d’alimentation n’est pas nouvelle ; les portables workstation ont depuis longtemps des options « même GPU » avec différentes tables vBIOS selon le châssis et le refroidissement.
  4. Optimus (iGPU + dGPU switching) était à l’origine une histoire d’autonomie. L’impact sur les performances est devenu plus visible avec la démocratisation des dalles 144–360 Hz.
  5. Les améliorations de l’ère Resizable BAR/SAM ont rendu la plateforme (CPU + chipset + firmware) plus importante pour la cohérence des performances GPU qu’auparavant.
  6. Les transitions GDDR5 → GDDR6 ont montré comment des GPU « même classe » pouvaient diverger sur la bande passante mémoire ; les pièces pour portable vivent fréquemment plus près des limites de bande passante que les desktop.
  7. Les générations NVMe et PCIe comptent pour certains flux créatifs (cache, scratch, streaming d’actifs), donc les plaintes « GPU lent » commencent parfois par des goulots de stockage.
  8. Les OEM contrôlent les courbes de ventilateurs et le partage d’énergie entre CPU et GPU ; un « problème GPU » est souvent un problème de politique de plateforme.

Les gens de la fiabilité apprennent tôt : les étiquettes ne sont pas des métriques. Mesurez ce qui fait mal.

Ce qu’il faut mesurer (et ce en quoi il ne faut pas avoir confiance)

Si vous voulez éviter d’être berné par un nom de GPU, traitez le portable comme un petit nœud de centre de données :
identifiez les contraintes, observez le comportement soutenu et enregistrez votre référence.

Fiez-vous davantage à ceci qu’au nom du modèle

  • Consommation GPU soutenue sous charge (watts, état stable)
  • Température GPU et raison du throttling (limite d’alimentation, thermique, limites de fiabilité de tension)
  • Horloges effectives sous charge soutenue (pas le boost de pic)
  • Contraintes de bande passante mémoire (taille VRAM, largeur bus, vitesse mémoire)
  • Routage d’affichage (MUX activé/désactivé, chemin moniteur externe)
  • Puissance package CPU (parce que le refroidissement partagé existe)

Soyez sceptique à propos de ceci

  • Benchmarks synthétiques courts qui tournent 30–90 secondes
  • Allégations de fréquence « jusqu’à » sans contexte de puissance/thermique soutenue
  • Fiches techniques qui omettent le TGP ou le cachent derrière un marketing « mode performance »
  • Tests ne précisant pas la température ambiante et le mode d’alimentation

Citations que les operations répètent parce que c’est ennuyeux et vrai :
« L’espoir n’est pas une stratégie. » — Gene Kranz

Blague n°1 : Le nommage des GPU de portables, c’est comme commander « du café » et être surpris d’obtenir soit un espresso soit une piscine. Les deux sont techniquement du café.

Feuille de diagnostic rapide

Quand les performances sont « incorrectes », ne commencez pas par réinstaller les pilotes comme si c’était 2009. Commencez par l’arbre des contraintes.
Voici un ordre d’opérations rapide et reproductible qui fonctionne sur Windows et Linux, avec un biais pour les faits mesurables.

Première étape : confirmez que vous utilisez réellement le dGPU

  • Vérifiez si la charge s’exécute accidentellement sur le GPU intégré.
  • Confirmez que l’application a choisi le GPU haute performance (surtout sur les systèmes graphiques hybrides).

Deuxième étape : vérifiez le mode d’alimentation et les limites (AC vs batterie, profils OEM)

  • Vérifiez que le portable est branché et n’est pas en mode « silencieux » ou « éco ».
  • Vérifiez la limite d’alimentation GPU configurée (TGP) et si elle est atteinte.

Troisième étape : déterminez le facteur limitant sous charge soutenue

  • Si l’utilisation GPU est faible mais le CPU est saturé : bound CPU ou overhead pilote.
  • Si l’utilisation GPU est élevée mais la puissance est en dessous de l’attendu : limite d’alimentation, throttling thermique, ou politique firmware.
  • Si la VRAM est pleine et que les performances chutent : pression mémoire et pagination.
  • Si les horloges oscillent : saturation thermique ou politique de boost instable.

Quatrième étape : vérifiez le chemin d’affichage et le multiplexage

  • L’affichage interne via iGPU peut vous coûter des performances.
  • Les ports externes sont parfois connectés directement au dGPU ; cela peut servir de test A/B rapide.

Cinquième étape : validez la plateforme (BIOS/EC, pilotes, firmware)

  • Les mises à jour BIOS peuvent changer les tables de puissance et le comportement des ventilateurs.
  • Des régressions de pilotes arrivent. Traitez-les comme tout autre risque de déploiement.

Tâches pratiques : commandes, sorties, décisions

Ce sont des tâches de niveau runbook : commandes à exécuter, ce que signifie la sortie, et quelle décision prendre.
Elles sont écrites comme si vous diagnostiquiez un vrai portable sur le terrain — parce que c’est le cas.

Tâche 1 : Identifier le GPU et le pilote (Linux)

cr0x@server:~$ lspci -nn | egrep -i 'vga|3d|display'
00:02.0 VGA compatible controller [0300]: Intel Corporation Raptor Lake-P [8086:a7a0]
01:00.0 3D controller [0302]: NVIDIA Corporation AD107M [GeForce RTX 4060 Laptop GPU] [10de:28e1]

Ce que cela signifie : Vous avez une configuration graphique hybride : iGPU Intel plus dGPU Nvidia. Le dispositif Nvidia est présent et énuméré.

Décision : Attendez-vous à un comportement de type Optimus sauf si un MUX est configuré. Vous devez vérifier quel GPU utilise votre charge.

Tâche 2 : Confirmer que le pilote Nvidia est actif (Linux)

cr0x@server:~$ nvidia-smi
Tue Jan 13 12:10:31 2026
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4   |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|=========================================+========================+======================|
|  0   RTX 4060 Laptop GPU           Off  | 00000000:01:00.0   Off |                  N/A |
| N/A   46C    P8              11W /  80W |      9MiB /  8192MiB   |      0%      Default |
+-----------------------------------------+------------------------+----------------------+

Ce que cela signifie : Le pilote est chargé, le GPU est visible, la limite actuelle montre 80W. Ce « / 80W » est déjà un indice important : ce 4060 précis est configuré pour 80W, pas « ce que vous avez vu sur YouTube ».

Décision : Ancrez vos attentes sur cette limite de puissance. Comparez avec d’autres portables seulement si leur limite et leur refroidissement sont similaires.

Tâche 3 : Surveiller l’utilisation, les horloges et la puissance en direct (Linux)

cr0x@server:~$ nvidia-smi dmon -s pucvmt
# gpu   pwr  sm   mem   enc   dec  mclk  pclk   fb   bar1   temp
# Idx     W   %     %     %     %   MHz   MHz   MiB    MiB      C
    0    72  98    55     0     0  7000  2385  6120     65     86
    0    80  99    56     0     0  7000  2415  6120     65     87
    0    80  97    56     0     0  7000  2100  6120     65     90

Ce que cela signifie : Vous êtes limité par le GPU (SM ~98–99%) et vous atteignez la limite de puissance (80W). La température est élevée et les horloges chutent à 90°C : probablement throttling thermique ou une cible de température.

Décision : Si les charges soutenues importent (rendu, entraînement), priorisez le refroidissement (support, nettoyage, repaste, politique ventilateur) ou un châssis à TGP supérieur. Ne poursuivez pas des comparaisons « même GPU ».

Tâche 4 : Vérifier la raison du throttling (Linux)

cr0x@server:~$ nvidia-smi -q -d PERFORMANCE | sed -n '1,160p'
==============NVSMI LOG==============

Performance State                  : P2
Clocks Throttle Reasons
    Idle                           : Not Active
    Applications Clocks Setting    : Not Active
    SW Power Cap                   : Active
    HW Slowdown                    : Active
    HW Thermal Slowdown            : Active
    Sync Boost                     : Not Active
    SW Thermal Slowdown            : Not Active

Ce que cela signifie : Vous êtes limité à la fois par la limite d’alimentation et par le ralentissement thermique. C’est le comportement classique « boost, puis chute » des portables.

Décision : Réduisez la chaleur ou acceptez des horloges soutenues plus basses. L’undervolting peut aider sur certaines plateformes, mais ne supposez pas qu’il soit disponible ou stable.

Tâche 5 : Valider la taille et l’utilisation de la VRAM (Linux)

cr0x@server:~$ nvidia-smi --query-gpu=name,memory.total,memory.used --format=csv
name, memory.total [MiB], memory.used [MiB]
RTX 4060 Laptop GPU, 8192 MiB, 6120 MiB

Ce que cela signifie : 8 Go de VRAM est utilisable, mais vous utilisez déjà 6+ Go. Beaucoup d’applications pro et de jeux modernes franchissent rapidement le « cliff » de la VRAM.

Décision : Si vous observez de la pagination/saccades, réduisez la taille des textures, la taille des batches ou la complexité de la scène. Ou choisissez un portable avec plus de VRAM si c’est une charge quotidienne.

Tâche 6 : Vérifier quel GPU rend la session de bureau (Linux, Wayland/X11 varie)

cr0x@server:~$ glxinfo -B | egrep 'OpenGL vendor|OpenGL renderer'
OpenGL vendor string: Intel
OpenGL renderer string: Mesa Intel(R) Graphics (RPL-P)

Ce que cela signifie : Votre bureau est actuellement rendu par l’iGPU. C’est normal sur les configurations hybrides, mais cela indique que les applications peuvent aussi par défaut utiliser l’iGPU.

Décision : Pour une application spécifique, lancez avec offload sur le dGPU (voir la tâche suivante) ou activez le mode MUX/dGPU uniquement si vous avez besoin de performances cohérentes.

Tâche 7 : Forcer une application à utiliser le GPU Nvidia (Linux avec PRIME offload)

cr0x@server:~$ __NV_PRIME_RENDER_OFFLOAD=1 __GLX_VENDOR_LIBRARY_NAME=nvidia glxinfo -B | egrep 'OpenGL vendor|OpenGL renderer'
OpenGL vendor string: NVIDIA Corporation
OpenGL renderer string: NVIDIA GeForce RTX 4060 Laptop GPU/PCIe/SSE2

Ce que cela signifie : L’offload fonctionne ; l’application peut rendre sur le dGPU même si le bureau utilise l’iGPU.

Décision : Si les problèmes de performance disparaissent lorsque vous forcez le dGPU, la cause racine est la sélection/le routage, pas la puissance brute du GPU.

Tâche 8 : Voir les zones thermiques du noyau et si le système chauffe (Linux)

cr0x@server:~$ for z in /sys/class/thermal/thermal_zone*/temp; do echo "$z: $(( $(cat $z) / 1000 ))C"; done | head
/sys/class/thermal/thermal_zone0/temp: 62C
/sys/class/thermal/thermal_zone1/temp: 78C
/sys/class/thermal/thermal_zone2/temp: 92C

Ce que cela signifie : Une zone est à 92°C. Sur beaucoup de portables, c’est proche de la zone de throttling, et ce n’est peut‑être même pas le GPU — cela peut être le CPU ou la zone VRM affectant le refroidissement partagé.

Décision : Considérez-le comme un problème de saturation thermique de la plateforme : nettoyez les aérations, relevez l’arrière du portable, vérifiez le profil des ventilateurs, évitez les surfaces molles.

Tâche 9 : Vérifier les limites de puissance CPU (Linux) car le GPU partage le budget thermique

cr0x@server:~$ sudo turbostat --Summary --interval 1 | head -n 8
turbostat version 2023.07.14 - Len Brown 
CPU     Avg_MHz   Busy%   Bzy_MHz  TSC_MHz  IRQ     SMI     CPU%c1  CPU%c6  PkgWatt
-       3187      62.15   5127     1900     3121    0       12.45   21.33   44.62

Ce que cela signifie : Le package CPU tire ~45W. Si le châssis a une conception de caloducs partagés, une charge CPU lourde réduira la marge de boost du GPU.

Décision : Pour un travail axé GPU, limitez le boost CPU ou définissez le portable sur un profil priorisant le GPU si disponible. Sinon, votre « problème de performance GPU » est un budget thermique partagé.

Tâche 10 : Vérifier la vitesse/largeur du lien PCIe (Linux) pour attraper des surprises « en x4 »

cr0x@server:~$ sudo lspci -s 01:00.0 -vv | egrep -i 'LnkCap|LnkSta'
LnkCap: Port #0, Speed 16GT/s, Width x8
LnkSta: Speed 16GT/s, Width x8

Ce que cela signifie : Vous êtes au lien attendu. Si vous aviez vu Width x4 ou Speed 8GT/s de façon inattendue, cela pourrait gouloter certaines charges.

Décision : Si le lien est dégradé, suspectez des états d’économie d’énergie, des réglages BIOS, ou une limitation de plateforme. Corrigez cela avant de blâmer le GPU.

Tâche 11 : Vérifier si vous êtes sur batterie et si l’OS bride (Linux)

cr0x@server:~$ upower -i $(upower -e | grep BAT) | egrep 'state|percentage|time to empty'
state:               discharging
percentage:          42%
time to empty:       1.8 hours

Ce que cela signifie : Sur batterie, la plupart des portables réduisent fortement la puissance GPU. Votre « régression de benchmark » est probablement juste « débranché ».

Décision : Pour les tests de performance et le travail sérieux, testez toujours sur secteur avec le bon profil d’alimentation. Enregistrez-le dans vos notes comme vous enregistreriez le type d’instance dans un postmortem.

Tâche 12 : Inspecter les réglages de limite d’alimentation Nvidia exposés par le pilote (Linux)

cr0x@server:~$ nvidia-smi -q -d POWER | sed -n '1,120p'
Power Readings
    Power Management            : Supported
    Power Draw                  : 12.34 W
    Power Limit                 : 80.00 W
    Default Power Limit         : 80.00 W
    Enforced Power Limit        : 80.00 W
    Min Power Limit             : 60.00 W
    Max Power Limit             : 80.00 W

Ce que cela signifie : Le firmware de ce portable n’autorise que jusqu’à 80W ; vous ne pouvez pas « par logiciel » obtenir une configuration à 115W.

Décision : Arrêtez de chercher des hacks registre et commencez à penser comme un SRE : si le quota est 80W, votre planification de capacité utilise 80W.

Tâche 13 : Test soutenu rapide et sale pour exposer le throttling (Linux)

cr0x@server:~$ sudo apt-get -y install stress-ng >/dev/null 2>&1 && stress-ng --gpu 1 --timeout 120s --metrics-brief
stress-ng: info:  [31244] dispatching hogs: 1 gpu
stress-ng: metrc: [31244] gpu               120.00s  217.23         1.81 ops/s
stress-ng: info:  [31244] successful run completed in 120.02s

Ce que cela signifie : Ce test ne remplace pas des benchmarks applicatifs, mais il fournit un scénario de chaleur/power reproductible de 2 minutes. Associez-le à nvidia-smi dmon pour voir si les horloges chutent avec le temps.

Décision : Si les performances chutent entre les 30 premières secondes et les 30 dernières, vous avez un problème de refroidissement/power soutenu, pas un « bug de pilote ».

Tâche 14 : Windows : confirmer le GPU actif pour une application (PowerShell + outils intégrés)

cr0x@server:~$ powershell.exe -NoProfile -Command "Get-Counter '\GPU Engine(*)\Utilization Percentage' | Select-Object -ExpandProperty CounterSamples | Sort-Object CookedValue -Descending | Select-Object -First 5 | Format-Table InstanceName,CookedValue -Auto"
InstanceName                                           CookedValue
pid_10488_luid_0x00000000_0x0000_eng_0_engtype_3D       92.5312
pid_10488_luid_0x00000000_0x0000_eng_0_engtype_Copy     18.0241
pid_2216_luid_0x00000000_0x0000_eng_0_engtype_3D        10.1120

Ce que cela signifie : Vous pouvez voir quel moteur GPU est réellement occupé. Le moteur « Copy » actif en parallèle du 3D peut indiquer un overhead de transport iGPU/dGPU selon le chemin.

Décision : Si le mauvais GPU fait le travail, définissez la préférence GPU de l’application dans les paramètres graphiques de Windows ou dans le panneau de contrôle du vendeur, puis retestez.

Tâche 15 : Windows : afficher le GPU installé et la version du pilote

cr0x@server:~$ powershell.exe -NoProfile -Command "Get-WmiObject Win32_VideoController | Select-Object Name,DriverVersion,AdapterRAM | Format-Table -Auto"
Name                                 DriverVersion  AdapterRAM
Intel(R) Iris(R) Xe Graphics         31.0.101.5522   1073741824
NVIDIA GeForce RTX 4060 Laptop GPU   31.0.15.5054    8589934592

Ce que cela signifie : Confirme le GPU discret et la taille de VRAM que Windows voit. Utile pour repérer des variantes VRAM « surprise ».

Décision : Si AdapterRAM/VRAM n’est pas ce à quoi vous vous attendiez, arrêtez de débattre et retournez le portable si cette spécification est critique pour votre charge.

Tâche 16 : Windows : vérifier que le plan d’alimentation ne vous sabote pas

cr0x@server:~$ powercfg /getactivescheme
Power Scheme GUID: 381b4222-f694-41f0-9685-ff5bb260df2e  (Balanced)

Ce que cela signifie : « Balanced » bride souvent les performances soutenues sur les portables, selon le tuning OEM.

Décision : Pour le travail GPU soutenu, utilisez un mode « Performance/Turbo » OEM si disponible, puis vérifiez avec la télémétrie puissance/horloges, pas avec des impressions.

Blague n°2 : Le « mode silencieux » sur un portable gaming, c’est un peu comme le « mode faible bruit » sur un souffleur de feuilles. Techniquement un réglage, émotionnellement un mensonge.

Trois mini-histoires d’entreprise (et leurs enseignements)

Mini-histoire 1 : L’incident causé par une mauvaise hypothèse (« même GPU »)

Une équipe produit avait besoin d’une station de démo portable : segmentation temps réel, UI sophistiquée et flux caméra en direct. Ils standardisèrent sur un modèle de portable
annoncé avec un nom de GPU milieu de gamme bien connu. Les achats trouvèrent deux fournisseurs avec « le même GPU » et divisèrent la commande pour respecter un délai.

Le premier lot arriva et passa les tests internes. Démos fluides. 60 FPS stables. La confiance monta. Le second lot arriva et semblait identique sur le papier.
Même nom de GPU. Même génération de CPU. Même RAM. Même taille de SSD.

Puis le premier jour de démo client eut lieu. La moitié des machines fonctionnaient bien ; l’autre moitié saccadait, perdait des images et crashait parfois le pipeline.
L’équipe fit le rituel habituel : mise à jour des pilotes, retour en arrière des pilotes, réinstallation de l’OS, blâme de la caméra, blâme du framework UI, blâme du Wi‑Fi de l’hôtel
(parce que c’est toujours le Wi‑Fi de l’hôtel d’une manière ou d’une autre).

La cause racine était banale et mortelle : le châssis du second fournisseur configurait le GPU à une limite de puissance soutenue bien inférieure, et il routait l’affichage interne via l’iGPU.
Sous la charge de démo, ils étaient limités en puissance et payaient un overhead de copie d’images. Le « même GPU » fonctionnait dans une enveloppe différente.

La correction fut encore plus banale : imposer un seul SKU exact de portable (pas seulement « nom GPU »), exiger la divulgation du TGP et du comportement MUX,
et valider avec un test soutenu de 10 minutes lors de l’imagerie. Une fois que l’équipe commença à mesurer la consommation et les raisons du throttling,
le débat s’arrêta.

Mini-histoire 2 : L’optimisation qui a échoué (poursuite des horloges de pic)

Un groupe d’ingénierie utilisait des portables comme postes de travail sur le terrain pour le traitement de données sur site. Ils ne jouaient pas ; ils traitaient des vidéos et lançaient
des filtres accélérés GPU. Quelqu’un remarqua que dans un benchmark court, activer le mode « Turbo » du vendeur augmentait significativement les horloges GPU.
L’équipe déploya la politique : toujours activer Turbo.

La première semaine, les gens furent contents. Les tâches se terminaient plus vite sur de petits jeux de données. Puis les plaintes commencèrent : les runs longs devinrent incohérents,
les ventilateurs hurlaient, et la santé de la batterie se dégrada rapidement. Quelques machines commencèrent à s’éteindre en cours de tâche, ce qui est une excellente façon de perdre la confiance en l’automatisation.

La télémétrie montra ce à quoi on s’attend si l’on a déjà vu un système atteindre la saturation thermique : les premières minutes furent rapides, puis les horloges tombèrent en dessous du profil « normal »
car le système rebondissait constamment sur les limites thermiques et d’alimentation. Turbo poussa la plateforme dans un pire état stable.
L’« optimisation » optimisait les captures d’écran, pas le débit.

La politique finale fut ennuyeuse : utiliser un profil de performance stable, limiter légèrement le boost CPU pour donner de l’espace thermique au GPU, et valider avec des runs de 30 minutes.
Le temps moyen des tâches s’améliora parce que le système cessa d’osciller.

Mini-histoire 3 : La pratique ennuyeuse mais correcte qui a sauvé la mise (baseline + test d’acceptation)

Un manager axé fiabilité insista pour que chaque portable attribué aux ingénieurs passe un test d’acceptation basique : identifier le GPU, enregistrer la limite de puissance,
exécuter une charge soutenue et stocker les résultats avec le tag d’actif. Les gens roulèrent des yeux. Personne n’aime la paperasse, moi y compris.

Des mois plus tard, un sous-ensemble de portables commença à montrer des baisses soudaines de performance après une mise à jour de pilote. Les ingénieurs signalaient que « CUDA est cassé » et
« le GPU est plus lent ». L’équipe ne paniqua pas. Ils récupérèrent les données de baseline des machines affectées, relancèrent le même test d’acceptation et comparèrent.

Le delta n’était pas subtil : la limite de puissance appliquée avait changé sous le nouveau package firmware OEM, et la courbe des ventilateurs se comportait différemment.
Parce qu’ils avaient des mesures antérieures, ils purent le prouver, escalader avec crédibilité, et revenir sélectivement sur la mise à jour en attendant un correctif.

Personne ne resta coincé dans la boucle infinie de réinstaller des pilotes en espérant. Le test d’acceptation transforma une plainte vague en une régression actionnable.
Voilà ce que l’ennui vous achète : du temps.

Erreurs courantes : symptôme → cause racine → correction

Voici celles que je vois souvent sur le terrain. Chacune a une odeur reconnaissable.

1) « Mon utilisation GPU est faible, donc le GPU est mauvais. »

Symptôme : 30–60 % d’utilisation GPU, CPU saturé, temps de trame incohérents.

Cause racine : Charge liée au CPU, overhead pilote, ou l’app s’exécute sur l’iGPU.

Correction : Confirmez le GPU actif (Tâche 6/7/14), profilez l’utilisation CPU, réduisez les réglages lourds CPU, et assurez-vous que le dGPU est sélectionné pour l’app.

2) « Il booste à X MHz, donc j’ai les performances complètes. »

Symptôme : Super pendant les 30 premières secondes, mauvais après 5–10 minutes.

Cause racine : Saturation thermique ; partage d’alimentation avec le CPU ; profil « Turbo » atteignant un pire état stable.

Correction : Observez les horloges soutenues et les raisons du throttling (Tâche 3/4). Favorisez des profils stables, améliorez le refroidissement, limitez le boost CPU si nécessaire.

3) « Même nom de GPU signifie mêmes FPS en jeu. »

Symptôme : Deux portables « avec RTX 4060 » diffèrent massivement en FPS.

Cause racine : Différents TGP, refroidissement, routage MUX/Optimus, ou configuration VRAM.

Correction : Vérifiez la limite de puissance et le chemin d’affichage. Traitez le portable comme un SKU de plateforme, pas comme une simple étiquette GPU.

4) « L’écran externe l’a rendu plus rapide ; c’est bizarre. »

Symptôme : FPS plus élevés avec un écran externe.

Cause racine : Port externe câblé directement au dGPU, contournant la copie via l’iGPU.

Correction : Utilisez le mode MUX/dGPU uniquement si disponible. Sinon, préférez le port externe pour des sessions critiques en performance.

5) « Le GPU va bien mais tout saccade quand la VRAM est presque pleine. »

Symptôme : Accrocs soudains, temps de trame longs, grosse chute de performance.

Cause racine : Sur-souscription de la VRAM provoquant pagination/compression et transferts supplémentaires.

Correction : Réduisez la demande VRAM (textures, résolution, taille des batches) ou choisissez un GPU avec plus de VRAM pour cette charge.

6) « Une mise à jour de pilote a ralenti mon GPU. »

Symptôme : Après la mise à jour, la consommation est plus basse, les horloges plus basses, les ventilateurs se comportent différemment.

Cause racine : Le package firmware OEM a changé les tables de puissance, les cibles thermiques, ou l’intégration du plan d’alimentation.

Correction : Comparez les limites de puissance et les raisons du throttling avant/après (Tâche 12/4). Revenez à une version connue bonne ; documentez les baselines.

7) « Les performances Linux sont pires que Windows sur le même portable. »

Symptôme : FPS plus bas ou débit calcul plus faible sur Linux.

Cause racine : Mauvais chemin d’offload GPU, overhead du compositeur, mode performance manquant, ou réglages pilotes différents.

Correction : Validez le GPU de rendu (Tâche 6/7), utilisez la branche de pilote correcte, et testez sous des profils de puissance/performance cohérents.

8) « L’autonomie est terrible quand je force le mode dGPU uniquement. »

Symptôme : Ventilateurs actifs, consommation au repos élevée, autonomie courte.

Cause racine : Le dGPU reste alimenté et pilote l’affichage ; consommation de base plus élevée.

Correction : Utilisez le mode hybride pour les déplacements ; passez en dGPU-only pour le travail branché. Traitez-le comme changer de type d’instance, pas comme une faute morale.

Listes de contrôle / plan étape par étape

Checklist d’achat : comment éviter le « même nom, machine différente »

  1. Exigez la limite de puissance GPU (TGP) par écrit. Si un vendeur ne peut pas vous le dire, supposez la variante la plus basse.
  2. Confirmez la taille de la VRAM et la configuration mémoire. Surtout si vous faites du ML, de la 3D ou du gaming AAA moderne.
  3. Vérifiez la présence d’un commutateur MUX ou du comportement Advanced Optimus. Si vous tenez à la stabilité des FPS, vous voulez l’option de chemin direct dGPU.
  4. Priorisez le refroidissement et l’épaisseur du châssis plutôt que la finesse. La performance soutenue a besoin d’évacuation de chaleur, pas d’espoir.
  5. Cherchez des tests montrant des runs soutenus. Boucles de dix minutes, pas un seul graphique d’un test d’une minute.
  6. Vérifiez le câblage des ports. Certains ports HDMI/USB-C sont câblés au dGPU et peuvent contourner l’overhead iGPU.
  7. Comprenez la contrainte de votre charge. Limitée par la VRAM ? Par la bande passante ? Par le CPU ? Sensible à la latence ? Achetez en conséquence.

Checklist d’acceptation (30 minutes, par portable)

  1. Enregistrez le modèle GPU, la taille de VRAM, la version du pilote (Tâche 2/15).
  2. Enregistrez la limite de puissance appliquée (Tâche 12).
  3. Effectuez un test soutenu de 10–15 minutes et enregistrez puissance/horloges/temp (Tâche 3/4).
  4. Vérifiez que la charge utilise le dGPU (Tâche 6/7/14).
  5. Enregistrez les sorties avec le tag d’actif. Votre futur vous en sera reconnaissant.

Checklist de réglage (quand vous ne pouvez pas remplacer le portable)

  1. Nettoyez les entrées d’air et les ventilateurs ; les problèmes thermiques sont souvent littéraux.
  2. Utilisez un support ou relevez l’arrière pour l’aération.
  3. Choisissez un profil de performance stable ; n’activez pas aveuglément « Turbo ».
  4. Limitez le boost CPU pour les charges GPU lourdes si la plateforme le permet.
  5. Utilisez un écran externe sur un port câblé au dGPU si le MUX n’est pas disponible.
  6. Réduisez la pression VRAM (textures, taille des batches, résolution) avant de courir après les horloges.

FAQ

1) Qu’est-ce que le TGP, et pourquoi m’en soucier ?

Le TGP (Total Graphics Power) est le budget d’alimentation que le portable autorise pour le GPU. Un TGP soutenu plus élevé signifie généralement une performance soutenue plus élevée,
si le refroidissement suit. C’est la chose la plus proche d’une limite de capacité à laquelle vous pouvez pointer et dire : « Voilà pourquoi. »

2) Deux portables avec le même nom de GPU peuvent-ils différer de 2× en performance ?

Oui, sur certaines charges. Une variante à faible TGP dans un châssis fin plus routage d’affichage via iGPU peut se faire humilier par un portable bien refroidi, MUX activé, et TGP élevé
portant le même label GPU. L’écart dépend de la charge, mais il est réel.

3) « Max-Q » existe-t-il encore ?

Le comportement existe : configurations optimisées pour l’efficacité. L’étiquetage a été incohérent avec le temps. Ne choisissez pas uniquement sur l’autocollant.
Choisissez selon la limite de puissance, les tests de refroidissement et les horloges soutenues mesurées.

4) Qu’est-ce qu’un commutateur MUX, et pourquoi les joueurs y tiennent tant ?

Un commutateur MUX permet au portable de router l’affichage interne directement vers le dGPU, contournant la copie via l’iGPU. Cela améliore souvent les FPS max et,
plus important, la cohérence des temps de trame. Si vous jouez en compétitif ou utilisez la VR, vous devriez vous en soucier.

5) Pour le travail CUDA/ML, dois-je me soucier du MUX et d’Optimus ?

Habituellement moins que les joueurs. Beaucoup de charges ML n’envoient pas constamment des images à l’écran. Vous vous souciez davantage de la taille de la VRAM, du TGP soutenu,
des thermiques et de la stabilité des pilotes. Mais le routage hybride peut encore affecter certains workflows lourds en visualisation.

6) Pourquoi les performances chutent-elles après quelques minutes même branché ?

Saturation thermique et partage de puissance plateforme. Le GPU atteint des cibles de température ou le système décide que le CPU mérite une part du budget d’alimentation.
Regardez les raisons du throttling et la consommation soutenue (Tâche 3/4/12).

7) Puis-je « flasher » un vBIOS avec une limite de puissance supérieure pour réparer un portable à faible TGP ?

Pratiquement : ne le faites pas. C’est un excellent moyen de briquer une machine, d’annuler la garantie, et de rester limité thermiquement. Si le système de refroidissement ne peut pas dissiper
la chaleur, plus de puissance devient juste plus de throttling ou d’instabilité.

8) La taille de la VRAM ou la vitesse des cœurs GPU est-elle plus importante ?

Si vous dépassez la VRAM, rien d’autre n’a d’importance parce que les performances s’effondrent. Si vous restez dans la VRAM, la vitesse des cœurs et la limite de puissance comptent beaucoup.
Pour le ML et la 3D, la VRAM est souvent la ressource limitante ; pour beaucoup de jeux, cela dépend de la résolution et de la qualité des textures.

9) Pourquoi les reviewers obtiennent de meilleurs résultats que moi ?

Les conditions de test des reviewers sont contrôlées : appareil froid, aérations propres, secteur, profil performance, parfois écran externe, et boucles de benchmark courtes.
Votre environnement est réel : salles chaudes, applications en arrière-plan, poussière, et charges longues. Reproduisez les conditions, puis mesurez le comportement soutenu.

10) Quel est le seul indicateur le plus utile pour comparer des portables « même nom de GPU » ?

La consommation GPU soutenue sous une charge connue, accompagnée des horloges soutenues et des raisons du throttling. Cette combinaison vous dit si vous êtes limité
par la politique, par le refroidissement, ou par les caractéristiques de la charge.

Conclusion : que faire ensuite

Les noms de modèles de GPU pour portables ne sont pas des contrats. Ce sont des indices. Le contrat est la limite de puissance soutenue, la capacité du refroidissement à la maintenir,
la configuration mémoire, et le routage d’affichage.

Étapes pratiques suivantes :

  1. Avant d’acheter : obtenez le TGP, la taille de VRAM et le comportement MUX/Optimus pour le SKU exact. Si vous ne pouvez pas, choisissez un SKU différent.
  2. Après réception : exécutez un test d’acceptation et enregistrez des baselines : limite de puissance, horloges soutenues, températures, raisons du throttling.
  3. Quand les performances sont « incorrectes » : suivez la feuille de diagnostic rapide. Confirmez le GPU utilisé, puis trouvez la contrainte réelle.
  4. Si vous avez besoin de débit soutenu : arrêtez de rechercher la finesse. Achetez la capacité de refroidissement. Votre futur vous remerciera.
← Précédent
Ubuntu 24.04 « Connection reset by peer » : prouver si c’est le client, le proxy ou le serveur (cas n°14)
Suivant →
ZFS iSCSI : configurer un ZVOL sans saccades sous charge

Laisser un commentaire