Ваша GPU «добра», поки раптом не стає поганою. Одного дня тренувальна задача починає незрозуміло втрачати продуктивність. Гра, яка раніше тримала 1900+ MHz, раптом балансує біля 1200. Вентилятори ревуть, час кадру стрибає, і панель моніторингу перетворюється на місце злочину.
Причина часто не в кремнії, не в драйверах і не в блоці живлення. Це та squishy-річ за $10, про яку ви забули: термопрокладки. І коли вони неправильної товщини, неправильної жорсткості, зміщені, висохлі або просто втомлені, вони можуть саботувати інакше здорову плату з такою ж тихою впевненістю, як некоректно налаштований cron.
Що насправді роблять термопрокладки (і чого вони не роблять)
Охолоджувач GPU — це не одна площина. Це невелика екосистема: кристал GPU (або корпус), навколишні мікросхеми пам’яті, етапи VRM, індуктори, іноді backplate і збірка радіатора, яка не може ідеально торкатися всіх цих елементів одночасно.
Термопаста призначена для дуже тонких зазорів і високого притиску: від кристала GPU до холодної пластини. Термопрокладки — для недосконалих, більших зазорів і нерівних стек-апів: від мікросхем пам’яті до радіатора, від компонентів VRM до вторинної пластини, іноді контакт з backplate.
Прокладки виконують дві задачі:
- Заповнюють зазор між гарячим компонентом і поверхнею радіатора, яка не є ідеально копланарною.
- Передають тепло через матеріал з прийнятним тепловим опором, зберігаючи механічну стабільність.
Чого прокладки не роблять добре:
- Компенсувати неправильний тиск. Якщо прокладка надто товста, вона може перешкодити холодній пластині сісти на кристал. Це катастрофічна «помилка виправлення».
- Перевершувати пасту на кристалі. Для первинного контакту з кристалом паста майже завжди краща за прокладку.
- Врятувати від поганої вентиляції. Якщо корпус/повітропроводи — це тостер, прокладки просто кращий спосіб рівномірно підсмажити.
Ключова модель мислення: ви не купуєте «W/mK». Ви купуєте нижчий сумарний тепловий опір у вашій конкретній геометрії. Теплопровідність — це характеристика; стек-ап — це правда.
Цікаві факти та трохи історії
Декілька контекстних моментів, які роблять сучасну роботу з термопрокладками більш зрозумілою:
- Матеріали термічного інтерфейсу (TIM) стали затребуваними з ущільненням компактного компонування. Коли радіатори припинили бути простими блоками й стали багатоконтактними збірками, прокладки стали «податком» на допуски виробництва.
- GDDR6X зробив температуру пам’яті масовою проблемою. Попередні покоління також нагрівалися, але GDDR6X і його щільність потужності перетворили «теплу VRAM» на «ваша карта тротлить через пам’ять».
- Сенсори «гарячої точки» змінили сприйняття охолодження. Сучасні GPU видають телеметрію junction/hotspot, що виявляє локальні проблеми контакту, а не лише середню температуру кристала.
- Backplate спочатку не був тепловим елементом. Багато backplate були структурними й естетичними частинами; пізніші дизайни почали використовувати їх як розподільники тепла з прокладками.
- Жорсткість прокладки має таке ж значення, як і товщина. Дві прокладки по 2.0 мм з різною стискуваністю можуть поводитися як різні товщини при однаковому моменті затягування.
- Заводські прокладки часто оптимізовані під високу вихідність складання, а не під пікову продуктивність. Вендори оптимізують під «працює на кожному блоці на лінії», а не під «найкращі температури на вашому конкретному унітеті».
- Термопрокладки старіють. Теплові цикли і час можуть робити прокладки жорсткішими, зменшувати їхню відповідність і погіршувати контакт — особливо біля VRM.
- Дизайни плат партнерів відрізняються радикально. Дві картки з тим самим GPU можуть мати зовсім різні карти прокладок, планування VRM і контактні пластини.
Чому прокладки можуть змінити всю відеокарту
У виробничих системах невеликі точки тертя створюють непропорційні відмови. У GPU термопрокладки — одна з таких точок. Вони сидять між критичними компонентами і є єдиною перешкодою, яка забороняє їм «пектися»: радіатор.
Якщо кристал GPU добре оброблений пастою, але прокладки для пам’яті неправильні, продуктивність усе одно може впасти. Чому? Тому що сучасні карти тротлять за першим досягнутим лімітом: потужності, температури, обмежень по надійності напруги, junction пам’яті, температури VRM або навіть дельти hotspot, яка натякає на поганий контакт.
Найпоширеніші «вся карта змінилася» результати після коректного репадингу нудні й вимірні:
- Junction пам’яті падає достатньо, щоб припинити тротлінг через пам’ять.
- Дельта hotspot зменшується, бо охолоджувач сідає правильно після виправлення стек-апу прокладок.
- Вентилятори заспокоюються, бо контролер більше не ганяється за локальними перегрівами.
- Такти стабілізуються, бо карта тримається в межах своїх теплових та електричних обмежень.
Прокладки також найпростіший спосіб випадково зіпсувати теплову поведінку карти. Немає «універсально найкращої товщини». Є лише «та товщина, яка дозволяє холодній пластині сісти правильно, поки контакти пам’яті/VRM повністю задіяні».
Жарт №1 (короткий, доречний): Термопрокладка — як запрошення на зустріч: занадто товста і ніхто не може наблизитися, щоб реально попрацювати.
Фізика, без фальшивої математики
Потік тепла через прокладку визначається тепловим опором. Приблизно: товща прокладка = більше опору, якщо альтернативою не є повітряний зазор (повітря — чудовий ізолятор і жахливий вибір для охолодження VRAM).
Але ви не можете вільно обирати товщину. Вас обмежують:
- Допуски по висоті компонентів (пакети пам’яті, дроселі, MOSFETи).
- Площинність радіатора і варіації обробки.
- Момент затягування гвинтів і пружинний тиск.
- Стискуваність прокладки та її повзучість з часом.
Отже «виправлення за $10» — це не «наклей товщі прокладки». Це «віднови правильний контакт по всьому стек-апу».
Що насправді означає «кращі прокладки»
Маркетинг любить цифри W/mK. Практична інженерія любить результати. На моєму досвіді «кращі прокладки» зазвичай означають одне або кілька з наступного:
- Правильна товщина (найважливіше).
- Більш комплаєнтний матеріал, що стискається, щоб підійти до невеликих варіацій без підйому холодної пластини.
- Чисте встановлення: правильне розміщення, без складок, без зміщених прокладок, що промахуються повз чіп.
- Свіжий матеріал, який не затвердів від років теплових циклів.
Швидкий план діагностики (знайти вузьке місце швидко)
Коли GPU недопрацьовує або нестабільний, ви можете марнувати години на «налаштування» лімітів потужності й undervolt. Не робіть цього. Спочатку визначте, що саме вас обмежує.
По-перше: ідентифікуйте ліміт (термічний vs потужність vs програмний)
- Перевірте частоти і причини тротлінгу під навантаженням. Якщо частоти падають при високому завантаженні, ви, ймовірно, досягаєте ліміту.
- Перевірте hotspot і температури пам’яті (якщо доступні). Висока дельта hotspot або висока junction пам’яті — класичний сигнал проблем з прокладками/контактом.
- Перевірте поведінку вентиляторів. Якщо вентилятори різко піднімаються, а температура ядра виглядає «ок», часто це сигнал про hotspot/пам’ять/VRM, які тягнуть контролер.
По-друге: ізолюйте, яка поверхня втрачає контакт
- Велика дельта hotspot (hotspot значно вищий за температуру GPU): підозра на поганий контакт кристала або охолоджувач, що не сідає через товщину прокладки.
- Висока junction пам’яті при нормальному ядрі: підозра на прокладки пам’яті, розміщення прокладок або передачу через backplate.
- Краші при транзієнтному навантаженні (не при сталому): підозра на термальні проблеми VRM або стабільність подачі живлення, на які прокладки можуть впливати опосередковано.
По-третє: вирішіть, чи потрібен репаст, репад, зміни повітряного потоку або все разом
- Тільки репаст, коли дельта hotspot вказує на проблеми контакту кристала, а температури пам’яті в нормі.
- Тільки репад, коли температури пам’яті/VRM високі, а контакт ядра здоровий.
- Обидва, коли охолоджувач знімають в будь-якому випадку на старій карті, або коли підозрюють, що прокладки піднімають охолоджувач.
- Повітряний потік/поводження корпусу, коли все покращується при відчиненій боковій панелі або з зовнішнім вентилятором.
Порядок має значення, бо режим відмови має значення. Виправте не те — і можна погіршити справжню проблему.
Інструменти та метрики, що мають значення
Вам не потрібна тепловізійна камера, щоб приймати хороші рішення (хоча це весело). Потрібна послідовна телеметрія і відтворюване навантаження.
Метрики, які варто відслідковувати
- Температура GPU: загальний термальний стан ядра, але сама по собі недостатня.
- Температура hotspot/junction: виявляє якість контакту і локальне нагрівання.
- Температура junction пам’яті: особливо на картах, що її видають; сильно пов’язана з ефективністю прокладок.
- Швидкість вентилятора і duty: показує, на що реагує контролер.
- Частоти і напруга: показують тротлінг і стабільність.
- Споживання потужності: підтверджує, чи обмежені ви по потужності чи по температурі.
- Лічильники помилок: Xid, ECC (якщо є), скидання драйвера — це може корелювати з перегрівом пам’яті/VRM.
Цитата по надійності (парафразована ідея)
Парафразована ідея від John Allspaw: надійність походить із розуміння нормальної поведінки та інструментування систем так, щоб ви бачили, коли реальність відхиляється.
Це ідеально підходить сюди: зафіксуйте вашу «норму», а потім шукайте відхилення під навантаженням.
Практичні задачі: команди, виводи, і рішення (12+)
Це навмисно операційні інструкції. Кожне завдання включає: команду, що означає її вивід, і рішення, яке ви приймаєте. Команди орієнтовані на Linux, бо виробництво часто саме там.
Задача 1: Підтвердити GPU і стек драйверів
cr0x@server:~$ nvidia-smi
Wed Jan 21 10:17:02 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14 Driver Version: 550.54.14 CUDA Version: 12.4 |
|-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 3080 Off | 00000000:01:00.0 On | N/A |
| 72% 76C P2 320W / 340W | 8900MiB / 10018MiB | 98% Default |
+-----------------------------------------+------------------------+----------------------+
Значення: Підтверджує модель, версію драйвера та базове завантаження/потужність. Це показує, чи ви близькі до ліміту потужності і чи навантаження реальне.
Рішення: Якщо бачите низьке завантаження і низькі частоти — не звинувачуйте терміку одразу, шукайте програмне вузьке місце. Якщо завантаження високе і частоти падають — переходьте до термічних перевірок.
Задача 2: Логувати температури, частоти, потужність щосекунди під відомим навантаженням
cr0x@server:~$ nvidia-smi --query-gpu=timestamp,temperature.gpu,clocks.sm,clocks.mem,power.draw,fan.speed,utilization.gpu --format=csv -l 1
timestamp, temperature.gpu, clocks.sm, clocks.mem, power.draw, fan.speed, utilization.gpu
2026/01/21 10:17:10, 77, 1710, 9501, 323.45, 74, 99
2026/01/21 10:17:11, 78, 1695, 9501, 327.10, 76, 99
2026/01/21 10:17:12, 78, 1545, 9501, 310.02, 78, 99
Значення: Зниження частот при стабільному високому завантаженні зазвичай вказує на досягнення ліміту (термічного, по напрузі або потужності).
Рішення: Якщо споживання потужності падає разом із частотами, поки температура повільно зростає, ймовірно ви досягаєте термального порогу або ліміту по hotspot/пам’яті. Далі: перевірити hotspot і температури пам’яті, якщо можливо.
Задача 3: Витягнути детальну телеметрію сенсорів (включаючи hotspot/mem, якщо доступно)
cr0x@server:~$ nvidia-smi -q -d TEMPERATURE,CLOCK,PERFORMANCE
==============NVSMI LOG==============
Temperature
GPU Current Temp : 78 C
GPU Shutdown Temp : 93 C
GPU Slowdown Temp : 83 C
GPU Max Operating Temp : 83 C
Clocks
Graphics : 1545 MHz
SM : 1545 MHz
Memory : 9501 MHz
Performance State
Performance State : P2
Значення: «Slowdown temp» — підказка. Якщо ви близькі до неї і частоти падають, швидше за все ви обмежені температурою на сенсорі, який драйвер моніторить.
Рішення: Якщо slowdown досягається при відносно помірних температурах ядра, підозрюйте hotspot/пам’ять/VRM, а не середній core.
Задача 4: Перевірити журнали ядра на скидання GPU та термальні події
cr0x@server:~$ sudo dmesg -T | egrep -i "nvrm|xid|thermal|throttle" | tail -n 20
[Wed Jan 21 10:15:42 2026] NVRM: Xid (PCI:0000:01:00): 31, pid=18422, Ch 00000008, intr 00000000
[Wed Jan 21 10:15:43 2026] NVRM: GPU at PCI:0000:01:00: GPU has fallen off the bus.
[Wed Jan 21 10:16:10 2026] thermal thermal_zone0: throttling, current_temp=92000
Значення: Xid-події і «fallen off the bus» можуть бути пов’язані з живленням, драйвером або термальною нестабільністю. Якщо це корелює з важким навантаженням і високими температурами — варто підозрювати охолодження.
Рішення: Якщо ви бачите повторювані Xid під навантаженням після місяців стабільності — перевірте термальні аспекти (прокладки/контакт) перш ніж ганятися за примарами драйверів.
Задача 5: Перевірити стан PCIe лінку (погане сидіння може імітувати «термальну нестабільність»)
cr0x@server:~$ sudo lspci -s 01:00.0 -vv | egrep -i "LnkSta|SltSta|Errors|Speed|Width"
LnkSta: Speed 16GT/s, Width x16
SltSta: AttnBtn- PwrCtrl- MRL- AttnInd- PwrInd- HotPlug- Surprise- Interlock- NoCompl+
Errors: Correctable- Non-Fatal- Fatal- Unsupported-
Значення: Підтверджує, що лінк стабільний і правильно погоджений. Проблеми PCIe можуть викликати скидання, що виглядає як термальна проблема.
Рішення: Якщо швидкість/ширина лінку флапає або з’являються помилки — не знімайте охолоджувач перш за все; пересадіть карту, огляньте кабелі живлення і перевірте слот.
Задача 6: Інспектувати завантаження GPU проти вузького місця CPU
cr0x@server:~$ mpstat -P ALL 1 3
Linux 6.5.0 (server) 01/21/2026 _x86_64_ (32 CPU)
10:17:35 AM CPU %usr %nice %sys %iowait %irq %soft %steal %idle
10:17:36 AM all 35.12 0.00 4.01 0.12 0.00 0.31 0.00 60.44
10:17:36 AM 7 99.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00
Значення: Один CPU зашкалює на 99%, у той час як завантаження GPU непослідовне — це може вказувати на вузьке місце на CPU або проблему одно-потокової підживки.
Рішення: Якщо CPU є лімітером, робота з термопрокладками не дасть результату. Виправте конвеєр спочатку.
Задача 7: Підтвердити керування вентиляторами і чи GPU застряг у консервативному профілі
cr0x@server:~$ nvidia-settings -q GPUFanControlState -q GPUTargetFanSpeed
Attribute 'GPUFanControlState' (server:0[gpu:0]): 0.
Attribute 'GPUTargetFanSpeed' (server:0[gpu:0]): 74.
Значення: Стан керування вентилятором 0 — автоматичний. Цільова швидкість вентилятора вказує, що контролер активно керує термікою.
Рішення: Якщо вентилятори низькі, а температури пікають — можлива проблема з керуванням вентилятора. Не звинувачуйте прокладки, поки поведінка вентиляторів не має сенсу.
Задача 8: Навантажити GPU послідовно (обчислення) і стежити за стабільністю
cr0x@server:~$ sudo apt-get install -y stress-ng
Reading package lists... Done
Building dependency tree... Done
stress-ng is already the newest version (0.15.06-1ubuntu1).
cr0x@server:~$ stress-ng --cpu 16 --timeout 60s --metrics-brief
stress-ng: info: [20133] dispatching hogs: 16 cpu
stress-ng: info: [20133] successful run completed in 60.01s
Значення: Це не навантажує GPU; стабілізує CPU-сайт, щоб ваше GPU-навантаження не голодувало чи не було рваним.
Рішення: Якщо терміки GPU виглядають погано тільки коли CPU теж навантажений, можливо у вас проблема з повітряним потоком корпусу або взаємодією тепла від блока живлення, а не лише прокладками.
Задача 9: Виміряти «дельту hotspot», коли це доступно (проксі через сенсори)
cr0x@server:~$ sudo apt-get install -y lm-sensors
Reading package lists... Done
Building dependency tree... Done
lm-sensors is already the newest version (1:3.6.0-7ubuntu1).
cr0x@server:~$ sensors
nvme-pci-0200
Adapter: PCI adapter
Composite: +47.9°C (low = -273.1°C, high = +84.8°C)
acpitz-acpi-0
Adapter: ACPI interface
temp1: +62.0°C
coretemp-isa-0000
Adapter: ISA adapter
Package id 0: +71.0°C
Значення: Багато систем не видають hotspot GPU через lm-sensors; і це нормально. Використовуйте nvidia-smi і логи застосунку.
Рішення: Якщо платформа загалом гаряча, завдання охолодження GPU ускладнюється. Виправляйте прийом/випуск повітря перед хірургічними роботами з прокладками.
Задача 10: Підтвердити ліміт потужності і чи ви тротлитесь по потужності
cr0x@server:~$ nvidia-smi -q -d POWER | egrep -i "Power Limit|Enforced|Default|Min|Max"
Power Limit : 340.00 W
Default Power Limit : 340.00 W
Enforced Power Limit : 340.00 W
Min Power Limit : 100.00 W
Max Power Limit : 370.00 W
Значення: Підтверджує, що вас не випадково обмежили. У корпоративних парках хтось часто «тимчасово» знижував ліміти потужності і забував.
Рішення: Якщо ліміт потужності значно нижчий за дефолт, виправте це перед тим, як відкривати апарат. Якщо потужність нормальна, а частоти все одно падають при зростанні температури — продовжуйте розслідування терміки.
Задача 11: Слідкувати за пропускною здатністю застосунку під час термального інциденту
cr0x@server:~$ tail -n 8 /var/log/gpu-job.log
step=1840 imgs/sec=1210 gpu_util=99% sm_clock=1710 mem_clock=9501 temp=77
step=1841 imgs/sec=1198 gpu_util=99% sm_clock=1695 mem_clock=9501 temp=78
step=1842 imgs/sec=1042 gpu_util=99% sm_clock=1545 mem_clock=9501 temp=78
step=1843 imgs/sec=1035 gpu_util=99% sm_clock=1545 mem_clock=9501 temp=79
Значення: Пропускна здатність падає в унісон з частотою SM. Це не «випадкова затримка». Це ліміт.
Рішення: Якщо пропускна здатність сильно корелює з температурою, маєте проблему термоконтролю, і прокладки — головний підозрюваний, коли залучені пам’ять/hotspot.
Задача 12: Перевірити, що система не нагрівається через криву вентиляторів або управління шасі
cr0x@server:~$ sudo ipmitool sdr type fan
FAN1 | 4200 RPM | ok
FAN2 | 4100 RPM | ok
FAN3 | 1900 RPM | ok
FAN4 | 1800 RPM | ok
Значення: У серверах шасі може бути встановлено тихий профіль, що позбавляє GPU свіжого повітря.
Рішення: Якщо вентилятори шасі низькі, а GPU гарячі — налаштуйте політику вентиляторів платформи перш ніж робити репад. Репад не переможе шасі, яке відмовляється рухати повітря.
Задача 13: Проведіть бенчмаркінг після змін з послідовним захопленням
cr0x@server:~$ mkdir -p ~/gpu-thermal-baselines
cr0x@server:~$ nvidia-smi --query-gpu=timestamp,temperature.gpu,clocks.sm,power.draw,fan.speed,utilization.gpu --format=csv -l 2 | head -n 10 | tee ~/gpu-thermal-baselines/baseline.csv
timestamp, temperature.gpu, clocks.sm, power.draw, fan.speed, utilization.gpu
2026/01/21 10:20:10, 44, 210, 24.12, 30, 0
2026/01/21 10:20:12, 45, 210, 24.05, 30, 0
2026/01/21 10:20:14, 45, 210, 24.01, 30, 0
Значення: Файл базової лінії дає вам доказ «до/після». Інакше ви спиратиметеся на відчуття, що не є метрикою.
Рішення: Не робіть роботи з прокладками без базової лінії. Якщо не можете довести покращення, не знатимете, чи не додали новий ризик.
Вибір прокладок: товщина, жорсткість, провідність та реальність
Товщина — головна
Рішення номер один — це товщина. Не бренд. Не W/mK. Товщина.
Чому? Тому що товщина визначає, чи взагалі буде контакт, і чи випадково ви не зменшите тиск на кристал. Кристал GPU невблаганний: якщо холодна пластина сідає неправильно, hotspot підвищується, частоти падають, і ви отримуєте проблему ядра замість проблеми пам’яті.
Практичні поради:
- Почніть з відомих карт товщин для вашого точного варіанту плати, якщо можливо. «Та сама модель GPU» ≠ «та сама PCB».
- Якщо вимірюєте, виміряйте старі прокладки і підтвердіть тестом відбитка (далі). Старі прокладки можуть бути стиснуті або деформовані, тому сприймайте вимір як стартову точку, а не як істину в останній інстанції.
- Не змішуйте товщини випадково. Якщо одна зона стане товщою, ви можете підняти іншу контактну поверхню.
Жорсткість/стискуваність: прихована змінна
Прокладки — це не лише товщина; це пружини з теплопровідністю. Жорсткі прокладки чинять опір стисненню, що може бути корисно для високих компонентів, але ризиковано для правильної посадки кристала. М’якші прокладки краще підлаштовуються, але можуть «повзти» з часом і зменшити стабільний тиск.
Коли люди повідомляють про радикально різні результати з «однієї і тієї ж товщини», зазвичай причина — жорсткість.
Теплопровідність (W/mK) — не брехня, але неповна
Вища W/mK може допомогти, але лише якщо:
- прокладка дійсно контактує з обома поверхнями,
- вона правильно стискається,
- не створює більшого зазору десь ще.
Також: даташити часто тестують за певної компресії і температурних умов. Ваш GPU — хаотична реальна лабораторія з нерівномірним тиском, мікрозазорами та обмеженнями повітряного потоку.
Прокладка vs паста для зазорів: знайте, чим ризикуєте
Теплова паста-путі (gap filler paste) стала популярною, бо вона легко підлаштовується під нерівні поверхні і може зменшити ризик «неправильної товщини». Вона може бути відмінною для VRM/нестандартних форм.
Недоліки:
- Брудніша, важче переробляється акуратно.
- Може мігрувати при надмірному нанесенні.
- Довгострокова стабільність залежить від складу і теплових циклів.
Якщо у вас продукційні GPU, де важливіша повторюваність ніж інтернет-репутація, прокладки все ще більш передбачувані — коли у вас правильна товщина.
Коли backplate — частина теплової системи
Деякі карти покладаються на прокладки backplate для відводу тепла від пам’яті або задньої частини PCB. Якщо ці прокладки відсутні або занадто тонкі — втрачаєте розподіл тепла. Якщо занадто товсті — можете викривити PCB і створити нові проблеми контакту спереду.
Викривлення PCB — це не лише естетика. Викривлені плати змінюють розподіл тиску, що може підвищити дельту hotspot навіть при ідеальній пасті.
Жарт №2 (короткий, доречний): Термопрокладки старіють як молоко, а не вино — якщо пощастить, ви помітите запах до краху.
Чеклісти / поетапний план (репаст і репад без жалю)
Перевірка перед польотом: вирішіть, чи варто відкривати карту
- Зберіть базові лінії: температури, частоти, вентилятор, потужність під відтворюваним навантаженням (див. завдання вище).
- Підтвердіть ліміт: чи це junction пам’яті, дельта hotspot чи просто повітряний потік корпусу?
- Підтвердіть варіант: точна модель партнера плати і ревізія, якщо можливо.
- Прийміть компроміс з гарантією: якщо не можете дозволити ризик — не робіть цього. Виробництво не піклується про вашу цікавість.
- Заплануйте час простою: ставте це як вікно технічного обслуговування.
Інструменти та матеріали (мінімально, але правильно)
- ESD заходи (браслет або хоча б дисципліноване заземлення).
- Правильні біт-насадки для викруток (не зріжте гвинти і не імпровізуйте як лиходій).
- Ізопропіловий спирт і безворсові серветки.
- Теплопаста для кристалу (перевірений, стабільний склад).
- Термопрокладки правильних товщин; купіть запас.
- Штангенциркуль (корисний) і блокнот для мапи прокладок.
Покроково: розбирання з SRE-мисленням
- Вимкніть живлення, від’єднайте, розрядьте. Зніміть карту, позначте її, робіть фото по ходу. Фото — ваш план відкату.
- Знімайте охолоджувач рівномірно. Відкручуйте гвинти по діагоналі. Ви намагаєтесь уникнути нерівномірного навантаження на PCB.
- Документуйте розташування прокладок і товщину. Створіть «мапу прокладок» в нотатках: прокладки пам’яті, VRM, backplate, будь-які дивні місця.
- Огляньте старі прокладки. Шукайте блискучі незайняті ділянки (немає контакту), порвані секції (зміщені) або крихкий/затверділий матеріал (старіння).
- Очищайте пасту і залишки. Акуратно видаліть стару пасту з кристала і холодної пластини. Очищайте залишки прокладок там, де потрібно, не зішкрябуючи компоненти.
Покроково: встановлення нових прокладок без підняття холодної пластини
- Ріжте прокладки чисто. Трохи менші за відбиток чіпа зазвичай безпечніше, ніж звиси, що можуть заважати іншим поверхням.
- Розміщайте прокладки точно. Мікросхеми пам’яті повинні бути повністю покриті. VRM-прокладки повинні охоплювати призначені компоненти; не «перемичкуйте» на конденсатори, якщо дизайн цього не передбачає.
- Дбайте про захисні плівки. Зніміть обидві сторони. Пропустити одну — і ви створите ізолюючий шар з чудовою атмосферою і жахливими тепловими властивостями.
- Нанесіть пасту на кристал. Використовуйте надійний метод (тонкий шар або маленька крапля в центрі залежно від в’язкості пасти і розміру кристалу). Мета — повне покриття без надмірного виштовхування.
- Примірка і тест відбитка (рекомендовано). Перш ніж остаточно зібрати, легенько посадіть охолоджувач, потім зніміть його, щоб оглянути сліди стиснення прокладок і розподіл пасти. Ви шукаєте «контакт скрізь» і «холодна пластина сіла».
- Остаточна збірка з дисципліною моменту затягування. Затягуйте по діагоналі маленькими кроками. Якщо гвинти на пружинах — рівномірно їх стискайте.
Після польоту: чекліст підтвердження виправлення
- Перевірка при завантаженні і в режимі простою: впевніться, що вентилятори крутяться, немає артефактів, немає проблем з драйвером.
- Тест під навантаженням: запустіть те саме навантаження, що й базова лінія. Захопіть ту ж телеметрію.
- Порівняйте дельти: температура ядра, дельта hotspot (якщо є), температури пам’яті, частоти під навантаженням, швидкість вентиляторів для тієї ж пропускної здатності.
- Стабільний прогрів: 30–60 хвилин. Термінові проблеми часто з’являються після нагрівання, а не в перші хвилини.
Три корпоративні міні-історії (реалістично й болісно)
1) Інцидент через хибне припущення: «Та сама модель GPU = та сама товщина прокладки»
Команда, з якою я працював, мала змішаний парк GPU, куплений протягом кількох кварталів. Та сама назва GPU на папері, той самий вендор, той самий образ драйвера. Хтось помітив, що junction пам’яті підвищується на деяких вузлах і запропонував кампанію репадингу. Розумно. Планове обслуговування дешевше, ніж несподівані простои.
Вони замовили прокладки за картою товщин, опублікованою для «цієї GPU». Перші кілька карт покращилися. Довіра зросла. Розгортання прискорилося, бо люди люблять історії успіху і не люблять чекати.
Потім інша партія почала провалювати валідацію: hotspot піднімався, частоти падали, і одна система почала жорстко перезавантажуватися під навантаженням. Графіки були образливими: пам’ять стала кращою, але ядро почало тротлити раніше, ніж раніше.
Корінь проблеми не був містичним. У пізній партії був трохи інший пласт охолоджувача і стек-ап компонентів. «Універсальна» товщина підняла холодну пластину настільки, щоб зменшити тиск на кристал і створити проблему дельти hotspot. Пам’ять стала прохолоднішою; GPU core тепер був лімітом.
Виправлення було повільним і неефектним: зупинити розгортання, ідентифікувати ревізії плат, побудувати карту товщин по ревізіях і переробити вже оброблені карти, які стали гіршими. Урок не в тому, щоб ніколи не робити репад; урок у тому, щоб ніколи не робити припущень про механічну еквівалентність на основі маркетингової назви.
2) Оптимізація, що повернулася бумерангом: «Максимум W/mK скрізь»
В іншому місці інженер вирішив стандартизувати преміум-прокладку з високою теплопровідністю для всього: VRAM, VRM-пластина, backplate, навіть там, де заводське рішення було м’яким. Мета благородна: зменшити шум вентиляторів і поліпшити стабільні буст-частоти.
На стенді перша карта виглядала добре під коротким тестом. Вентилятори були спокійніші. Температури пам’яті трохи впали. Зміну оголосили перемогою і повторили на кількох картах.
Через два тижні почалися звернення в підтримку: нестабільність під довгими тренуваннями. Нічого очевидного в температурі ядра. Декілька вузлів викидали скидання драйвера після годин, а не хвилин. Команда зробила те, що зазвичай роблять команди: звинуватили софт перш за все. Перебудували образи, зафіксували версії драйверів, міняли кабелі, навіть перевіряли лінії PSU.
Справжня проблема була механічна. «Преміумні» прокладки були значно жорсткіші. При тому ж моменті вони не стискалися як оригінальні, що змінило розподіл тиску. Контакт кристалу був «ок» спочатку, але після повторних теплових циклів мікрорух і повзучість погіршили ситуацію. Дельта hotspot зросла, і локальний тепловий стрес підвищив ймовірність помилок.
Виправлення не в тому, щоб відмовитись від кращих матеріалів; воно в тому, щоб поважати систему. Вони перейшли на більш комплаєнтні прокладки для специфічних зон і використовували високопровідні прокладки тільки там, де зазор і тиск були відповідні. Продуктивність і стабільність повернулися. Оптимізація провалилась, бо оптимізувала специфікацію, а не механічну збірку.
3) Нудна, але правильна практика, яка врятувала день: «Базова лінія, змінити одну річ, валідувати»
Команда, орієнтована на надійність, мала політику: жодного термічного обслуговування без артефакту «до/після». Кожен вузол мав простий скрипт, що захоплював телеметрію nvidia-smi під стандартизованим навантаженням. Файл зберігався централізовано. Це не було модним, але було послідовним.
Одного дня новий технік репаднув карту і GPU почав працювати гірше. Вони не сперечалися, чи «відчувається повільніше». Витягнули базову лінію і порівняли. Постзмінні частоти були на 10–15% нижчі при тому ж завантаженні, з вищими обертами вентиляторів. Це не варіативність — це невдала зміна.
Оскільки був артефакт, відкат пройшов просто: відкрити карту знову, перевірити сліди контакту і виправити товщину прокладки в одній зоні, що не дозволяла повністю сісти холодній пластині. Після виправлення телеметрія відповідала початковій і трохи покращила температури пам’яті.
Політика виглядала бюрократичною, поки не стала рятувати час. Інцидент закінчився за один день замість тижня пошуків в форумах і переспроб драйверів. Нудний процес зекономив реальний час — а це єдина метрика, що має значення під час інциденту.
Типові помилки: симптом → корінь → виправлення
1) Температури пам’яті гірші після репадингу
- Симптоми: Junction пам’яті піднімається швидше, вентилятори розкручуються; продуктивність падає після прогріву.
- Корінь: Прокладки не контактують з радіатором (занадто тонкі), залишена захисна плівка, прокладка зміщена з чіпа або прокладку вирізано занадто мало, залишився край.
- Виправлення: Відкрити і перевірити сліди стиснення; підтвердити зняття плівки; переконатися, що прокладка повністю покриває мікросхему пам’яті; підкоригувати товщину по зоні.
2) Дельта hotspot ядра збільшується після репадингу
- Симптоми: Температура ядра здається «у нормі», але hotspot значно вищий; частоти тротлять раніше; відбиток пасти виглядає нерівномірно.
- Корінь: Прокладки занадто товсті або занадто жорсткі, піднімають холодну пластину або зменшують монтажний тиск на кристал.
- Виправлення: Зменшити товщину прокладки або перейти на більш комплаєнтні прокладки; перетягнути по діагоналі; виконати тест відбитка, щоб підтвердити посадку.
3) Випадкові краші після 20–60 хвилин
- Симптоми: Нестабільність при довготривалому навантаженні; скидання драйвера; немає негайного термального відключення.
- Корінь: Термальне навантаження VRM через поганий контакт прокладок на MOSFETах/пластинах або викривлення PCB, що створює локальне нагрівання.
- Виправлення: Перевірити розміщення і покриття VRM-прокладок; переконатися в правильній товщині; перевірити, чи не спричиняє over-thickness прокладка backplate вигин плати.
4) Вентилятори голосніше, але температури не змінюються
- Симптоми: Температури ті ж при більшому duty вентиляторів; шум збільшився; мало поліпшення продуктивності.
- Корінь: Ви покращили один шлях (наприклад, пам’ять → backplate), але ліміт — повітряний потік корпусу; або радіатор забитий пилом.
- Виправлення: Почистіть ребра радіатора; поліпшіть притік/витяжку; розгляньте повітропроводи; переконайтеся, що вентилятори шасі не в тихому режимі.
5) Паста «виштовхується» швидко після репадингу
- Симптоми: Добрі температури день-два, гірше через тиждень; дельта hotspot зростає.
- Корінь: Нерівномірний тиск або надмірне переміщення через прокладки, що поводяться як жорсткі пружини; теплові цикли зсувають пасту від центру кристалу.
- Виправлення: Виправити стискуваність прокладки; використовувати стабільну пасту; перевірити консистентність монтажного тиску; уникати перетягування, що викривляє збірку.
6) «Все прохолодніше», але продуктивність все ще знижена
- Симптоми: Температури покращилися, але частоти не відновилися.
- Корінь: Ліміт по потужності або налаштування напруги/частоти, або зміни у робочому навантаженні; інколи після техобслуговування було змінено драйвер або прошивку.
- Виправлення: Перевірити ліміти потужності, конфігурацію застосунку і причини тротлінгу; порівняти з базовою лінією до змін.
Питання й відповіді
1) Чи дійсно термопрокладки «зношуються»?
Так. Теплові цикли можуть робити прокладки жорсткішими, зменшувати їхню відповідність і погіршувати контакт. Вони не випаровуються, але перестають поводитися як хороші заповнювачі зазорів.
2) Чи завжди змінювати прокладки при репасті?
Якщо карта старша або ви вже її відкрили — часто так, бо повторне використання зрушених прокладок — це гра в азарт: чи буде контакт. Якщо карта нова і прокладки не пошкоджені, можна робити тільки репаст, але будьте обережні, щоб не порвати чи не змістити прокладки при розбиранні.
3) Чи завжди вищий W/mK кращий?
Не обов’язково. Трохи нижчий W/mK, але такий, що правильно стискається і зберігає контакт кристалу, може працювати краще за «кращу» прокладку, яка піднімає охолоджувач.
4) Як дізнатися правильну товщину прокладки для мого GPU?
Ідеально: карта товщин для вашої точної ревізії плати. Якщо треба виміряти: використайте оригінальні прокладки як відправну точку, потім підтвердьте тестом відбитка, щоб переконатися в контакті і посадці.
5) Чи можуть неправильні прокладки пошкодити GPU?
Опосередковано — так. Вони можуть викликати тривале перегрівання пам’яті або VRM, або викривити PCB і створити механічний стрес для паяння з часом. Негайний ризик — тротлінг і нестабільність; довгостроковий — знос, який не видно одразу.
6) Чому моя температура ядра виглядає нормально, але я все одно тротлю?
Бо «температура ядра» часто не є найгарячішим сенсором. Hotspot і junction пам’яті можуть досягати лімітів першими. Поганий контакт створює локальні гарячі точки, які середні температури ховають.
7) Чи треба підкладати backplate прокладки?
Тільки якщо дизайн цього очікує або ви можете підтвердити, що це покращує розподіл тепла без викривлення плати. Випадкове паддінг backplate може створити більше проблем, ніж вирішити.
8) Прокладки чи паста-путі для VRAM?
Прокладки чистіші і більш повторювані, якщо ви знаєте товщину. Паста-путі більш прощаюча для нерівних зазорів, але брудніша і довготривало більш варіативна. У парках повторюваність зазвичай перемагає.
9) Яка «хороша» дельта hotspot?
Вона варіюється за GPU і дизайном охолоджувача, але великі дельти часто сигналізують про проблеми контакту. Якщо ваша дельта значно зростає після обслуговування — вважайте, що ви помилилися і перевірте посадку.
10) Скільки часу тримати soak-тест після репадингу?
Принаймні 30 хвилин під стабільним навантаженням, і бажано довший запуск, що відповідає вашому реальному робочому навантаженню. Багато відмов виявляються після повного прогріву збірки.
Висновок: практичні наступні кроки
Термопрокладки — не магічне оновлення. Це механічний інтерфейс, який вирішує, чи мають пам’ять і VRM вашої GPU спільний радіатор або відчайдушно відстоюються самі по собі.
Якщо ви бачите високі температури junction пам’яті, нестабільні тривалі програми або дельту hotspot, що не має сенсу — розглядайте прокладки як первинного підозрюваного. Але робіть це як операції, а не як хобі: зафіксуйте базову лінію, змінюйте одну річ, валідуйте і майте план відкату.
- Захопіть базову лінію під відтворюваним навантаженням (температури, частоти, потужність, вентилятор).
- Визначте ліміт (ядро, hotspot, пам’ять, VRM, повітряний потік, потужність).
- Якщо прокладки причетні — знайдіть правильні товщини для ревізії вашої плати.
- Репаст/репад з тестом відбитка і дисципліною моменту затягування.
- Доведіть результат тими ж метриками, з яких починали.
Найкраще у правильному виконанні — це нудно. Саме тоді ви знаєте, що це промисловий рівень.