Ніхто на виклику не хоче опинитися в ситуації, коли флот GPU виглядає «нормально» за температурою ядра, але раптово падає хешрейт, кадри в секунду, пропускна здатність інференсу — або вузли починають перезавантажуватися ніби просто з нудьги.
Часто винуватцем є пам’ять. Зокрема GDDR6X, яка може працювати надзвичайно гаряче, поки ядро GPU сидить, посміхаючись своїми 65°C. Якщо ви дивитеся тільки «температуру GPU», ви літаєте за приладами, які не показують вам обрив.
Чому GDDR6X інша (і чому вона так нагрівається)
GDDR6X — це не просто «GDDR6, але швидше». Вона змінила спосіб передачі сигналів. І одне конструктивне рішення відлунює аж до ваших операційних дашбордів.
PAM4: коли «більше бітів за цикл» означає «більше аналогових проблем за ват»
GDDR6X використовує PAM4 (модуляція амплітуди імпульсу з чотирма рівнями). Замість двох рівнів сигналу (0/1) маємо чотири. Це дозволяє переносити два біти за символ і збільшувати пропускну здатність без подвоєння тактової частоти, як у NRZ.
На практиці PAM4 робить ланцюг сигналізації більш чутливим. Потрібні менші напругові запаси, більше еквалізації та більше зусиль для підтримки чистої діаграми ока. Більше роботи — більше енергії, що витрачається в інтерфейсі пам’яті — як на боці GPU (контролери пам’яті та PHY), так і в самих мікросхемах пам’яті.
Результат — знайома виробнича картина: ядро GPU може бути під контролем, тоді як температури переходів пам’яті наближаються до зони небезпеки, бо джерела тепла фізично розосереджені по платі і часто охолоджуються гіршими шляхами.
Нагрів пам’яті — це «нагромадження на краю», і охолодження країв незручне
Більшість кулерів GPU оптимізовані під кристал GPU. Це велике очевидне гаряче місце, механічно центральне і причина існування продукту. Чіпи пам’яті розташовані по периметру друкованої плати і часто покладаються на термопрокладки для контакту з основним радіатором або задньою пластиною.
Термопрокладки зручні для виробництва. Водночас вони легко перетворюють «має відводити тепло» на «насправді ізолює тепло», якщо товщина, стиснення або розташування відрізняються хоча б на міліметр. І чим старша карта, тим більше ця прокладка поводиться як черствілий жувальний гумка.
Температура пам’яті не «відчувається» так само, як температура ядра
Температура ядра часто суворо регулюється агресивними кривими вентиляторів і передбачуваним контактом радіатора. Температура переходу пам’яті — інша тварина: висока локальна щільність, слабші шляхи теплопровідності і менший потік повітря. Тому ви можете бачити GPU на 70°C, а пам’ять — на 104–110°C і думати, що все в порядку, бо 70 звучить розумно.
Операційне правило: для GDDR6X розглядайте температуру пам’яті як первинний показник. Не як «приємний додаток». Первинний. Якщо у вас його немає — ви сліпі на одне око і здивовані, чому постійно врізаєтеся в двері.
Жарт #1: температури пам’яті GDDR6X як «тимчасова» кабельна системка вашого датацентру — її ігнорують, поки вона не стає головною історією.
Що взагалі означає «температура пам’яті»
Назви датчиків: «memory temp», «mem junction», «hotspot» і чому вони не збігаються
На багатьох сучасних картах NVIDIA те, що вам треба — це температура переходу пам’яті — найгарячіша точка всередині корпусу пам’яті, яку модель сенсора може оцінити або виміряти. Це не те саме, що температура ПКБ біля чіпа, і не те саме, що «GPU hotspot» (найгарячіша зона кристала GPU).
Вендори показують це по-різному:
- Температура GPU: сенсор ядра, зазвичай керований і «розумний».
- GPU Hotspot: найгарячіша частина кристала GPU. Корисно, але не вирішує проблему пам’яті.
- Температура переходу пам’яті: те, що зазвичай першим досягає критичних значень на GDDR6X.
Різні інструменти можуть показувати різні назви. Деякі показують тільки температуру ядра і залишають вас здогадуватися. Саме так з’являються кластери, які «стабільні», доки не перестають бути.
Чому температура переходу лякає сильніше, ніж здається
Температура переходу ближча до реального стану кремнію. Якщо ваша температура переходу пам’яті 106°C, внутрішній світ цього чіпа перебуває у важких умовах. Кремній може витримувати високі температури, але надійність — це гра ймовірностей, а не обіцянок. Тепло прискорює механізми старіння. Ви можете не побачити миттєвого краху; натомість з’явиться повільне зростання коригованих помилок, втрата часових запасів і «випадкова» нестабільність за певних навантажень.
Поводження при троттлінгу: GPU захищає себе, а не ваш SLA
Термозахист існує, щоб обладнання не вбивало себе миттєво, а не для збереження вашої пропускної здатності. Коли пам’ять досягає ліміту, ви можете побачити:
- Зниження частоти пам’яті (падіння продуктивності без явних проблем із температурою ядра)
- Зміни в поведінці лімітів потужності (схеми регулювання на платі компенсують)
- Скиди драйвера при тривалому навантаженні (особливо при граничному контакті прокладок)
Цікаві факти та коротка історія (8 тез)
- GDDR «перемогла» у споживчому сегменті GPU, здебільшого тому, що масштабувала пропускну здатність без складнощів упакування HBM для більшості цінових категорій.
- PAM4 не був винайдений для GPU; це техніка сигналізації, яку широко застосовують у високошвидкісних каналах, коли потрібна більша пропускна здатність без пропорційного зростання частоти.
- GDDR6X з’явилася в споживчих GPU як стрибок пропускної здатності без повного перепроєктування архітектури — добре для продуктивності за гривню, але гаряче за ват на см2.
- Теплова історія HBM інша: стекована пам’ять поруч із пакетом GPU теж може бути гарячою, але шляхи охолодження та інтеграція відрізняються; GDDR6X розсіює тепло навколо плати і в прокладки та задні пластини.
- Датчики температури переходу пам’яті стали масовими лише після того, як користувачі почали корелювати незрозумілий троттлінг із нагрівом VRAM; телеметрія еволюціонувала, бо відмови були помітними й дратівливими.
- Майнінгові навантаження зробили терміку VRAM відомою, бо вони підтримують високу пропускну здатність пам’яті постійно — ідеальний сценарій для виявлення поганого контакту прокладок і слабкого повітряного потоку.
- Радіатори-задні пластини змінили роль від «жорстка металева кришка» до «додатковий радіатор», коли вендори почали додавати термопрокладки для відводу тепла через ПКБ.
- Криві вентиляторів історично реагували на температуру ядра, саме тому пам’ять часто перегрівається: контур управління дивився не на ту «пацієнтку».
Режими відмов: троттлінг, помилки та повільна смерть «все добре»
1) М’який троттлінг: тихе урізання продуктивності
Це найпоширеніше. Ваш GPU виглядає здоровим у загальному моніторингу. Але навантаження, що інтенсивно використовує пропускну здатність пам’яті — навчання, інференс з великими активаціями, рендеринг, майнінг, ядра стиснення — починає падати через кілька хвилин.
Що відбувається: температура переходу пам’яті зростає, прошивка/драйвер знижує частоти пам’яті, щоб залишитися в межах теплового контуру, і ваша пропускна здатність падає по обриву, який ніхто не зв’язує, бо «температура GPU» лишилася стабільною.
2) Некориговані помилки: «випадковий» крах, який не випадковий
Коли запаси зменшуються, ви можете бачити скиди драйвера, помилки CUDA, пошкоджені виходи або аварії застосунків. В ентерпрайз-середовищах часто спочатку ростуть лічильники коригованих помилок — якщо ви їх збираєте. У менш інструментованих — просто періодичні збої робіт.
3) Довгострокова надійність: тепло — це каталізатор
Висока температура прискорює механізми зношування. Не треба читати лекцію з матеріалознавства, щоб діяти: якщо ви тримаєте пам’ять на межі місяцями, очікуйте раннє деградування порівняно з флотом, що працює на 20°C холодніше.
І ні, ваша гарантія не переймається вашими квартальними планами.
4) Вторинні ефекти: VRM і гарячі плями на платі
Нагрів пам’яті не існує сам по собі. У тісних корпусах ті самі обмеження повітряного потоку, що карають VRAM, карають і VRM. Іноді ви виправляєте пам’ять, піднімаючи швидкість вентиляторів, тільки щоб виявити, що проблема перемістилася до бюджету шуму або зносу вентиляторів. Інженерія — це компроміс. Обирайте компроміс свідомо.
Цитата, перефразована ідея: «Надія — це не стратегія.» — перефразована думка, яку часто приписують інженерам з надійності та операцій. Сприймайте як нагадування, а не як наліпку на бампер.
Швидкий план діагностики
Це послідовність «у вас є 10 хвилин і пейджер». Мета — визначити, чи обмежені ви термічною пам’яттю, термічною ядра, потужністю чи чимось іншим.
Перше: підтвердіть, що бачите потрібний датчик
- Перевірте, чи доступна температура переходу пам’яті у вашому інструментарії.
- Якщо її не видно — вважайте це блокером інциденту: ви не можете діагностувати те, чого не спостерігаєте.
Друге: корелюйте температуру з частотами та причинами троттлінгу
- Слідкуйте за температурою пам’яті, частотою пам’яті та станами троттлінгу/продуктивності під постійним навантаженням.
- Якщо температура пам’яті росте, а частота пам’яті падає, поки температура ядра залишається стабільною — ви знайшли вузьке місце.
Третє: визначте, чи це середовище, механіка чи конфігурація
- Середовище: повітряний потік корпусу, температура на вході, забиті фільтри, розташування в стійці, сусідній гарячий викид.
- Механіка: контакт прокладки, товщина прокладки, зв’язок із задньою пластиною, прилягання радіатора.
- Конфігурація: криві вентиляторів, прив’язані до температури ядра, занадто високі ліміти потужності, розгін пам’яті, рішення з пониження напруги.
Четверте: оберіть найменш ризикований крок пом’якшення
- Збільшіть повітряний потік і швидкість вентиляторів до розбирання заліза.
- Обмежте потужність або зменшіть частоту пам’яті перед тим, як масово міняти прокладки.
- Репад/репаст виконуйте лише коли є докази проблеми з контактом або потрібне постійне виправлення.
Практичні завдання: команди, виводи та рішення (12+)
Це реальні завдання, які можна виконати на Linux GPU-ноди. Кожне містить: команду, що означає вивід, і яке рішення приймати.
Завдання 1: Перевірте, чи драйвер показує температуру переходу пам’яті
cr0x@server:~$ nvidia-smi -q -d TEMPERATURE
==============NVSMI LOG==============
Temperature
GPU Current Temp : 66 C
GPU Shutdown Temp : 95 C
GPU Slowdown Temp : 90 C
GPU Max Operating Temp : 88 C
Memory Current Temp : 104 C
Значення: поле «Memory Current Temp» присутнє. Добре — це датчик, на який варто ставити алерти для GDDR6X.
Рішення: Якщо цього поля немає, потрібне оновлення драйвера/інструментарію або альтернативний шлях телеметрії. Без виправдання.
Завдання 2: Слідкуйте за температурою пам’яті та частотами в реальному часі під навантаженням
cr0x@server:~$ nvidia-smi --query-gpu=timestamp,index,temperature.gpu,temperature.memory,clocks.sm,clocks.mem,pstate,power.draw --format=csv -l 2
timestamp, index, temperature.gpu, temperature.memory, clocks.sm, clocks.mem, pstate, power.draw
2026/01/21 10:14:01.123, 0, 67, 102, 1560, 9501, P2, 240.12 W
2026/01/21 10:14:03.124, 0, 68, 106, 1560, 8100, P2, 239.88 W
2026/01/21 10:14:05.125, 0, 68, 108, 1560, 7001, P2, 238.77 W
Значення: частота пам’яті падає в міру підвищення температури пам’яті; температура ядра стабільна. Класичний VRAM термотроттлінг.
Рішення: Перестаньте налаштовувати ядро. Зосередьтеся на охолодженні пам’яті, повітряному потоці, обмеженні потужності або обмеженні частоти пам’яті.
Завдання 3: Перевірте причини троттлінгу (коли підтримується)
cr0x@server:~$ nvidia-smi -q -d PERFORMANCE
Performance
Performance State : P2
Clocks Throttle Reasons
Idle : Not Active
Applications Clocks Setting : Not Active
SW Power Cap : Not Active
HW Slowdown : Active
HW Thermal Slowdown : Active
HW Power Brake Slowdown : Not Active
Значення: апаратне термальне уповільнення активне. Це часто корелює з тим, що температура переходу пам’яті перевищує поріг, навіть якщо температура ядра не екстремальна.
Рішення: Розглядайте як тепловий інцидент, не як баг драйвера. Перейдіть до перевірки повітряного потоку та обмеження потужності.
Завдання 4: Підтвердіть ліміт потужності та поточний споживання
cr0x@server:~$ nvidia-smi -q -d POWER | sed -n '1,80p'
Power Readings
Power Management : Supported
Power Draw : 241.05 W
Power Limit : 250.00 W
Default Power Limit : 250.00 W
Enforced Power Limit : 250.00 W
Min Power Limit : 125.00 W
Max Power Limit : 300.00 W
Значення: ви працюєте близько до ліміту. Зниження потужності може знизити нагрів контролера пам’яті/ІО і іноді непрямо температуру пам’яті.
Рішення: Якщо ви термально обмежені, спробуйте нижчий ліміт потужності (див. наступне завдання) перед апаратним втручанням.
Завдання 5: Застосуйте консервативний ліміт потужності (безпечний, відкатний)
cr0x@server:~$ sudo nvidia-smi -pl 220
Power limit for GPU 00000000:01:00.0 was set to 220.00 W from 250.00 W.
Значення: ліміт потужності плати зменшено. Зазвичай це знижує нагрів як підсистем GPU, так і пам’яті.
Рішення: Повторіть Завдання 2; якщо температура пам’яті суттєво падає з мінімальною втратою пропускної здатності, збережіть ліміт і задокументуйте як політику.
Завдання 6: Примусово підніміть швидкість вентиляторів, щоб протестувати чутливість до повітряного потоку
cr0x@server:~$ nvidia-settings -a "[gpu:0]/GPUFanControlState=1" -a "[fan:0]/GPUTargetFanSpeed=85"
Attribute 'GPUFanControlState' (server:0[gpu:0]) assigned value 1.
Attribute 'GPUTargetFanSpeed' (server:0[fan:0]) assigned value 85.
Значення: керування вентиляторами переопрацьовано. Якщо температури пам’яті сильно реагують, то, ймовірно, у вас проблеми з повітряним потоком/запасом холодного повітря, а не лише з контактом.
Рішення: Якщо +20% вентилятор дає -10°C по переходу пам’яті — у вас є шлях охолодження, який можна покращити змінами в корпусі.
Завдання 7: Перевірте розташування слотів PCIe та топологію (сусіди по теплу важливі)
cr0x@server:~$ nvidia-smi topo -m
GPU0 GPU1 CPU Affinity
GPU0 X PHB 0-15
GPU1 PHB X 0-15
Значення: Топологія прямо не показує фізичну відстань, але каже, чи GPUs ймовірно суміжні на одному кореневому комутаторі. Суміжні карти часто рециркулюють тепло.
Рішення: Якщо пам’ять одного GPU постійно гарячіша, перевірте його фізичну позицію: «синдром середньої карти» реальний.
Завдання 8: Перевірте системну температуру навколишнього середовища та на вході
cr0x@server:~$ sudo sensors
coretemp-isa-0000
Adapter: ISA adapter
Package id 0: 54.0°C (high = +80.0°C, crit = +100.0°C)
nvme-pci-0100
Adapter: PCI adapter
Composite: +48.9°C (low = -10.1°C, high = +84.8°C, crit = +89.8°C)
Значення: Неідеальне значення для амбієнту, але підвищення системних і NVMe температур часто вказує на поганий повітряний потік або високу температуру на вході корпусу.
Рішення: Якщо все нагріте — виправляйте охолодження кімнати/стійки в першу чергу. Репадинг GPU не переможе приплив 35°C.
Завдання 9: Визначте, чи навантаження обмежене пропускною здатністю пам’яті
cr0x@server:~$ nvidia-smi dmon -s pucm -d 2 -c 5
# gpu pwr gtemp mtemp sm mem enc dec
# Idx W C C % % % %
0 230 67 104 35 92 0 0
0 232 68 106 34 95 0 0
0 228 68 108 33 96 0 0
0 225 68 108 30 97 0 0
0 221 67 107 28 96 0 0
Значення: «mem %» високий, тоді як завантаження SM помірне. Це пам’ятево-інтенсивне навантаження — саме те, що карає GDDR6X термікою.
Рішення: Стратегія охолодження має пріоритетизувати пам’ять; розгляньте обмеження частоти пам’яті з мінімальним впливом на завдання, обмежені обчисленнями, але очікуйте впливу тут.
Завдання 10: Перевірте kernel і драйверні логи на Xid-скиди (симптом нестабільності)
cr0x@server:~$ sudo journalctl -k -n 50 | egrep -i "nvrm|xid"
Jan 21 10:12:44 server kernel: NVRM: Xid (PCI:0000:01:00): 79, GPU has fallen off the bus.
Jan 21 10:12:44 server kernel: NVRM: GPU 0000:01:00.0: RmInitAdapter failed!
Значення: «Випала з шини» може бути пов’язано з живленням, PCIe або індукованою термо/нестабільністю. Якщо це з’являється після тривалого навантаження і корелює з високою температурою переходу, підозрюйте терміку VRAM або тепловий стрес на платі.
Рішення: Зменшіть ліміт потужності та частоти пам’яті, перевірте повітряний потік, потім дослідіть фізичне охолодження. Також перевірте PSU/кабелі PCIe окремо.
Завдання 11: Перевірте режим persistence (запобігає деяким артефактам частот/телеметрії)
cr0x@server:~$ sudo nvidia-smi -pm 1
Enabled persistence mode for GPU 00000000:01:00.0.
Значення: Режим persistence зберігає ініціалізацію драйвера; це може стабілізувати моніторинг і зменшити перемикання інтерфейсів між задачами.
Рішення: Увімкніть його по всьому флоту на обчислювальних вузлах, якщо середовище не забороняє цього.
Завдання 12: Встановіть application clocks (якщо підтримується) для зниження нагріву пам’яті
cr0x@server:~$ sudo nvidia-smi -ac 8100,1500
Applications clocks set to "(MEM 8100, SM 1500)" for GPU 00000000:01:00.0
Значення: Ви зафіксували частоти пам’яті та SM. Зниження частот пам’яті часто значно зменшує температуру переходу на GDDR6X.
Рішення: Використовуйте це як цільове пом’якшення для пам’ятево-обмежених навантажень або в умовах термальних обмежень корпусу.
Завдання 13: Перевірте тахометри вентиляторів і їхні відмови
cr0x@server:~$ nvidia-smi --query-gpu=fan.speed,temperature.gpu,temperature.memory --format=csv
fan.speed, temperature.gpu, temperature.memory
32 %, 66, 104
Значення: Швидкість вентилятора низька, а температура пам’яті висока. Якщо крива вентиляторів прив’язана до температури ядра, вона може ніколи не піднятися достатньо для VRAM.
Рішення: Підлаштуйте політику вентиляторів, щоб враховувати температуру пам’яті (через демон або інструмент вендора), або встановіть мінімальний рівень обертів під час пам’ятево-інтенсивних робіт.
Завдання 14: Перевірте фізичний троттлінг, спостерігаючи частоти з часом після пом’якшення
cr0x@server:~$ nvidia-smi --query-gpu=temperature.memory,clocks.mem,power.draw --format=csv -l 5
temperature.memory, clocks.mem, power.draw
108, 7001, 222.14 W
102, 8100, 220.90 W
98, 8100, 221.33 W
96, 8100, 221.05 W
Значення: Температура пам’яті впала і частота пам’яті відновилася при тому ж ліміті потужності. Ви довели вузьке місце і ефективність виправлення.
Рішення: Впровадьте зміну в систему управління конфігураціями; апаратну ремедіацію плануйте лише для винятків.
Три корпоративні міні-історії з практики
Міні-історія 1: Інцидент, спричинений хибним припущенням
Одна компанія розгорнула нову партію GPU в існуючий inference-кластер. Вони зробили звичні перевірки: температури ядра виглядали відмінно, споживання потужності вкладалося в бюджет стійки, і перші smoke-тести пройшли. Тому вони оголосили перемогу, відкатали в продакшн і пішли додому.
Через два тижні почалися періодичні відмови завдань. Не чисті — половина пачки завершувала роботу, інша повертала нісенітниці або аварійно завершувалась зі скидами драйвера. On-call робив звичний танець: звинувачували модель, CUDA, ядро. Потім один одного. Стандартна корпоративна кардіо-навантаження.
Хибне припущення було просте: «Якщо температура ядра стабільна, GPU термічно стабільний». Це не було так. Під реальними робочими патернами моделі тримали довгі періоди високої пропускної здатності пам’яті. Температури переходу пам’яті тихо сягали їхнього ліміту і викликали зниження частот пам’яті та іноді нестабільність.
Вони цього не бачили, бо їхній стек моніторингу збирав лише «GPU Temp». Температура пам’яті не збиралася, і ніхто не помічав, як частота пам’яті плавно знижується. Коли додали телеметрію junction пам’яті, кореляція стала соромно очевидною й негайною.
Виправлення не було екзотичним. Вони встановили консервативний ліміт потужності і мінімальну швидкість вентиляторів на вузлах, що обробляли ті моделі. Потім запланували репадинг для найгірших. Інцидент закінчився в момент, коли перестали думати, що GPU — це одна температура.
Міні-історія 2: Оптимізація, що обернулася проти
Інша організація гналася за зменшенням шуму та економією енергії в лабораторії з мішаним навантаженням. Хтось запропонував «розумну» політику вентиляторів: тримати вентилятори низько, якщо температура ядра не перевищує 78°C. Це виглядало добре на демо — тихо, цивілізовано і контрольований загальний показник.
Її розгорнули широко, включно з системами, що робили пам’ятево-інтенсивні пакетні роботи вночі. Наступного ранку пропускна здатність впала. Не катастрофічно, але достатньо, щоб пропустити внутрішні дедлайни і викликати звичну розкопку в Slack: «чому кластер повільний».
Політика працювала саме так, як задумано. Оце і була проблема. Температура ядра ніколи не перевищувала порогу, тому вентилятори не піднімалися. Температура переходу пам’яті піднялася в область троттлінгу, частоти пам’яті впали, і завдання виконувались довше. Довші завдання — довше просочування тепла. Просочування — ще вищі температури пам’яті. Оптимізація перетворилася на петлю ввічливого недопродуктивності.
Вони відкликали політику вентиляторів і замінили її на менш хитру: мінімум оборотів при високому використанні пам’яті більше кількох секунд плюс алерти по junction пам’яті. Шум трохи зріс. Продуктивність повернулась. Ніхто не писав блог-пост про перемогу, бо нудні рішення рідко святкують.
Міні-історія 3: Нудна, але правильна практика, що врятувала день
Третя команда експлуатувала GPU в датацентрі, де апаратні зміни були повільними, а аудити — ретельні. Вони не могли «просто репадити» карти без контролю змін. Тож вони трактували термоменеджмент як політику, а не героїчні кроки.
Кожен вузол мав стандартизовану телеметрію: температура ядра, температура переходу пам’яті, hotspot (коли доступно), швидкість вентиляторів, споживання потужності і тактові частоти. У них були алерти не тільки на абсолютну температуру пам’яті, а й на дельту: якщо температура пам’яті росла швидше за норму для даного профілю навантаження — вузол йшов на інспекцію.
Коли пакет робіт раптом почав працювати повільніше, вони не гадали. Дашборди показали, що частоти пам’яті впали на підмножині вузлів, тоді як інші були стабільні. Ці вузли мали трохи вищу температуру на вході, що виявилось через зміну повітряного потоку в стійці після сторонніх робіт.
Вони виправили потік повітря, і продуктивність нормалізувалася без дотиків до GPU. «Нудний» підхід переміг: послідовна інструментація і проста політика, яка припускала, що пам’ять може бути обмеженням.
Жарт #2: Єдина річ більш чутлива за сигналізацію PAM4 — це постмортем, де хтось каже «ми не думали, що нам потрібна та метрика».
Поширені помилки: симптом → корінь → виправлення
1) Симптом: температура ядра в порядку, але продуктивність падає через 5–15 хвилин
Корінь: температура переходу пам’яті досягає ліміту; частота пам’яті троттлить.
Виправлення: моніторити junction пам’яті; підняти повітряний потік/мінімальний рівень вентиляторів; обмежити потужність; знизити частоту пам’яті; розглянути репадинг, якщо температури аномально високі для моделі/корпусу.
2) Симптом: «випадкові» помилки CUDA або скиди драйвера під тривалим навантаженням
Корінь: втрата теплового запасу (часто пам’ять), інколи у поєднанні з агресивним розгоном пам’яті або нестабільністю живлення.
Виправлення: прибрати розгін пам’яті, знизити ліміт потужності, підтвердити повітряний потік, шукати Xid-патерни в логах, потім інспектувати охолодження і кабелі PCIe/PSU.
3) Симптом: одна GPU в мульті-GPU корпусі має значно вищі температури пам’яті, ніж сусіди
Корінь: фізичне розташування (середня карта), рециркуляція вихлопу, заблокований приплив або нерівний контакт прокладок.
Виправлення: відрегулювати розміщення або призначення слотів; додати корпусні вентилятори або повітряні канали; встановити пер-GPU політику вентиляторів/потужності; репадити, якщо це унікально погано на різних корпусах.
4) Симптом: зміна undervolt ядра не покращує температуру пам’яті
Корінь: температура пам’яті визначається IO/споживанням пам’яті та шляхом охолодження; пониження напруги ядра іноді допомагає, але не завжди.
Виправлення: націлюйтесь на пам’ять: знизьте частоту пам’яті, обмежте потужність плати, покращіть контакт прокладок/задньої пластини та повітряний потік у зонах пам’яті.
5) Симптом: репаст ядра не дав результатів
Корінь: ви виправили невірний інтерфейс; обмежувальним фактором є термопрокладки пам’яті, а не паста ядра.
Виправлення: інспектуйте/замініть термопрокладки на правильну товщину і компресію; забезпечте рівний тиск радіатора/задньої пластини; валідуйте результат телеметрією до/після.
6) Симптом: температура пам’яті покращилася після чищення, а потім знову погіршилася
Корінь: пил був частиною проблеми, але крива вентиляторів або температура в кімнаті веде назад до краю; також можлива деградація/втратa пружності прокладок.
Виправлення: впровадьте мінімальні обороти вентиляторів для пам’ятево-важких робіт; перевірте температуру на вході; заплануйте заміну прокладок для карт з великим часом роботи.
7) Симптом: покази температури пам’яті відсутні або завжди нуль
Корінь: несумісність драйвера/інструмента, непідтримуваний GPU/прошивка або інструмент читає лише сенсори ядра.
Виправлення: оновіть драйвер; використовуйте nvidia-smi -q для істини; оновіть експортерам моніторингу; не будьте впевнені у політиках на основі відсутніх даних.
Чек-листи / покроковий план
Покроково: стабілізувати гарячу систему GDDR6X без розбирання
- Збирайте температури переходу пам’яті та частоти пам’яті. Якщо не можете — зупиніться і виправте телеметрію.
- Проведіть 10–15 хвилин навантаження. Слідкуйте, чи частоти пам’яті знижуються, поки температура ядра лишається стабільною.
- Примусово підніміть вентилятори до високої сталої швидкості на 5 хвилин. Якщо температура пам’яті швидко падає — повітряний потік головний важіль.
- Застосуйте консервативний ліміт потужності. Повторіть тест; збережіть ліміт, якщо вплив на пропускну здатність прийнятний.
- Встановіть мінімальний рівень вентиляторів у продакшні для пам’ятево-важких навантажень. Прив’язуйте це до типу навантаження або патернів використання GPU, а не лише до температури ядра.
- Приберіть розгони пам’яті. Якщо ви розганяєте VRAM у продакшні — ви обираєте драму.
Покроково: як вирішити, чи робити репад і як уникнути погіршення
- Доведіть, що це проблема контакту. Порівняйте однакові моделі в схожих корпусах; якщо одна карта відрізняється на 10–20°C, підозрюйте прокладки/контакт.
- Перевірте гарантію та контроль змін. Не перетворюйте термальне виправлення на інцидент відповідності.
- Задокументуйте товщину прокладок перед зняттям. Неправильна товщина — як поміняти тепло на викривлений монтаж радіатора.
- Замініть прокладки на правильну товщину і відповідну теплопровідність. Висока провідність не допоможе, якщо стиснення неправильне.
- Підтвердіть результат телеметрією. Потрібні дані температури переходу пам’яті до/після під тим самим навантаженням.
- Впроваджуйте повільно. Одна стійка, одна карта типу, одна рецепт прокладки за раз.
Операційний чек-лист: на що ставити алерти для GDDR6X
- Температура переходу пам’яті: оповіщення при високих абсолютних значеннях і при тривалому перебуванні вище порогу.
- Стрибки частоти пам’яті: оповіщення, коли частота пам’яті відхиляється від очікуваного при стабільному навантаженні.
- Аномалії швидкості вентиляторів: низька швидкість при високій температурі пам’яті зазвичай політика або відмова вентилятора.
- Флаги теплового уповільнення: якщо доступно, розглядайте як діюче, а не інформаційне.
- Логи помилок: Xid-події або повторні скиди корелюють з нестабільністю; розслідуйте терміку разом із живленням і PCIe.
Питання та відповіді
1) Чому GDDR6X нагрівається більше, ніж GDDR6?
Через PAM4 сигналізацію і пов’язаний PHY/еквалайзер, що загалом збільшує споживання підсистеми пам’яті при даній пропускній здатності. Більше пропускної здатності — більше тепла, а шлях охолодження часто гірший, ніж у кристала GPU.
2) Яка «безпечна» температура пам’яті GDDR6X?
Залежить від конкретної карти і її порогів троттлінгу, але операційно: не живіть поруч із порогом троттлінгу. Намагайтеся тримати температуру переходу комфортно нижче точки, де частоти починають падати під тривалим навантаженням.
3) Чому ядро GPU 65°C, а пам’ять понад 100°C?
Різні джерела тепла, різні шляхи охолодження. Ядро має прямий контакт із радіатором через пасту; пам’ять покладається на прокладки і часто має менший приплив повітря. Температура ядра не відображає найгарячіші компоненти плати.
4) Чи виправить undervolt ядра температури VRAM?
Іноді трохи допоможе, але зазвичай недостатньо. Якщо пам’ять — вузьке місце, треба адресувати частоти пам’яті, платний живлення, повітряний потік або контакт прокладки.
5) Чи допомагають задні пластини з GDDR6X?
Можуть допомогти — якщо є термопрокладки, що зв’язують гарячі ділянки із задньою пластиною, і задня пластина має масу чи потік повітря для відведення тепла. Декоративна задня пластина без зв’язку — переважно для вигляду.
6) Чому підвищення швидкості вентилятора покращило температуру пам’яті більше, ніж ядра?
Температура ядра тісно пов’язана з основним радіатором і регулюється. Температура пам’яті часто обмежена повітряним потоком по краях плати. Більший потік повітря може непропорційно допомогти VRAM і зонам VRM.
7) Чи треба репадити кожну карту GDDR6X профілактично?
Ні. Репадинг інвазивний, несе ризики гарантії/відповідності і може бути виконаний неправильно. Використовуйте телеметрію, щоб знаходити винятки або карти з хронічним троттлінгом, і націлюйтесь на ті.
8) Чому температура пам’яті стрибнула лише під певними навантаженнями?
Бо деякі завдання насичують пропускну здатність пам’яті або тримають контролери пам’яті зайнятими постійно. Такі навантаження створюють тривалу теплову загрузку пам’яті навіть при помірному завантаженні SM.
9) Чи «старіють» термопрокладки і чи це призводить до зростання температури?
Так. Прокладки можуть тверднути, деформуватися або втрачати контактну силу внаслідок теплового циклу. Симптом — повільне зростання температур переходу пам’яті при тому ж навантаженні та амбієнті.
10) Який єдиний найкращий показник, якщо можна додати лише один?
Температура переходу пам’яті. Якщо можете додати ще — додайте частоту пам’яті і причини троттлінгу, щоб довести причинно-наслідковий зв’язок.
Висновок: наступні кроки, що дійсно дають результат
GDDR6X перетворює «терміки GPU» на задачу з двома тілами. Тепер ви не можете керувати тільки кристалом. Потрібно керувати екосистемою пам’яті: прокладки, повітряний потік, політика вентиляторів, ліміти потужності і поведінка навантажень.
Зробіть наступне, в такому порядку:
- Додайте температуру переходу пам’яті до моніторингу і алертів, поряд із частотою пам’яті.
- Запустіть тривале навантаження і підтвердіть, чи частоти пам’яті падають при зростанні температури.
- Застосуйте найменш ризикові пом’якшення: мінімальні обороти вентиляторів, покращення повітряного потоку та консервативний ліміт потужності.
- Лише потім розглядайте апаратну ремедіацію (репадинг/інспекцію) для винятків або флотів, що досі троттлять за прийнятних умов.
Коли почнете розглядати пам’ять як першокласну теплову домену, «таємничий троттлінг» здебільшого зникне. Не тому, що обладнання стало краще — а тому, що ви перестали сподіватися, що один сенсор пояснить усю плату.