Рідинне охолодження GPU: розумне рішення чи дороге косплей?

Було корисно?

Ваші GPU-вузли здаються «в порядку», поки не настане перший спекотний тиждень, перша пилова подія або перший запуск моделі, який дійсно завантажить карти.
Тоді ви дивитеся на панель, де завантаження виглядає добре, пропускна здатність — погано, а вентилятори ревуть, наче малий літак домовляється з фізикою.

Рідинне охолодження виглядає спокусливим вирішенням: нижчі температури, вищі тривалі тактові частоти, більше GPU на стійку, менше шуму, більше самозадоволення.
Але експлуатація не живе на самозадоволенні. Вона працює на середньому часі між відмовами, вікнах змін, запасних частинах і питанні, яке ніхто не ставить при закупівлі:
«Що станеться о 2-й ночі, коли насос почне вести себе дивно?»

Приймайте рішення доросло: коли рідинне охолодження виграє

Рідинне охолодження GPU — це не імідж. Це інженерний компроміс. Якщо ви купуєте його, бо бачили акуратний Instagram-білд з пастельним охолоджувачем,
це косплей. У дата-центрі рідинне охолодження виправдане обмеженнями і цілями:
щільність потужності, стабільна продуктивність, акустичні ліміти (рідко в ЦОД), або обмеження на відведення тепла у приміщенні.

Рідинне охолодження — розумний вибір, коли…

  • Ви маєте велику щільність потужності: прагнете високих кВт на стійку, і повітря перетворюється на релігію повітропроводів.
    Пряме охолодження кристалу дозволяє переміщати більше тепла при меншому обсязі повітря.
  • Потрібні стабільні тактові частоти: навчальні програми, що тривають дні і працюють на межі теплових обмежень.
    Повітряне охолодження часто виглядає прийнятним у коротких бенчмарках і розвалюється під реальним навантаженням.
  • У вас є проблема з відведенням тепла у приміщенні: ви не можете відвести достатньо тепла існуючими CRAC/CRAH,
    або ваша гаряча смуга — радше ввічлива порада, ніж реальність.
  • Ви обмежені шумом або вібрацією: рідко в промислових ЦОД, але часто в лабораторних розгортаннях.
  • У вас реальна експлуатаційна зрілість: запаси, вікна обслуговування, моніторинг датчиків, виявлення витоків,
    і команда, яка вважає «хімію охолоджувача» реальною річчю.

Рідинне охолодження — дороге косплей, коли…

  • Ваші проблеми з пропускною здатністю — фактично голод по PCIe, вузьке місце CPU, простій I/O з дисків або погана батчинг.
    Охолодження не виправить конвеєр, який не може нагодувати GPU.
  • Ви маєте менше ніж 15–20 кВт на стійку і компетентне керування повітряними потоками. Повітряне охолодження — нудне, передбачуване і зазвичай правильне.
  • Ви не можете зобов’язатися до профілактичного обслуговування або у вас «хвори» з ручними вузлами без стандартизації.
    Рідина карає імпровізацію.
  • У вашій організації менеджмент змін — «хтось це запам’ятає». Вони не запам’ятають.

Правило великого пальця: якщо ви не можете чітко сформулювати вузьке місце, яке вирішуєте, і метрику, яку покращуєте
(стабільні SM-частоти, зниження тротлінгу, вища щільність стійок, менша енергоспоживання приміщення), зупиніться.
Інакше ви отримаєте мокрий, дорогий спосіб дізнатись, що проблема була в завантажувачі даних.

Як насправді працює рідинне охолодження GPU (і як воно виходить з ладу)

У виробничих умовах рідинне охолодження GPU зазвичай означає direct-to-chip холодні плитки на GPU (часто також на CPU, VRM та пам’яті),
з’єднані з блоком розподілу охолоджувача (CDU) або будівельним контуром через колектори.
Мета проста: ефективно перемістити тепло від кремнію у рідину, а потім вивести це тепло з кімнати не покладаючись на масивні повітряні потоки.

Типові архітектури

  • Замкнутий контур всередині сервера (герметичний): інтегрований постачальником. Менше складності сантехніки для вас, але ви прив’язані до їхньої моделі сервісу.
  • Колектор на рівні стійки з швидкоз’єднаннями: поширено в HPC та GPU-кластерах. Добра сервісованість при правильному виконанні; катастрофа — при неправильному.
  • Задні дверцята з теплообмінниками: «повітря ще підходить, але ми підманюємо». Менш інвазивно для сервера; нижча пікова щільність, ніж при direct-to-chip.
  • Іммersion-охолодження: GPU занурені в діелектричну рідину. Вражаючий потенціал щільності, але операційно чужорідний. Чудово для відповідної організації; хаос для невідповідної.

Що змінюється в експлуатації

При повітряному охолодженні основні режими відмов — вентилятори, фільтри, перешкоди повітря, проблеми з повітрям у приміщенні.
З рідинним охолодженням додаються: насоси, ущільнення, фітинги, якість охолоджувача, гальванічна корозія, біозасмічення і виявлення витоків.
Ви також переносите частину відведення тепла вгору по ланцюгу: менше тепла викидається в повітря кімнати, більше — у водяний контур.

Ви не скасовуєте термодинаміку. Ви її переміщуєте. І термодинаміка завжди виставляє рахунок.

Режими відмов, яким варто приділяти увагу

  • Зниження потоку: часткове блокування, знос насоса, повітряні пробки, зігнуті шланги, забиті фільтри.
    Симптоми: зростання delta-T, локальні гарячі ділянки, тротлінг, який «виглядає випадковим».
  • Зміни хімічного складу охолоджувача: виснаження інгібіторів корозії, зміни провідності, реакції між різними металами.
    Симптоми: частинки, забиті мікроканали, протікання через деградацію ущільнень.
  • Драма з швидкоз’єднаннями: трохи недосаджене з’єднання стає великою проблемою під час обслуговування. Сервісованість реальна лише якщо вона «ідіотостійка».
  • Лукаві датчики: датчики потоку виходять з ладу, температурні зонда дрейфують, прошивка BMC повідомляє нісенітниці.
    Симптоми: «Все в зеленому», поки ваші GPU тротлять.
  • Проблеми в контурі будівлі: підвищення температури подачі, недостатній диференційний тиск, тривоги CDU.
    Симптоми: деградація на рівні цілої стійки, а не окремого вузла.

Жарт №1: рідинне охолодження схоже на підводний човен — працює чудово, поки не перестане, і тоді всі раптом дуже переймаються ущільненнями.

Факти та історичний контекст для нарад

Це ті короткі, конкретні тези, які зупиняють дебати від перетворення на коло обговорення почуттів.
Це не дрібниці. Це опори.

  1. Мейнфрейми й суперкомп’ютери використовували рідинне охолодження десятиліттями — не тому, що це було модно, а тому, що щільність змушувала це робити.
    Ми не винаходимо нову ідею; ми її наново вивчаємо в хмарному масштабі.
  2. Direct-to-chip холодні плитки часто використовують мікроканальні конструкції, які чудові в теплообміні і однаково схильні до забивання, якщо якість охолоджувача падає.
  3. Сучасні GPU можуть тротлити задовго до досягнення «критичних» температур, бо алгоритми керування живленням і підвищення частоти знижують такти при стисканні теплового запасу.
  4. Повітряне охолодження погано масштабується зі щільністю, бо вимоги до повітряних потоків зростають, а потужність вентиляторів стає немаленькою — іноді помітною часткою від енергоспоживання сервера.
  5. Існує теплове охолодження «теплою водою»: багато систем можуть працювати з вищими температурами подачі охолоджувача, ніж зазвичай вважають, що дозволяє ефективніше відводити тепло на рівні приміщення.
  6. Задні дверцята з теплообмінниками були популярним проміжним кроком у багатьох приміщеннях: ви залишаєте повітряно охолоджені сервери, але витягаєте тепло вже на рівні стійки.
  7. Іммersion-охолодження використовувалося в нішевих середовищах роками; новим є тиск від AI-щільності потужності, що робить його комерційно привабливим.
  8. Провідність охолоджувача — це не просто питання безпеки; це також індикатор контамінації. Дрейф може сигналізувати про корозію або змішування рідин.
  9. Стандарти швидкоз’єднань та реалізації постачальників відрізняються; сумісність не гарантована, а «має підходити» — не є планом.

Парафразована ідея, часто приписувана John Allspaw (reliability/operations): Експлуатація успішна, коли вчаться на відмовах, а не коли роблять вигляд, що системи передбачувані.
Ставтесь до рідинного охолодження як до системи, яка виходитиме з ладу. Проєктуйте для граціозного відмовляння, швидкого виявлення та безпечного обслуговування.

Економіка: за що ви платите і що отримуєте

Економіка рідинного охолодження — це не «рідина швидша». Це capex проти opex проти вартості можливостей.
Ви платите за сантехніку, CDU, інтеграцію в інфраструктуру, навчання, запасні частини та операційну складність.
Ви купуєте опцію працювати гарячіше (у щільності) при збереженні кремнію холоднішим (в температурі стіксу).

Що ви реально можете отримати

  • Вищу тривалу продуктивність: менше термальних подій тротлінгу; стабільніші такти; передбачуваніші часи виконання.
    Це важливо, коли ви плануєте дорогі тренувальні завдання і дедлайни справжні.
  • Вища щільність стійки: більше GPU на стійку без перетворення проходу в вітряний тунель.
    Це може заощадити місце на підлозі або відтермінувати розширення приміщення.
  • Покращення ефективності приміщення: особливо якщо ви можете працювати з теплішою подачею охолоджувача й зменшити механічне охолодження.
  • Акустичний комфорт: знову ж таки, не KPI ЦОД, але важливо в лабораторіях і спільних просторах.

За що ви платитимете (і що часто забувають)

  • Інженерний час: інтеграція, приймальні тести, моніторинг, runbook’и для інцидентів.
  • Вікна обслуговування: ви не «налаштували й забули» рідинний контур. Його інспектують, пробують проби та обслуговують.
  • Залежність від постачання: спеціальні шланги, фітинги, холодні плитки, насоси, датчики, фільтри.
  • Концентрація ризику: проблема в контурі приміщення може деградувати цілий ряд.

Якщо ваш кластер — критичний актив бізнесу, питання не «чи рідина дешевша?»
А «чи рідина збільшує корисний обчислюваний час на місяць після вирахування простоїв та операційного витрату?»
Якщо ваша організація не вміє вимірювати корисні обчислення, почніть звідси. Охолодження не має бути вашим першим проєктом з видимості.

Модель надійності: витоки, насоси, корозія та людська помилка

Повітряне охолодження відмовляє голосно. Рідинне може виходити з ладу ввічливо, поки не перестане бути ввічливим.
Гра в надійність — це виявлення і локалізація: виявляйте деградацію рано і забезпечуйте, щоб відмови не виводили з ладу сусідні компоненти.

Витоки: страх, реальність, контроль

Так, витоки трапляються. Ні, вони не є неминучими катастрофами — якщо ви проєктуєте під них.
Практичний підхід:

  • Використовуйте безкрапельні швидкоз’єднання і перевіряйте їх у вашому середовищі.
  • Виявлення витоків: датчики вологи в основі шасі, під колекторами, у піддоні стійки.
  • Локалізація: піддони і направлене зливання там, де потрібно.
  • Політика автоматичного відключення: вирішіть, що тригерить негайне вимкнення vs лише сповіщення, і тестуйте це.
  • Дисципліна процедур обслуговування: більшість серйозних витоків трапляється «під час обслуговування», а не «випадково о 15:00».

Насоси і потік: мовчазний вбивця

Більшість інцидентів тротлінгу GPU в рідинно-охолоджених системах — не «рідина погана». Це «поганий потік».
Насоси зношуються. Фільтри забиваються. Хтось лишив клапан напівзакритим після обслуговування.
Датчики потоку можуть помилятися, тому потрібні перехресні перевірки: delta-T, температури GPU та поведінка споживання потужності.

Корозія, змішані метали і хімія

Якщо ваш контур змішує мідь, алюміній, нікелеве покриття і якісь незрозумілі фітинги, ви створили повільний хімічний експеримент.
Вам потрібно:

  • Відомі матеріали по всьому контуру (або принаймні сумісні пари).
  • Правильні пакети інгібіторів і графік відбору проб.
  • Фільтри/захист від частинок відповідні для мікроканалів.
  • Контроль змін: «ми поміняли фітинг» — не нешкідлива зміна; це новий матеріал у контурі.

Людська помилка: найбільша змінна

Можна спроєктувати надійний контур і все одно впасти від інтерна з ключем і впевненістю.
Виправлення — не «будь обережним». Це:
стандартизовані процедури, навчання, чеклісти, марковані клапани і перевірка після обслуговування.

Жарт №2: найкраща добавка до охолоджувача — «чекліст», але він швидко розчиняється, якщо зберігати його в чиїйсь пам’яті.

Практичні завдання: практичні перевірки з командами (і що вирішувати)

Це та частина, яку люди пропускають, а потім дивуються, чому їхнє «оновлення охолодження» не покращило пропускну здатність.
Потрібно відрізняти:
тепловий тротлінг від обмеження потужності від голодування конвеєра від обмежень інфраструктури.
Команди нижче припускають Linux GPU-вузли з NVIDIA GPU, типовий SRE-інструментарій і доступ до BMC.

Завдання 1: Перевірити температури GPU, споживання потужності і причини тротлінгу

cr0x@server:~$ nvidia-smi -q -d TEMPERATURE,POWER,CLOCK,PERFORMANCE
...output...

Що означає вивід: Шукайте температуру GPU, споживану потужність, частоти і будь-який стан «Perf», що вказує на знижену продуктивність.

Рішення: Якщо температури високі, але потужність обмежена низько — ви обмежені по потужності або тротлитесь. Якщо температури в нормі, але частоти низькі — ймовірно обмеження по потужності або додаток не завантажує GPU.

Завдання 2: Спостерігати в реальному часі використання GPU vs частоти, щоб знайти голодування

cr0x@server:~$ nvidia-smi dmon -s pucvmt
...output...

Що означає вивід: Використання може бути високим, а частоти коливатись; дивіться на потужність (p), використання (u), частоти (c), напругу (v), пам’ять (m), температуру (t).

Рішення: Якщо використання періодично падає при стабільних температурах — підозрюйте паузи завантажувача даних (storage/network/CPU), а не охолодження.

Завдання 3: Підтвердити ECC, retired pages і прапорці здоров’я GPU

cr0x@server:~$ nvidia-smi -q -d ECC,RETIRED_PAGES
...output...

Що означає вивід: Підвищений рівень ECC або retired pages може викликати нестабільну роботу і скидання під тепловим/потужнісним навантаженням.

Рішення: Якщо бачите постійні проблеми з ECC, виведіть GPU з експлуатації або ініціюйте RMA; не звинувачуйте спочатку охолодження.

Завдання 4: Перевірити підтримувані частоти додатка і ліміти потужності

cr0x@server:~$ nvidia-smi -q -d SUPPORTED_CLOCKS
...output...
cr0x@server:~$ nvidia-smi -pl 350
...output...

Що означає вивід: Підтримувані частоти показують верхню межу; ліміт потужності керує запасом. Багато «теплових» скарг насправді — консервативні ліміти потужності.

Рішення: Якщо ви залишаєте продуктивність на столі при здорових термічних показниках — підніміть ліміт потужності в межах специфікацій постачальника та бюджетів приміщення.

Завдання 5: Перевірити журнали ядра на предмет скидів PCIe та GPU

cr0x@server:~$ sudo dmesg -T | egrep -i "nvrm|xid|pcie|aer|gpu"
...output...

Що означає вивід: Помилки NVIDIA XID та PCIe AER можуть корелювати з поганою подачею живлення, нагрівом або дефектними рейзерами — не лише з охолодженням.

Рішення: Якщо бачите повторювані XID на кількох вузлах після оновлення охолодження, підозрівайте механічне навантаження, заземлення або EMI-погіршення в кабелях, а не «погану рідину».

Завдання 6: Перевірити тротлінг CPU (він тихо може блокувати GPU)

cr0x@server:~$ lscpu | egrep "Model name|CPU\\(s\\)|Thread|NUMA"
...output...
cr0x@server:~$ sudo turbostat --Summary --interval 5
...output...

Що означає вивід: Якщо частота CPU низька через теплові/енергетичні обмеження, ваші GPU можуть просто чекати на попередню обробку.

Рішення: Якщо CPU тротлить — виправте охолодження/живлення CPU або зменшіть CPU-зв’язану трансформацію перед покупкою рідинної системи.

Завдання 7: Перевірити стрибки затримок сховища, що голодують навчання

cr0x@server:~$ iostat -xz 1 10
...output...

Що означає вивід: Високі await, висока %util або сплески svctm вказують на вузьке місце зберігання.

Рішення: Якщо сховище насичене — охолодження не покращить пропускну здатність. Виправте сховище (кешування, шардінг, локальний NVMe, формати датасетів).

Завдання 8: Перевірити мережеві втрати і повторні передачі (більша проблема при розподіленому навчанні)

cr0x@server:~$ ip -s link show dev eth0
...output...
cr0x@server:~$ ss -s
...output...

Що означає вивід: Помилки RX/TX або пропуски, плюс статистика сокетів, натякають на перевантаження або проблеми NIC.

Рішення: Якщо бачите помилки під час прогонів — досліджуйте мережу перед тим, як звинувачувати термічний тротлінг.

Завдання 9: Перевірити лічильники RDMA / InfiniBand (якщо ви серйозні)

cr0x@server:~$ sudo ethtool -S ib0 | egrep -i "error|drop|retrans|timeout"
...output...

Що означає вивід: Зростаючі лічильники помилок під час тренувань корелюють зі сповільненнями, що нагадують нестабільність GPU.

Рішення: Зростаючі помилки: кабель, оптика, порт комутатора або невідповідність прошивки; охолодження тут ні до чого.

Завдання 10: Зчитати датчики BMC для температури входу/виходу та сигналів насоса/потоку

cr0x@server:~$ sudo ipmitool sdr elist
...output...

Що означає вивід: Шукайте «Inlet Temp», «Outlet Temp», «Coolant Temp», «Pump», «Flow», «Leak», «VRM Temp». Імена різняться.

Рішення: Якщо delta-T охолоджувача зменшується (занадто мала) поки GPU нагріваються — підозрюйте проблему з потоком або збій датчика; валідуйте зовнішніми вимірюваннями, якщо можливо.

Завдання 11: Перевірити прапорці тротлінгу на рівні драйвера GPU

cr0x@server:~$ nvidia-smi --query-gpu=timestamp,name,temperature.gpu,power.draw,clocks.sm,clocks.mem,utilization.gpu,clocks_throttle_reasons.active --format=csv
...output...

Що означає вивід: Причини тротлінгу часто вказують, чи ви досягаєте обмежень по теплу, потужності або надійності.

Рішення: Якщо причини тротлінгу вказують на ліміт потужності — не купуйте сантехніку. Виправте політику потужності та бюджет приміщення.

Завдання 12: Перевірити, чи вентилятори не компенсують збій рідини (гібридні конструкції)

cr0x@server:~$ sudo ipmitool sensor | egrep -i "fan|pump|flow|temp"
...output...

Що означає вивід: У гібридних системах вентилятори все ще існують. Якщо вони на максимумі — проблема десь ще вгору по ланцюгу.

Рішення: Вентилятори на максимумі + зростання температур охолоджувача: перевірте подачу CDU і потік. Вентилятори на максимумі + нормальний охолоджувач: перевірте повітряний шлях для залишкових компонентів (VRM, DIMM).

Завдання 13: Підтвердити версії прошивки (BMC менше бреше після оновлення)

cr0x@server:~$ sudo dmidecode -s bios-version
...output...
cr0x@server:~$ sudo ipmitool mc info
...output...

Що означає вивід: Версії BIOS/BMC впливають на звітність датчиків, криві вентиляторів і іноді стабільність PCIe.

Рішення: Якщо бачите непослідовну поведінку датчиків на однакових вузлах — стандартизуйте прошивки, перш ніж переписувати теорію охолодження.

Завдання 14: Перевірити стабільність на стороні приміщення опосередковано (тренд температури подачі)

cr0x@server:~$ awk '{print $1,$2,$3,$4,$5}' /var/log/sensors/coolant_inlet.log | tail -n 20
...output...

Що означає вивід: Ковзний лог температур подачі може показати дрейф приміщення, що корелює зі зниженням продуктивності.

Рішення: Якщо температура подачі дрейфує вгору у певні години — це проблема планування/відведення тепла у приміщенні, а не проблема сервера.

Ці завдання не «приємні у наявності». Вони — мінімум, щоб не купити складну систему охолодження для виправлення проблеми в конвеєрі даних.

Швидка діагностика: знайдіть вузьке місце, перш ніж братися за ключ

Вам потрібні швидкість і коректність. Ця послідовність призначена відповісти на питання: «Ми обмежені теплом, потужністю чи подачею?»
Робіть у цьому порядку, бо це економить години і запобігає культовим оновленням.

Перше: чи завдання справді прив’язане до GPU?

  • Перевірте використання і частоти в часі (не один знімок).
  • Шукайте періодичні падіння використання, що співпадають з батчами завантажувача або синхронізацією мережі.
  • Корелюйте з затримками сховища і мережею.

Швидке рішення: Якщо GPU недогодовані, зміни в охолодженні не матимуть ефекту.

Друге: якщо GPU-завдання, чи обмеження по потужності?

  • Перевірте споживання потужності щодо налаштованого ліміту потужності.
  • Перевірте причини тротлінгу.
  • Перевірте вузлові та стійкові обмеження потужності (PDU, автоматичні вимикачі, політика).

Швидке рішення: Якщо ліміт потужності — обмежувач, рідинне охолодження може допомогти лише побічно; істинне рішення — бюджетування потужності.

Третє: якщо не обмеження по потужності, чи це тепловий тротлінг?

  • Перевірте температури GPU відносно порогів тротлінгу і поведінку «гарячих» ділянок, якщо доступно.
  • Перевірте температуру входу/виходу охолоджувача, delta-T і показники потоку/насоса.
  • Перевірте патерни по стійках: проблема на весь ряд вказує на контур приміщення; одиночна нода — на локальну механіку/потік.

Швидке рішення: Тепловий тротлінг з адекватним енергобюджетом — саме там, де рідинне охолодження виправдовує себе.

Четверте: підтвердьте, що це не «якась інша апаратна річ»

  • Помилки PCIe, XID GPU, проблеми ECC, тротлінг CPU, невідповідності BIOS/BMC.
  • Механічний стрес після модернізацій: тягнучі шланги, прогини рейзерів, поганий захист від напруги.

Якщо ви зробите вищезазначене і все ще розгублені — це добре. Розгубленість часто означає, що ви близькі до істини.
Системи виходять з ладу у комбінаціях.

Три корпоративні міні-історії з передової

Міні-історія №1: Інцидент через неправильне припущення

Середня AI-платформа впровадила direct-to-chip рідинне охолодження на нову партію GPU-серверів.
План був простий: вища щільність, менше тротлінгових сповіщень і можливість запускати важчий мікс моделей без перерозподілу кластера.
Інтеграція постачальника виглядала чистою, а приймальний тест був типовий: завантаження, burn-in кілька годин, погляд на температури, відправка.

Через два тижні пропускна здатність почала хитатися. Не катастрофічно — просто достатньо, щоб на виклику з’явилось відчуття:
«Все в межах лімітів, але продуктивність гірша».
Температури GPU були нормальні, але на підмножині вузлів інколи падали частоти. Першою підозрою було програмне забезпечення: драйвер, CUDA, планувальник.
Вони відкотили недавнє оновлення образу. Без змін.

Неправильне припущення було підступним: вони вважали, що датчик BMC «flow OK» означає реальний нормальний потік.
Насправді датчик був бінарним пороговим перемикачем в одній точці контуру і залишався «OK», навіть коли потік деградував.
Кілька вузлів мали частково закриті клапани після монтажу. Не настільки закриті, щоб дати жорстку тривогу, але достатньо, щоб зменшити потік через холодні плитки.

Виправлення було нудним: фізична перевірка клапанів, маркування «клапани повністю відкриті» та постінсталяційний чекліст, який включав
вимірювання delta-T охолоджувача під навантаженням і валідацію проти очікуваних діапазонів. Вони також додали правило моніторингу:
якщо температура GPU зростає, а температура виходу охолоджувача — ні, сповіщати про деградацію потоку навіть коли BMC каже «OK».

Результат: ніякого великого витоку, жодної драматичної відмови, але кілька тижнів деградованої продуктивності і багато витраченого часу на неправильний рівень.
Рідинне охолодження не вийшло з ладу. Вийшли з ладу їхні припущення.

Міні-історія №2: Оптимізація, що відрізала назад

HPC-подібна організація хотіла вичавити ефективність приміщення. Вони підняли температуру подачі охолоджувача, щоб зменшити споживання чилера.
На папері це виглядало добре: багато компонентів переносять вищі температури подачі, і ви все ще можете тримати GPU в межах специфікацій, якщо контур розрахований правильно.
Команди з обслуговування і розрахунків погодили новий сетпоінт, ввели його і спостерігали панелі.

Відкат не був миттєвим. Він проявився як повзуче збільшення «періодичного» тротлінгу GPU під довгими запусками,
особливо на певних стійках. Графіки виглядали дратівливо, а не тривожно.
Команда обчислень підняла криві вентиляторів (гібридні вузли все ще мали вентилятори для пам’яті/VRM), щоб компенсувати.
Це нагріло повітря в коридорі, підвищило температуру повітря на вході і зробило VRM ще гарячішими. Ідеальний маленький ouroboros.

Основна проблема: зміна сетпоінта охолоджувача взаємодіяла з варіаціями потоку між стійками і з залишковими повітряно-охолодженими компонентами,
які вже були близько до меж. Самі GPU були переважно в порядку; VRM — ні.
Вищі температури VRM запускали поведінку управління потужністю, яка зменшувала запас потужності для GPU при перехідних навантаженнях.
Система залишалася «в межах специфікацій», але продуктивність стала шумною і непередбачуваною.

Виправлення не було «повернути все до холодної води назавжди». Воно полягало в інструментації та сегментації:
валідація по стійках, гарантії мінімального потоку і окремі сповіщення для температур VRM/пам’яті. Вони також налаштували криві вентиляторів інтелігентно,
а не просто «більше вентилятора», і перемістили частину найгарячіших робочих навантажень на стійки з кращими повітряними запасами.

Результат: вони все ще досягли економії ефективності приміщення, але лише після визнання, що «GPU охолоджено» ≠ «сервер здоровий».
Оптимізація — ніж. Вона ріже в обидва боки.

Міні-історія №3: Нудна, але правильна практика, що врятувала ситуацію

Велике підприємство експлуатувало змішаний кластер: деякі inference-вузли з повітряним охолодженням, деякі training-вузли з рідиною.
Вони не захоплювались операціями. Це була їхня суперсила.
Кожна операція на рідинних стійках вимагала: фото колекторів до роботи, двохосібної процедури відключення/підключення
і постзміни тесту під навантаженням з записаними температурами входу/виходу і стабільністю частот GPU.

Одного кварталу стався дрібний інцидент в приміщенні: CDU почав вести себе дивно після планового обслуговування.
Спочатку без тривог. Лише невеликий дрейф delta-T під навантаженням на кількох стійках.
Моніторинг це зафіксував, бо у них були пороги по трендах, а не лише по абсолютних значеннях.
Вони викликали одночасно служби приміщення і обчислень (рідкісне диво), і не продовжували працювати «доки не зламається».

Нудна практика: вони злили й наповнили контур правильно, видалили повітря ретельно і перевірили потік по кожній гілці стійки.
Вони також проактивно замінили фільтри, а не чекали сигналу про падіння тиску.
Це зайняло час і було дратівливо, але запобігло каскадній деградації продуктивності, що їсть тижні.

Реальне «врятування» сталося пізніше: інша команда намагалася гаряче додати потужність, перемістивши рідинний сервер між стійками.
Їхній процес вимагав перевірити сумісність швидкоз’єднань і умови тиску перед переміщенням чого-небудь.
Це виявило невідповідність: однаково виглядаючі роз’єми від різних постачальників з тонкими механічними відмінностями.
Без процесу вони б змусили це й, ймовірно, створили витік.

Результат: ніякого заголовка про простої, ніякого героїчного відновлення. Просто кластер, що продовжував давати обчислення, поки всі інші грали в рулетку інцидентів.
Нудність — це перевага.

Типові помилки: симптоми → корінна причина → виправлення

Ось бібліотека шаблонів. Якщо ви експлуатуєте флот GPU, ви побачите це.
Трюк — перестати ставити кожен інцидент як роман і почати трактувати їх як відомі види.

1) «GPU гарячі, хоча охолоджувач холодний»

  • Симптоми: температури GPU швидко зростають під навантаженням; температура входу охолоджувача виглядає нормально; BMC каже flow OK.
  • Корінна причина: зменшення потоку через холодну плитку (частково закритий клапан, блокування, повітряна пробка, вихід насоса); або поганий контакт теплопередачі.
  • Виправлення: перевірити потік декількома сигналами (delta-T, RPM насоса/тиск). Інспектувати клапани, видалити повітря, перевірити шланги. Пересадити холодну плитку, якщо сумніви в контакті.

2) «Використання високе, але пропускна здатність низька»

  • Симптоми: GPU показують високе використання; час кроку зростає; частоти коливаються; немає очевидних термальних тривог.
  • Корінна причина: накладні синхронізації, повторні передачі в мережі, простої сховища, відставання CPU при попередній обробці; іноді обмеження потужності.
  • Виправлення: виміряти end-to-end: iostat, лічильники NIC, частоту CPU. Визначити голодування vs тротлінг. Спочатку виправити конвеєр.

3) «Продуктивність різниться по стійках»

  • Симптоми: однакове обладнання, однакова задача, різні часи; стійка A постійно гірша; немає локальних помилок на вузлах.
  • Корінна причина: контур приміщення або здатність CDU; дисбаланс колекторів; різниця температури подачі; різниця повітряних потоків для залишкових компонентів.
  • Виправлення: порівняйте температури входу/виходу по стійках, підтвердіть баланс потоків по гілках, валідуйте сетпоінти та тривоги CDU. Додайте дашборди на рівні стійки.

4) «Після обслуговування почався дивний тротлінг»

  • Симптоми: відразу після сервісу кілька вузлів працюють гарячіше або тротлять; датчики можуть і далі виглядати нормально.
  • Корінна причина: повітря в контурі, недосаджений швидкоз’єм, зміна положення клапана, порушений теплоперенос, натяг на шлангах.
  • Виправлення: дотримуватись постобслуговувального тесту під навантаженням; видалити повітря; перевірити положення клапанів; повторно перевірити фізичні з’єднання і захист від натягу.

5) «Вентилятори кричать у рідинно-охолодженому вузлі»

  • Симптоми: температури GPU в нормі, але вентилятори на 90–100%; енергоспоживання вузла зростає; іноді нестабільність.
  • Корінна причина: VRM, пам’ять, NIC або сховище все ще охолоджуються повітрям і перегріваються через зміну припущень щодо повітряного потоку в шасі.
  • Виправлення: переконатись, що шлях повітря в шасі зберігається; додати спрямований потік або радіатори для залишкових компонентів; налаштувати криві вентиляторів за правильними датчиками.

6) «Тривога охолоджувача, але GPU в порядку»

  • Симптоми: тривога провідності/якості охолоджувача, тиск фільтра або датчик витоку періодично тригерить; продуктивність здається нормальною.
  • Корінна причина: ранній дрейф хімії, збій датчика або періодична волога; ігнорування цього призводить до майбутніх блокувань/витоків.
  • Виправлення: ставитися до цього як до індикатора раннього попередження. Взяти пробу охолоджувача, оглянути фільтри/захист, валідувати датчики і документувати тренд.

7) «Ми перейшли на рідину і очікували нижчу енергію приміщення, але вона зросла»

  • Симптоми: PUE не покращився; чилери все ще працюють; рахунки за електрику не зменшились.
  • Корінна причина: сетпоінти охолоджувача занадто низькі; контур приміщення не оптимізований; відведення тепла все ще залежить від механічного охолодження; додана потужність насосів.
  • Виправлення: переглянути інтеграцію з приміщенням. Розглянути стратегію теплішої води, якщо обладнання це підтримує. Вимірювати, а не припускати.

8) «Одна нода постійно падає в рідинній стійці»

  • Симптоми: один сервер викидає помилки GPU, тротлить або скидається; сусіди в порядку.
  • Корінна причина: локальне обмеження потоку, поганий монтаж холодної плитки, заводський дефект, зігнутий шланг або бракований GPU.
  • Виправлення: перемістити сервер місцями (якщо безпечно) або замінити підозрілі компоненти. Якщо проблема залишається з сервером — проблема локальна. Якщо слідує за гілкою стійки — інфраструктура.

Контрольні списки / покроковий план

Покроково: як вирішити, чи впроваджувати рідинне охолодження для GPU

  1. Визначте біль у метриці. Приклад: стабільні SM-частоти, варіативність часу завдання, kW на стійку, частота термального тротлінгу на годину завдання.
  2. Доведіть вузьке місце даними. Використайте команди в розділі завдань: причини тротлінгу, частоти, лічильники сховища/мережі.
  3. Змоделюйте щільність і обмеження приміщення. Якщо ви не обмежені щільністю, рідина — розкіш з гострими краями.
  4. Виберіть архітектуру. Direct-to-chip vs rear-door vs immersion. Оберіть те, що ваша організація зможе експлуатувати, а не те, що краще виглядає у слайдах.
  5. Проєктуйте під відмови. Виявлення витоків, локалізація, політика вимкнення, резервування насосів за потреби, стратегія запасних частин.
  6. План інструментації. Телекеметрія GPU + датчики BMC + метрики CDU/приміщення в одному дашборді з кореляцією.
  7. Приймальні тести, що нагадують реальність. Запустіть довгі, репрезентативні роботи. Не лише 10-хвилинний burn-in.
  8. Операційна готовність. Навчіть техніків, напишіть runbook’и, підготуйте запаси, визначте ескалацію до приміщення.
  9. Впроваджуйте поступово. A/B тест стійок якщо можливо. Порівнюйте пропускна здатність на ват та стабільність часу виконання.
  10. Напишіть шаблон postmortem без вини вже зараз. Ви його використаєте.

Чекліст обслуговування (direct-to-chip стійки)

  • Перед обслуговуванням: зафіксуйте базові температури входу/виходу охолоджувача під навантаженням для стійки.
  • Перевірте маркування клапанів і положення за замовчуванням; сфотографуйте положення колекторів.
  • Використовуйте двохосібну процедуру для відключень; підтвердіть скидання тиску і правильність роз’ємів.
  • Після обслуговування: ретельно видаліть повітря; підтвердіть стабільність показників потоку/тиску.
  • Запустіть тест під навантаженням і валідуйте стабільні частоти та очікуваний delta-T.
  • Залогуйте зміну: які частини торкались, які матеріали введено, які сетпоінти змінено.
  • Заплануйте наступний відбір проб, якщо хімія охолоджувача могла змінитися.

Чекліст моніторингу (на що варто сповіщати)

  • GPU: температура, споживання потужності, частоти, причини тротлінгу, частота ECC/XID подій.
  • Вузол: температури повітря на вході/виході (якщо релевантно), температури VRM, RPM вентиляторів, стан BMC.
  • Рідинний контур: температури подачі/звороту, delta-T, RPM насоса, тиск/потік, датчики витоку, диференціал фільтра якщо є.
  • Приміщення: тривоги CDU, дрейф температури живлення, стабільність диференційного тиску, заплановані зміни сетпоінтів.
  • Кореляційні сповіщення: «температура GPU зростає, а температура виходу охолоджувача плоска» (проблема потоку/теплового контакту).

Питання і відповіді

1) Чи рідинне охолодження автоматично робить GPU швидшими?

Ні. Воно полегшує утримання GPU в оптимальному тепловому діапазоні під тривалим навантаженням.
Якщо ви голодні по даних (storage/network/CPU) або обмежені по потужності, рідина не збільшить пропускну здатність сама по собі.

2) Який найбільший операційний ризик?

Деградація потоку, яка не викликає жорсткої тривоги, плюс людська помилка під час обслуговування.
Витоки лякають, але повільне падіння продуктивності може тихо коштувати більше обчислювальних годин, ніж драматичний інцидент.

3) Чи direct-to-chip кращий за rear-door?

Для екстремальної щільності і охолодження кремнію direct-to-chip зазвичай кращий.
Rear-door може бути чудовим «півкроком», коли ви хочете краще відведення тепла без перепланування кожного сервера.

4) Чи immersion-охолодження — остаточне рішення?

Може бути, у відповідному середовищі. Але це змінює все: обробку апаратури, робочі процеси обслуговування, контроль контамінації
і модель підтримки від постачальників. Якщо ваша організація має проблеми з базовим контролем змін, immersion перетворить цю проблему на мистецтво перформансу.

5) Як зрозуміти, чи я маю тепловий тротлінг?

Не гадати. Перевірте частоти, причини тротлінгу і тренди температур під тривалим навантаженням.
Якщо частоти падають зі зростанням температур і причини вказують на термальне — відповідь у вас.

6) Чи може рідинне охолодження знизити загальну потужність дата-центру?

Іноді — але не автоматично. Воно може знизити потужність вентиляторів і дозволити ефективніше відведення тепла.
Якщо ви працюєте з дуже холодною подачею та все ще сильно залежите від чилерів, покращення ефективності приміщення може бути незначним.

7) Який охолоджувач нам використовувати?

Використовуйте те, що вказує ваш постачальник для апаратури і матеріалів у контурі, і ставте якість охолоджувача під моніторинг.
Неправильна рідина, невірний пакет інгібіторів або випадкове «доливання чимось» — це шлях до засмічення мікроканалів.

8) Як структурувати відповідь on-call для проблем з охолодженням?

Розділіть на шари: телеметрія вузла (GPU/драйвер), телеметрія стійки (потік/темп/витік), приміщення/CDU.
Ваш runbook має вирішувати, коли зливати/зупиняти навантаження vs коли перемикатися.
Найважливіше: мати одного власника, що координує обчислення і служби приміщення під час інцидентів.

9) Чи варто модернізувати існуючі повітряно-охолоджені GPU-сервери під рідину?

Зазвичай ні, якщо постачальник явно не підтримує це й у вас немає сильної причини (стінка щільності, хронічний тротлінг, зміни в приміщенні).
Модернізації додають механічний ризик і ризик гарантії та часто створюють одноразові «снігові пластівці».

10) Який найпростіший «перший крок», якщо не впевнені?

Інструментуйте поточний флот, щоб кількісно оцінити тротлінг і варіативність продуктивності, потім пілотуйте одну стійку з рідиною з реальними робочими навантаженнями.
Якщо ви не можете виміряти покращення — ви не зможете виправдати складність.

Практичні наступні кроки

Якщо ви експлуатуєте флот GPU, ось що я б зробив наступного тижня — не наступного кварталу.

  1. Кількісно оцініть тротлінг і варіативність негайно. Збирайте частоти GPU, температури, споживання потужності і причини тротлінгу по репрезентативних навантаженнях.
    Якщо не можете показати тротлінг — ймовірно ви не купуєте продуктивність за допомогою рідини.
  2. Програйте швидкий план діагностики на найгірших виконавцях. Доведіть, чи вузьке місце теплове, по потужності чи в конвеєрі.
  3. Пофіксуйте дешеві речі першими. Керування повітряними потоками, фільтри, криві вентиляторів, налаштування лімітів потужності, вузькі місця в сховищі/мережі, попередня обробка на CPU.
    Якщо цього не зроблено — рідинне охолодження — платний пластир поверх базової гігієни.
  4. Якщо ви обмежені щільністю — пілотуйте рідину з операційною дисципліною. Оберіть одну стійку, інструментуйте глибоко і вимагайте приймальних тестів, що імітують реальні завдання.
    Включіть тренування з обслуговування. Практикуйте відключення/підключення перед тим, як виробництво залежатиме від цього.
  5. Проєктуйте під відмови. Виявлення витоків, локалізація, політика вимкнення та запаси.
    Припускайте, що насос вийде з ладу і що роз’єм буде недосаджений. Ваше завдання — зробити це виживаним.

Рідинне охолодження GPU може бути розумним рішенням. Але також воно може бути дорогим косплеєм.
Різниця — чи ставитесь ви до цього як до інженерної системи з вимірними цілями, моніторингом ризиків і відпрацьованими операціями.
Якщо готові — вода може купити вам реальні обчислення. Якщо ні — вона купить вам нові способи не спати о 2-й ночі.

← Попередня
PostgreSQL проти ClickHouse: де зберігати потік логів без болю
Наступна →
Темний режим, який не підводить: prefers-color-scheme + патерн ручного перемикача

Залишити коментар