Якщо ви коли-небудь бачили, як флагманська GPU піднімається на бусті немов ракета 30 секунд, а потім перетворюється на сумний гарячий хрип, ви вже інтуїтивно розумієте Mini-ITX. Справа не в тому, що комплектуючі «занадто потужні». Справа в тому, що фізика не вражена вашим оптимізмом.
Це польовий посібник для тих, хто хоче крихітний ПК з великою GPU, який поводиться як доросла система: стабільні частоти, передбачуваний шум, розумні температури та відсутність загадкових перезавантажень. Ми розглядатимемо вашу SFF-збірку як продакшн: визначаємо обмеження, спостерігаємо реальність, змінюємо по одній зміні й зберігаємо дані.
Справжні обмеження: об’єм, ватти та шляхи виходу повітря
Збірка Mini-ITX з флагманською GPU — це задача планування ресурсів, замаскована під хобі. У вас є три бюджети:
- Термальний бюджет: скільки ватів ви можете відвести від кристала до повітря кімнати без тротлінгу чи крику вентиляторів.
- Електричний бюджет: скільки ватів ви можете подати без спрацьовування OCP, провалу напруги або нагріву конекторів під час транзієнтів.
- Механічний бюджет: куди повітря і кабелі фізично можуть йти, не перекриваючи єдиний шлях виходу.
У середньому корпусі ви можете вирішувати це brute‑force — більше вентиляторів і мертве місце. У SFF кожне «просто заправити туди» блокує шлях тиску. Кожен додатковий ват підвищує локальну температуру повітря швидше, бо менший об’єм змішування і менше паралельних шляхів виходу.
Ментальна модель, що рятує від страждань
Думайте в термінах зон, як у дата-центровому hot aisle/cold aisle, але проходи два сантиметри завширшки, а GPU — це HVAC. Ви хочете:
- Холодне надходження, спрямоване до входів охолоджувачів GPU і CPU.
- Гаряче видалення, яке виходить з корпуса без негайного повторного забору.
- Намір тиску (легкий позитивний або легкий негативний) залежно від фільтрів і де є щілини.
І так — пил — це податок за повітряний потік. Пил також є податком за відсутність потоку. Оберіть свій «яд» і плануйте чистки як доросла людина.
Жарт №1: Будувати SFF — як укладати кабелі в підводному човні: все вміщується, поки не закриєш панель і реальність не оголосить банкрутство.
Цікаві факти та історичний контекст (SFF пройшов довгий шлях)
- Mini-ITX з’явився у 2001 році (VIA), спочатку орієнтований на енергоефективні вбудовані системи — ніхто тоді не планував 400W GPU.
- Ранні «маленькі ПК» були часто кубічними, вони покладалися на великий повільний вентилятор і багато вільного простору; сучасний SFF щільніший, але менш поблажливий.
- SFX блоки живлення стандартизувалися, щоб вирішити проблему простору, але їх менший об’єм означає вищі внутрішні температури при тих же ватах, якщо ефективність не відмінна.
- PCIe riser-и стали масовими в SFF, щоб підтримати sandwich-ланцюгові компонування; цілісність сигналу стала проблемою не лише серверних бекплейнів.
- Потужність плат GPU зросла швидше, ніж покращилися потоки повітря у корпусах; дизайн корпусів став розумнішим (повітряні канали, бокові входи), але фізика все одно ставить верхню межу.
- Раніше «blower» GPU були стандартом у SFF, оскільки вони викидали тепло назовні; open‑air охолодження перемогло по шуму, але може затримувати тепло в тісних корпусах.
- Сучасні GPU підвищують частоти опортуністично: вони охоче «з’їдають» тепловий запас миттєво, а потім знижують частоти — тому важливіше тестувати стійкий стан, а не короткі бенчмарки.
- ATX 3.0 і 12VHPWR з’явилися через бурхливі транзієнти; індустрія нарешті визнала, що «пікове» важить так само, як «номінальне».
Вибір корпуса: припиніть купувати по літрах, почніть за геометрією потоку повітря
Люди одержимі літрами як показником продуктивності. Це не так. Повітря не цікавить, що ваш корпус має 10.9L; його цікавить, куди воно може потрапити, як воно прискорюється і чи може вийти без зациклення.
Визначте макет спочатку: sandwich, традиційний або «димар»
- Sandwich макет (GPU з одного боку, материнська плата з іншого, riser між ними): чудово для коротких повітряних шляхів і бокових входів. Жахливо, якщо взяти GPU зі стилем охолодження, що викидає тепло у мертвий простір.
- Традиційний макет (GPU у слоті PCIe на платі): простіше, менше проблем з riser-ами, часто краща сумісність. Але CPU і GPU конкурують за той самий об’єм повітря.
- Димарний макет (вхід знизу, вихід зверху): може бути відмінним, бо узгоджується з конвекцією і дає чистий шлях випуску. Але карає погані криві вентиляторів і обмежувальні верхні панелі.
Що вам потрібно в корпусі ITX для флагманської GPU
- Прямий вхід повітря до GPU з вентильованого боку або знизу, бажано з пиловим фільтrom, який реально можна зняти.
- Чистий шлях виходу для тепла GPU і CPU. Якщо гаряче повітря змушене робити U‑поворот всередині корпуса — ви вже програли.
- Кріплення вентиляторів, що відповідає вашому наміру: принаймні один реальний вихід, який не блокується кабелями.
- Прохідність для GPU з урахуванням радіуса вигину кабелю, а не тільки довжини карти. Конектор під постійним вигином — повільний вихід з ладу в процесі експлуатації.
Реальність флагманської GPU
350–450W GPU у маленькому корпусі — це не «просто більша GPU». Це обігрівач із PCIe слотом. Якщо корпус не може подати їй холодне повітря і вивести відпрацьоване, GPU все одно працюватиме — просто повільніше, голосніше і менш стабільно. Це не моральна поразка; це невідповідність дизайну.
Подача живлення: SFX, транзієнти, кабелі й пастка «воно раз POST-ило»
Mini-ITX збірки ламаються так, що це виглядає як софтверні проблеми. Випадкові перезавантаження. Чорні екрани під навантаженням. USB-пристрої відключаються. «Тайм‑аути драйверів». Часто це живлення або тепло, а логи — просто невинні свідки.
Розмір блоку живлення: припиніть рахувати по середньому споживанню
Флагманські GPU мають транзієнти, які можуть перевищувати їхній «board power» значно на коротких інтервалах. Ваш PSU має витримати це без спрацьовування захисту. Це означає:
- Віддавайте перевагу сучасному, якісному блоку з гарною реакцією на транзієнти.
- Не використовуйте SFX на межі можливостей у гарячому корпусі; потужність PSU деградує з температурою.
- Віддавайте перевагу ефективності (80 Plus Gold/Platinum) не заради рахунку, а заради меншого внутрішнього нагріву PSU.
12VHPWR / 12V-2×6: конектор не чарівний
Ці конектори чудові, коли посаджені правильно і не зазнають механічного навантаження. У SFF радіус вигину кабелю — ворог. Якщо бокова панель тисне на конектор, ви будуєте маленький механічний тестовий стенд.
Робіть так:
- Використовуйте нативний кабель PSU, якщо можливо.
- Маршрутуйте кабель, щоб уникати бокового навантаження на штекер.
- Перевіряйте повне вставлення візуально й фізично.
- Виміряйте температуру, якщо є підозра (так, насправді).
VRM материнської плати і компроміс ITX
ITX плати можуть бути відмінними, але вони обмежені. VRM упакований близько до сокета, часто з меншою масою радіатора і меншим потоком повітря. Поєднання CPU з великою кількістю ядер і ITX плати в низькоповітряному корпусі часто призводить до «мій CPU у Cinebench нормальний, а в іграх падає». Ігри мають інший профіль навантаження; температури VRM і транзієнти відрізняються.
Термодинаміка: щільність тепла, рецикл повітря і чому бокові панелі брешуть
Більшість термальних відмов у SFF — це не «недостатнє охолодження». Це рецикл. Гаряче повітря виходить із кулера, відбивається від панелі й повертається назад. Вентилятори GPU обертаються сильніше, що підвищує турбулентність, а це може посилити рецикл. Вітаю: ви винайшли гарячий торнадо.
Стабільний стан — це правда
Проганяйте комбіноване навантаження 20–30 хвилин і дивіться, як температури стабілізуються. Система, яка виглядає нормально 3 хвилини, може перетворитися на реактивний двигун на 12-й хвилині. Ваша мета — не скріншот; це стабільна платформа.
Шум — це термальний сигнал
У маленькому корпусі шум зазвичай означає одне з трьох:
- Вентилятори компенсують блокований потік повітря.
- Криві вентиляторів реагують на спайки сенсорів (гарячі точки GPU, VRM, SSD).
- Резонансна панель або решітка перетворює нормальний потік повітря у свист.
Не сприймайте шум як естетику. Сприймайте його як телеметрію.
Жарт №2: Якщо у вашому ITX корпусі «загартоване скло», чудово — тепер ви можете спостерігати наростання тепла в реальному часі.
Шаблони повітряного потоку, які справді працюють
Шаблон 1: GPU отримує пріоритетне повітря, CPU — те, що лишилося
У багатьох SFF корпусах GPU — домінуюче джерело тепла. Дайте їй прямий вхід і чистий шлях виходу. Дозвольте CPU працювати трохи тепліше за потреби; сучасні процесори це витримують, і ви можете обмежити їх потужність.
Шаблон 2: створіть передбачуваний градієнт тиску
Якщо в корпусі є фільтровані входи, зробіть легкий позитивний тиск (більше входу, ніж виходу), щоб зменшити потрапляння пилу через випадкові щілини. Якщо фільтри слабкі або відсутні, іноді легкий негативний тиск підвищує ефективність виходу — але ви поглинаєте більше пилу. У будь-якому випадку: не запускайте «хаотичний тиск», коли вентилятори працюють у протидії один одному.
Шаблон 3: направляйте повітря до GPU або поважайте бокову панель
Деякі корпуси ефективно направляють GPU до бокового входу. Це ідеально для open‑air охолоджувачів GPU. Але канал працює лише якщо бокова панель достатньо вентильована і не заблокована фільтрами з високим опором.
Шаблон 4: уникайте «завіс» з кабелів
Кабелі в SFF не тільки виглядають неохайно — вони створюють гнучку стіну, що може блокувати вхідні вентилятори і створювати застійну зону. Використовуйте коротші модульні кабелі. Кріпіть їх до конструктивних точок. Не звивайте запас перед вентилятором, як якесь човнове приладдя.
Охолодження CPU в ITX: податок на VRM і виключення з верхнього потоку
Загальна мудрість каже, що баштові кулери кращі. У ITX це лише половина істини. Баштовий кулер може добре охолоджувати CPU, одночасно залишаючи VRM і RAM без потрібного потоку повітря. У тісному корпусі температури VRM можуть стати обмеженням стабільності раніше, ніж температури ядер CPU.
Коли top‑down кулер — правильне рішення
Top‑down кулер проганяє повітря через область сокета, радіатори VRM і іноді M.2 слот. У корпусі з обмеженим виходом повітря це може бути різницею між «стабільно» і «краш через 40 хвилин». Ви можете прийняти трохи вищі температури CPU заради значно кращої термодинаміки материнської плати.
Обмежуйте потужність CPU серйозно
У SFF рідко потрібна максимальна потужність CPU. Обмежте PPT/PL1/PL2 на розумному рівні і дайте GPU дихати. Втрата продуктивності часто невелика, а зниження щільності тепла — велике. Це логіка SRE: захищайте критичний шлях.
Цитата про надійність, бо підходить
«Надія — це не стратегія.» — генерал Гордон Р. Салліван
В термінах SFF: не надiйтеся, що потік повітря корпусу «ймовірно буде OK». Виміряйте, потім вирішуйте.
Накопичувачі й надійність: терміка SSD, файлові системи і нудні речі, що запобігають дивинам
Флагманська GPU + ITX — це не тільки ігрова збірка. Це маленька робоча станція, і накопичувачі поводяться інакше, коли внутрішня температура ≈ 50°C.
NVMe тротлінг — прихований вбивця продуктивності
M.2 накопичувачі можуть різко тротлитися, коли вони затиснуті під бекплейтом GPU або поруч із VRM. Симптом виглядає як «завантаження гальмує» або «компіляція сповільнюється через деякий час». Виправлення зазвичай полягає в повітряному потоці й нормальному радіаторі, а не в купівлі швидшого SSD.
Гігієна файлових систем і стабільності
Більшість людей не міняє файлову систему для SFF, і це нормально. Діяльна частина: стежте за лічильниками помилок і температурами. У тісних збірках маргінальне живлення і тепло перетворюють «рідкі» биті біти і лінк‑помилки на повторювані події.
План швидкої діагностики (знаходьте вузьке місце швидко)
Якщо продуктивність або стабільність погані — не починайте міняти деталі. Почніть із суворого циклу: спостерігай → віднось → змінюй одну змінну → ретестуй.
Перший крок: класифікуйте режим відмови
- Раптове перезавантаження / вимкнення під навантаженням GPU: підозрюйте PSU/OCP/транзієнти, ненадійне з’єднання 12VHPWR або обмеження VRM материнської плати.
- Скидання драйвера / чорний екран з відновленням: підозрюйте нестабільний undervolt, нестабільність VRAM через нагрів або помилки riser/сигналу PCIe.
- Термальний тротлінг (частоти GPU пульсують, вентилятори на максимум): підозрюйте рецикл повітря, забиті фільтри або неправильну орієнтацію вентиляторів.
- Стуктор через кілька хвилин: підозрюйте тротлінг SSD, обмеження потужності CPU, підвищення температур VRM або поступове наростання внутрішнього тепла.
Другий крок: перевірте три температура, що мають значення
- GPU hotspot (не тільки крайня температура GPU)
- Температура пакета CPU плюс температура VRM, якщо доступна
- Температура NVMe під тривалими записами/читанням
Третій крок: вирішіть, чи це тепло, живлення чи сигнал
- Якщо температури в нормі, а краш відбувається на певних кроках навантаження: живлення або сигнал.
- Якщо температури поступово ростуть і частоти падають: потік повітря/терміка.
- Якщо лічильники PCIe помилок інкрементуються: riser/кабель/слот або примусове Gen4 в умовах, коли потрібно Gen3.
Четвертий крок: застосуйте мінімальне корективне рішення
Приклади:
- Тимчасово виставте PCIe в Gen3, щоб перевірити стабільність riser-а.
- Зменшіть потужність GPU на 10–20% і перевірте, чи повертається стабільність (транзієнти).
- Переверніть орієнтацію одного вентилятора і повторно протестуйте із закритою боковою панеллю (рецикл).
- Підвищте мінімальні RPM вентиляторів, щоб уникнути ефекту старт‑стоп.
Практичні завдання з командами: що запускати, що це значить, що вирішуєте
Це орієнтовано на Linux, бо Linux каже правду з меншею кількістю спливаючих вікон. Ви все одно можете застосувати рішення в будь‑якій ОС. Кожне завдання включає: команду, приклад виводу, значення і наступне рішення.
Завдання 1: Підтвердіть модель GPU, драйвер і ширину PCIe лінку
cr0x@server:~$ nvidia-smi
Tue Jan 21 12:11:08 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 555.42.02 Driver Version: 555.42.02 CUDA Version: 12.5 |
|-----------------------------------------+------------------------+----------------------|
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 4090 Off | 00000000:01:00.0 On | N/A |
| 38% 62C P2 210W / 450W| 6120MiB / 24564MiB | 96% Default |
+-----------------------------------------+------------------------+----------------------+
Що це значить: Підтверджує, що ви тестуєте очікувану GPU і що споживання в межах ліміту.
Рішення: Якщо GPU не досягає очікуваної потужності/використання, вузьке місце може бути CPU, PCIe або профільом ліміту живлення.
Завдання 2: Перевірте покоління PCIe і погоджену швидкість (виявлення проблем riser)
cr0x@server:~$ sudo lspci -vv -s 01:00.0 | egrep -i "LnkCap|LnkSta"
LnkCap: Port #0, Speed 16GT/s, Width x16, ASPM L1, Exit Latency L1 <64us
LnkSta: Speed 8GT/s (downgraded), Width x16 (ok)
Що це значить: GPU підтримує PCIe Gen4 (16GT/s), але працює в Gen3 (8GT/s). Це може траплятися через riser, BIOS налаштування або маргінальну цілісність сигналу.
Рішення: Якщо продуктивність влаштовує, прийміть Gen3 заради стабільності. Якщо потрібен Gen4 — пересадіть riser, зменшіть напруження кабелю або замініть riser на вищої якості.
Завдання 3: Перевірте лічильники виправлених помилок PCIe (сигнальна цілісність сама про себе розповість)
cr0x@server:~$ sudo dmesg -T | egrep -i "pcie|aer|corrected|uncorrected" | tail -n 8
[Tue Jan 21 12:03:01 2026] pcieport 0000:00:01.0: AER: Corrected error received: id=00e0
[Tue Jan 21 12:03:01 2026] pcieport 0000:00:01.0: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)
[Tue Jan 21 12:03:01 2026] pcieport 0000:00:01.0: device [8086:7a44] error status/mask=00000001/00002000
[Tue Jan 21 12:03:01 2026] pcieport 0000:00:01.0: [ 0] RxErr
Що це значить: Виправлені помилки не завдають негайної шкоди, але в SFF часто корелюють із проблемами riser або надто агресивними PCIe gen налаштуваннями.
Рішення: Тимчасово примусово виставте PCIe Gen3 у BIOS. Якщо помилки зникають — шлях riser/кабелю підозрілий.
Завдання 4: Слідкуйте за GPU hotspot, потужністю і частотами в реальному часі
cr0x@server:~$ nvidia-smi dmon -s pucvmt -d 2
# gpu pwr u c v m t
# Idx W % MHz % % C
0 320 99 2610 0 45 78
0 340 99 2550 0 46 83
0 310 97 2460 0 46 86
Що це значить: Ви бачите наростання і чи падають частоти при підвищенні температури.
Рішення: Якщо частоти постійно падають, поки потужність висока — ви термічно обмежені. Виправляйте потік повітря або знижуйте ціль потужності/робіть undervolt.
Завдання 5: Виміряйте термальні показники CPU і чи досягаєте лімітів потужності
cr0x@server:~$ sudo turbostat --Summary --interval 2 --quiet
avg_MHz Busy% Bzy_MHz TSC_MHz IRQ SMI CPU%c1 CPU%c6 PkgTmp PkgWatt
4980 92.3 5395 3000 9020 0 2.1 0.3 93.0 147.2
4750 94.1 5050 3000 9155 0 1.9 0.4 96.0 149.8
Що це значить: Пакет CPU працює гаряче і близько до високого споживання.
Рішення: В ITX обмежте потужність CPU (BIOS PL1/PL2 або AMD PPT), щоб звільнити тепловий запас і зменшити внутрішню температуру.
Завдання 6: Підтвердіть видимість управління вентиляторами (чи промаплені ваші вентилятори?)
cr0x@server:~$ sensors
nct6798-isa-0a20
Adapter: ISA adapter
CPU Fan: 1180 RPM
Chassis Fan1: 920 RPM
SYSTIN: +36.0°C
CPUTIN: +52.0°C
AUXTIN: +44.0°C
Що це значить: Базова телеметрія вентиляторів і температур плати присутня.
Рішення: Якщо вентилятори показують 0 RPM або відсутні заголовки — можливо, ви підключені не в той хедер або потрібні зміни в BIOS (PWM/DC).
Завдання 7: Виявіть ризик температури NVMe
cr0x@server:~$ sudo nvme smart-log /dev/nvme0 | egrep -i "temperature|warning"
temperature : 71 C
warning_temp_time : 3
critical_comp_time : 0
Що це значить: Накопичувач провів час понад температурою попередження. Це причина «система швидка, але іноді ні».
Рішення: Додайте M.2 радіатор, покращіть потік повітря біля накопичувача або перемістіть накопичувач у менш гарячий слот, якщо можливо.
Завдання 8: Перевірте помилки файлової системи після крашу (не ігноруйте наслідки)
cr0x@server:~$ sudo journalctl -b -1 -p err --no-pager | tail -n 12
Jan 21 11:48:09 itxbox kernel: nvme nvme0: I/O 182 QID 6 timeout, aborting
Jan 21 11:48:09 itxbox kernel: pcieport 0000:00:01.0: AER: Corrected error received
Jan 21 11:48:10 itxbox kernel: EXT4-fs error (device nvme0n1p2): ext4_find_entry:1463: inode #262401: comm steam: reading directory lblock 0
Що це значить: Таймаути накопичувача і помилки файлової системи можуть бути вторинними ефектами теплових/енергетичних проблем або первинною проблемою самі по собі.
Рішення: Якщо NVMe таймаути співпадають з високими температурами — спочатку виправляйте охолодження. Якщо проблема триває при нормальних температурах — підозрюйте диск або слот.
Завдання 9: Підтвердіть поведінку PSU/запас потужності, логуючи витрату з розетки (Smart plug через NUT як приклад)
cr0x@server:~$ upsc smartplug@localhost | egrep -i "load|watts|voltage"
input.voltage: 121.0
output.voltage: 121.0
ups.load: 61
ups.realpower: 492
Що це значить: Приблизне споживання зі стіни. Не абсолютно точне, але корисне для розуміння «чому мій 750W SFX поводиться як стресований?» ситуацій.
Рішення: Якщо споживання з мережі високе і краші співпадають з кроками навантаження — зменшіть ліміт GPU або розгляньте якісніший/потужніший PSU.
Завдання 10: Навантажте GPU стабільно (уникайте спалахових бенчмарків)
cr0x@server:~$ timeout 1200s glmark2 --fullscreen
=======================================================
glmark2 2023.01
=======================================================
[build] use-vbo=false: FPS: 398 FrameTime: 2.513 ms
[texture] texture-filter=linear: FPS: 412 FrameTime: 2.427 ms
=======================================================
glmark2 Score: 405
=======================================================
Що це значить: Тривалий прогін виявляє нагромадження тепла і проблеми зі стабільністю. Бал щодо рахунку не святе; важлива саме стабільність.
Рішення: Якщо система крашиться на 10–15 хвилині — підозрюйте heat soak, а не «погані драйвери». Слідкуйте за температурами під час прогону.
Завдання 11: Перевірте тротлінг CPU через журнали ядра (теплові події залишають відбитки)
cr0x@server:~$ sudo dmesg -T | egrep -i "thermal|throttl" | tail -n 10
[Tue Jan 21 12:07:44 2026] CPU0: Core temperature above threshold, cpu clock throttled (total events = 3)
[Tue Jan 21 12:07:44 2026] CPU0: Package temperature above threshold, cpu clock throttled (total events = 2)
Що це значить: CPU досягає термальних порогів. В SFF це також може підвищувати внутрішню температуру корпусу і шкодити GPU непрямо.
Рішення: Налаштуйте обмеження потужності CPU, покращіть повітряний потік охолоджувача CPU або змініть криву вентиляторів, щоб уникнути проходження порогів.
Завдання 12: Перевірте ліміт потужності GPU і встановіть безпечніший кап (зниження транзієнтів)
cr0x@server:~$ nvidia-smi -q -d POWER | egrep -i "Power Limit|Default Power Limit"
Power Limit : 450.00 W
Default Power Limit : 450.00 W
cr0x@server:~$ sudo nvidia-smi -pl 380
Power limit for GPU 00000000:01:00.0 was set to 380.00 W from 450.00 W.
Що це значить: Ви виставили ліміт потужності. Це часто зменшує температури і транзієнтні піки пропорційно менше, ніж втрата продуктивності.
Рішення: Якщо стабільність одразу покращується — ви були обмежені живленням/термікою транзієнтів. Продовжуйте налаштовувати або робіть правильний undervolt.
Завдання 13: Визначте, чи відбувається свап (тиск пам’яті в SFF відчувається як «лаг»)
cr0x@server:~$ free -h
total used free shared buff/cache available
Mem: 31Gi 26Gi 1.2Gi 1.3Gi 4.1Gi 3.8Gi
Swap: 16Gi 8.4Gi 7.6Gi
Що це значить: У вас є свап. Це може посилити нагрів NVMe і тротлінг, створюючи петлю зворотного зв’язку.
Рішення: Додайте ОЗП, зменшіть фонові процеси або перемістіть scratch‑навантаження з найгарячішого NVMe.
Завдання 14: Виявляйте непрямо тротлінг диска через затримки I/O
cr0x@server:~$ iostat -xz 2 5
avg-cpu: %user %nice %system %iowait %steal %idle
18.20 0.00 4.30 6.50 0.00 71.00
Device r/s rkB/s rrqm/s %rrqm r_await rareq-sz w/s wkB/s w_await wareq-sz %util
nvme0n1 32.0 4096.0 0.0 0.0 4.10 128.0 210.0 28672.0 28.50 136.5 92.0
Що це значить: Високі часи очікування і велике завантаження показують диск під стресом. Якщо це погіршується з підвищенням температур — ймовірно, тротлінг.
Рішення: Покращіть охолодження NVMe або зменшіть тривалі записи під час інтенсивних сесій GPU.
Три корпоративні міні-історії з передової
1) Інцидент, спричинений неправильною припущенням: «Gen4 завжди краще»
Невелика внутрішня команда зібрала компактний вузол для обчислень на GPU для демонстрацій — щось портативне для перенесення в конференц-зали і достатньо потужне для запуску моделей у реальному часі. Корпус був Mini-ITX, sandwich макет, PCIe riser. Він пройшов швидкі smoke‑тести.
Неправильне припущення було тонким: PCIe Gen4 назад сумісний, тож якщо він раз навчився на Gen4, то все добре. Вони відправили демо‑пристрій в інший офіс. Інша мережа живлення, інша температура навколишнього середовища, інші вібрації в кейсі при перевезенні. Протягом доби з’явилися періодичні зникнення GPU під час демонстрацій: система не завжди перезавантажувалася, але робочі навантаження падали з помилками і GPU випадав з шини.
Вони ганялися за драйверами. Шукали версії CUDA. Міняли GPU. Нічого не допомагало. Підказка з’явилася в логах: спайки виправлених помилок PCIe під час переходів навантаження, а потім фатальна ситуація. Riser був номінально Gen4‑сумісний, але фізичне прокладання і вигин зробили його маргінальним.
Виправлення було нудним: примусово виставити слот у Gen3 у BIOS для цього шасі. Помилки зникли. Втрата продуктивності для того демо‑навантаження була незначною. Пристрій став надійним за ніч.
Урок не в тому, що «Gen4 поганий». Урок у тому, що не треба вважати навчання лінку одноразовою сертифікацією. У маленьких збірках межі стабільності тонкі, і переміщення системи може їх змінити.
2) Оптимізація, що дала назад: гонитва за тишею з «smart» zero‑RPM
Одна інженерна група хотіла тиху SFF робочу станцію для відкритого офісу. Збірка була хороша: топова GPU, ефективний PSU, багато сітки. Хтось вирішив оптимізувати акустику, ввімкнувши агресивні політики zero‑RPM — вентилятори корпуса виключені нижче порогу, вентилятори GPU на idle вимкнені, PSU напівпасивний режим.
На папері все звучало цивілізовано. На практиці це створило теплову осциляцію. Система тихо простає, потім короткий сплеск (апаратне прискорення в браузері, збірка, відеодзвінок) викликає сплеск внутрішніх температур. Вентилятори різко підвищуються, щоб наздогнати, потім знову вимикаються. Повторні цикли нагріву/охолодження тримали VRM і SSD на вищих температурах, ніж постійний низький потік повітря.
Користувач скаржився на «випадкові підвисання і скидання драйвера». Команда спочатку звинувачувала undervolt GPU. Справжній винуватець — heat soak і гістерезис вентиляторів: компоненти тривалий час перебували біля порогів тротлінгу, а потім отримували різкий потік повітря.
Виправлення було неочікуваним: встановити мінімальні оберти вентиляторів замість нуля і згладити криву. Машина стала трохи голоснішою на холостому ходу — ледве помітно — але стабільною при змішаних навантаженнях і припинила дратівливе наростання/спад оборотів.
Оптимізація в SFF потребує мети. «Найнижчий шум на холостому» — не продакшн‑ціль. «Передбачувані температури і стабільні частоти при прийнятному шумі» — це.
3) Нудна, але правильна практика, що врятувала ситуацію: передпольотне логування й план відкату
Медійна команда експлуатувала компактні монтажні станції, які подорожували між студіями. Їхній режим відмови не був у голих показниках; це був час простою. Риги повинні були працювати щоразу, бо «ми виправимо потім» не існує під час зйомки.
Практика, що врятувала їх — нудна: кожного разу при зміні чогось — оновлення BIOS, драйвер GPU, крива вентиляторів — вони запускали стандартний burn‑in і збирали набір логів: телеметрію GPU, журнали ядра, SMART накопичувачів і швидкий базовий тест продуктивності. Пакет архівувався з часовою міткою і описом змін.
Якось новий драйвер викликав періодичні зникнення зображення на двох системах, але тільки при підключенні до певних моніторів. Завдяки чистим базам і стабільним пост‑змінним артефактам вони швидко корелювали проблему: той же драйвер, ті ж повідомлення ядра, ті монітори. Вони відкотили драйвер на уражених машинах, решту залишили без змін і запланували глибше тестування у неробочий час.
Без героїзму. Без ночі без сну. Без здогадок. Просто дисципліна операцій на десктопі.
SFF системи чутливі. Чутливість керована, якщо ви поводитесь із змінами як із розгортаннями і зберігаєте можливість відкотити.
Поширені помилки: симптом → корінна причина → виправлення
1) Симптом: випадкові перезавантаження під навантаженням GPU
Корінна причина: реакція PSU на транзієнти/OCP, ненадійне сидіння 12VHPWR, або піки потужності GPU в гарячому відсіку PSU.
Виправлення: Пересадіть силові конектори, уникайте гострих вигинів кабелів, тимчасово зменшіть потужність GPU на 10–20% і, за потреби, оновіть PSU на якісніший/потужніший.
2) Симптом: скидання драйвера GPU, але тільки в певних іграх
Корінна причина: нестабільний undervolt, нестабільність VRAM через нагрів або помилки riser PCIe під спалахові навантаження.
Виправлення: поверніть до стоку, перевірте стійкі навантаження, дивіться dmesg на AER помилки, тимчасово примусово виставте PCIe Gen3 для перевірки riser.
3) Симптом: температури GPU «в нормі», але hotspot високий і вентилятори кричать
Корінна причина: поганий контакт, крива вентиляторів, що керується hotspot, або рецикл, що викликає локальний нагрів.
Виправлення: Покращіть повітряний потік корпуса, переконайтеся, що боковий вхід не заблокований, розгляньте інший стиль кулера GPU під ваш корпус, налаштуйте гістерезис вентиляторів.
4) Симптом: продуктивність падає через 10–20 хвилин
Корінна причина: heat soak у корпусі; тротлінг SSD; підвищення температур VRM.
Виправлення: Додайте постійний потік повітря (мінімальні RPM), додайте радіатор/потік до M.2, обмежте потужність CPU, переконайтеся, що вихід не заблокований.
5) Симптом: coil whine раптово гірший в SFF
Корінна причина: вищі стабільні FPS/boost, резонанс PSU або панелі корпуса, що підсилює вібрацію.
Виправлення: Обмежте FPS, протестуйте інший PSU, додайте демпфування панелі/переконайтеся, що гвинти затягнуті, не затискайте кабелі на вібруючі панелі.
6) Симптом: USB відключення, коли GPU завантажена
Корінна причина: шум живлення/землі на материнській платі, нагрів VRM або маргінальна поведінка PSU під транзієнти.
Виправлення: Покращіть повітряний потік над VRM, оновіть BIOS, зменшіть піки потужності GPU/CPU, уникайте ланцюжків USB з великою навантаженістю.
7) Симптом: з закритою боковою панеллю все стає гірше
Корінна причина: панель змінює шляхи тиску і підвищує рецикл або блокує вхід.
Виправлення: Перенаправте вентилятори під потрібний тиск, зменшіть перешкоди з кабелів, використайте корпус з кращою геометрією вентиляції для типу кулера GPU.
Контрольні списки / покроковий план
План A: Збирайте, як продакшн‑зміну (рекомендовано)
- Обирайте корпус за геометрією потоку повітря: прямий вхід до GPU + реальний вихід.
- Обирайте GPU з урахуванням сумісності кулера: товщина, зазор для входу, місце для вигину кабелю.
- Вибирайте PSU з запасом по транзієнтах: спочатку якість, потім потужність; не експлуатуйте його гарячим.
- Вибирайте CPU з реалістичною ціллю потужності: обмежуйте спочатку; не «розблокуйте» і не сподівайтеся.
- Розв’яжіть питання riser: якщо sandwich макет — бюджетуйте на якісний riser і погоджуйтеся на Gen3, якщо потрібно.
- Приміряйте силові кабелі перед остаточною збіркою; переконайтесь, що бокова панель не тисне на конектор GPU.
- Встановіть початкові BIOS‑налаштування: розумні ліміти CPU, стабільний профіль RAM, PCIe gen якщо використовується riser.
- Встановіть базову телеметрію: зафіксуйте температури в холостому режимі і під 20‑хвилинним комбінованим навантаженням.
- Підправте криві вентиляторів для стабільного потоку, а не для героїчного zero‑RPM.
- Тільки потім робіть undervolt: одна зміна за раз з повторюваними тестами.
План B: Якщо ви вже зібрали і воно погано поводиться
- Поверніть GPU і CPU до стоку.
- Примусово виставте PCIe Gen3, якщо використовується riser.
- Тимчасово обмежте потужність GPU приблизно до 80–90%.
- Встановіть мінімальні оберти вентиляторів ненульовими і додайте гістерезис.
- Прогрійте 20 хвилин під навантаженням з моніторингом (GPU hotspot, пакет CPU, NVMe температури).
- Виправляйте найгірший елемент першим (зазвичай вхід/вихід повітря GPU або тротлінг NVMe).
- Повертайтеся до тонких налаштувань поступово.
Швидка перевірка орієнтації вентиляторів
- Якщо у вас open‑air GPU з боковим входом: пріоритет — свіжий вхід з тієї сторони.
- Якщо у корпусі є верхній вихід: використайте його; гаряче повітря хоче вийти і дайте йому.
- Якщо вхід знизу: фільтруйте і чистіть; він забрудниться швидше, ніж думаєте.
Питання й відповіді
1) Чи можу я надійно використовувати GPU класу 4090 у Mini-ITX?
Так, якщо корпус подає їй холодне повітря, а PSU підібраний з урахуванням транзієнтів. Якщо ви ставитесь до збірки як до звичайного середньотора‑корпусу, система вас покарає.
2) Чи потрібен PCIe Gen4 в SFF?
Зазвичай — ні для ігор; багато навантажень не відчують різниці. Якщо riser робить Gen4 нестабільним, працюйте у Gen3 і живіть далі.
3) Чи обов’язковий undervolting?
Не обов’язковий, але це один з найвищих ROI прийомів у SFF. Добрий undervolt знижує тепло і шум, зберігаючи продуктивність близькою до стоку.
4) Чому все нормально з боковою панеллю знятою?
Бо ви зруйнували систему тиску і припинили рецикл. З панеллю на місці повітряні шляхи стискаються, і ваш охолоджувач може знову захоплювати відпрацьоване повітря.
5) Чи варто обирати blower GPU для ITX?
Іноді так. Blower‑и можуть бути чудовими в корпусах з поганими внутрішніми шляхами виходу, бо вони викидають тепло назовні. Вони частіше голосні й зараз менш поширені, тож оцінюйте індивідуально.
6) Яке найпоширеніше приховане обмеження в SFF?
Температура NVMe. Часто її упускають з уваги, і вона може створювати підвисання, яке люди помилково приписують драйверам GPU.
7) Як зрозуміти, що PSU — проблема?
Краші під час кроків навантаження, перезавантаження без логів, або стабільність, що повертається при зниженні ліміту GPU — сильні індикатори. Також слідкуйте за нагрівом і посадкою конекторів.
8) Краще позитивний чи негативний тиск?
Легкий позитивний — якщо у вас є фільтри і ви хочете контроль пилу. Легкий негативний — якщо ваш вихід поганий і ви терпите пил. Уникайте конфігурацій, де вентилятори працюють у протидії.
9) Чи завжди AIO кращі для ITX?
Ні. AIO можуть перемістити тепло в краще місце для викиду, але вони додають ризики відмови помпи і можуть зменшити потік повітря над VRM. Оцінюйте всю термальну екосистему.
10) Що виконати насамперед перед тим, як звинувачувати GPU?
Перевірте помилки PCIe і стан лінку, особливо якщо використовується riser. Проблеми сигналу дуже вправно маскуються під «погані драйвери».
Наступні кроки, які можна зробити цього вікенду
- Виміряйте стабільні терміки: 20 хвилин, бокова панель на місці, лог GPU hotspot/CPU/NVMe температур.
- Обмежте ліміт потужності GPU до 80–90% і подивіться, що повертається у вигляді шуму й стабільності.
- Примусово виставте PCIe Gen3 якщо ви використовуєте riser і бачите AER помилки.
- Встановіть мінімальні RPM вентиляторів і згладьте криві, щоб уникнути термальних осциляцій.
- Виправте фізичний шар: радіус вигину кабелю, правильне сидіння конекторів і усунення «завісу» з кабелів.
Мала коробка може працювати як серйозна машина. Але це станеться тільки тоді, коли ви припините ставитись до неї як до конструктора LEGO і почнете думати як про систему з обмеженнями, телеметрією і режимами відмов. Тобто — як до приємного серйозного заняття.