Більшість теплових інцидентів не починаються з диму. Вони починаються з графіка, що виглядає «трохи дивно», з шасі, яке відчувається неочікувано теплим з якоїсь сторони, та з кількох помилок на дисках, за які всі прагнуть звинуватити «погану партію».
Вентилятори, встановлені навпаки, — це особливий вид зради: сервер все ще завантажується, світлодіоди все ще блимають, і стійка все ще гуде — але потік повітря б’ється сам із собою, немов два відділи з різними дорожніми картами.
Що насправді роблять вентилятори, встановлені навпаки (і чому це не просто «менше охолодження»)
Спокусливо думати, що вентилятор, спрямований навпаки, просто зменшує потік повітря. Якби все було так просто, ми б усі «додали ще вентиляторів» і закрили питання. Брудна правда в тому, що обернений потік змінює тиск, рециркуляцію і шлях, яким компоненти очікують рух повітря. Іншими словами: ви не просто втрачаєте охолодження; ви створюєте нову теплову архітектуру, якої ніхто не проектував.
Потік повітря — це ланцюг, а не настрій
Сервери та шасі для накопичувачів побудовані навколо градієнта тиску: сторона впуску має вищий статичний тиск, сторона витяжки — нижчий, а компоненти розташовані вздовж цього шляху. Радіатори, повітряні щілини, пористі ущільнення та «повітроводи» потрібні для того, щоб повітря витрачало свій обмежений час на корисну роботу (проходило через гарячі поверхні), а не робило окольний маршрут (коротке замикання повітря по краях).
Переверніть вентилятори — і ви інвертуєте градієнт. Тепер шасі намагається вдихати з гарячого коридору й видихати в холодний, або, ще гірше, робить і те, й інше одночасно залежно від того, які модулі перевернені. Легко утворюються зони застою повітря та зони швидкого руху повітря, але в неправильному напрямку — що руйнує припущення, закладені в платі, орієнтації ребер радіаторів і прокладанні кабелів.
Вентилятори, встановлені навпаки, часто здаються «в порядку», поки не станеться лихо
Багато систем мають достатній термальний запас, щоб виглядати стабільно в режимі простою або при легкому навантаженні. Потім ви запускаєте scrub, rebuild, compaction, резервне копіювання, аналітичну задачу або оновлення ядра, яке змінює поведінку boost. Температури ростуть. Прошивка підвищує об/хв вентиляторів. Але тепер вентилятори витрачають додаткові оберти на інтенсифікацію рециркуляції та змішування гарячого й холодного повітря.
Класичний підпис: вищі оберти вентиляторів, вищі температури, і теплове тротлінґ або помилки дисків, що зростають із навантаженням. Це не «погана кремнія». Це система, що сильніше крутить ручку керування, яка підключена навпаки.
Короткий жарт №1: Вентилятор, встановлений навпаки, — єдиний випадок, коли «reverse engineering» дослівно означає «погана ідея».
Чому накопичувачі страждають першими
Накопичувачі дуже чесні щодо температури. Диски, HBA, контролери SSD і бекплейни не звертають уваги на ваші сподівання. Магнітні диски мають більшу кількість помилок і повільнішу роботу при розігріві; SSD агресивно тротлінгують; бекплейн може прогріватися настільки, що з часом розхитуються роз’єми. Якщо змінити напрям потоку в шасі для накопичувачів, ви, можливо, не вб’єте його відразу — але безсумнівно скоротите термін служби і збільшите кількість періодичних помилок, що витрачають час операторів.
Коли один вентилятор перевернутий, система може працювати гірше, ніж «один вентилятор відсутній»
При відсутньому вентиляторі зазвичай є передбачуване зменшення потоку і чітка тривога. Але при перевернутому вентиляторі можна створити локальний «нагнітач», який відтягує повітря з сусідніх зон, затягує гарячу витяжку назад до впускної камери. Це може нагріти вхідні датчики, викликати вищі криві обертів і закрутитися у гучний, гарячий хаос.
Цікаві факти та історичний контекст
Це фрагменти, які роблять проблему більш передбачуваною (і трохи дратівливою), бо з напрямком потоку ми маємо справу давно.
- Потік спереду назад став стандартом для серверів здебільшого через розміщення холодних і гарячих коридорів та керування кабелями; «перед» — там, де стоять люди і замінюють деталі.
- Телеком-обладнання історично використовувало змішаний напрям потоку (спереду назад, зі сторони в сторону, навіть знизу вгору) залежно від умов у центральному офісі, що й досі переслідує змішані стійки з різними постачальниками.
- Існують SKUs з «зворотним потоком» навмисно для деяких мережевих комутаторів (поширені в певних дизайнах стійок), тож два візуально схожі пристрої можуть хотіти протилежних напрямів.
- Напрям вентилятора часто вказано стрілками на корпусі — крихітні виступаючі пластикові стрілки, які зникають під брудом і панікою.
- Багато модулів вентиляторів механічно ключовані, але не всі; деякі шасі приймають панель вентилятора в будь-якому напрямку, бо конектор співпадає. Це не функція. Це пастка.
- Статичний тиск важливіший за CFM у щільних серверах; радіатори з великою кількістю ребер і фільтри вимагають тиску, а не просто відкритого потоку.
- Ранні дата-центри часто працювали без ізоляції коридорів, покладаючись на величезний обсяг охолодженого повітря; сучасні цілі з енергоефективності звузили цю «безкоштовну поблажливість», роблячи неправильний потік болючішим.
- Керівництво по температурі дисків згодом ужорсточилося, оскільки постачальники пов’язали тривалі високі температури з відмовами; оператори боляче вчилися, що «в межах специфікацій» — не втіха.
- Термодатчики перемістилися ближче до гарячих зон з покоління в покоління (CPU, VRM, DIMM, впуск, витяжка), що підвищило чутливість до аномалій потоку — і підвищило хибну впевненість, коли спостерігається тільки «неправильний» датчик.
Підручник швидкої діагностики (перший/другий/третій)
Якщо підозрюєте вентилятори, встановлені навпаки, не починайте з налаштування кривих вентиляторів. Це шлях перетворити фізичну несправність на довгу, принизливу таблицю. Почніть з швидких перевірок, що показують, чи узгоджений ваш потік повітря фізично.
Перший: підтвердіть напрям потоку та тиск у реальному світі
- Відчуйте потік повітря на кінцях шасі (впуск має бути з холодної сторони, витяжка — теплою). Якщо витяжка холодна, щось не так або ви стоїте в неправильному коридорі.
- Використайте смужку серветки або стрічку біля панелі й задніх ґрат, щоб побачити напрям. Низькотехнологічне рішення краще за гадання.
- Перевірте стрілки та номери деталей на панелі вентиляторів у порівнянні з моделлю шасі. Не довіряйте «воно влітає».
- Пошукайте заглушки та повітряні щілини. Відсутні заглушки можуть створити рециркуляцію, що імітує перевернуті вентилятори.
Другий: перевірте датчики та реакцію контролера
- Порівняйте температури впуску й витяжки. В здоровій системі витяжка має бути теплішою за впуск під навантаженням.
- Перевірте об/хв вентиляторів у порівнянні з трендом температур. Якщо вентилятори нарощують оберти, а температура не покращується, шлях повітря, ймовірно, порушено.
- Шукайте локальні гарячі точки (VRM, DIMM, бекплейн, HBA). Перевернутий потік часто «охолоджує» CPU, але перепікає все інше, або навпаки.
Третій: підтвердіть наслідки на рівні компонентів
- Температури дисків і лічильники помилок SMART скажуть, чи страждає шлях зберігання.
- Позначки термального тротлінгу (CPU, SSD) підтвердять вплив на продуктивність.
- Журнали подій (BMC SEL, kernel logs) показують постійні перепади температур і помилки вентиляторів.
Рухайтеся від фізичної реальності до датчиків і до наслідків. Зворотний порядок витрачає час, бо ви будете налагоджувати симптоми замість повітряного потоку.
Практичні завдання: команди, виводи, рішення (12+)
Ці завдання орієнтовані на Linux-сервери з типовим BMC/IPMI, NVMe, SATA/SAS дисками й поширеними стеком зберігання. Суть не в конкретному інструменті; суть в шаблоні: підтвердити датчики, підтвердити поведінку, підтвердити вплив, потім виправити фізичну причину.
Завдання 1: Прочитати дані сенсорів IPMI (температури, вентилятори)
cr0x@server:~$ ipmitool sensor
Inlet Temp | 23.000 | degrees C | ok
Exhaust Temp | 28.000 | degrees C | ok
CPU1 Temp | 62.000 | degrees C | ok
FAN1 | 12400.000 | RPM | ok
FAN2 | 12100.000 | RPM | ok
FAN3 | 3000.000 | RPM | ok
Що це означає: Один вентилятор значно повільніший за інші. Якщо це резервна панель, у вас може бути зламаний вентилятор або вентилятор працює проти тиску, бо він перевернутий/заблокований.
Рішення: Якщо один вентилятор «в нормі», але помітно відрізняється, спочатку фізично перевірте цей слот; не думайте, що прошивка його «балансує».
Завдання 2: Витягти журнал подій BMC (SEL) щодо перевищень температур/вентиляторів
cr0x@server:~$ ipmitool sel elist | tail -n 12
1a2b | 01/22/2026 | 10:13:05 | Temperature #0x01 | Upper Non-critical going high | Asserted
1a2c | 01/22/2026 | 10:13:07 | Fan #0x03 | Lower Critical going low | Asserted
1a2d | 01/22/2026 | 10:13:40 | Temperature #0x01 | Upper Non-critical going high | Deasserted
Що це означає: Температура коротко перейшла поріг, і конкретний вентилятор впав у низькі оберти. Періодична несправність повітряного потоку (нещільна панель, перешкода, перевернутий модуль) може виглядати так.
Рішення: Якщо термопопередження корелюють з аномаліями вентиляторів, припиніть налаштування й почніть перевіряти посадку лотка, орієнтацію вентиляторів і повітряні щілини.
Завдання 3: Порівняти дельту впуск/витяжка під навантаженням
cr0x@server:~$ ipmitool sensor | egrep -i 'Inlet Temp|Exhaust Temp|CPU1 Temp'
Inlet Temp | 24.000 | degrees C | ok
Exhaust Temp | 25.000 | degrees C | ok
CPU1 Temp | 78.000 | degrees C | ok
Що це означає: CPU гарячий, але витяжка ледь тепліша за впуск. Це свідчить, що тепло не вивозиться (рециркуляція, обхід, перевернуті вентилятори, відсутні щілини).
Рішення: Розглядайте «низьку дельту витяжки при високих компонентах» як червоний прапорець щодо порушення шляху потоку.
Завдання 4: Перевірити тротлінг CPU та поведінку частоти
cr0x@server:~$ sudo turbostat --Summary --quiet --show "PkgTmp,Bzy_MHz,Busy%" --interval 5 --num_iterations 3
PkgTmp Bzy_MHz Busy%
84 2197 62.31
92 1804 64.02
95 1699 61.88
Що це означає: Температура пакета зростає, а ефективна частота падає. Класичний тротлінг.
Рішення: Якщо тротлінг з’явився після апаратної зміни або візиту сервісу, спочатку підозрівайте зміну напрямку/орієнтації повітря, перш ніж звинувачувати регрес коду.
Завдання 5: Перевірити температури NVMe та термовподії
cr0x@server:~$ sudo nvme smart-log /dev/nvme0n1
temperature : 78 C
available_spare : 100%
percentage_used : 2%
critical_warning : 0x00
thermal_management_t1_trans_count : 12
thermal_management_t2_trans_count : 3
Що це означає: NVMe гарячий і кілька разів увімкнув управління температурою.
Рішення: Якщо лічильники термальних переходів NVMe стрибнули після заміни панелі вентиляторів, розглядайте це як конфігурацію тиску/потоку, поки не доведено інше.
Завдання 6: Перевірити температури SATA/SAS дисків і їхній стан
cr0x@server:~$ sudo smartctl -a /dev/sda | egrep -i 'Temperature_Celsius|Reallocated_Sector_Ct|Reported_Uncorrect'
194 Temperature_Celsius 0x0022 048 040 000 Old_age Always - 52
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 2
Що це означає: Диск працює при 52°C і має кілька незаписуваних помилок. Тепло не завжди прямо викликає помилки, але воно полюбляє робити маргінальні ситуації гучними.
Рішення: Якщо кілька дисків одночасно гарячі, дивіться на шасі та охолодження бекплейна, а не на окремі диски.
Завдання 7: Перевірити статус пулу ZFS на наявність помилок, пов’язаних з нагрівом
cr0x@server:~$ sudo zpool status -v
pool: tank
state: DEGRADED
status: One or more devices has experienced an error resulting in data corruption.
action: Restore the file in question if possible.
scan: resilvered 2.14T in 03:21:44 with 0 errors on Thu Jan 22 09:58:12 2026
config:
NAME STATE READ WRITE CKSUM
tank DEGRADED 0 0 0
raidz2-0 DEGRADED 0 0 0
sda ONLINE 0 0 0
sdb ONLINE 0 0 0
sdc ONLINE 0 0 3
sdd ONLINE 0 0 0
sde ONLINE 0 0 0
sdf ONLINE 0 0 0
errors: Permanent errors have been detected in the following files:
tank/data/backup-2026-01-21.tar
Що це означає: Контрольні суми пошкоджено на конкретному диску. Тепло може довести маргінальну лінію (SAS expander, роз’єм бекплейна) до відмови, особливо якщо потік повітря перевернутий і бекплейн нагрівається.
Рішення: Не поспішайте RMA на все підряд. Виправте охолодження спочатку, потім повторно протестуйте і подивіться, чи помилки припиняться.
Завдання 8: Перевірити журнали ядра на термічні та PCIe-лінк проблеми
cr0x@server:~$ sudo dmesg -T | egrep -i 'thermal|thrott|overheat|pcie.*error|nvme.*reset' | tail -n 20
[Tue Jan 22 10:12:58 2026] CPU0: Core temperature above threshold, cpu clock throttled
[Tue Jan 22 10:13:02 2026] nvme nvme0: I/O 123 QID 5 timeout, reset controller
[Tue Jan 22 10:13:09 2026] pcieport 0000:00:1c.0: AER: Corrected error received: id=00e0
Що це означає: Тротлінг, скидання NVMe і скориговані помилки PCIe. Тепло може дестабілізувати маргінальну цілісність сигналу, особливо в щільних шасі, де потік повітря спрямований проектно.
Рішення: Коли бачите одночасно термічні й PCIe/NVMe шуми, ставте охолодження в ранг першої підозри, а не другорядного фактора.
Завдання 9: Перевірити режим керування вентиляторами (на багатьох BMC)
cr0x@server:~$ sudo ipmitool raw 0x30 0x45 0x00
01
Що це означає: Залежить від постачальника, але часто «01» означає автоматичне керування вентиляторами. Якщо хтось примусово встановив ручний режим, система може не реагувати на реальну фізичну несправність потоку.
Рішення: Переконайтесь, що режим керування вентилятором налаштований адекватно перед інтерпретацією поведінки температур. Але не використовуйте режим вентиляторів як пластир для оберненого потоку.
Завдання 10: Перевірити відсутні заглушки та відкриті відсіки (цілісність повітряного потоку на рівні стійки)
cr0x@server:~$ sudo dmidecode -t chassis | egrep -i 'Manufacturer|Type|Serial'
Manufacturer: AcmeRack
Type: Rack Mount Chassis
Serial Number: RACK-CHASSIS-88721
Що це означає: Це просто ідентифікація, але частина дисциплінованої роботи: ви документуєте тип шасі, а потім перевіряєте, чи маєте правильні модулі вентиляторів і заглушки для цього шасі.
Рішення: Якщо ви не можете однозначно ідентифікувати шасі і номери частин панелі вентиляторів, ви гадаєте. Перестаньте гадати.
Завдання 11: Використати lm-sensors для порівняння датчиків хоста та BMC
cr0x@server:~$ sudo sensors
coretemp-isa-0000
Adapter: ISA adapter
Package id 0: 92.0°C (high = 90.0°C, crit = 100.0°C)
Core 0: 90.0°C (high = 90.0°C, crit = 100.0°C)
nct6798-isa-0290
Adapter: ISA adapter
fan1: 12150 RPM
fan2: 11980 RPM
temp1: 25.0°C
temp2: 62.0°C
Що це означає: Датчики хоста підтверджують, що CPU вище «high», тоді як «temp1» (часто біля впуску/плати) низький. Такий розрив може виникнути при оберненому потоці або обході, коли впуск залишається холодним, а гарячі зони нагріваються.
Рішення: Завжди порівнюйте датчики BMC і ОС. Якщо вони сильно відрізняються, можливо, ви вимірюєте не там — або потік повітря оминає гарячі точки.
Завдання 12: Перевірити докази тротлінгу живлення та продуктивності
cr0x@server:~$ sudo journalctl -k --since "1 hour ago" | egrep -i 'throttle|thermal|powercap' | tail -n 30
Jan 22 10:12:58 server kernel: CPU0: Core temperature above threshold, cpu clock throttled
Jan 22 10:13:01 server kernel: thermal thermal_zone0: critical temperature reached(105 C), shutting down
Що це означає: Ви на межі автоматичного вимкнення. Якщо вам пощастило і система ще не вимкнулась, не продовжуйте «тестувати».
Рішення: Негайно знизьте навантаження і виправте потік повітря. Теплові відключення під навантаженням — рідко «випадковість». Це фізика, що збирає свій борг.
Завдання 13: Швидка перевірка умов на впускі стійки (контекст навколишнього середовища)
cr0x@server:~$ sudo ipmitool sensor | egrep -i 'Inlet Temp|Exhaust Temp'
Inlet Temp | 31.000 | degrees C | ok
Exhaust Temp | 33.000 | degrees C | ok
Що це означає: Впуск уже теплий. Навіть правильний потік може бути недостатнім. Якщо ваші вентилятори перевернуті, ви фактично підсовуєте шасі найгірше повітря стійки.
Рішення: Якщо впуск високий, надайте пріоритет здоров’ю повітряного потоку дата-центру (containment, розміщення плит, налаштування CRAC) та переконайтесь, що напрямок потоку шасі відповідає макету коридорів.
Завдання 14: Ідентифікувати номери частин модулів вентиляторів (дисципліна інвентарю)
cr0x@server:~$ sudo dmidecode -t baseboard | egrep -i 'Manufacturer|Product Name|Serial'
Manufacturer: ExampleSystems
Product Name: X11DPH-T
Serial Number: BSN-7C18A11
Що це означає: Ви можете зв’язати платформу з відомими BOM і запасними частинами. Це запобігає помилкам «панель підходить, отже вона правильна».
Рішення: Використовуйте ідентифікатор платформи для перевірки правильності напрямку/номера частини панелі вентиляторів. Якщо закупівля підмінила «еквівалентні» вентилятори, вважайте це зміною сумісності.
Три короткі історії з корпоративного життя
Коротка історія №1: Інцидент через хибне припущення
У них була змішана стійка: кілька універсальних обчислювальних вузлів і кілька комутаторів верхнього рівня, які підтримували як стандартний, так і зворотній потік. Хтось замовив запасні модулі вентиляторів для комутаторів. У рахунку було написано «сумісно». Модулі приїхали. Вони підходили. Світлодіоди виглядали нормально. Ніхто не подумав запитати, що означає «сумісно» щодо напрямку.
За тиждень система моніторингу почала піднімати тривоги про підвищені температури впуску на обчислювальних вузлах під комутатором. On-call пройшов стандартні кроки: перевірив налаштування CRAC, переконався, що плитки не заблоковані, потім приглушив тривогу, бо «літо і все тепліше». Через день один зі серверів зберігання почав логувати таймаути NVMe під піковим навантаженням. Продуктивність впала. Команда застосунків відкрила тікети. Всі дивились один на одного звинувачувально.
Facilities наполягали, що температура холодного коридору в межах норми. Обчислювальна команда казала, що сервери «розраховані на 35°C впуску». Команда зберігання вказувала на SMART температури і правильно казала, що диски не переймаються чиїмсь комфортом. Справжня проблема була проста: комутатор із перевернутими модулями вентиляторів дував гарячою витяжкою в холодний коридор і тягнув холодний повітря в гарячий. Це був маленький обігрівач у ідеальному місці для максимальної шкоди.
Коли хтось фізично перевірив потік біля комутатора і побачив неправильний напрям, виправлення зайняло хвилини: поставили правильні модулі, перевірили стрілки, переувіткнули. Температури нормалізувалися. Звіт по інциденту був коротким і болючим: хибне припущення «якщо підходить — значить правильно» потрібно викинути.
Коротка історія №2: Оптимізація, що обернулася проти
Інша компанія мала флот накопичувачів, який завжди гудів. Хтось вирішив «оптимізувати акустику і енергію», примусово згладивши криву вентиляторів через налаштування BMC. Ідея: зменшити оберти при помірних температурах, дати системі «кататись» і лише на високих порогах піднімати оберти. В лабораторії виглядало добре. У продакшені — теж спочатку.
Потім польовий технік замінив зламаний модуль вентиляторів в одному шасі. Замінний модуль був правильний для моделі, але технік встановив його, повернувши на 180 градусів. Він вмістився. Конектор зашкряцнув. Вентилятор крутився. Тривоги не спрацювали, бо об/хв були в очікуваному діапазоні. Система тепер мала один вентилятор, що воював з іншими, створюючи локальну деструкцію тиску саме там, де бекплейн потребував сталого потоку.
«Оптимізована» крива зробила ще гірше. Оскільки система свідомо працювала з меншим запасом, не було тиску, щоб подолати хаос від перевернутого модуля. Температури зростали, але не досить швидко, щоб активувати вищі пороги. Диски працювали гарячі годинами. Врешті почався rebuild після планової заміни диска, навантаження підскочило, і шась перетнув межу, де SSD тротлінгують, а HDD почали логувати середні помилки.
Їм довелося повернути криву вентиляторів і замінити перевернутий модуль. Урок не в тому, що «ніколи не налаштовувати криві вентиляторів». Урок у тому: не знижуйте запас, якщо ваш процес установки апаратного забезпечення не надто надійний. Коли фізичний шар незручний — оптимізація просто гарніший спосіб зазнати провалу.
Коротка історія №3: Нудна, але правильна практика, що врятувала
Є команда, з якою мені подобалось працювати, бо вони не люблять героїв. Їхнє правило: щоразу при відкритті шасі є двохосібна перевірка закриття: один робить роботу, інший перевіряє напрям потоку, щілини і заглушки. Це не привабливо. Саме тому вони сплять спокійно.
Під час планового розгортання вони встановили партію однакових вузлів зберігання. Один вузол після burn-in показав дивну поведінку: витяжка була підозріло близька до впуску, але CPU був тепліший за сусідів. Їхній чекліст змусив зробити фізичний огляд перед будь-яким «налаштуванням софту». Друга людина помітила дрібницю: клейка піна-блок шляху повітря була пропущена, і модуль вентилятора не був повністю сякто посаджений. Не перевернутий, просто не до кінця зафіксований, що давало повітрю короткий шлях повз гарячі частини.
Вони влаштували правильну посадку і встановили щілину. Тепловий профіль вузла вирівнявся зі флотом. Ніякого інциденту. Ніякого пейджера. Ніякого драми. Вони записали це як near-miss і оновили чекліст стейджингу з фото цього конкретного ущільнення.
Ось ця «нудна» практика: перевіряйте фізичний шлях потоку в рамках контролю змін. Це не принесе епічного постмортему. І це добре.
Моделі потоку повітря, які важливі для стійок і шасі
1) Спереду назад проти ззаду вперед: виберіть один для макета коридору
У більшості дата-центрів холодний коридор спереду стійок, гарячий — ззаду. Сервери розраховані всмоктувати холодне повітря спереду й виштовхувати тепле ззаду. Якщо ви встановите пристрій зі зворотним потоком у такий макет, він буде протистояти кімнаті. Можливо, ви його ще «охолодите», якщо кімната надмірно розрахована, але ви нагрієте неправильний коридор і отруїте впуск усіх поруч.
Змішувати напрями потоку в одній стійці можливо, але це вимагає свідомого проєктування: containment, повітроводи або сегрегація. «Можливо» не означає «добре». Якщо ви не любите пояснювати фінансам, чому платіж за охолодження зріс, а доступність впала — не робіть так.
2) Статичний тиск і чому вашому шасі це важливо
Щільні радіатори, кошики дисків і фільтри потребують тиску. Вентилятор, що крутився у неправильному напрямку, не просто рухає менше повітря; він може порушити зони тиску, що проштовхують повітря через обмежені ділянки. Ось чому ви бачите дивні результати: температура CPU може виглядати нормально (бо якийсь близький вентилятор дує через CPU), а VRM і DIMM гарячі (бо передбачуваний повітропровід впав).
3) Рециркуляція: тихий вбивця
Рециркуляція — це коли витяжне повітря повертається у впуск без охолодження. Вона відбувається на рівні стійки (гаряче повітря огинає боки чи верх), і всередині шасі (гаряче повітря зациклюється біля стіни вентиляторів через щілини, відсутні заглушки або перевернуті вентилятори).
Добрий спосіб уявити: якщо ваша система переробляє власну витяжку, ви фактично працюєте як обігрівач, що записує дані.
Короткий жарт №2: Рециркуляція — як повторне використання гущі кави: технічно ви робите каву, але ніхто не задоволений.
4) Контрольні петлі: чому об/хв вентиляторів можуть брехати
Керування вентиляторами — це петля зворотнього зв’язку: датчики керують PWM вентиляторів, вентилятори змінюють потік повітря, потік змінює температури, температури змінюють покази датчиків. Переверніть потік або зруйнуйте шлях — і петля стає нестабільною. Ви побачите коливання: вентилятори нарощують і знижують об/хв, температури стрибають, машина звучить, ніби намагається злетіти. Це не характер, це система керування, що реагує на світ, який більше не відповідає її моделі.
5) Припущення щодо потоку в шасі зберігання
Шасі для зберігання часто передбачають: повітря заходить через відсік дисків, проходить уздовж корпусів дисків, потім через бекплейн і контролери, а потім виходить. Зворотний порядок означає, що ви можете охолоджувати контролери в першу чергу, голодуючи диски, або втягувати тепле повітря з контролерної зони у відсік дисків. В обох випадках диски стають тепловим синком для всього іншого — а це погано для довготривалої надійності.
Одна цитата (парафраз)
Gene Kranz (парафраз): Будьте суворими й компетентними — дійте на основі того, що система вам каже, а не на тому, чого ви хочете вірити.
Поширені помилки: симптом → корінь проблеми → виправлення
Цей розділ навмисно конкретний. Це шаблони, які ви можете зіставити зі своїм безладом.
1) Вентилятори на високих обертах, а температури все одно ростуть
Симптом: Об/хв вентиляторів піднімаються майже до максимуму; температури CPU/DIMM/VRM ростуть; дельта витяжки лишається низькою.
Корінь: Путь повітря порушено: перевернутий модуль, відсутній бланк, відкриті заглушки PCI, або обхід навколо стіни вентиляторів.
Виправлення: Фізична інспекція: перевірте орієнтацію панелей вентиляторів (стрілки), всі модулі мають однакові номери частин, щілини встановлені, заглушки присутні. Лише після цього перевіряйте режим керування та розташування датчиків.
2) Впуск виглядає нормально, але VRM і DIMM гарячі
Симптом: Датчики «впуску» та «навколишнього середовища» показують нормально; CPU може бути в нормі; датчики VRM/DIMM влучають у попередження.
Корінь: Обхід повітря всередині шасі: перевернутий вентилятор у одній зоні, пропущена пінна прокладка, пучок кабелів блокує повітропровід, або панель вентиляторів не щільно посаджена.
Виправлення: Відкрийте шасі (в вікні обслуговування): перевірте щілини, шукати прогалини біля стіни вентиляторів, впевніться, що кабелі не блокують повітропровід. Пересадіть панелі. Підтвердіть виправлення, перевіривши дельту витяжки під навантаженням.
3) Диски гарячі після «рутинного» сервісного відвідування
Симптом: Температура дисків піднімається на 5–15°C вище за базовий рівень; з’являються SMART помилки; rebuild-и тривають довше.
Корінь: Панель вентиляторів замінена на варіант з неправильним напрямом, або відсутній бланк/повітряний затвор, через що повітря оминає корпуси дисків.
Виправлення: Перевірте правильні SKUs вентиляторів; поставте заглушки в місця дисків; переконайтесь, що передня панель/фільтр встановлені правильно. Порівняйте температури дисків між відсіками — якщо гарячі лише колонки, підозрюйте локальну перешкоду або перевернутий вентилятор поруч.
4) Поведінка «перемішаних» гарячого/холодного коридору
Симптом: Холодний коридор відчувається теплішим, ніж зазвичай; гарячий коридор здається змішаним; сусідні стійки мають підвищені температури впуску.
Корінь: Один пристрій зі зворотним потоком (комутатор або апарат) встановлений у стандартний макет коридору і дує витяжкою в холодний коридор.
Виправлення: Перемістіть пристрій у відповідний слот або замініть на варіант із правильним напрямком потоку. Додайте чітке маркування на лицьових панелях: «AIRFLOW: FRONT->BACK» або «BACK->FRONT».
5) Термальні тривоги відбуваються лише вночі / під час пакетних задач
Симптом: Вдень все добре; вночі пакетні роботи викликають перегрів; вентилятори кричать; продуктивність падає.
Корінь: Маргінальне охолодження через перевернутий вентилятор або відсутній бланк; навантаження витягує систему за межі запасу.
Виправлення: Не переносьте роботу як «виправлення». Виправте дефект потоку повітря, потім повторіть тест навантаження. Розгляньте сповіщення про тренди, а не лише про пороги.
6) Заміна вентилятора «виправляє» шум, але не проблему
Симптом: Ви замінили шумний вентилятор; система все ще гаряча; шум повертається.
Корінь: Шум був симптомом системи, що компенсує проблеми шляху повітря. Заміна вентилятора повертає увагу, а не фізику.
Виправлення: Перевірте всю стіну вентиляторів і ущільнення. Якщо один модуль перевернутий, інші будуть працювати важче і голосніше.
Контрольні списки / покроковий план
Покроковий план для підозри на інцидент через вентилятор встановлений навпаки
- Стабілізуйте пацієнта: зменште навантаження, призупиніть rebuild-и/скруби, перемістіть трафік, якщо можливо. Термальне ушкодження накопичується і має нелінійний характер.
- Підтвердіть орієнтацію коридорів: визначте холодний і гарячий коридори для стійки. Не довіряйте міткам; вони можуть брехати.
- Фізична перевірка потоку: перевірте напрям впуску/витяжки на кінцях шасі за допомогою стрічки/серветки і руки. Якщо напрям протирічить очікуваному макету — зупиніться.
- Огляньте модулі вентиляторів: перевірте стрілки, етикетки з номерами частин і орієнтацію. Переконайтесь, що всі модулі однакові та щільно встановлені.
- Перевірте щілини та заглушки: заглушки відсікiв, прикриття PCIe, внутрішні повітропроводи, пінні ущільнення. Відсутні «пластикові дурниці» часто є коренем.
- Задокументуйте датчики до і після: зафіксуйте впуск/витяжку/CPU/VRM/DIMM температури та об/хв вентиляторів. Вам потрібні докази до/після, а не відчуття.
- Поверніть автоматичне керування: переконайтесь, що BMC у адекватному режимі (зазвичай автоматичний), якщо нема документованої причини для ручного режиму.
- Підтвердіть під навантаженням: прогрійте контрольоване навантаження і переконайтесь, що дельта витяжки і температури компонентів стабілізуються. Не святкуйте перемогу на холостому ходу.
- Слідкуйте за дисками і PCIe: упевніться, що лічильники NVMe перестали швидко зростати; перевірте dmesg на скидання; перевірте SMART температури.
- Замкніть цикл: оновіть runbook з фото правильної орієнтації вентиляторів, зафіксуйте номери частин і додайте пост-обслуговувальний крок по валідації теплового режиму.
Профілактичний чекліст для інсталяцій і сервісних візитів
- Позначуйте напрямок потоку на зовнішніх панелях шасі (фронт і тильна частина). Зробіть це неможливим ігнорувати.
- Ведіть список затверджених номерів частин модулів вентиляторів для кожної моделі шасі, включно з варіантами напрямку потоку.
- Вимагається двоосібна перевірка після будь-якої заміни панелі вентиляторів або відкриття шасі.
- Тримайте в запасі заглушки та бланки для дисків; їхня відсутність — повторювана «пізніше зробимо» помилка.
- Після роботи запускайте 10–15 хвилинний тест навантаження і фіксуйте дельту впуск/витяжка та датчики гарячих зон.
- Базуйте температури дисків по моделям у моніторингу; налаштуйте тривоги на відхилення від бази, а не лише на абсолютні значення.
- Раз на квартал перевіряйте стійки на наявність змішаних напрямків потоку, особливо після оновлень мережі.
FAQ
1) Як визначити, чи вентилятор встановлений навпаки, не відкриваючи шасі?
Перевірте напрям потоку біля впускних і витяжних ґрат за допомогою серветки/стрічки, потім порівняйте температури впуску й витяжки під навантаженням. Якщо витяжка не тепліша — підозрюйте порушення шляху повітря.
2) Хіба сервери не мають захисту, що запобігає пошкодженню?
У них є захисти від негайної катастрофи: тротлінг і вимикання. Вони не запобігають падінню продуктивності, підвищенню кількості помилок або довготривалому зношуванню від стійко високих температур.
3) Чому система повідомляє «вентилятор OK», якщо він встановлений навпаки?
Багато систем перевіряють лише об/хв і електричну присутність. Вентилятор, встановлений навпаки, може крутитися з очікуваними обертами, але рухати повітря в неправильному напрямку або працювати проти системного тиску.
4) Чи може один перевернутий вентилятор справді спричинити помилки дисків?
Так, особливо в щільних шасі для зберігання, де охолодження спрямовано. Один перевернутий модуль може спотворити тиск, створити гарячі ділянки біля бекплейна і підвищити температури дисків настільки, що зростають повторні спроби і таймаути.
5) Чи буває правильним напрямок «ззаду вперед»?
Звісно. Деяке мережеве обладнання та спеціалізовані стійки спроектовані для цього. Правило не в «завжди спереду назад», а в «погоджуйте напрямок пристрою з дизайном кімнати і стійки, послідовно».
6) Чи варто компенсувати підвищенням обертів або зміною кривих вентиляторів?
Не як основний варіант. Ви можете тимчасово підняти оберти, щоб виграти час, але якщо напрям/шлях повітря неправильні, ви платите за більше шуму і енергії, але все одно перегріваєте не ті компоненти.
7) Який найкращий датчик для сповіщення про цю проблему?
Використовуйте комбінацію: температура впуску, температура витяжки і щонайменше один датчик гарячої зони (CPU package, VRM, DIMM або температура бекплейна/дисків). Сповіщайте про аномальні дельти і тренди, а не лише про один поріг.
8) Як уникнути змішування напрямків потоку в стійці під час розширення?
Фіксуйте напрям потоку як атрибут в CMDB або системі обліку активів, маркуйте пристрої фізично і вимагаєте перевірки напрямку при огляді розташування стійки.
9) Що робити, якщо у моєї стійки немає чіткого налаштування холодного/гарячого коридору?
Тоді ви живете на позиченому термальному везінні. Стандартизируйте напрям потоку для кожної стійки і додайте containment або хоча б заглушки і дисципліну кабелів. Інакше перевернуті вентилятори будуть тільки однією з ваших проблем.
10) Чи завжди можна покладатися на вилиті стрілки на вентиляторах?
Зазвичай так, але не покладайтеся лише на одну підказку. Перевіряйте і стрілки, і напрям потоку в реальності на ґратах шасі. Якщо стрілки й реальність суперечать — довіряйте реальності і розслідуйте невідповідність номерів частин.
Висновок: наступні кроки, які ви реально можете зробити
Вентилятори, встановлені навпаки, — це не рідкісний крайній випадок. Це передбачуваний результат гарячково-змінних частин, SKUs з різним напрямком потоку й людей, що працюють швидко в галасливих кімнатах. Виправлення не в «краще навчати людей». Виправлення — зробити правильну інсталяцію важкою для помилки і зробити неправильну інсталяцію легко помітною.
Зробіть наступне:
- Додайте мітки напрямку потоку на кожний важливий лицьовий і тильний бік пристрою (особливо комутатори і шасі зберігання).
- Оновіть runbook з пост-обслуговувальною тепловою валідацією: зафіксуйте дельту впуск/витяжка, об/хв вентиляторів і температури дисків під коротким навантаженням.
- Забезпечте правильність номерів частин для модулів вентиляторів і лотків. «Сумісно» — не специфікація.
- Налаштуйте сповіщення про аномалії (занадто низька дельта витяжки, відхилення температур дисків від бази, зростання лічильників термовходів NVMe), щоб вловити проблему до інциденту.
- Тримайте заглушки і щілини в запасі і розглядайте їх відсутність як серйозний ризик, бо це так.
Якщо ви візьмете одну сильно виражену пораду: не налагоджуйте фізику за допомогою софтових регуляторів. Коли потік повітря йде не туди, найкоротший шлях до надійності — буквальний: виправте напрям.