Ви переклеюєте пасту, щоб система працювала холодніше. А потім машина не завантажується, або вона завантажується й сильніше тротлить, ніж раніше, або «працює» до місяця, після чого вентилятори виводять на максимуми, а кадри підлагують. Ви не просто покращили охолодження — ви відкрили режим відмови, що поводиться як переривчастий баг накопичувача: його важко відтворити, важко діагностувати й він з’являється в найневідповідніший час.
Рідкий метал — найспокусливіша «легка перемога» в ентузіастських рішеннях для термоконтролю: блискучий, науковий і часто ефективний. Він також множить ризики. У виробничому контексті це зміна, що підвищує продуктивність і одночасно зменшує запас безпеки — якщо ви не ставитесь до нього як до небезпечної речовини з чітким регламентом, а не як до зубної пасти.
Чому рідкий метал дає збої (і чому спершу все здається нормальним)
Термічні інтерфейсні матеріали на основі рідкого металу (зазвичай сплави на основі галію) можуть передавати тепло набагато ефективніше за звичні пасти. Це маркетингова привабливість. Оперативна реальність така: вони провідні електрично, вони змочують поверхні інакше, ніж паста, і вони реагують з певними металами. Така комбінація робить їх менш схожими на витратний матеріал і більше — на низьков’язку хімію, яка прагне «помандрувати».
Більшість «катастроф із рідким металом» не є драматичними миттєвими феєрверками. Це повільні відмови:
- Крихітна краплина мігрує протягом тижнів термального циклу й зрештою створює місток між контактами.
- Гальванічна корозія тихо руйнує інтерфейс радіатора, поки тиск контакту не змінюється й температури не піднімаються.
- Утворюються оксидні плівки, сплав загущується, контакт погіршується — що виглядає як регресія прошивки й викликає тротлінг.
Це також ідеальна буря людського фактора. Заміни рідким металом часто виконують пізно ввечері, у поспіху, з упевненістю з YouTube і очікуваннями безвідмовності в продакшні. Саме тоді виникає класична причина простою: «зміна + без плану відкату».
Думка: якщо система критична для задач — робоча станція для дедлайнів, ноутбук для подорожей, вузол у домашньому кластері з резервними копіями — рідкий метал виправданий лише коли ви можете також виправдати контролі: ізоляцію, контейнмент, графік інспекцій і задокументований шлях повернення до звичної пасти.
Для розрядки настрою: рідкий метал — це безкоштовний апгрейд продуктивності з додатковим DLC під назвою «Розширена діагностика».
Фізика, яка робить його привабливим
Значення теплопровідності для сплавів на основі галію часто наводять у десятках Вт/м·К. Стандартні силіконові пасти можуть бути значно нижчими. Реальні різниці залежать від тиску кріплення, плоскості кристала, якості IHS і конструкції радіатора. Але рідкий метал справді може знизити робочі температури — іноді суттєво — особливо при прямому контакті з кристалом (delidded CPU) і в деяких конструкціях ноутбуків.
Властивості, що роблять його ризиковим
- Провідний: мазок по SMD-компонентах може замкнути сигнали або силові шини.
- Низька в’язкість: під тиском і при термальних циклах він може «повзти».
- Хімічно активний: галій може атакувати алюміній і легуватися з деякими поверхнями.
- Змочування поверхні: він розповзається і прилипає до металів — чудово для теплопередачі й жахливо для прибирання.
Факти й історія: як ми сюди потрапили
Контекст важливий, бо багато неправильних рішень походить із помилки: вважати рідкий метал просто «кращою пастою». Це не так. Ось конкретні факти та історичні моменти, які змінюють підхід:
- Галій плавиться близько кімнатної температури (приблизно 30°C), тому він рідкий в нормальних умовах й може бути тверднуватим у холодній кімнаті.
- Галій агресивно атакує алюміній, дифундувавши в нього і послаблюючи структуру. Ось чому алюмінієві радіатори й рідкий метал — погана пара.
- Нікелеве покриття широко використовується на мідних радіаторах і поверхнях IHS, бо воно дає більш стабільний бар’єр і зменшує пряму реакцію порівняно з голою міддю.
- Delidding став масовим, бо в деяких поколіннях CPU внутрішній TIM обмежував теплопередачу; ентузіасти замінювали його, щоб знизити температури й покращити режим бусту.
- OEM-виробники ноутбуків почали використовувати рідкий метал на окремих моделях для тонких шасі — доводячи, що він може бути надійним, коли його інженерно використовують з контейнментом і QA, а не коли його наносять на кухонному столі.
- Теплова продуктивність не монотонно зростає з «більшою кількістю TIM»; надлишок може збільшити ризик pump-out і міграції, не покращуючи якість контакту.
- Термічні цикли — це механічний тест на стрес: повторне розширення/стиснення кристала, IHS і радіатора може поступово переміщувати матеріали. Тому «все працювало два тижні» — не доказ стабільності.
- Багато «таємничих» проблем після переклеювання пов’язані з кріпленням: нерівний тиск, допуски стояків або забутий проставлення можуть давати гірші температури, незалежно від типу TIM.
- ESD-пошкодження й розлив рідкого металу плутають, бо обидва можуть виглядати як різкий no-boot після робіт; різниця в тому, що рідкий метал часто лишає видимі сліди, якщо знати, де шукати.
Одна перефразована ідея, яку варто мати на столі, приписувана Джину Кранцу: перефразована ідея: «жорсткість і компетентність» перемагають хитрість, коли щось іде не так.
Це культура надійності в одному реченні.
Режими відмов, що перетворюють «холодніше» на «RMA»
1) Електричні короткі замикання: очевидне, яке ви все одно пропускаєте
Рідкий метал провідний. Йому не потрібно замикати великий зазор. Крихітна кількість між сусідніми SMD-контактами може створити переривчасті збої — цикли завантаження, нестабільність USB, випадкові WHEA-помилки, артефакти GPU. Переривчастість робить це дорогим: одне чисте завантаження не дає впевненості.
Куди він зазвичай йде:
- Вздовж краю пакета CPU/GPU ноутбука до сусідніх пасивів.
- Під бортик теплового розсіювача або в зони кріплення сокету.
- На компоненти VRM поблизу кристала, бо тиск радіатора «видавлює» його назовні.
Чому це неправильно діагностують: бо система іноді завантажується, а логи звинувачують драйвери, прошивку або «невідому помилку апаратури». Короткі замикання нудні. Вони рідко ввічливо повідомляють про себе.
2) Гальванічна корозія та несумісність матеріалів
Галій і алюміній — класичне «не робіть так» поєднання. Але навіть з міддю можна отримати зміни поверхні: плями, легування, шорсткість. Нікелеве покриття допомагає. Воно не чарівний щит, якщо воно тонке, подряпане або погано зв’язане.
Схема відмов: температури поступово погіршуються, вентилятори крутяться швидше. Ви переклеюєте знову, бачите ямки на поверхні радіатора й розумієте, що ви не «обслуговуєте», а споживаєте радіатор.
3) Pump-out, висихання та оксидні плівки
Рідкий метал може утворювати оксиди. Він також може перерозподілятися під впливом тиску й термальних циклів. Контактна пляма над гарячими точками може стоншитися, тоді як матеріал мігрує назовні. Результат: «середня» температура може виглядати нормально, але дельта гарячої точки зростає, і CPU тротлить раніше.
4) Відмова контейнменту в ноутбуках: гравітація й рух — реальні фактори
Десктопи стоять на місці. Ноутбуки подорожують. Їх повертають, пакують, штовхають, гріють у рюкзаку, ставлять на столи в літаках. Механічне середовище жорсткіше. OEM-реалізації рідкого металу в ноутбуках часто включають піноутворювачі, герметики або конформні бар’єри. Якщо ви наносите рідкий метал без контейнменту, ви ставите під удар плату на фоні повітряних турбулентностей.
5) Тиск кріплення й крутний момент: прихований вбивця
Багато «проблем з рідким металом» насправді — проблеми монтажу. Якщо ви не затягуєте гвинти в хрестовому порядку або пропустили пружинний гвинт, ви отримуєте нерівномірний тиск. Рідкий метал тоді «виглядає» на місці, але теплопередача погана, бо інтерфейс не рівномірний.
6) Оманливі метрики успіху: «нижчі прості температури» — не перемога
Температури в просте можуть покращитися, а стійкість при навантаженні погіршитися. Правильні метрики — це стійка потужність пакета, частоти під навантаженням і дельта гарячої точки до середнього. Ставтесь до цього як до інженерії продуктивності: потрібне повторюване навантаження та базова лінія.
Друга й остання жарт: рідкий метал — єдиний апгрейд, де «він працює холодніше» може означати «він скоро не працюватиме взагалі».
Три корпоративні міні-історії з передової
Міні-історія №1: Інцидент через неправильне припущення
Медіакоманда мала кілька топових ноутбуків для монтажу на виїзді. Вони завжди грілися, завжди гуділи, а монтажники скаржилися, що рендери сповільнюються під час процесу. Доброякісний IT-технік — розумний, практичний, охочий допомогти — запропонував рідкий метал як рішення. Припущення було простим: «це просто краща термопаста».
Переклеювання зробили акуратно, принаймні за аматорськими стандартами. Температури впали першого дня. Редактор був у захваті. Через два тижні, під час клієнтського заходу, ноутбук перезавантажився тричі під навантаженням і потім відмовився завантажуватися. Запасний пристрій зазнав схожої відмови наступного дня.
Повернувшись на робочу станцію, на материнській платі виявили крихітні металеві залишки біля силових ділянок GPU. Не потоп. Сяйво. Достатньо. Термальні цикли плюс рух сприяли міграції. Під мікроскопом було видно: невеликий міст через сусідні компоненти, які не мали змикатися.
Неправильне припущення було не в тому, що «рідкий метал працює». Воно полягало в припущенні, що споживчий метод переноситься на флот мобільних пристроїв. Вартість була не лише в платах. Це був ризик події, довіра клієнта і неплановий час на відлагодження переривчастих апаратних збоїв, що нагадують програмні.
Вирішення: політика — заборона рідкого металу на мобільних пристроях, якщо OEM цього не передбачив, і вимога до заходів з контейнменту і графіка інспекцій. Команда також стандартизувала зниження напруги й обмеження потужності як перший крок — менш ефектно, але надійніше.
Міні-історія №2: Оптимізація, що обернулась проти
Невеликий кластер обчислювальних вузлів використовував кілька корпусів робочих станцій для CI-будів і тестів з GPU. Хтось помітив, що під тривалим навантаженням температури упаковки CPU високі й частоти падають. Було бажання вичавити більше продуктивності без купівлі додаткових вузлів. На дошці з’явився план: рідкий метал плюс delid.
«Оптимізація» спрацювала — спершу. Бенчмарки покращилися. Графіки виглядали добре. Усі заспокоїлися. Через три місяці почалася нестабільність вузлів: спорадичні machine check exception, PCIe-пристрої зникали з шини, випадкові перезавантаження. Відмови були настільки рідкі, що їх ігнорували, доки вони не зіпсували надійність збірки.
Вони ганяли драйвери, оновлювали BIOS, міняли ОЗП. Навіть підозрювали UPS. Нарешті, під час розбирання виявили, що рідкий метал міг трохи мігрувати за межі призначеної ділянки, і холодна пластина радіатора мала слабкі плями й нерівний контакт. Інтерфейс не був катастрофічним; він був непослідовним. За певних теплових станів система отримувала помилки, що нагадували маргінальне живлення.
Вони відкотилися до якісної звичайної пасти, додали кращий охолоджувач і обмежили стійку потужність пакета, щоб зберегти стабільність. Продуктивність трохи впала, але кількість відмов значно скоротилась. Це та компроміс, який потрібен у продакшні: передбачувана продуктивність важливіша за пікову.
Урок не в «ніколи не оптимізувати». Урок у «оптимізуй систему цілком». Якщо ви підвищуєте продуктивність, але збільшуєте дисперсію, ви створюєте податкове навантаження на надійність, яке доведеться платити з відсотками.
Міні-історія №3: Нудна, але правильна практика, що врятувала
Дослідницька група мала кілька десктопних робочих станцій для довготривалих симуляцій. Один інженер захотів спробувати рідкий метал, щоб знизити шум і покращити стійкість частот. Керівник IT не заборонив це. Натомість вони поставилися до цього як до контрольованої зміни в продакшн-середовищі.
Вони задокументували базу: стійкі температури під навантаженням, криві вентиляторів, частоти, потужність пакета і метрики стабільності. Підготували комплект відкату: ізопропіл, безворсові серветки, конформне покриття, каптон-стрічку, звичайну пасту і запасні кріпильні елементи. Також вимагали двоосібну процедуру: один наносить, інший інспектує під збільшенням перед монтажем.
Після нанесення вони провели burn-in: кілька термальних циклів, довгі стрес-тести й перевірку моменту затягування після охолодження. Вони також поставили нагадування перевірити через два тижні та через два місяці. Це було нудно й здавалося надмірним.
На двотижневій перевірці виявили початок міграції до краю IHS — не драматично, але достатньо, щоб виправдати переробку й кращу герметизацію. Тому витрати були малі: очистити, нанести знову правильно, додати контейнмент і продовжити роботу.
Нудна практика врятувала ситуацію: базові метрики, парна інспекція й заплановані перевірки. Це той самий підхід, що запобігає витокам у системах збереження даних: зміні не довіряють, поки вона не витримає час і навантаження.
План швидкої діагностики (перші/другі/треті перевірки)
Коли машина поводиться дивно після «апгрейду» рідким металом, ваша задача — швидко знайти вузьке місце і вирішити, чи маєте справу з терміками, живленням чи електричним коротким. Ось практичний порядок, який мінімізує марну витрату часу.
Перше: з’ясуйте, термальний це тротлінг чи нестабільність
- Перевірте прапорці тротлінгу й температури під відомим навантаженням. Якщо система залишається стійкою, але частоти падають — ви в домені терміки/прошивки.
- Якщо є перезавантаження, WHEA/MCE або відключення пристроїв, підозрюйте електричні проблеми або маргінальний контакт, що спричиняє транзієнти.
Друге: перегляньте логи на предмет апаратних підказок
- Шаблони WHEA/MCE, помилки PCIe AER, скидання GPU і натяки на раптові втрати живлення.
- Події термального вимкнення проти watchdog-скидань.
Третє: зробіть фізичний огляд перед «натисканням» софту
- Якщо бачите залишки поза зоною контакту — зупиняйтесь. Очистіть правильно і повертайтесь у безпечний стан.
- Перевірте тиск радіатора, порядок гвинтів, стояки та ізоляційні бар’єри.
Ключові рішення
- Тільки термальний тротлінг: перевірте монтаж, покриття й ліміти потужності; розгляньте відкат до пасти, якщо варіативність висока.
- Переривчаста нестабільність: припускайте провідне забруднення, поки не доведено протилежне; очистіть і огляньте під збільшенням.
- Немає завантаження: мінімальні тести під живленням, потім розбір. Не пробуйте «ще раз» постійно — не закріпіть проблему.
Практичні завдання: команди, виводи й рішення (12+)
Ось польові завдання, які можна виконати на Linux-робочих станціях/серверах, щоб вирішити, чи маєте справу з термічним тротлінгом, обмеженням потужності чи апаратними збоями, спричиненими поганим інтерфейсом. Кожне завдання містить: команду, приклад виводу, що це означає і яке рішення прийняти далі.
Завдання 1: Підтвердіть термальний тротлінг у логах ядра
cr0x@server:~$ sudo dmesg -T | egrep -i "thrott|thermal|temperature" | tail -n 20
[Mon Jan 22 09:41:12 2026] CPU0: Core temperature above threshold, cpu clock throttled (total events = 41)
[Mon Jan 22 09:41:12 2026] CPU0: Package temperature above threshold, cpu clock throttled (total events = 41)
[Mon Jan 22 09:52:10 2026] thermal thermal_zone0: critical temperature reached, shutting down
Значення: Маються явні ядрові ознаки термального тротлінгу й можливо вимкнення через перегрів.
Рішення: Припиніть «оптимізацію» софтом. Перевірте монтаж/контакт і охолоджувальний шлях (вентилятори, пил, контакт радіатора). Розгляньте відкат до пасти, якщо не можете гарантувати контейнмент.
Завдання 2: Перевірте machine check errors (MCE), що вказують на апаратні проблеми
cr0x@server:~$ sudo journalctl -k -b | egrep -i "mce|machine check|hardware error|whea" | tail -n 30
Jan 22 09:33:18 server kernel: mce: [Hardware Error]: CPU 7: Machine Check: 0 Bank 27: b200000000070005
Jan 22 09:33:18 server kernel: mce: [Hardware Error]: TSC 0 ADDR fef1c140 MISC d012000100000000
Jan 22 09:33:18 server kernel: mce: [Hardware Error]: PROCESSOR 2:a20f12 TIME 1705912398 SOCKET 0 APIC 14 microcode 0xffffffff
Значення: Апаратні помилки під навантаженням часто виявляються тут. Після переклеювання це може бути спричинено перегрівом, але також коротким/забрудненням або поганим контактом, що дає транзієнти.
Рішення: Якщо помилки корелюють зі стрибками температур, тримайтеся в термічній сфері. Якщо з’являються при помірних температурах або під час руху — підозрюйте міграцію/замикання рідкого металу. Плануйте розбір і чистку.
Завдання 3: Перевірте поведінку частоти CPU під навантаженням
cr0x@server:~$ lscpu | egrep "Model name|CPU max MHz|CPU MHz"
Model name: Intel(R) Core(TM) i9-12900K
CPU MHz: 4890.123
CPU max MHz: 5200.0000
Значення: Знімок лише; корисний як швидка перевірка «залипло низько?».
Рішення: Якщо CPU MHz набагато нижче очікуваної під навантаженням, перейдіть до стабільного моніторингу (наступні завдання) і підтвердьте, чи причина — ліміт потужності чи терміка.
Завдання 4: Моніторинг температур і статусу тротлінгу (Intel) через turbostat
cr0x@server:~$ sudo turbostat --Summary --quiet --interval 2 --num_iterations 5
Avg_MHz Busy% Bzy_MHz TSC_MHz PkgTmp PkgWatt
4123 92.1 4476 4200 97 189.4
4010 91.8 4361 4200 99 190.2
3720 93.0 3998 4200 100 189.9
3560 94.2 3779 4200 100 189.7
3490 94.5 3686 4200 100 189.6
Значення: Температура пакета близька до 100°C із падінням частот — ознака тротлінгу через температуру.
Рішення: Пересідайте охолоджувач і перевірте нанесення TIM. Якщо це ноутбук — розгляньте тимчасове обмеження потужності, доки не зробите повторну обробку рідкого металу безпечно.
Завдання 5: Моніторинг температур AMD CPU (приклад) через sensors
cr0x@server:~$ sensors
k10temp-pci-00c3
Adapter: PCI adapter
Tctl: +95.5°C
Tdie: +95.5°C
nvme-pci-0100
Adapter: PCI adapter
Composite: +54.9°C
Значення: CPU дуже гарячий; NVMe в нормі. Це вказує на проблему охолодження CPU, а не на «весь корпус як піч».
Рішення: Перевірте тиск радіатора, роботу вентилятора/помпи та покриття TIM. Якщо температури відрізняються від базової, підозрюйте проблеми монтажу або деградацію TIM.
Завдання 6: Підтвердіть роботу вентиляторів і помпи
cr0x@server:~$ sensors | egrep -i "fan|pump"
cpu_fan: 2480 RPM
sys_fan1: 1320 RPM
aio_pump: 2980 RPM
Значення: Вентилятори й помпа крутяться. Це не доводить потік рідини, але виключає мертвий заголовок.
Рішення: Якщо терміки все ще погані — дивіться на контакт/інтерфейс, а не звинувачуйте спочатку криву вентиляторів.
Завдання 7: Шукайте скидання GPU або PCIe AER, що супроводжують короткі чи нестабільність
cr0x@server:~$ sudo journalctl -k -b | egrep -i "aer|pcie|nvrm|amdgpu|gpu reset" | tail -n 30
Jan 22 10:05:44 server kernel: pcieport 0000:00:1c.0: AER: Corrected error received: 0000:01:00.0
Jan 22 10:05:44 server kernel: pcieport 0000:00:1c.0: AER: PCIe Bus Error: severity=Corrected, type=Physical Layer
Jan 22 10:05:47 server kernel: NVRM: Xid (PCI:0000:01:00): 79, GPU has fallen off the bus.
Значення: GPU «випав з шини». Після робіт з рідким металом поруч із GPU або VRM трактуйте це як можливе забруднення або проблему монтажу, а не тільки як каприз драйвера.
Рішення: Негайний фізичний огляд. Не продовжуйте стрес-тести — ви можете погіршити пошкодження.
Завдання 8: Перевірте, чи система досягає лімітів потужності (часто плутають із «поганою пастою»)
cr0x@server:~$ sudo turbostat --quiet --Summary --interval 1 --num_iterations 3 | cat
Avg_MHz Busy% Bzy_MHz PkgTmp PkgWatt
3600 95.0 3780 82 125.0
3590 95.3 3771 83 125.0
3610 95.1 3792 83 125.0
Значення: Стабільна платформа по ватах з помірними температурами може вказувати на обмеження потужності, а не на термічний тротлінг.
Рішення: Якщо температури в нормі, а продуктивність обмежена — налаштуйте ліміти потужності в BIOS або політики ОС, а не переробляйте TIM.
Завдання 9: Перевірте governor CPU і профіль живлення (поширене після обслуговування)
cr0x@server:~$ cat /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor
powersave
Значення: У вас режим powersave. Це може виглядати як «термальна проблема», бо частоти не тримаються.
Рішення: Переключіться на performance для тестування, потім виберіть політику свідомо.
cr0x@server:~$ sudo cpupower frequency-set -g performance
Setting cpu: 0
Setting cpu: 1
Setting cpu: 2
Setting cpu: 3
Значення: Гувернер змінено для тесту.
Рішення: Заново запустіть навантаження. Якщо продуктивність повернулася без стрибків температури, ваша «проблема з рідким металом» була просто зсувом політик.
Завдання 10: Запустіть контрольований стрес-тест CPU і спостерігайте температури (не імпровізуйте)
cr0x@server:~$ sudo apt-get install -y stress-ng
Reading package lists... Done
Building dependency tree... Done
The following NEW packages will be installed:
stress-ng
cr0x@server:~$ stress-ng --cpu 0 --timeout 60s --metrics-brief
stress-ng: info: [4120] setting to a 60 second run per stressor
stress-ng: info: [4120] dispatching hogs: 16 cpu
stress-ng: info: [4120] successful run completed in 60.01s
stress-ng: info: [4120] metrics: 12345.67 bogo ops/s
Значення: У вас повторюване 60-с відкрите навантаження для порівняння «до/після».
Рішення: Паралельно з turbostat/sensors. Якщо ви миттєво потрапляєте в термальні ліміти — це монтаж/TIM/радіатор. Якщо стабільно — рухайтесь далі.
Завдання 11: Перевірте SMART/NVMe на помилки (бо проблеми з теплом можуть каскадувати)
cr0x@server:~$ sudo smartctl -a /dev/nvme0n1 | egrep "Temperature:|Critical Warning|Media and Data Integrity Errors|Error Information Log Entries"
Critical Warning: 0x00
Temperature: 55 Celsius
Media and Data Integrity Errors: 0
Error Information Log Entries: 0
Значення: NVMe у доброму стані. Це виключає наратив «все перегрілося».
Рішення: Зосередьтесь на інтерфейсі CPU/GPU і навколо VRM — там, де робився рідкий метал.
Завдання 12: Перевірте патерни перезавантажень і втрат живлення
cr0x@server:~$ last -x | head -n 12
reboot system boot 6.6.9-rt Mon Jan 22 10:12 still running
shutdown system down 6.6.9-rt Mon Jan 22 10:10 - 10:12 (00:02)
reboot system boot 6.6.9-rt Mon Jan 22 09:58 - 10:10 (00:12)
reboot system boot 6.6.9-rt Mon Jan 22 09:41 - 09:58 (00:17)
Значення: Кілька коротких аптаймів свідчать про скидання. Якщо вони співпадають з подіями навантаження — підозрюйте термальне вимкнення або апаратний дефект.
Рішення: Корелюйте з journalctl за часовими позначками. Якщо немає чистого логованого вимкнення — підозрюйте раптову втрату живлення (коротке/захист VRM) або жорстке термальне вимкнення.
Завдання 13: Перевірте ACPI thermal zones (корисно на ноутбуках)
cr0x@server:~$ for z in /sys/class/thermal/thermal_zone*/type; do echo "$z: $(cat $z)"; done
/sys/class/thermal/thermal_zone0/type: x86_pkg_temp
/sys/class/thermal/thermal_zone1/type: acpitz
cr0x@server:~$ for t in /sys/class/thermal/thermal_zone*/temp; do echo "$t: $(cat $t)"; done
/sys/class/thermal/thermal_zone0/temp: 98000
/sys/class/thermal/thermal_zone1/temp: 45000
Значення: Пакет CPU на 98°C, а ACPI-зона в нормі. Це локалізує проблему до охолодження CPU, а не до навколишнього простору.
Рішення: Трактуйте як проблему інтерфейсу/монтажу. Якщо це після рідкого металу — плануйте розбір і перевірку контейнменту й покриття.
Завдання 14: Перевірте, чи вентилятори штучно не обмежені профілем
cr0x@server:~$ systemctl status thermald --no-pager
● thermald.service - Thermal Daemon Service
Loaded: loaded (/lib/systemd/system/thermald.service; enabled; preset: enabled)
Active: active (running) since Mon 2026-01-22 09:11:03 UTC; 1h 2min ago
Значення: thermald активний; на деяких системах він може впливати на поведінку охолодження.
Рішення: Не вимикайте термальну безпеку назавжди. Для дебагу можна порівняти поведінку з/без утиліт вендора, але виправлення фізичне, якщо інтерфейс неправильний.
Типові помилки: симптом → корінна причина → виправлення
Це розділ, який, хотілося б, більше людей прочитали перед тим, як відкривати корпус.
Симптом: Температури покращилися тиждень, а потім стали гіршими за раніше
Корінна причина: Міграція/pump-out або утворення оксидної плівки, що зменшує ефективний контакт у гарячих точках; іноді в поєднанні з нерівномірним тиском.
Виправлення: Розбір, повне очищення, повторне нанесення мінімальною кількістю й правильним розподілом, додати контейнмент (піно-бар’єр, герметик, залежно від платформи), перевірити рівномірний крутний момент у хрестовому порядку. Якщо не можете організувати контейнмент — відкотіться до якісної пасти.
Симптом: Випадкові перезавантаження під навантаженням, нема очевидних софтових логів
Корінна причина: Провідне забруднення, що викликає переривчасті короткі; захист VRM спрацьовує і виглядає як втрата живлення.
Виправлення: Припиніть повторні спроби завантаження. Розберіть і огляньте під збільшенням краю кристалів і сусідні пасиви/VRM. Очистьте ретельно; якщо залишки потрапили в щільні місця, розгляньте професійне ультразвукове чищення замість скребків.
Симптом: Система завантажується, але GPU «випадає з шини» або показує артефакти
Корінна причина: Рідкий метал біля пакета GPU міг мігрувати на SMD-компоненти; або контакт радіатора нерівномірний, спричиняючи нестабільність гарячих точок.
Виправлення: Фізичний огляд і переробка. Також перевірте тиск кріплення і відсутність відсутніх теплових прокладок, що підтримують площину радіатора.
Симптом: Немає завантаження після переклеювання; вентилятори крутяться, монітора немає
Корінна причина: Замкнуті шини поруч із CPU/GPU або забруднення під кріпильними елементами; альтернативно — ESD-пошкодження при роботі.
Виправлення: Спершу огляньте на видимі сліди рідкого металу (це найпростіша оборотна причина). Очистьте. Якщо слідів нема і прогресу немає — переходьте до діагностики на рівні плати.
Симптом: Температури CPU в нормі, але продуктивність обмежена й частоти низькі
Корінна причина: Політики обмеження потужності, оновлення прошивки, що скинули PL1/PL2, або зміни governor в ОС — не пов’язано з рідким металом.
Виправлення: Перевірте налаштування живлення, ліміти BIOS і governor. Переклеюйте TIM тільки якщо температури справді є причиною.
Симптом: Поверхня радіатора виглядає в плямах/з ямками після очищення
Корінна причина: Реакція/легування з голою міддю або пошкоджене нікелеве покриття; можливе залучення алюмінію, якщо радіатор не сумісний.
Виправлення: Не наносьте рідкий метал на пошкоджену поверхню. Замініть радіатор або повертайтесь до пасти. Якщо задіяний алюміній — припиніть негайно й замініть компонент.
Симптом: Ноутбук працює на столі, але відмовляє після подорожі
Корінна причина: Рух і термальні цикли перемістили рідкий метал за межі призначеної межі; контейнмент відсутній або недостатній.
Виправлення: Переробіть з належним контейнментом або відкотіться до OEM-сумісного методу. Ставтеся до мобільних пристроїв з рідким металом як до особливого випадку, а не як до настільної звички.
Чек-листи / покроковий план
Чек-лист рішення: чи варто взагалі використовувати рідкий метал?
- Чи поверхня контакту радіатора покрита нікелем? Якщо не можете підтвердити — приймайте ризик.
- Чи є в контактному шляху алюміній? Якщо так — не використовуйте сплави на основі галію.
- Чи пристрій мобільний (ноутбук) або часто у зверненні? Якщо так — вимагайте контейнмент і інспекції або не робіть цього.
- Чи можете ви дозволити простої? Якщо ні — не вводьте режим відмови, який не зможете швидко обслуговувати.
- Чи маєте ви збільшення та належні засоби очищення? Якщо ні — ви не готові.
Чек-лист підготовки: що мати на столі
- ESD-ремінець і чистий, добре освітлений робочий простір
- Високий відсоток ізопропілового спирту, безворсові серветки, ватні палички
- Каптон-стрічка (термостійка) для маскування/ізоляції
- Конформне покриття або відповідний ізоляційний бар’єр (залежно від платформи)
- Праві викрутки, уважність до моменту затягування і карта гвинтів (фотографії допомагають)
- Звичайна паста для відкату
- Відомий план стрес-тесту і базові метрики
Покроково: безпечніше нанесення рідкого металу (десктоп або ноутбук з обслуговуванням)
- Спочатку база: зафіксуйте стійкі температури під навантаженням, частоти й шум. Якщо не вимірюєте — працюєте на відчуттях.
- Розбирайте повільно: фотографуйте кожен шар. Особливо розташування і товщину теплових прокладок.
- Очищайте повністю: видаліть стару пасту й будь-які залишки. Не залишайте волокон; вони стають «волоконами» для витікання.
- Замаскуйте зони ризику: використайте каптон навколо кристала/IHS, щоб зменшити ризик випадкового контакту. На bare-die захистіть сусідні SMD.
- Додайте контейнмент: піна або OEM-подібні бар’єри там, де це потрібно. Мета — утримати матеріал на місці під час циклів і руху.
- Наносьте мінімально: тонкий контрольований шар. Якщо виглядає як калюжа — це калюжа.
- Розподіляйте цілеспрямовано: забезпечте покриття контактної ділянки, не «видавлюючи» матеріал назовні. Уникайте «вичавлювання до краю».
- Кріпіть дисципліновано: затягуйте в хрестовому порядку, поступово, щоб досягти рівномірного тиску. Не затягуйте повністю один кут одразу.
- Початкове вмикання: завантажтесь у BIOS або ОС і миттєво моніторьте температури. Вимкніть, якщо температури стрибнули аномально.
- Термальний burn-in: виконайте контрольовані стрес-тести з періодами охолодження, щоб симулювати реальні цикли.
- Перевірка після: якщо платформа дозволяє, розберіть після перших циклів, щоб підтвердити відсутність міграції. Це ловить проблеми, поки вони недорогі.
- Встановіть інтервал обслуговування: якщо ви використовуєте рідкий метал, погодьтеся, що його треба інспектувати й переробляти частіше, ніж пасту.
Покроково: реагування на розлив і забруднення (не імпровізуйте)
- Негайно вимкніть живлення. Від’єднайте мережу й батарею, якщо можливо.
- Не намагайтесь завантажуватись. Повторні включення можуть перетворити відновний короткий у пошкодження компонентів.
- Розберіть і ізолюйте. Отримайте прямий доступ до ураженої ділянки; не розмазуйте контамінацію далі.
- Механічне видалення спочатку: використовуйте тампони й акуратні протирання, щоб підняти матеріал; уникайте проштовхування в щілини.
- Очищення розчинником далі: ізопропіл для оточуючого забруднення; зауважте, що сам рідкий метал часто не «розчиняється» як паста — прибирання зазвичай механічне.
- Огляньте під збільшенням. Перегляньте краї пакетів, VRM і зони роз’ємів.
- Лише після очищення: зберіть і виконайте мінімальний тест завантаження з моніторингом.
- Якщо залишки під компонентами або в щілинах: передавайте на професійне чищення/ремонт. Тут гордість не доречна.
Питання й відповіді
Чи рідкий метал завжди кращий за теплопасту?
Ні. Він може знизити температури, але підвищує ризики: провідність, міграція й реакції матеріалів. «Кращий» залежить від вашої готовності до обслуговування та режимів відмов.
Чи може рідкий метал пошкодити мій радіатор?
Так, особливо якщо маєте алюміній (не робіть цього). На міді можна побачити плями або зміни поверхні; нікелеве покриття допомагає, але не є непроникним.
Чому температури стали гіршими після нанесення рідкого металу?
Зазвичай одна з трьох причин: надмір матеріалу, що погано сідає/мігрує; нерівномірний тиск монтажу; або окиснення/міграція, що зменшує контакт у гарячих точках. Погане нанесення може бути гіршим за гарну пасту.
Який головний сигнал того, що в мене коротке через рідкий метал?
Переривчасті краші, раптові перезавантаження під навантаженням, випадіння GPU або no-boot після переклеювання — особливо якщо температури не екстремальні. Візуальний огляд часто знаходить крихітний блискучий мазок біля SMD.
Чи безпечно використовувати рідкий метал у ноутбуках?
Він може бути безпечним, коли OEM розробив контейнмент у системі охолодження. Саморобний рідкий метал у ноутбуку без контейнменту — високий ризик через рух й повороти пристрою.
Як часто потрібно перероблювати рідкий метал?
Універсального графіка немає. Деякі конфігурації працюють довго; інші деградують швидко. Якщо ви обираєте рідкий метал, готові до періодичних перевірок, особливо після початкових термальних циклів і поїздок.
Чи варто використовувати конформне покриття або каптон?
Для bare-die і щільних SMD-ділянок: так, форма ізоляції/контейнменту розумна. Каптон часто використовується для маскування; конформне покриття може додати бар’єр, але його треба наносити уважно й дати висохнути.
Моя система тротлить при 80–85°C. Це проблема рідкого металу?
Не обов’язково. Політики потужності, криві вентиляторів прошивки і сенсори гарячих точок можуть викликати консервативну поведінку. Підтвердіть через turbostat/sensors і логи, перш ніж переробляти апаратну частину.
Чи можна очистити рідкий метал ізопропілом?
Спирт допомагає очистити навколишній бруд і залишки пасти, але очищення рідкого металу часто механічне: акуратне витира
ння/піднімання. Якщо він під компонентами — спирт не вирішить проблему сам по собі.
Чи є зниження напруги безпечнішою альтернативою?
Часто — так. Зменшення потужності знижує теплове навантаження з меншим механічним і електричним ризиком. Для виробничої надійності undervolting/обмеження потужності — перший інструмент, який слід застосувати.
Наступні кроки, які ви справді можете зробити
Якщо ви розглядаєте рідкий метал, ставтеся до цього як до запиту на зміну, а не як до вихідних вихідних:
- Виміряйте базу (температури, частоти, стійка потужність) перед будь-якими діями.
- Вирішіть, чи варта ваша платформа ризику: десктопи простіші; ноутбуки вимагають контейнменту й інспекцій.
- Використайте план швидкої діагностики, якщо вже наносили і відчуваєте непорядок — не ганяйте драйвери першими.
- Зробіть відкат функцією: тримайте звичайну пасту під рукою і будьте готові повертатись, якщо варіативність або нестабільність зростають.
- Запишіть зміни — що ви зробили і коли. Майбутній ви буде втомленим і незадоволеним загадками.
Рідкий метал може бути дійсно корисним інструментом. Він також може стати рахунком за ремонт з додатковими кроками. Якщо ви хочете продуктивність — заробіть її процесом: контейнмент, інспекція й метрики. Так ви не перетворите «апгрейд охолодження» на інцидентний звіт.