Якщо ви коли-небудь бачили, як цілком справна Windows-машина перетворюється на синю листівку долі за п’ять хвилин до демо, ви знаєте це відчуття:
у кімнаті стає тихо, хтось каже «все буде добре», і всі розуміють, що не буде.
Синій екран смерті (BSOD) — це не просто екран з помилкою. Це публічний звіт про інцидент, поданий найменш підготовленій аудиторії:
кінцевим користувачам, керівникам та тій одній людині, що наполягає, ніби «комп’ютер іноді таке робить».
Що таке BSOD насправді (і чого він не є)
BSOD — це свідоме зупинення Windows, бо продовження могло б пошкодити дані, порушити межі безпеки або перетворити відновний збій
на безповоротний хаос. Це не драматизація; це контроль збитків. У термінах ядра це bugcheck: ОС виявила умову, з якою
не може безпечно впоратися, і вирішила зупинитися.
Ось чого він не є: кнопкою «Windows поганий». Більшість BSOD у продуктивних середовищах походять із одного з чотирьох наборів причин:
драйвери, апаратне забезпечення, корупція сховища або взаємодія з прошивкою/BIOS. Windows тут лише кур’єр, який змушений натягнути аварійне гальмо.
Мислення досвідченого оператора: BSOD — це судово-технічний артефакт. Ваше завдання — зберегти докази (дампи, логи),
зменшити кількість змінних (драйвери, розгін, «оптимізації») і дисципліновано перейти від «stop code» до «кореневої причини».
Жарт №1: BSOD — це спосіб Windows сказати «Я не зла, я просто розчарована», а потім відмовитися пояснювати.
Чому екран синій взагалі
Вибір кольору практичний, а не поетичний. Ранні Windows використовували текстовий режим для екрану аварії, який мав бути читабельним у мінімальних графічних режимах
і послідовним на різному обладнанні. Синій був просто фоном із високою контрастністю, який працював на відеоадаптерах того часу. Потім він випадково
став брендом і залишився назавжди.
Як ядровий збій став елементом поп-культури
Більшість програмних збоїв залишаються приватними. Мобільний додаток вилітає — його просто не видно. HTTP-запит падає — він повторюється.
Сервер помирає — ви бачите червоний графік, якщо пощастить. BSOD кричить голосно, публічно і має впізнавану естетику. Це робить його мемним.
Він також з’являється в найгірших місцях: на головних виступах конференцій, у кіосках реєстрації в аеропорту, на цифрових табло, у банкоматах, робочих станціях у лікарнях
і на ноутбуці генерального директора, коли він намагається показати, наскільки «плавно» пройшов апдейт. BSOD байдуже до вашої сюжетної арки.
Поп-культура прийняла його, бо його легко впізнати навіть нефахівцю. Синій екран — загальний символ для:
«комп’ютер має почуття». Це також символ нашої залежності від сучасних систем. Ми побудували робочі процеси на системах, які іноді зупиняються так сильно,
що можуть спілкуватися лише синьою сторінкою і шестигранним кодом.
Чому він запам’ятовується
Люди запам’ятовують переривання. BSOD — це повна зупинка. Він врізається в пам’ять, бо перериває не лише задачу, а і ілюзію того, що
комп’ютери — детерміновані інструменти. У корпоративному середовищі він перериває статус: людина з ноутбуком раптово втрачає контроль.
Цікаві факти та історичний контекст
- Windows 3.1 мав екрани аварій, але культурний образ «класичного BSOD» сформувався з епохою Windows NT та Windows 9x.
- Windows NT розглядав багато відмов як bugcheck рівня ядра; екран одночасно служив допоміжним інструментом налагодження для адміністраторів і розробників.
- Stop-коди (код bugcheck) — стабільні ідентифікатори для налагодження; людиночитаний текст часто менш надійний.
- Дампи пам’яті стали містком між «воно впало» і «цей драйвер записав у пам’ять не те». Це різниця між здогадкою та знанням.
- Windows 8 ввів стильний екран із смайликом, Windows 10/11 спростили подачу, але покращили телеметрію й механізми відновлення.
- Підписування драйверів і захист ядра посилилися з часом; іронічно, це зробило деякі режими відмов рідшими, але решта — більш «цікавими».
- Деякі BSOD спричинені сховищем: корупція файлової системи, ненадійні SATA-кабелі, погана NVMe-прошивка або скидання контролера можуть ескалувати в ядерні помилки.
- «Воно трапляється тільки на цій моделі» часто означає взаємодію прошивки й драйвера, а не поведінку користувача. Різноманіття апаратного забезпечення породжує хаос.
- Сучасний Windows може автоматично збирати телеметрію про збої, але в закритих корпоративних середовищах вам можливо доведеться явно увімкнути збереження дампів.
Stop-коди, bugcheck і що вони справді означають
Stop-код — це ярлик симптома. Іноді він прямо вказує на причину (наприклад, на екрані видно ім’я драйвера або явний INACCESSIBLE_BOOT_DEVICE
після зміни контролера сховища). Частіше це категорія: корупція пам’яті, недійсний доступ, зловживання IRQL, проблеми з пагінгом.
Ставтесь до stop-коду як до тега для тріажу, а не як до остаточного вердикту. Справжня цінність — у стеку викликів у дампі та хронології у логах.
Який вигляд має «хороший» звіт про збій
В SRE-світі ми говоримо про «оповіщення з високим сигналом». BSOD може бути корисним, якщо у вас є:
- Файл дампа, який ви можете проаналізувати (мінімально — minidump; бажано kernel або complete dump для глибших проблем).
- Журнали подій для вікна збою (System, Application та будь-які журнали вендорів).
- Остання історія змін (оновлення драйверів, прошивки, Windows, агенти безпеки).
- Показники стану апаратного забезпечення (SMART, події WHEA, результати тестування пам’яті).
Один цитат з надійності, використаний правильно
Hope is not a strategy.
— General Gordon R. Sullivan
BSOD — це місце, куди йде надія. Замінюйте її доказами.
Плейбук швидкої діагностики (перший/другий/третій)
Перший: стабілізувати та зберегти докази
- Підтвердіть, що дампи записуються і їх не видаляють «очищувальні» утиліти або надто маленькі pagefile.
- Зфіксуйте stop-код і будь-яке ім’я драйвера/модуля, що показується на екрані (фото підходить; так, справді).
- Запишіть останні зміни: драйвер, оновлення Windows, прошивка, нова політика агента безпеки, «налаштування продуктивності».
Другий: класифікуйте домен відмови
- Патерн драйвер/корупція пам’яті: випадкові bugcheck-и, змінні stop-коди, згадки MEMORY_CORRUPTION, IRQL_NOT_LESS_OR_EQUAL.
- Патерн сховища / I/O: зависання під навантаженням диска, помилки NTFS, «reset to device», таймаути контролера, INACCESSIBLE_BOOT_DEVICE.
- Патерн апаратного забезпечення / WHEA: помилки WHEA-Logger, Machine Check Exceptions, скарги на шину/інтерконект, раптові перезавантаження.
Третій: зменшіть змінні, потім відтворіть
- Відкат або вимкніть ймовірного винуватця (нещодавній драйвер/агент безпеки/фільтр сховища).
- Запустіть таргетовані тести: тест пам’яті, перевірка диска, Driver Verifier (обережно), контрольоване відтворення навантаження.
- Підтвердіть виправлення шляхом видалення тригера і спостереження за стабільністю протягом щонайменше одного повного циклу навантаження.
Вузьке місце у налагодженні BSOD — не інструменти. Це ваша здатність не міняти одразу три речі.
Практичні завдання: команди, виводи, рішення
Це реальні завдання, які ви можете виконати на Windows-системах (PowerShell або CMD). Кожне містить команду, приклад виводу, що це означає, і рішення,
яке з цього випливає. Не запускайте їх ритуально. Запускайте, бо ви звужуєте гіпотези.
Завдання 1: Підтвердити налаштування дампів
cr0x@server:~$ reg query "HKLM\SYSTEM\CurrentControlSet\Control\CrashControl" /v CrashDumpEnabled
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\CrashControl
CrashDumpEnabled REG_DWORD 0x3
Що це означає: 0x3 — це малий дамп пам’яті (minidump). У вас є щось для аналізу.
Рішення: Якщо там 0x0 (вимкнено), увімкніть хоча б 0x3. Якщо потрібні глибші стекі для проблем з драйверами, розгляньте kernel dumps (0x2) і перевірте місце на диску.
Завдання 2: Перевірити наявність minidump
cr0x@server:~$ dir C:\Windows\Minidump
Directory of C:\Windows\Minidump
01/19/2026 09:14 AM 1,245,184 011926-8421-01.dmp
01/17/2026 06:03 PM 1,198,080 011726-9012-01.dmp
Що це означає: Система записує дампи у момент збою.
Рішення: Скопіюйте ці файли поза боксом перш ніж «лікувати» щось. Докази перш за все.
Завдання 3: Витягти недавні події bugcheck з логу System
cr0x@server:~$ wevtutil qe System /q:"*[System[(EventID=1001)]]" /c:3 /f:text
Event[0]:
Provider Name: Microsoft-Windows-WER-SystemErrorReporting
Event ID: 1001
Level: Error
Description:
The computer has rebooted from a bugcheck. The bugcheck was: 0x0000003b (0x00000000c0000005, ...).
Що це означає: Event ID 1001 підтверджує, що відбувся bugcheck і дає код/параметри.
Рішення: Використайте мітку часу, щоб зіставити з встановленнями драйверів, помилками диска та подіями WHEA.
Завдання 4: Шукати апаратні помилки WHEA
cr0x@server:~$ wevtutil qe System /q:"*[System[Provider[@Name='Microsoft-Windows-WHEA-Logger'] and (Level=2)]]" /c:5 /f:text
Event[0]:
Provider Name: Microsoft-Windows-WHEA-Logger
Event ID: 18
Level: Error
Description:
A fatal hardware error has occurred. Reported by component: Processor Core.
Що це означає: Апаратне забезпечення сигналізувало про незаправний (uncorrectable) збій. Це часто руйнує наратив «це просто драйвер».
Рішення: Пріоритезуйте оновлення прошивки, діагностику CPU/RAM, термальний контроль і стабільність живлення. Не витрачайте дні, звинувачуючи лише Windows Update.
Завдання 5: Перевірити стан диска через SMART (де підтримується)
cr0x@server:~$ wmic diskdrive get model,status
Model Status
NVMe Samsung SSD 980 PRO 1TB OK
ST2000DM008-2FR102 Pred Fail
Що це означає: «Pred Fail» — великий червоний прапорець. Це не тонко.
Рішення: Замініть диск. Потім перевірте контролер/кабелі. Не намагайтеся робити «repair install» на носії, що помирає.
Завдання 6: Підтвердити індикатори корупції файлової системи
cr0x@server:~$ chkdsk C: /scan
The type of the file system is NTFS.
Stage 1: Examining basic file system structure ...
Windows has scanned the file system and found no problems.
Що це означає: Чисте сканування зменшує ймовірність того, що NTFS-корупція є первинною причиною.
Рішення: Якщо виявлені помилки — заплануйте офлайн-ремонт і трактуйте шлях сховища як підозрілий (контролер, прошивка, історія відключень живлення).
Завдання 7: Визначити нещодавно встановлені драйвери
cr0x@server:~$ pnputil /enum-drivers | findstr /i "Published Name Driver Date"
Published Name : oem42.inf
Driver Date : 01/10/2026
Published Name : oem17.inf
Driver Date : 11/02/2025
Що це означає: Ви швидко бачите, що змінилося нещодавно.
Рішення: Якщо збої почалися після оновлення драйвера за певну дату — зробіть rollback цього драйвера першим. Кореляція не доказ, але це дешевий тест.
Завдання 8: Перелічити завантажені сторонні драйвери (швидкий огляд підозр)
cr0x@server:~$ driverquery /v /fo table | findstr /i "Running"
myfilter.sys Kernel Running
avguard.sys Kernel Running
Що це означає: Присутні й активні сторонні компоненти ядра; фільтр-драйвери та агенти безпеки часто викликають BSOD.
Рішення: Тимчасово відключіть/видаліть підозрілі kernel-рівневі продукти контрольовано (із погодженням з безпекою). Потім повторіть тест.
Завдання 9: Перевірити цілісність системних файлів
cr0x@server:~$ sfc /scannow
Beginning system scan. This process will take some time.
Windows Resource Protection found corrupt files and successfully repaired them.
Що це означає: Системні файли були пошкоджені й успішно відновлені. Це може бути причиною або наслідком збою.
Рішення: Якщо корупція повторюється — підозрюйте сховище або RAM. Один успішний запуск SFC не виключає апаратних проблем.
Завдання 10: Відновити компонентний сховище (коли SFC продовжує скаржитись)
cr0x@server:~$ DISM /Online /Cleanup-Image /RestoreHealth
Deployment Image Servicing and Management tool
Version: 10.0.22621.1
The restore operation completed successfully.
Що це означає: Компонентний сховище знову послідовне; це допомагає уникнути «привидної» корупції.
Рішення: Якщо DISM не вдається постійно — припиніть трактувати це як суто софтверну проблему. Перевірте сховище і розгляньте перевстановлення лише після збору доказів.
Завдання 11: Перевірити тиск пам’яті та конфігурацію сторінкового файлу
cr0x@server:~$ wmic pagefile list /format:list
AllocatedBaseSize=8192
CurrentUsage=512
Description=C:\pagefile.sys
Name=C:\pagefile.sys
PeakUsage=2048
Що це означає: Pagefile існує і має розмір. Надто малий pagefile може перешкоджати запису kernel dump-ів, а тиск пам’яті може посилити нестабільність.
Рішення: Переконайтеся, що pagefile керується системою або достатньо великий для типу дампу, який вам потрібен. Якщо ви ганяєтеся за kernel dump-ами, не обмежуйте pagefile.
Завдання 12: Перевірити таймаути і скидання сховища
cr0x@server:~$ wevtutil qe System /q:"*[System[(EventID=129 or EventID=153 or EventID=7)]]" /c:5 /f:text
Event[0]:
Provider Name: storahci
Event ID: 129
Level: Warning
Description:
Reset to device, \Device\RaidPort0, was issued.
Що це означає: У стеку сховища відбуваються таймаути/скидання. Це може непрямо спричиняти bugcheck-и через блокування I/O і панічні шляхи драйвера.
Рішення: Оновіть прошивку контролера/NVMe, перевірте налаштування енергозбереження та підключення кабелів/бекаплейну. Не просто «перевстановлюйте Windows».
Завдання 13: Перевірка конфігурації завантаження (поширено після змін сховища/контролера)
cr0x@server:~$ bcdedit /enum {current}
Windows Boot Loader
-------------------
identifier {current}
device partition=C:
path \Windows\system32\winload.efi
Що це означає: Завантажувач вказує на очікуваний розділ.
Рішення: Якщо після іміджування або міграції контролера ви бачите несподівані пристрої/шляхи — виправте конфігурацію BCD перед тим, як шукати примарні проблеми з драйверами.
Завдання 14: Базова триаж мережевих драйверів (бо VPN/фільтр-драйвери люблять простір ядра)
cr0x@server:~$ netsh winsock show catalog | findstr /i "Layered"
Layered Service Provider
Layered Service Provider
Що це означає: Існують шаровані провайдери; це не обов’язково погано, але вони частіше зустрічаються в стеках безпеки/VPN.
Рішення: Якщо BSOD корелюють з використанням VPN — тестуйте без клієнта/фільтр-драйвера і порівняйте стабільність. Якщо він причетний — координуйте оновлення з вендором.
Завдання 15: Примусове запланування контрольного тесту пам’яті (вбудований у Windows)
cr0x@server:~$ mdsched.exe
Windows Memory Diagnostic has been scheduled.
Що це означає: Ви поставили у чергу тест оперативної пам’яті під час наступного перезавантаження.
Рішення: Якщо підозрюєте RAM — робіть це на ранньому етапі. Корупція пам’яті витрачає час, бо видає себе за все підряд.
Завдання 16: Швидка перевірка останніх оновлень (драйвери та ОС)
cr0x@server:~$ wmic qfe get HotFixID,InstalledOn | sort
HotFixID InstalledOn
KB5034123 1/14/2026
KB5033055 12/18/2025
Що це означає: Видно частоту і свіжість оновлень.
Рішення: Якщо перший збій стався після конкретного дня патчів — ізолюйте, чи це OS-патч, драйвер, який пакується з ним, чи інструмент прошивки, що вимагає перезавантаження.
Три міні-історії з корпоративного життя (анонімізовано)
Міні-історія 1: Інцидент, спричинений хибним припущенням
Середня фінансова компанія розгорнула «дрібне» оновлення агента безпеки пізно в четвер. Запит на зміну був чистим, вендор мав добру репутацію,
і нотатки тестування казали, що воно «зворотно сумісне». Розгортання було по підрозділах. Здавалося відповідально.
П’ятничного ранку допомога почала отримувати звичні невизначені тікети: «мій ноутбук став синім». Потім: «вилітає при відкритті Outlook». Потім:
«вилітає при підключенні до VPN». До полудня стало ясно, що патерн пов’язаний з мережею і відтворюється: підключення VPN, доступ до шару файлів, збій.
Хибне припущення було тонким: команда безпеки вважала, що оновлення — «лише користувацький агент». Насправді воно містило оновлення kernel-mode мережевого фільтра.
В їхній ментальній моделі агенти можуть падати; драйвери можуть вбити систему. Це різні класи ризику.
Аналіз дампу показав стабільний стек із фільтр-драйвером і шляхом NDIS. Відкат оновлення одразу зупинив BSOD. Довгострокове виправлення включало не лише «патч від вендора»,
але й управління: драйвери ядра отримали власний шлях затвердження, власну canary-пул і жорстку вимогу збереження дампів.
Пункт післяінцидентної роботи, що виявився найважливішим, був соромливо базовим: оновити шаблон зміни, щоб питати «Чи встановлює чи оновлює це драйвери режиму ядра?».
Це запобігло майбутнім «дрібним» оновленням, що ставали великими інцидентами.
Міні-історія 2: Оптимізація, що обернулася проти команди
Команда продукту хотіла швидше завантаження на парку Windows-кіосків. Хтось знайшов гайд з тонким налаштуванням, що рекомендував агресивні параметри енергозбереження і
поведінку «швидкого старту», щоб скоротити час завантаження. Здавалось безпечно, і графіки «до/після» виглядали гарно у презентації.
Через місяць почалися випадкові BSOD, які важко було відтворити. Stop-коди не були послідовними: іноді пам’ять, іноді I/O.
Кіоски стояли в торгових точках, тобто середовище було ворожим: стрибки живлення, нетерплячі перезавантаження та інколи відключення персоналом, що просто хотів бачити екран.
Оптимізація зсунула ризик. При глибших енергозберігаючих станах і швидшому відновленні контролер сховища та NVMe накопичувачі потрапляли у крайові випадки прошивки
під час численних циклів suspend/resume. Система не була «зламаною» в лабораторному сенсі; вона виявилася крихкою в реальному світі.
Відкотили налаштування живлення, оновили прошивку SSD і — що важливо — перестали оцінювати лише час завантаження. SLO, який слід було оптимізувати,
мав бути «успішне завантаження без корупції». Кіоск, що швидко завантажується в BSOD, — не швидкий; він просто став жартом.
Жарт №2: Найшвидше завантаження — це те, що більше ніколи не завантажується, що саме по собі, здається, мета деяких «оптимізацій продуктивності».
Міні-історія 3: Нудна, але правильна практика, що врятувала ситуацію
Команда корпоративного ІТ проводила щомісячний процес «гігієни драйверів», який ніхто не любив. Це був каталог: затверджені версії драйверів по моделях обладнання, базові прошивки
і контрольоване розгортання з канарками. Це звучало як паперова робота, бо таким і було.
Одного вівторка набір ноутбуків почав BSOD-ити після підключення до док-станції. Stop-код виглядав як загальна апаратна помилка, і була спокуса звинуватити док,
USB-контролер, користувача або космічні промені. Команда цього не робила.
Вони порівняли несправні ноутбуки з каталогом базових налаштувань і виявили відхилення: графічний драйвер був оновлений поза процесом автоматичним інструментом вендора,
який деякі користувачі встановили для «оптимізації ігор». Той драйвер погано взаємодіяв з пропускною лінією дока при певних частотах оновлення екрана.
Оскільки команда мала нудний базовий каталог, відхилення було очевидним. Оскільки був нудний canary-груп, вони швидко перевірили відкат.
Оскільки зберігали дампи, вони могли підтвердити модуль замість трьоденних дискусій у чаті.
Виправлення було також нудним: видалити апдейтер вендора, застосувати політику встановлення драйверів і зберігати каталог. В опсі нудність — це функція.
Типові помилки: симптом → корінь → виправлення
1) Симптом: «Випадкові» BSOD з різними stop-кодами
Корінь: Корупція пам’яті (погана RAM, нестабільний XMP/розгін, ненадійний драйвер, що записує в пам’ять).
Виправлення: Вимкнути розгін/XMP, запустити діагностику пам’яті, оновити BIOS, і використати аналіз дампу, щоб знайти постійні винні драйвери.
2) Симптом: BSOD під час інтенсивної роботи з диском (встановлення, копіювання, індексація)
Корінь: Таймаути/скидання сховища (драйвер контролера, прошивка, управління живленням, кабель/бекплейн).
Виправлення: Перевірити Event ID 129/153/7, оновити прошивку NVMe/SSD та драйвери контролера, змінити налаштування енергозбереження і замінити підозрілі носії/кабелі.
3) Симптом: BSOD одразу після підключення VPN або під час сканування безпеки
Корінь: Помилка kernel filter driver (NDIS, filesystem minifilter, EDR hooks).
Виправлення: Відкотити агент/драйвер, протестувати з продуктом вимкненим, ескалувати до вендора з дампами і впроваджувати оновлення драйверів через canary-кільця.
4) Симптом: INACCESSIBLE_BOOT_DEVICE після зміни
Корінь: Невідповідність режиму контролера/драйвера сховища (зміна AHCI/RAID, відсутній драйвер, невідповідність образу).
Виправлення: Відновити режим контролера, переконатися у правильності драйверів, перевірити BCD/конфігурацію завантаження і не змінювати режим сховища довільно в продакшені.
5) Симптом: BSOD лише на одній моделі ноутбука
Корінь: Взаємодія прошивки/драйвера, специфічна для цього апарату (ACPI, стани живлення, перемикання GPU).
Виправлення: Застосувати модельні оновлення BIOS/прошивки і закріпити відому добру версію драйверів для цієї моделі.
6) Симптом: BSOD після «очищення» або утиліт для диска
Корінь: Вимкнені дампи, видалені логи, змінений pagefile або агресивні «оптимізатори», що встановлюють сумнівні драйвери-фільтри.
Виправлення: Видалити оптимізатори, відновити системний pagefile, знову увімкнути дампи і впровадити політику збереження доказів.
7) Симптом: BSOD зникають в Безпечному режимі
Корінь: Сторонній драйвер/сервіс, що завантажується в нормальному режимі (GPU, AV, VPN, фільтр сховища).
Виправлення: Вимикати вибірково не-Microsoft драйвери/сервіси (clean boot), потім по черзі повертати, щоб знайти винуватця.
8) Симптом: Перезавантаження без видимого BSOD
Корінь: Автоматичний перезапуск при збою системи, відключення живлення або скидання прошивки; bugcheck все ще міг статися.
Виправлення: Тимчасово вимкнути автоматичний перезапуск, перевірити Event Viewer на Kernel-Power і події bugcheck, і переконатися, що дампи можуть бути записані.
Чеклісти / покроковий план
Чекліст A: Перші 30 хвилин після BSOD у корпоративному середовищі
- Зібрати stop-код і мітку часу (фото або нотатки в тікеті).
- Підтвердити, що дампи увімкнено та присутні (реєстр + каталог Minidump).
- Скопіювати дампи в безпечне місце перед змінами.
- Експортувати журнали System і Application для вікна збою.
- Записати останні три зміни: драйвери, патчі, прошивка, зміни політик безпеки.
- Перевірити WHEA-помилки та події скидання сховища.
Чекліст B: Ізоляція, орієнтована на драйвери (коли підозрюєте компоненти ядра)
- Визначити нещодавно встановлені/оновлені драйвери (PnPUtil).
- Перелічити сторонні запущені драйвери (DriverQuery) і відзначити фільтри (AV, VPN, шифрування, сховище).
- Відкотити найсвіжіші зміни драйвера; повторити тестування тригерного робочого процесу.
- За потреби протестувати у Safe Mode і порівняти стабільність.
- Тільки після цього розглянути Driver Verifier на жертвенній або добре закопійованій машині; він може посилити проблему перед тим, як допомогти.
Чекліст C: Ізоляція, орієнтована на сховище (коли пахне I/O)
- Витягніть події reset і timeout від storport/storahci.
- Запустіть CHKDSK; заплануйте офлайн-ремонт при потребі.
- Перевірте SMART; замініть пристрої з «Pred Fail» без переговорів.
- Оновіть прошивки NVMe/SSD та драйвери контролера з затверджених джерел.
- Перевірте налаштування енергозбереження, що можуть індукувати агресивні переходи link power state.
Чекліст D: Перевірка апаратної частини (коли все виглядає «випадковим»)
- Запустіть Windows Memory Diagnostic; якщо воно вказує на проблеми — робіть глибше тестування і міняйте RAM.
- Огляньте терміни та живлення: перегрів і маргінальні блоки живлення роблять логи брехливими.
- Оновіть BIOS/UEFI; баги прошивки реальні і їм байдуже до SLA вашого тікета.
- Зіставте WHEA-події з аваріями; відносіть повторні WHEA-помилки до апаратного забезпечення доти, доки не буде доказів протилежного.
Примітка щодо дисципліни прийняття рішень
Якщо ви змінили три змінні і BSOD зник — ви не виправили проблему, вам просто пощастило. У продуктивному середовищі удача не замінює контроль.
Робіть одну зміну, валідуйте, потім рухайтесь далі.
FAQ
1) Чи завжди BSOD — це проблема Windows?
Ні. Windows часто перша помічає проблему цілісності ядра, але причиною часто бувають драйвери, прошивка, апаратне забезпечення або проблеми зі сховищем.
2) Якщо я бачу stop-код, чи можна просто загуглити і застосувати перше рішення?
Можна, але не слід на цьому зупинятися. Stop-коди — це категорії. Надійний шлях: збирати дампи, корелювати логи, ідентифікувати модулі і тестувати одну зміну за раз.
3) Чому BSOD іноді показує різні stop-коди кожного разу?
Корупція пам’яті та гонки, залежні від таймінгу, можуть давати різні симптоми. Погана RAM, нестабільний розгін і проблемні драйвери можуть «перемішувати» заголовок помилки.
4) Чи потрібні мені повні дампи пам’яті?
Не завжди. Minidump часто достатньо, щоб ідентифікувати драйвер. Kernel dump дає більше контексту для складних проблем. Повні дампи потребують більше дискового простору і рідше у керованих парках.
5) Чи можуть проблеми зі сховищем справді спричиняти ядерні збої?
Абсолютно. Повторні таймаути I/O, скидання контролера і корупція можуть штовхнути компоненти ядра в фатальні шляхи. Сховище — частина «кровоносної системи» ядра.
6) Чому Безпечний режим допомагає діагностувати BSOD?
Safe Mode завантажує менше драйверів і сервісів. Якщо в ньому збої зникають, це говорить, що проблема ймовірно пов’язана з драйвером або сервісом, який не завантажується в Safe Mode.
7) Чи варто запускати Driver Verifier?
Тільки коли у вас є план. Він навмисно «стресується» драйвери і може викликати цикл падінь системи. Використовуйте на контрольованій машині з готовими варіантами відновлення і після резервного копіювання даних.
8) Як запобігти BSOD у парку
Закріплюйте базові версії драйверів по моделях, проводьте розгортання з canary-групами, тримайте прошивки в актуальному стані, зберігайте дампи/логи і вважайте драйвери ядра змінами підвищеного ризику.
9) Чому «оптимізатори» часто роблять гірше?
Вони часто вимикають pagefile, видаляють логи, видаляють дампи, встановлюють сумнівні фільтр-драйвери або застосовують енергетичні хитрощі, які дестабілізують сховище і драйвери. Вони міняють докази і стабільність за примарну швидкість.
10) Яка найменш цінована навичка для налагодження BSOD?
Дисципліна кореляції. Супоставляйте мітки часу збою з історією змін і з апаратними/логовими індикаторами. Більшість команд помиляється, переслідуючи те, що найбільш голосне, а не те, що найімовірніше.
Наступні кроки, які ви справді можете зробити цього тижня
- Уніфікуйте налаштування запису дампів у всьому парку і перевірте, що вони зберігаються після «жорстких» політик та процесів очищення.
- Побудуйте бази драйверів і прошивки по моделях обладнання; розглядайте відхилення як інциденти, а не як цікавість.
- Інструментуйте канал доказів: експорт логів, збір дампів і відстеження змін мають бути рутинними, а не героїчними зусиллями.
- Виберіть canary-кільце, яке справжнє (люди, що виконують реальну роботу) і маленьке (ви можете їх підтримати). Розгортання без canary — це азартна гра.
- Навчіть організацію класифікувати драйвери ядра та фільтри як більш ризикові, ніж користувацькі додатки. Процес затвердження має це відображати.
BSOD став частиною поп-культури, бо він грубий і театральний. Ваше завдання — зробити його знову нудним: рідким, швидко діагностованим і збереженою доказовою базою.
Коли з’являється синій екран, вам не потрібні забобони. Вам потрібна наступна правильна команда.