Вживані GPU після майнінгу: як перевірити перед оплатою

Було корисно?

Ви знайшли «легко вживану» відеокарту за ціною, ніби вона випадково зникла з вантажівки (не правда — вона знята з майнінгової ферми). Вас тягне купити.
Водночас ви маєте здоровий скепсис щодо придбання нагрітої кремнієвої цеглини з вентиляторами, що гудуть як пилосос для листя.

Це практичний план дій, який я хотів би, щоб кожен покупець виконував перед тим, як віддавати гроші. Він побудований як операційний runbook:
перевірити ідентифікацію, виявити втручання, виміряти терміку, підтвердити VRAM, спостерігати за тротлінгом і тільки потім вирішувати — чи варта угода.

Чому GPU після майнінгу дивні (і інколи нормальні)

Вживана ігрова відеокарта зазвичай працює «піковими періодами»: вечорами й у вихідні, змінні навантаження, багато циклів нагрівання і охолодження.
Майнінгова відеокарта працює «в стаціонарному режимі»: довгі години, постійне навантаження, часто з пониженим напругою, інколи добре охолоджена… а інколи запечена в пиловій сауні.

Цей аспект стаціонарності важливий. Електроніка зазвичай не любить термоколоцювання. Вентилятори вигорають від годин роботи.
VRAM страждає від поганого охолодження. Система живлення не любить дешеві блоки живлення і погану циркуляцію повітря. А ви, як покупець, не любите сюрпризів.

Мета не в тому, щоб довести, що карта «як нова». Мета — довести, що вона передбачувана:
правильно ідентифікується, стабільно працює на стокових налаштуваннях, не видає помилок пам’яті, не тротлить дивно і не має зміненого прошивання.

Жарт №1: Купувати майнений GPU без перевірки — як розгортати в продакшн у п’ятницю: технічно можливо, духовно сумнівно.

Цікаві факти та коротка історія (щоб ви припинили гадати)

  • Майнінг на початку не був завжди «майнінгом на GPU». Ранні криптомайнери працювали на CPU; GPU стали домінувати, коли паралельні обчислення розривали пропускну здатність CPU.
  • 2013–2014 були ранньою «репетицією» дефіциту GPU. Попит епохи Litecoin різко підняв попит на деякі AMD-карти задовго до великого піку 2020–2022 років.
  • Підйом Ethereum зробив VRAM і пропускну здатність пам’яті ключовими. Багато майнерів оптимізували налаштування пам’яті/напруги більше, ніж робочі частоти ядра.
  • Модифікація прошивок стала промисловістю. Змінений VBIOS з більш жорсткими таймінгами пам’яті був поширеним для деяких поколінь AMD, і це може залишитися у перепродажі.
  • Пониження напруги — звична практика при майнінгу. Багато майнерів знижували напругу ядра для підвищення ефективності, що фактично може зменшити навантаження — за умови належного охолодження.
  • Вентилятори — звичайні жертви. Підшипники зношуються від тривалої безперервної експлуатації; вихід вентиляторів — одна з найпоширеніших причин «вчора працювало, сьогодні — ні».
  • Термічні підкладки важливіші за термопасту. На багатьох картах тепловідвід VRAM/VRM залежить від підкладок; висохлі або невідповідного розміру підкладки спричиняють помилки пам’яті й тротлінг.
  • «Відновлене» іноді означає «підмито». Карту можна очищати так, щоб вона виглядала добре, залишивши корозію чи «пожовані» підкладки в недоторканності.
  • Після злиття (post-merge) ринок уживаних змінився. Коли Ethereum відмовився від proof-of-work, багато GPU раптово стали доступні — із дуже різною якістю.

Що насправді робить майнінг з GPU

Головне — тепло; а години роботи вбивають вентилятори

Майнінгові ферми зазвичай працюють 24/7. Якщо оператор дбав, вони експлуатували карти з пониженим напругою, з гарною циркуляцією повітря і контролем гарячих зон та температури VRAM.
Якщо не дбав — карта могла місяцями жити на межі тротлінгу. Обидві карти можуть з’явитися з маркуванням «тестовано, працює».
Тільки одна заслуговує ваших грошей.

Історія з вентиляторами простіша: години — це години. Вентилятор, який працював без зупину 18 місяців, уже «віджив своє».
Ви можете замінити вентилятори. Але ви повинні врахувати цю заміну у вартості й впевнитись, що карта не має інших ознак «втомленої системи».

Здоров’я VRAM — тиха відмінність

Для ігор багато проблем проявляються як періодичні артефакти, які користувачі терпіли до певного моменту.
Для обчислень помилки VRAM перетворюються на неправильні результати або аварії. Майнінг особливо навантажує пам’ять. Якщо карта має маргінальний VRAM,
майнінг це виявить. Іноді майнер «виправляє» проблему заниженням частоти пам’яті. Потім ви купуєте, повертаєте стокові налаштування — і карта ламається.

Прошивка й ліміти потужності можуть бути підкладкою

Деякі екс-майнінгові карти мають змінений VBIOS: змінені ліміти потужності, інші таймінги пам’яті, відключені виходи або дивні криві вентиляторів.
«Працює в майнері» карта все одно може стати болем у звичайному десктопі.

Надійність — це усунення невідомих

Мислення, яке я хочу, щоб ви запозичили з production ops: вам не потрібна досконалість. Потрібна контрольована система з відомими режимами відмов.
Купуючи вживане обладнання, ви купуєте чиюсь невизначеність. Ваші тести роблять її відомою.

Цитата, яку варто прикріпити над монітором: «Надія — не стратегія.» — генерал Ґордон Р. Салліван

Перед зустріччю з продавцем: що запитати, чого відмовитись

Просіть нудні докази, а не гарні враження

  • Точна назва моделі й фото стікерів: передня частина, задня панель, зона роз’єму PCIe та етикетка з серійним номером/моделью.
  • Статус оригінального VBIOS: «Ніколи не прошивався» — це заява; ваша робота — перевірити пізніше. Але запитайте й зверніть увагу на відповідь.
  • Схема використання: «в ігровому ПК» проти «на стійці, 24/7». Не моралізуйте; просто правильно оцініть ризик.
  • Причина продажу: зверніть увагу на ухиляння. «Оновився» — нормально. «Немає часу» — нормально. «Потрібні тільки драйвери» — не нормально.
  • Період повернення: навіть 24 години допоможуть. Відсутність повернення прийнятна лише при великому дисконті і можливості тестувати на місці.

Відмовляйтесь від угод, що блокують перевірку

Йдіть геть, якщо відбувається будь-що з наступного:

  • Вам взагалі не дозволяють увімкнути і протестувати карту.
  • Вони не дозволяють запустити стрес-тест «бо це займе занадто багато часу».
  • Карта «вже упакована та запечатана» без показу серійного номера.
  • Вони наполягають на зустрічі в місці, де ви не можете підключити обладнання.

Ви не важкі у вимогах. Ви дорослий з бюджетом.

Фізичний огляд: те, що не виправити програмно

Шукайте термічну байдужість і механічну втому

  • Забарвлення PCB: потемніння біля ступенів VRM або роз’ємів живлення може вказувати на тривале нагрівання.
  • Викривлення: невеликий прогин — нормально; явне викривлення PCB — ні. На майнінгових стійках іноді карти монтують дивно.
  • Зношення роз’ємів: контакти PCIe мають бути чистими й рівномірно зношеними; глибокі подряпини або точкова корозія можуть свідчити про окислення.
  • Бігання вентилятора: обережно прокрутіть лопаті. Вони повинні обертатися плавно, без тертя, і зупинятися поступово.
  • Патерни пилу на радіаторі: «зовні чисто, всередині набито пилом» свідчить про косметичне чищення без розбору.
  • Відсутні гвинти / змішані гвинти: свідчить про попередній розбір. Розбір не є злочином, але підвищує вимоги до програмних тестів.
  • Корозія задньої пластини/кріплення: особливо поблизу морського повітря. Зазвичай це історія середовища, а не продуктивності — поки не стане нею.

Тест на запах (так, насправді)

Сильний запах горілої електроніки біля роз’єму живлення — це не «нормально для вживаного». Це «щось нагрілося настільки, що лишився запах».
Деякі ігнорують це і нічого не трапляється. Деякі мають періодичні чорні екрани протягом місяців. Вирішіть, яким хобі ви хочете займатися.

Жарт №2: Якщо GPU пахне барбекю — ви не купили графічну карту, ви прийняли в родину попереджувальну історію.

Швидка діагностика (перші/другі/треті перевірки)

Це версія «я маю 20 хвилин з продавцем і один Linux-бокс». Порядок важливий.
Ви намагаєтесь виявити розповсюджені фатальні дефекти на ранній стадії: неправильна ідентичність, дивне прошивання, нестабільний VRAM, термічний біг.

Перше: ідентифікація та перевірка драйвера (2 хвилини)

  • Підтвердьте, що карта відповідає заявленій моделі (модель, обсяг VRAM, ширина шини/PCIe лінк).
  • Підтвердьте, що драйвер може коректно спілкуватися з картою (без Xid-спаму, без «fallen off the bus»).

Друге: терміка на холостому ході та під коротким навантаженням (5–7 хвилин)

  • Перевірте температуру на холостому ході та поведінку вентиляторів.
  • Запустіть коротке інтенсивне навантаження і спостерігайте температуру GPU, hotspot (якщо є) і споживання потужності.
  • Шукайте негайний тротлінг, відмови ривків у вентиляторі або дивні обмеження потужності.

Третє: стабільність, орієнтована на VRAM (10–15 хвилин)

  • Запустіть тест, що багато працює з пам’яттю (не тільки по ядру).
  • Слідкуйте за артефактами, падіннями застосунків, скиданнями драйвера, виправленими/невиправленими помилками пам’яті (якщо платформа їх показує).

Якщо проходить ці три перевірки — варто глибше тестувати пізніше

Тестування на місці — не повний burn-in. Це тріаж. Ваша мета — не купувати очевидно погане обладнання.
Після покупки (краще в межах вікна повернення) проведіть довший набір тестів.

Командні перевірки: практичні завдання з результатами та рішеннями

Нижче — завдання, які ви справді можете виконати. Вони написані для Linux, бо Linux чесний і швидко показує правду про обладнання.
Якщо ви купуєте для Windows-ігор, ви все одно можете запустити це з live USB. Так, це того варте.

Припущення:

  • NVIDIA-карти використовують nvidia-smi.
  • AMD-карти використовують драйвери ядра і інструменти на кшталт lspci, journalctl, rocm-smi де доступно.
  • Інструменти навантаження: stress-ng, glmark2, gpu-burn (якщо є) і прості OpenGL/Vulkan навантаження.

Завдання 1: ідентифікуйте GPU і підтвердіть, що він бачиться на PCIe шині

cr0x@server:~$ lspci -nn | grep -Ei 'vga|3d|display'
01:00.0 VGA compatible controller [0300]: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] [10de:1b06] (rev a1)

Що це означає: Ви отримуєте ідентифікатори вендора і пристрою. Якщо вивід говорить «RTX 3080», а ви бачите GP102 — кінець переговорів, йдіть.
Якщо пристрій не відображається зовсім — карта не енумерується (мертва карта, проблема з живленням або з материнською платою).

Рішення: Невідповідність = відмова. Відсутність пристрою = діагностика лише якщо у вас є контроль над тестовою платформою та можливість швидко поміняти слот/БЖ.

Завдання 2: перевірте ширину та швидкість PCIe лінку (підказка щодо продуктивності і стабільності)

cr0x@server:~$ sudo lspci -s 01:00.0 -vv | grep -E 'LnkCap|LnkSta'
LnkCap: Port #0, Speed 8GT/s, Width x16
LnkSta: Speed 8GT/s (ok), Width x16 (ok)

Що це означає: Якщо карта x16 працює на x1 або x4 несподівано, це може бути брудний роз’єм, пошкоджені контакти,
проблема з платою або слід від використання riser-ів на майнінговій фермі.

Рішення: Все, що нижче очікуваної ширини в нормальному слоті — червоний прапор. Очищуйте і переставляйте для повторної перевірки; якщо не допомагає — відмовтесь.

Завдання 3: перевірте комунікацію драйвера NVIDIA і базову телеметрію

cr0x@server:~$ nvidia-smi
Tue Jan 21 12:10:11 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------|
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  GeForce RTX 3080               Off |   00000000:01:00.0  Off |                  N/A |
| 55%   44C    P8              36W / 320W |      500MiB / 10240MiB |      3%      Default |
+-----------------------------------------+------------------------+----------------------+

Що це означає: Карта жива, драйвер її бачить, і базові датчики працюють.
Відсутні сенсори, «N/A» там, де очікувався показник (окрім ECC на споживчих картах), або дивно велика потужність на холостому ході можуть вказувати на дивне прошивання.

Рішення: Якщо nvidia-smi видає помилку або зависає — зупиніться. Це не «проблеми драйвера», поки не перевірите на іншій машині.

Завдання 4: витягніть детальну ідентифікацію плати NVIDIA і версію VBIOS

cr0x@server:~$ nvidia-smi -q | sed -n '1,120p'
==============NVSMI LOG==============

Timestamp                                 : Tue Jan 21 12:11:03 2026
Driver Version                            : 550.54.14
CUDA Version                              : 12.4

Attached GPUs                             : 1
GPU 00000000:01:00.0
    Product Name                          : GeForce RTX 3080
    Product Brand                         : GeForce
    VBIOS Version                         : 94.02.42.40.9B
    PCI Device/Vendor ID                  : 2206/10DE
    GPU UUID                              : GPU-aaaaaaaa-bbbb-cccc-dddd-eeeeeeeeeeee

Що це означає: Ви отримуєте версію VBIOS і стабільний UUID. Дивне або порожнє поле VBIOS — попередження.
Саме по собі значення VBIOS не доводить, що воно стокове, але дає орієнтир для пізнішого порівняння.

Рішення: Якщо продавець каже «ніколи не флешив», а VBIOS явно нестандартна для цього виробника — або торгуйтеся, або йдіть.

Завдання 5: перевірте очевидні помилки ядра/драйвера під час холостого ходу

cr0x@server:~$ sudo journalctl -k --since "10 min ago" | grep -Ei 'nvrm|xid|amdgpu|gpu|pcie' | tail -n 20
kernel: NVRM: loading NVIDIA UNIX x86_64 Kernel Module  550.54.14  Tue Jan 14 20:11:31 UTC 2026
kernel: nvidia 0000:01:00.0: enabling device (0000 -> 0003)

Що це означає: Ви шукаєте сигнали стабільності: Xid-помилки (NVIDIA), скидання GPU, PCIe AER спам, таймаути кільця amdgpu.
Чистий лог під час холостого ходу — базова норма.

Рішення: Повторювані скидання GPU або PCIe-помилки на холостому ході? Ідіть. Під навантаженням можна тестувати далі; на холостому — це вже погано.

Завдання 6: перевірте терміку на холостому ході і оберти вентиляторів (якщо видно)

cr0x@server:~$ nvidia-smi --query-gpu=temperature.gpu,fan.speed,power.draw,clocks.gr,clocks.mem --format=csv
temperature.gpu, fan.speed [%], power.draw [W], clocks.current.graphics [MHz], clocks.current.memory [MHz]
44, 55, 36.12, 210, 405

Що це означає: Температура на холостому в 30s–50s °C може бути нормальною залежно від кімнатної температури і політики зупинки вентиляторів.
Але велике споживання на холостому (наприклад, 70–100W) без дисплея може свідчити про дивності прошивки/драйвера або застряглий режим продуктивності.

Рішення: Висока холоста потужність або вентилятор на 100% при низьких температурах вказують на проблеми з сенсором/контролем. Не купуйте «таємничий контролер».

Завдання 7: короткий тест під навантаженням і спостереження за частотами, потужністю і причинами тротлінгу

cr0x@server:~$ timeout 60s glmark2 --off-screen
=======================================================
    glmark2 2021.02
=======================================================
[build] use-vbo=false: FPS:  945 FrameTime: 1.058 ms
[build] use-vbo=true:  FPS: 1204 FrameTime: 0.831 ms
=======================================================
                                  glmark2 Score:  10843
=======================================================

Що це означає: Ви хочете, щоб тест «пішов» без артефактів, скидань драйвера або раптового падіння результату у середині.
Оцінки залежать від CPU і драйвера, тому фокусуйтеся на стабільності.

Рішення: Будь-яка візуальна корупція, падіння або зависання тесту — суворий фейл.

Завдання 8: спостерігайте телеметрію в реальному часі під навантаженням (швидко виявляє термічний біг)

cr0x@server:~$ nvidia-smi dmon -s pucmt
# gpu   pwr  u   c   m   t
# Idx     W  %  %  %  C
  0     302  99  96  78  83
  0     309  99  97  79  86
  0     312  99  97  80  89

Що це означає: Ви дивитесь на потужність (pwr), завантаження (u), використання частот (c), використання пам’яті (m) і температуру (t).
Температури, що стрімко ростуть і не стабілізуються, вказують на поганий контакт охолодження, мертві вентилятори, забиті ребра або «запечені» підкладки.

Рішення: Якщо швидко досягає ліміту температури й частоти падають, домовляйтеся про репаст/перепідкладки (і ризики) або ідіть.

Завдання 9: перевірте причини тротлінгу (NVIDIA)

cr0x@server:~$ nvidia-smi -q -d PERFORMANCE | sed -n '1,140p'
    Performance State                    : P2
    Clocks Throttle Reasons
        Idle                             : Not Active
        Applications Clocks Setting       : Not Active
        SW Power Cap                      : Not Active
        HW Slowdown                       : Not Active
        HW Thermal Slowdown               : Not Active
        HW Power Brake Slowdown           : Not Active
        Sync Boost                        : Not Active
        SW Thermal Slowdown               : Not Active

Що це означає: Ви хочете бачити «Not Active» під час помірного навантаження. Під екстремальним навантаженням може активуватися обмеження потужності — це нормальна поведінка.
Thermal slowdown, активний при помірних температурах — підозріло: погана калібровка сенсора, прошивочні ліміти або поганий контакт з hotspot/VRAM.

Рішення: Постійний thermal slowdown або power-brake slowdown під нормальними тестами — не купуйте, хіба що за проект ремонту.

Завдання 10: навантаження, орієнтоване на пам’ять (виявлення маргінального VRAM)

cr0x@server:~$ stress-ng --gpu 1 --gpu-ops 200000 --timeout 10m --metrics-brief
stress-ng: info:  [2147] dispatching hogs: 1 gpu
stress-ng: info:  [2147] successful run completed in 600.01s
stress-ng: info:  [2147] metrics: 200000 gpu ops, 333.33 ops/s

Що це означає: Ви хочете, щоб він завершився без помилок, без скидання драйвера і без наповнення системного логу помилками GPU.
Це не єдиний тест VRAM, але це доступне навантаження «чи впаде воно?».

Рішення: Будь-який краш/скидання/артефакти під час 10-хвилинного пам’ятєвого навантаження? Вважайте, що проблема у VRAM або в доставці живлення. Ідіть.

Завдання 11: скан логу після стресу (бо лог каже правду, коли UI бреше)

cr0x@server:~$ sudo journalctl -k --since "20 min ago" | grep -Ei 'xid|nvrm|amdgpu|ring|timeout|pcie|aer' | tail -n 50
kernel: NVRM: Xid (PCI:0000:01:00): 13, pid=3121, Graphics Exception: ESR 0x404600=0x80000002

Що це означає: Xid 13 і подібні можуть вказувати на проблеми з драйвером, але у світі вживаного обладнання трактуйте їх як «апарат може бути маргінальним»,
якщо ви не можете швидко відтворити чисто на іншій ОС/версії драйвера.

Рішення: Будь-яка Xid або таймаут кільця AMD під час ваших коротких тестів — великий червоний прапор. Не купуйте надією.

Завдання 12: перевірте сигнали стабільності живлення і PCIe (лічильники AER)

cr0x@server:~$ sudo journalctl -k --since "30 min ago" | grep -i 'AER' | tail -n 20
kernel: pcieport 0000:00:01.0: AER: Corrected error received: 0000:01:00.0
kernel: pcieport 0000:00:01.0: AER: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)

Що це означає: Виправлені помилки можуть походити від поганих riser-ів, маргінальної цілісності сигналу або брудних контактів. Майнінгові ферми постійно використовували riser-и.
На чистому прямому слоті повторюваний AER-спам вказує на апаратну проблему.

Рішення: Якщо виправлені помилки з’являються повторно під навантаженням — не вважайте це «нормою». Це часто переростає в «не нормально» згодом.

Завдання 13: підтвердіть, що GPU не працює з дивними application clocks або режимами persistent

cr0x@server:~$ nvidia-smi -q | grep -E 'Persistence Mode|Applications Clocks|Auto Boost' -n
75:    Persistence Mode                   : Disabled
112:    Applications Clocks                : Not Active
130:    Auto Boost                         : On

Що це означає: Деякі майнінгові налаштування зафіксовують частоти або використовують persistent mode; інколи це залишається в конфігураціях продавця.
Ви хочете стокову поведінку, щоб справедливо оцінити карту.

Рішення: Якщо середовище продавця сильно підлаштоване, наполягайте на тестуванні з чистого live-образу — або вважайте результати недостовірними.

Завдання 14 (орієнтоване на AMD): перевірте виявлення amdgpu і помилки

cr0x@server:~$ dmesg | grep -Ei 'amdgpu|ring|gpu reset|vram' | tail -n 30
[    2.913] amdgpu 0000:03:00.0: VRAM: 8192M 0x000000F400000000 - 0x000000F5FFFFFFFF (8192M used)
[    3.102] [drm] Initialized amdgpu 3.54.0 20150101 for 0000:03:00.0 on minor 0

Що це означає: Ви шукаєте чисту ініціалізацію. Таймаути кільця, події «GPU reset» або помилки VRAM — погані знаки.

Рішення: Будь-які повідомлення про скидання під час базових тестів = йдіть, якщо тільки ви не купуєте під проєкт ремонту.

Завдання 15: простий тест виділення VRAM (швидкий і грубий, але корисний)

cr0x@server:~$ python3 - <<'PY'
import torch, time
print(torch.cuda.get_device_name(0))
x = torch.empty((1024,1024,1024), device='cuda', dtype=torch.float16)
torch.cuda.synchronize()
print("allocated:", x.numel()*2/1024/1024, "MiB")
time.sleep(2)
PY
GeForce RTX 3080
allocated: 2048.0 MiB

Що це означає: Це базова перевірка «чи можу я виділити і торкнутися пам’яті на GPU без миттєвих збоїв?»
Це не виявить усіх маргінальних бітів пам’яті, але швидко ловить масштабні відмови.

Рішення: Якщо виділення не вдається або драйвер скидається — не раціоналізуйте. Обладнання має надійно виділяти пам’ять.

Завдання 16: підтвердіть, що немає несподіваного undervolt/overclock у софті (те, що можна виявити)

cr0x@server:~$ nvidia-smi --query-gpu=power.limit,power.default_limit,clocks.max.graphics,clocks.max.memory --format=csv
power.limit [W], power.default_limit [W], clocks.max.graphics [MHz], clocks.max.memory [MHz]
320.00, 320.00, 2100, 9501

Що це означає: Збіг ліміту потужності зі значенням за замовчуванням заспокоює. Якщо ліміт потужності незвично низький/високий відносно дефолту,
щось було змінено (у софті або прошивці).

Рішення: Нестокові ліміти потужності не є автоматично поганими, але вони підвищують ризик. Вимагайте чистого тестування стоком перед покупкою.

Три короткі історії з корпоративного світу (усі анонімізовані, усі болісно правдоподібні)

1) Інцидент через неправильне припущення: «Вона майнила — значить стійка.»

Середня аналітична компанія потребувала більше GPU для pipeline комп’ютерного зору. Бюджет був обмежений, терміни — напружені.
Закупівельник знайшов партію вживаних карт у ліквідатора. Продавець показав скріншоти хешрейт-дашбордів і запевнив: «все тестовано, стабільно, 90 днів безперервно».

Припущення команди було тонке і неправильне: якщо GPU може майнити місяцями, це не означає, що воно потягне їхні тренування. Вони зробили базову перевірку запуску,
встановили драйвери і провели короткий smoke-test. Все виглядало нормально. Вони встановили картки в стійки і запустили довготривале тренування у вихідні.

У понеділок на ранку почався фестиваль провалених задач. Не всі вузли — лише кілька. Повторні спроби іноді проходили, іноді ні.
Логи показали періодичні скидання GPU під високим навантаженням пам’яті. Майнінгове навантаження, на яке вони покладалися, було теж пам’ятєвим, але передбачуваним
і часто зниженими частотами пам’яті для ефективності. Їхнє тренування різко навантажувало пам’ять і штовхало таймінги й терміку в інші режими, яких майнер не створював.

Виправлення було негарним: ізолювали нестабільні карти, у частині замінили термопрокладки та провели довготривалі VRAM-ориєнтовані burn-in тести.
Деякі карти стабілізувалися, інші ні і були перепризначені на менш критичні завдання до заміни.

Справжній урок: «стабільність» залежить від робочого навантаження. Не приймайте майнінгову стабільність за доказ обчислювальної стабільності на стокових налаштуваннях у вашому середовищі.
Проводьте свої тести, зокрема виділення пам’яті й стійкі термічні перевірки.

2) Оптимізація, що повернулася бумерангом: намагання зекономити привело до обслуговчої проблеми

Медіакомпанія створила внутрішній рендер-ферму. Вони вирішили купувати дешеві екс-майнінгові GPU, понижувати напругу, обмежувати потужність
і тримати карти «холодними й ефективними». На папері — чудово: менші рахунки за електрику, більше GPU на стійку, менше спрацьованих автоматів.

Вони стандартизували агресивні криві вентиляторів, щоб зберігати низькі температури. Вентилятори працювали на повних оборотах постійно.
Карти були стабільні, продуктивність прийнятна, і фінанси задоволені — доки приблизно через шість місяців не почалися відмови.

Відмови не були драматичними. Вони були дратівливими: один вентилятор тут, інший там. Потім якась карта починала тротлити, бо її вентилятор почав клинити.
Завдання виконувалися вдвічі довше, пропускалися слоти і це викликало каскади затримок у розкладі. Команда проводила більше годин на замінному вентиляторі, ніж на підвищенні пропускної здатності.

Розбір показав: вони оптимізували споживання електрики, але ненавмисно оптимізували зношування вентиляторів.
Вони перетворили передбачувану статтю витрат у непередбачувані операційні витрати. Їхні «дешеві GPU» перестали бути дешевими, коли з’явилася праця.

Виправлення: вважати вентилятори витратним матеріалом: мати запасні, зменшити постійну політику високих обертів і ввести квартальні огляди з швидкими термобазами.
Також почали ціноутворювати вживані GPU з «податком на обслуговування» з першого дня.

3) Нудно, але правильно, що врятувало день: карантин і burn-in як серйозна процедура

Фінтех-команда розширювала кластер для моделювання ризиків за допомогою GPU. У них була постанова: ніяке нове обладнання — особливо вживане — не йде прямо в продакшн.
Все потрапляє у карантинну стійку для burn-in і верифікації ідентифікації. Це не романтично, але дозволяє виживати.

Вони купили партію карт у різних продавців. Кожна GPU отримала етикетку, серійник занесли у реєстр, і виконали стандартизований набір тестів:
телеметрія на холостому, телеметрія під навантаженням, тест виділення VRAM і двогодинний стрес з логуванням. Карти оцінили як:
«чиста», «потребує обслуговування» або «відхилена».

Дві карти виявилися героями історії, будучи лиходіями на ранньому етапі. Вони пройшли короткий бенчмарк, але зламалися під довшим прогоном з виправленими PCIe помилками і періодичними скиданнями драйвера.
Якби вони потрапили в продакшн, спричинили б періодичні збої моделі, які виглядають як «помилки в софті» тижнями.

Натомість команда відхилила ці одиниці поки вони були в межах вікна повернення. Немає аварій, нема викликів у вихідні, нема незручних розмов з керівництвом про те, чому математика раптово «магічно» не працює.

Практика не була хитрою. Вона була дисциплінованою: карантин, тест, логування, рішення. Нудно — добре, коли ви керуєте реальними системами.

Контрольні списки / покроковий план

Контрольний список для покупки на місці (20–30 хвилин)

  1. Візуальний огляд: роз’єми, гвинти, бігання вентиляторів, пил, корозія, забарвлення PCB.
  2. Встановіть GPU прямо в відомий хороший слот PCIe: уникайте riser-ів для тестування.
  3. Завантажтеся і ідентифікуйте: lspci — відповідність моделі; підтвердження ширини PCIe лінку.
  4. Перевірка телеметрії: nvidia-smi (або логи AMD) — адекватні температури, потужність, поведінка вентиляторів.
  5. Коротке навантаження: запустіть glmark2 --off-screen або еквівалент; спостерігайте за артефактами й падіннями.
  6. Швидкий стрес: 10 хвилин пам’ятєвого навантаження; потім перевірте логи на помилки GPU.
  7. Рішення: купуйте лише якщо ідентичність, стабільність і терміка адекватні; інакше торгуйтеся жорстко або йдіть.

Післяпокупкова перевірка (той же день, перед тим як довіряти карті)

  1. Занотуйте базу: версія VBIOS, UUID, версія драйвера, холості температури/потужність.
  2. Два різних навантаження: одне графічне, інше — пам’ятєве.
  3. Довший прогін: 1–2 години стійкого навантаження з логуванням телеметрії кожні кілька секунд.
  4. Перегляд логів: шукайте Xid-помилки, таймаути кілець, скидання, AER-спам.
  5. Термічна перевірка: підтвердіть, що температура виходить на стаціонар, а не постійно зростає.
  6. Рішення щодо обслуговування: репаст/перепрокладки тільки якщо симптоми це виправдовують (або якщо ви купували як проєкт і врахували витрати).

Що робити, якщо підозрюєте, що карту інтенсивно майнили

  • Припускайте, що термопрокладки можуть бути втомлені або неправильно встановлені.
  • Припускайте, що вентилятори витратили частину свого ресурсу.
  • Припускайте, що прошивка могла бути змінена.
  • Цінуйте відповідно: «працює сьогодні» — не те саме, що «надійно».

Типові помилки: симптом → корінь проблеми → виправлення

1) Симптом: чорний екран під навантаженням, потім відновлення

Корінь: скидання драйвера через нестабільність живлення, маргінальне ядро GPU або перегрів VRM.

Виправлення: тестуйте з відомим хорошим БЖ і прямими PCIe кабелями (без ланцюжків). Слідкуйте за споживанням та причинами тротлінгу. Якщо повторюється — відмовтесь.

2) Симптом: артефакти лише через 5–15 хвилин

Корінь: перегрів VRAM (підкладки), маргінальний VRAM або занадто агресивні таймінги пам’яті (можливо змінений VBIOS).

Виправлення: запустіть пам’ятєвий стрес і моніторьте температури; спробуйте стокові частоти на чистій ОС. Якщо артефакти зберігаються на стоку — не купуйте.

3) Симптом: вентилятори раптово виходять на 100%

Корінь: поганий сигнал тахометра вентилятора, зношення підшипників або дивна крива вентиляторів у прошивці.

Виправлення: перевірте RPM якщо доступно; слухайте на предмет тертя; перевірте кореляцію поведінки з температурою. Заложіть вартість заміни вентиляторів або відмовтесь.

4) Симптом: GPU застряг у високому споживанні на холостому ході

Корінь: мульти-екран/високі частоти оновлення, фонові обчислення або стан драйвера/прошивки, що застряг.

Виправлення: тестуйте з одним монітором або headless; перевірте performance state і запущені процеси. Якщо залишається високим через чисті завантаження — підозріло.

5) Симптом: ширина PCIe падає (x16 → x1) або скаче

Корінь: забруднений край роз’єму, контамінація слота, фізичне пошкодження через riser або маргінальний сигнал PCIe.

Виправлення: переставте раз, акуратно очистьте, повторіть у іншому слоті/платі. Постійні проблеми зі зв’язком: відмова.

6) Симптом: стрес-тест виконується, але логи показують виправлені PCIe помилки

Корінь: гранична цілісність сигналу; часто «працює, поки не перестане».

Виправлення: не ігноруйте. Перевірте на іншій системі. Якщо повторюється — відмовтесь або використовуйте тільки в нефатальних задачах.

7) Симптом: хороші бенчмарки, але крашить в вашому застосунку

Корінь: невідповідність робочого навантаження (compute vs graphics), різні шаблони доступу до пам’яті або різний профіль потужності/терміки.

Виправлення: включіть у burn-in тест, репрезентативний для вашого застосунку. Якщо не можете швидко відтворити — не довіряйте карті.

Ціноутворення, ризик і як торгуватися по-дорослому

Вживані GPU — це не моральна драма. Майнінг не завжди поганий; погані оператори — погані.
Ваше завдання — перетворити невизначеність у число.

Як я оцінюю ризик від екс-майнінгових карт

  • Без можливості повернення: вимагаю суттєвого дисконту. Ви приймаєте весь хвіст ризиків.
  • Помітні сліди розбору: знижуйте ціну, якщо продавець не може пояснити і надати докази (підкладки/паста/вентилятори).
  • Індикатори зносу вентиляторів: знижуйте на вартість заміни плюс ваш час.
  • Будь-які помилки в логах під час тестування: не знижуйте — відмовляйтеся. Системи в продакшні гинуть від «переважно в порядку».
  • Термічний тротлінг: вважайте як необхідне обслуговування. Якщо ви не любите міняти підкладки — не купуйте проєкт.

Скрипти для переговорів, що працюють

Зберігайте технічний і спокійний тон:

  • «PCIe лінк наразі домовляється на x4 в чистому слоті. Це ризик надійності. Я можу купити це лише за ціну на запчастини.»
  • «Вона стабільна 60 секунд, але під навантаженням логи показують помилки драйвера. Я не ризикуватиму з цим.»
  • «Вентилятори бовтаються і нерівномірно керуються. Якщо я купую, я їх заміню. Ось моя пропозиція.»

Чого не варто робити

  • Не приймайте «працює в моїй системі» як доказ. Їхня система — не ваша.
  • Не дозволяйте ціні перевищити докази. Дешеве обладнання дороге, коли воно викликає простої.
  • Не сперечайтесь про етику майнінгу. Це інженерія, а не філософія.

Питання та відповіді

Чи завжди екс-майнінгова GPU — погана покупка?

Ні. Деякі — відмінний варіант, особливо якщо майнер експлуатував з пониженим напругою, з хорошим охолодженням і обслуговував підкладки/вентилятори.
Але варіативність велика, тому тестувати потрібно.

Що найважливіше протестувати?

Стабільність під стійким навантаженням плюс чистий системний лог. Результат бенчмарка — це марнославство; безпомилкові логи — здоровий глузд.

Чи має майнінг скорочувати термін служби через роботу 24/7?

Не обов’язково. Постійна температура інколи менш шкідлива для паяних з’єднань, ніж щоденне термоколоцування. Вентилятори ж, безумовно, накопичують знос через години роботи.

Чи варто відразу робити repaste і заміну термопрокладок?

Тільки якщо ви бачите термічні симптоми (безперервне зростання температури, проблеми з hotspot, нестабільність VRAM) або якщо купували як проєкт.
Непотрібний розбір додає ризик, якщо ви ним не вправні.

Як визначити, що VBIOS був змінений?

З гадання не доведеш. Порівняйте ідентифікацію, ліміти потужності та поведінку зі знаними стоковими очікуваннями, і шукайте дивні значення за замовчуванням.
Якщо маєте безпечний процес — можна перепрошити стоком пізніше, але будь-яка «історія прошивки» додає ризик.

Які температури «занадто високі» під час стрес-тесту?

Залежить від моделі, охолодження і навколишнього середовища. Але важливіше — патерн:
якщо температура постійно зростає, якщо тротлінг починається рано, або вентилятори працюють на 100% щоб ледве втримати температуру — охолодження потребує уваги.

Чи може пониження напруги при майнінгу бути хорошим знаком?

Може. Пониження напруги зменшує потужність і тепло. Але воно також може приховувати нестабільність на стокових налаштуваннях.
Ваш тест має включати стокову поведінку — бо саме так більшість покупців і експлуатуватимуть карту.

Чи безпечно купувати без тестування, якщо у продавця хороші рейтинги?

Рейтинги зменшують ризик шахрайства, але не варіативність стану обладнання. Продавець може бути чесним і одночасно продати маргінальну карту, яку сам не діагностував.
Тестуйте в будь-якому разі.

А як щодо «відновлених» карт від масових продавців?

«Відновлене» може означати «очищене і запущене на 30 секунд». Питайте, що конкретно робили: підкладки, паста, вентилятори, прошивка і які тести виконувалися.
Якщо не можуть відповісти — вважайте як невідновлене.

Який мінімальний розумний час тесту перед покупкою?

Якщо ви можете зробити лише одне: 10–15 хвилин стійкого навантаження з живою телеметрією і скануванням логів після.
Це виявляє велику частину проблем.

Висновок: наступні кроки, щоб уникнути проблем

Ринок вживаних GPU — казино, де інколи продають відмінне обладнання. Ваше завдання — припинити гратися і почати вимірювати.
Робіть перевірки ідентифікації. Робіть перевірки телеметрії. Робіть стійке навантаження. Читайте логи. Якщо щось пахне не так — буквально або фігурально — йдіть.

Практичні наступні кроки:

  1. Зберіть або позичте чисту тестову платформу з відомим хорошим БЖ і прямими кабелями PCIe.
  2. Майте готовий live Linux USB з glmark2 і stress-ng.
  3. Запустіть швидку діагностику на місці; запустіть довший burn-in того ж дня.
  4. Тримайте карту лише якщо вона стабільна на стоку, терміка виходить на стан рівноваги і логи чисті.

Купуйте обладнання так, як керуєте продакшном: нічого не припускайте, все вимірюйте і не сперечайтесь з фізикою.

← Попередня
PostgreSQL vs Elasticsearch: вбудований повнотекстовий пошук проти пошукового кластера — що дешевше в довгостроковій перспективі
Наступна →
Народження 3D-акселераторів: коли GPU став окремим світом

Залишити коментар