GPUs usadas tras minar: cómo verificar antes de pagar

enero 29, 2026 • febrero 3, 2026 • Lectura: 26 min • Views: 3

¿Te fue útil?

Has encontrado una GPU “ligeramente usada” con un precio que parece sacada de una película (no lo está; salió de una plataforma de minería). Te tienta.
También tienes un sano recelo de comprar un ladrillo de silicio recalentado con ventiladores que suenan como una aspiradora en audición.

Este es el manual práctico que desearía que todo comprador siguiera antes de entregar el dinero. Está estructurado como un runbook de operaciones:
verificar identidad, detectar manipulaciones, medir térmicos, validar VRAM, vigilar estrangulamientos y, solo entonces, decidir si la oferta es real.

Por qué las GPUs ex-minería son raras (y a veces están bien)

Una GPU usada para juegos suele ser “intermitente”: noches y fines de semana, cargas variables, muchos ciclos térmicos.
Una GPU de minería es “estado estable”: largas horas, carga constante, a menudo subvoltada, a veces bien refrigerada… y otras veces horneada en una sauna de polvo.

Ese detalle de estado estable importa. A la electrónica no le gustan los ciclos térmicos. A los ventiladores no les gustan las horas.
La VRAM sufre con una mala refrigeración. La entrega de potencia sufre con fuentes baratas y mala circulación de aire. Y tú, el comprador, odias las sorpresas.

El objetivo no es demostrar que la GPU está “como nueva.” Es demostrar que es predecible:
se identifica correctamente, funciona de forma estable a stock, no lanza errores de memoria, no estrangula de forma extraña y no tiene firmware manipulado.

Broma #1: Comprar una GPU de minería sin probarla es como desplegar en viernes: técnicamente posible, espiritualmente cuestionable.

Hechos interesantes e historia breve (para que dejes de adivinar)

La minería GPU no siempre fue “minería GPU”. La minería temprana de criptomonedas empezó en CPUs; las GPUs dominaron cuando el hashing paralelo aplastó el rendimiento de las CPUs.
2013–2014 fue un ensayo del “desabastecimiento de GPUs”. La demanda de la era Litecoin disparó ciertas tarjetas AMD mucho antes del gran pico de 2020–2022.
El auge de Ethereum convirtió a la VRAM y al ancho de banda en reyes. Muchas granjas optimizaban relojes/voltajes de memoria más que los del core.
La modificación de firmware se convirtió en industria. El VBIOS modificado para tiempos de memoria más agresivos fue común en algunas generaciones AMD, y puede persistir en la reventa.
El subvoltaje suele ser una buena práctica minera. Muchos mineros redujeron el voltaje del core para mejorar la eficiencia, lo que puede reducir el estrés—si la refrigeración es adecuada.
Los ventiladores son las bajas más comunes. Los rodamientos se desgastan por operación continua; fallos en ventiladores son uno de los eventos más comunes de “ayer funcionaba”.
Las almohadillas térmicas importan más que la pasta térmica. En muchas tarjetas, las temperaturas de VRAM/VRM están limitadas por pads; pads secos o mal dimensionados causan errores de memoria y estrangulamiento.
“Reacondicionado” a veces significa “lavado”. Se puede limpiar una tarjeta hasta que parezca nueva dejando conectores corroídos o pads cocidos sin tocar.
El cambio de Ethereum afectó el mercado de usados. Cuando Ethereum dejó el proof-of-work, muchas GPUs aparecieron en el mercado con calidad muy variable.

Qué hace realmente la minería a una GPU

El calor es el titular; las horas de ventilador son la quita del presupuesto

Las granjas mineras suelen funcionar 24/7. Si el operador se preocupaba, ejecutaban subvoltadas, con buen flujo de aire y mantenían puntos calientes y temperaturas de VRAM
dentro de lo razonable. Si no se preocupaban, la tarjeta pudo vivir al borde del estrangulamiento durante meses. Ambas aparecerán como “probada, funciona.”
Solo una merece tu dinero.

La historia del ventilador es más simple: las horas son horas. Un ventilador que funcionó 18 meses de continuo ha vivido una vida.
Puedes reemplazar ventiladores. Pero debes presupuestar ese reemplazo y verificar que la tarjeta no tenga otros comportamientos de “sistema cansado”.

La salud de la VRAM es el diferenciador silencioso

Para juegos, muchos problemas aparecen como artefactos ocasionales que los usuarios toleran hasta que ya no.
Para cómputo, los errores de VRAM se traducen en resultados erróneos o caídas. La minería castiga la memoria. Si una tarjeta tiene VRAM marginal,
la minería la encontrará. A veces el minero “lo arregla” subiendo la estabilidad mediante subclock de memoria. Entonces la compras, vuelves a stock y se cae.

El firmware y los límites de potencia pueden ser trampas

Algunas tarjetas ex-minería llevan VBIOS modificados: límites de potencia alterados, cambios en straps/timings de memoria, salidas deshabilitadas en ciertos modelos
u curvas de ventilador extrañas. Una tarjeta “funciona en el minero” pero puede ser un dolor en un escritorio normal.

La confiabilidad es eliminar lo desconocido

La mentalidad que quiero que copies de operaciones de producción: no necesitas perfección. Necesitas un sistema controlado con modos de fallo conocidos.
Al comprar hardware usado, compras los desconocidos de otra persona. Tus pruebas son cómo los haces conocidos.

Una cita digna de poner sobre tu monitor: “La esperanza no es una estrategia.” — General Gordon R. Sullivan

Antes de ver al vendedor: qué preguntar y qué rechazar

Pide evidencia aburrida, no impresiones

Nombre exacto del modelo y fotos de las pegatinas: frontal, backplate, área del conector PCIe y la etiqueta con número de serie/modelo.
Estado del VBIOS original: “Nunca flasheada” es una afirmación; tu trabajo es verificarlo después. Pero pregunta y observa cómo responden.
Patrón de uso: “en mi PC de juego” vs “en un rack 24/7.” No moralices; simplemente valora el riesgo correctamente.
Motivo de la venta: atención a evasivas. “Me actualicé” está bien. “No tengo tiempo” está bien. “Solo necesita drivers” no está bien.
Periodo de devolución: incluso 24 horas ayuda. Sin devolución solo es aceptable si el precio es brutalmente descontado y puedes probar en sitio.

Rechaza tratos que impidan la verificación

Aléjate si ocurre cualquiera de esto:

No puedes probarla con alimentación en absoluto.
No te dejan ejecutar una prueba de estrés “porque lleva demasiado tiempo”.
La tarjeta está “ya empaquetada y sellada” sin mostrar el número de serie.
Insisten en encontrarse en un lugar donde no puedes enchufarla.

No estás siendo difícil. Estás siendo un adulto con un presupuesto.

Inspección física: lo que no se arregla con software

Busca negligencia térmica y fatiga mecánica

Descoloramiento del PCB: áreas oscurecidas alrededor de etapas VRM o conectores de potencia pueden indicar calor sostenido.
Deformación: una ligera curvatura es normal; una deformación evidente no lo es. Las granjas a veces montan tarjetas de forma extraña.
Desgaste de conectores: los dedos del borde PCIe deben estar limpios y con desgaste uniforme; arañazos profundos o picaduras pueden indicar corrosión.
Juego en ventiladores: gira suavemente los ventiladores. Deben rotar sin rechinar y detenerse de forma gradual.
Patrones de polvo en el disipador: “limpio por fuera, marcado por dentro” sugiere limpieza cosmética solamente.
Tornillos faltantes / mezclados: indica desmontaje previo. Desmontar no es maligno, pero eleva la exigencia de tus pruebas por software.
Corrosión en backplate/soporte IO: especialmente cerca de aire salino. Suele ser un asunto ambiental, no de rendimiento—hasta que lo es.

Prueba olfativa (sí, en serio)

Un olor fuerte a componente quemado cerca del conector de alimentación no es “normal usado.” Es “algo se calentó hasta dejar memoria.”
Algunas personas lo ignoran y no les pasa nada. Otras sufren pantallas negras intermitentes durante meses. Decide qué hobby quieres.

Broma #2: Si la GPU huele a barbacoa, no compraste una tarjeta gráfica—adoptaste una historia de precaución.

Guion de diagnóstico rápido (primeras/segundas/terceras comprobaciones)

Esta es la versión “tengo 20 minutos con el vendedor y un equipo Linux” . El orden importa.
Intentas atrapar los factores decisivos temprano: identidad incorrecta, rarezas de firmware, VRAM inestable, fuga térmica.

Primero: identidad y saneamiento de drivers (2 minutos)

Confirma que la tarjeta es lo que dice ser (modelo, tamaño de VRAM, ancho de bus/enlace PCIe).
Confirma que el driver puede comunicarse sin problemas (sin spam de Xid, sin “fallen off the bus”).

Segundo: térmicos en reposo y bajo carga corta (5–7 minutos)

Revisa temperatura en reposo y comportamiento de los ventiladores.
Ejecuta una carga corta y pesada y observa temperatura GPU, hotspot (si está disponible) y consumo de potencia.
Busca estrangulamiento inmediato, fallos de rampa de ventilador o comportamientos extraños de límite de potencia.

Tercero: estabilidad enfocada en VRAM (10–15 minutos)

Ejecuta una prueba intensiva de memoria (no solo del core).
Vigila artefactos, cierres de aplicaciones, reinicios del driver, errores de memoria corregidos/no corregidos (si la plataforma los expone).

Si pasa estos tres, merece pruebas más profundas luego

Las pruebas en sitio no son un burn-in completo. Son triage. Tu objetivo es no comprar hardware obviamente malo.
Tras la compra (idealmente dentro del periodo de devolución), ejecuta la batería más larga.

Comprobaciones por comandos: tareas prácticas con salidas y decisiones

A continuación hay tareas que realmente puedes ejecutar. Están escritas para Linux porque Linux es honesto y rápido con la verdad del hardware.
Si compras para gaming en Windows, aún puedes ejecutar esto desde un USB en vivo. Sí, vale la pena.

Supuestos:

Las tarjetas NVIDIA usan nvidia-smi.
Las AMD usan los controladores del kernel y herramientas como lspci, journalctl, rocm-smi cuando estén disponibles.
Herramientas de estrés: stress-ng, glmark2, gpu-burn (si la tienes), y cargas simples OpenGL/Vulkan.

Task 1: Identify the GPU and confirm it shows up on the PCIe bus

cr0x@server:~$ lspci -nn | grep -Ei 'vga|3d|display'
01:00.0 VGA compatible controller [0300]: NVIDIA Corporation GP102 [GeForce GTX 1080 Ti] [10de:1b06] (rev a1)

Qué significa: Obtienes vendor y device IDs. Si el listado dice “RTX 3080” y ves GP102, se acabó—pon fin a la negociación.
Si no aparece, la tarjeta no se está enumerando (tarjeta muerta, problema de alimentación o del slot de la placa).

Decisión: Coincidencia errónea = no comprar. Dispositivo ausente = solo seguir si controlas la bancada de pruebas y puedes cambiar slot/PSU rápido.

Task 2: Check PCIe link width and speed (a sneaky performance and stability clue)

cr0x@server:~$ sudo lspci -s 01:00.0 -vv | grep -E 'LnkCap|LnkSta'
LnkCap: Port #0, Speed 8GT/s, Width x16
LnkSta: Speed 8GT/s (ok), Width x16 (ok)

Qué significa: Si una tarjeta x16 funciona a x1 o x4 inesperadamente, puede ser conector sucio, pines dañados,
un problema de placa o desgaste por riser de minería.

Decisión: Cualquier ancho por debajo del esperado en un slot conocido bueno es señal de alarma. Limpia y vuelve a asentar una vez; si persiste, pasa.

Task 3: Verify NVIDIA driver communication and basic telemetry

cr0x@server:~$ nvidia-smi
Tue Jan 21 12:10:11 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.14              Driver Version: 550.54.14      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------|
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  GeForce RTX 3080               Off |   00000000:01:00.0  Off |                  N/A |
| 55%   44C    P8              36W / 320W |      500MiB / 10240MiB |      3%      Default |
+-----------------------------------------+------------------------+----------------------+

Qué significa: La tarjeta está viva, el driver la ve y los sensores básicos funcionan.
Sensores faltantes, “N/A” donde esperarías un valor (aparte de ECC en tarjetas de consumo) o consumo de inactividad extraño pueden indicar rarezas de firmware.

Decisión: Si nvidia-smi falla o se queda colgado, para. Eso no es “problema de drivers” hasta probar en otra máquina.

Task 4: Pull detailed NVIDIA board identity and VBIOS version

cr0x@server:~$ nvidia-smi -q | sed -n '1,120p'
==============NVSMI LOG==============

Timestamp                                 : Tue Jan 21 12:11:03 2026
Driver Version                            : 550.54.14
CUDA Version                              : 12.4

Attached GPUs                             : 1
GPU 00000000:01:00.0
    Product Name                          : GeForce RTX 3080
    Product Brand                         : GeForce
    VBIOS Version                         : 94.02.42.40.9B
    PCI Device/Vendor ID                  : 2206/10DE
    GPU UUID                              : GPU-aaaaaaaa-bbbb-cccc-dddd-eeeeeeeeeeee

Qué significa: Obtienes la versión de VBIOS y un UUID estable. Un campo VBIOS raro o en blanco puede ser advertencia.
La versión de VBIOS sola no prueba que sea stock, pero te da un ancla para comparar luego.

Decisión: Si el vendedor afirma “nunca flasheada” y el VBIOS es claramente no estándar para esa tarjeta, negocia o aléjate.

Task 5: Check for obvious kernel/driver errors during idle

cr0x@server:~$ sudo journalctl -k --since "10 min ago" | grep -Ei 'nvrm|xid|amdgpu|gpu|pcie' | tail -n 20
kernel: NVRM: loading NVIDIA UNIX x86_64 Kernel Module  550.54.14  Tue Jan 14 20:11:31 UTC 2026
kernel: nvidia 0000:01:00.0: enabling device (0000 -> 0003)

Qué significa: Buscas señales de estabilidad: errores Xid (NVIDIA), reinicios GPU, spam AER de PCIe, timeouts de ring de amdgpu.
Un log limpio en reposo es la línea base.

Decisión: ¿Reinicios recurrentes de GPU o errores PCIe en reposo? Aléjate. Bajo carga podrías probar más, pero en reposo ya es malo.

Task 6: Check idle thermals and fan RPM (if exposed)

cr0x@server:~$ nvidia-smi --query-gpu=temperature.gpu,fan.speed,power.draw,clocks.gr,clocks.mem --format=csv
temperature.gpu, fan.speed [%], power.draw [W], clocks.current.graphics [MHz], clocks.current.memory [MHz]
44, 55, 36.12, 210, 405

Qué significa: Temperatura en reposo en 30s–50s °C puede ser normal según ambiente y políticas de fan-stop.
Pero un consumo alto en reposo (p. ej., 70–100W) sin pantalla conectada puede indicar rarezas de firmware/driver o estado de rendimiento atascado.

Decisión: Consumo alto en reposo o ventilador al 100% con bajas temperaturas sugiere problemas de sensor/control. No compres un “controlador misterioso.”

Task 7: Quick load test and observe clocks, power, and throttling reasons

cr0x@server:~$ timeout 60s glmark2 --off-screen
=======================================================
    glmark2 2021.02
=======================================================
[build] use-vbo=false: FPS:  945 FrameTime: 1.058 ms
[build] use-vbo=true:  FPS: 1204 FrameTime: 0.831 ms
=======================================================
                                  glmark2 Score:  10843
=======================================================

Qué significa: Quieres que “ejecute” sin artefactos, reinicios de driver ni colapsos de puntuación a mitad de ejecución.
Las puntuaciones varían por CPU y driver, fíjate en la estabilidad.

Decisión: Cualquier corrupción visual, caída o congelamiento del test = fallo grave.

Task 8: Watch live telemetry during load (spot thermal runaway fast)

cr0x@server:~$ nvidia-smi dmon -s pucmt
# gpu   pwr  u   c   m   t
# Idx     W  %  %  %  C
  0     302  99  96  78  83
  0     309  99  97  79  86
  0     312  99  97  80  89

Qué significa: Observas potencia (pwr), utilización (u), clocks (c), uso de memoria (m) y temperatura (t).
Temperaturas que se disparan y no se estabilizan sugieren mal contacto del cooler, ventiladores muertos, aletas obstruidas o pads cocidos.

Decisión: Si alcanza límite térmico rápido y las frecuencias caen, negocia una repasta/cambio de pads (con riesgo) o aléjate.

Task 9: Check throttle reasons (NVIDIA)

cr0x@server:~$ nvidia-smi -q -d PERFORMANCE | sed -n '1,140p'
    Performance State                    : P2
    Clocks Throttle Reasons
        Idle                             : Not Active
        Applications Clocks Setting       : Not Active
        SW Power Cap                      : Not Active
        HW Slowdown                       : Not Active
        HW Thermal Slowdown               : Not Active
        HW Power Brake Slowdown           : Not Active
        Sync Boost                        : Not Active
        SW Thermal Slowdown               : Not Active

Qué significa: Quieres que los throttles estén “Not Active” durante cargas moderadas. Bajo carga extrema puede activarse cap de potencia—normal.
Thermal slowdown activo a temperaturas moderadas es sospechoso: calibración de sensor mala, límites de firmware o mal contacto con hotspot/VRAM.

Decisión: Throttle térmico persistente o power-brake bajo pruebas normales = no comprar salvo que quieras proyecto de reparación.

Task 10: Memory-heavy stress (catch marginal VRAM)

cr0x@server:~$ stress-ng --gpu 1 --gpu-ops 200000 --timeout 10m --metrics-brief
stress-ng: info:  [2147] dispatching hogs: 1 gpu
stress-ng: info:  [2147] successful run completed in 600.01s
stress-ng: info:  [2147] metrics: 200000 gpu ops, 333.33 ops/s

Qué significa: Debe completarse sin errores, sin reinicio de driver y sin llenar el log con fallos GPU.
No es la única prueba de VRAM, pero es un workload accesible que muestra si se cae rápidamente.

Decisión: Cualquier caída/reinicio/artefacto durante 10 minutos de memoria activa = asume problemas de VRAM o entrega de potencia. Aléjate.

Task 11: Post-stress log scan (because the log tells the truth when the UI lies)

cr0x@server:~$ sudo journalctl -k --since "20 min ago" | grep -Ei 'xid|nvrm|amdgpu|ring|timeout|pcie|aer' | tail -n 50
kernel: NVRM: Xid (PCI:0000:01:00): 13, pid=3121, Graphics Exception: ESR 0x404600=0x80000002

Qué significa: Xid 13 y similares pueden indicar problemas de driver, pero en hardware usado trátalos como “hardware posiblemente marginal”
a menos que puedas reproducirlo limpio en otro OS/versión de driver rápidamente.

Decisión: Cualquier Xid o timeout de ring AMD durante tus pruebas cortas es una gran señal de alarma. No compres con esperanza.

Task 12: Check system power and PCIe stability signals (AER counters)

cr0x@server:~$ sudo journalctl -k --since "30 min ago" | grep -i 'AER' | tail -n 20
kernel: pcieport 0000:00:01.0: AER: Corrected error received: 0000:01:00.0
kernel: pcieport 0000:00:01.0: AER: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID)

Qué significa: Errores corregidos pueden venir de risers malos, integridad de señal marginal o conectores sucios. Las granjas usaron risers constantemente.
En un slot directo y limpio, spam AER persistente sugiere un problema de hardware.

Decisión: Si errores corregidos aparecen repetidamente bajo carga, no lo trates como “está bien.” Tiende a convertirse en “no está bien” después.

Task 13: Confirm the GPU isn’t running with weird application clocks or persistent modes

cr0x@server:~$ nvidia-smi -q | grep -E 'Persistence Mode|Applications Clocks|Auto Boost' -n
75:    Persistence Mode                   : Disabled
112:    Applications Clocks                : Not Active
130:    Auto Boost                         : On

Qué significa: Algunas granjas fijan relojes o usan persistence mode; a veces eso queda en la configuración del OS del vendedor.
Quieres comportamiento cercano a stock para evaluar la tarjeta con justicia.

Decisión: Si el entorno del vendedor está muy ajustado, exige probar desde un entorno limpio en vivo—o considera los resultados como no confiables.

Task 14 (AMD-leaning): Check amdgpu detection and errors

cr0x@server:~$ dmesg | grep -Ei 'amdgpu|ring|gpu reset|vram' | tail -n 30
[    2.913] amdgpu 0000:03:00.0: VRAM: 8192M 0x000000F400000000 - 0x000000F5FFFFFFFF (8192M used)
[    3.102] [drm] Initialized amdgpu 3.54.0 20150101 for 0000:03:00.0 on minor 0

Qué significa: Buscas una inicialización limpia. Timeouts de ring, “GPU reset” o fallos de VRAM son malas señales.

Decisión: Cualquier mensaje de reset durante pruebas básicas = aléjate salvo que compres para reparar.

Task 15: Simple VRAM allocation test (quick and ugly, but useful)

cr0x@server:~$ python3 - <<'PY'
import torch, time
print(torch.cuda.get_device_name(0))
x = torch.empty((1024,1024,1024), device='cuda', dtype=torch.float16)
torch.cuda.synchronize()
print("allocated:", x.numel()*2/1024/1024, "MiB")
time.sleep(2)
PY
GeForce RTX 3080
allocated: 2048.0 MiB

Qué significa: Esta es una comprobación básica de “puedo asignar y tocar memoria en la GPU sin fallos inmediatos?”.
No detectará cada celda de memoria marginal, pero atrapa fallos espectaculares rápidamente.

Decisión: Si las asignaciones fallan o el driver se reinicia, no lo racionalices. El hardware debe asignar memoria de forma fiable.

Task 16: Confirm no surprise undervolt/overclock is set in software (what you can detect)

cr0x@server:~$ nvidia-smi --query-gpu=power.limit,power.default_limit,clocks.max.graphics,clocks.max.memory --format=csv
power.limit [W], power.default_limit [W], clocks.max.graphics [MHz], clocks.max.memory [MHz]
320.00, 320.00, 2100, 9501

Qué significa: Que el límite de potencia coincida con el por defecto es tranquilizador. Si el límite está inusualmente bajo/alto respecto al default,
algo ha sido modificado (software o firmware).

Decisión: Límites de potencia no estándar no son automáticamente malos, pero aumentan el riesgo. Exige pruebas limpias a stock antes de comprar.

Tres micro-historias del mundo corporativo (todas anonimizadas, todas dolorosamente plausibles)

1) El incidente por una suposición errónea: “minó bien, así que es estable.”

Una empresa de análisis de tamaño medio necesitaba más GPUs para un pipeline de visión por computador. El presupuesto apretado, el tiempo más apretado.
Un responsable de compras encontró un lote de tarjetas usadas de un liquidador. El vendedor proporcionó capturas de pantalla de dashboards de hashrate y afirmó
“todas probadas, estables, 90 días nonstop.”

La suposición del equipo fue sutil y errónea: si una GPU puede minar meses, puede ejecutar sus trabajos de entrenamiento. Hicieron una prueba básica de arranque,
instalaron drivers y ejecutaron un test corto. Todo parecía bien. Montaron los nodos y lanzaron un entrenamiento largo para el fin de semana.

El lunes fue un festival de trabajos fallidos. No todos los nodos—solo algunos. A veces los reintentos funcionaban. A veces no.
Los logs mostraban reinicios intermitentes de GPU bajo alta presión de memoria. La carga minera en la que confiaron era intensiva en memoria, sí,
pero también era predecible y muchas veces ajustada con reloj de memoria inferior para ser eficiente. Su entrenamiento golpeó la memoria diferentemente,
con picos que forzaron timings y térmicos de maneras que el minero nunca hizo.

La solución fue poco glamorosa: aislaron las tarjetas inestables, reemplazaron pads térmicos en algunas y ejecutaron una batería de burn-in enfocada en VRAM.
Algunas tarjetas se estabilizaron tras mantenimiento. Otras nunca lo hicieron y quedaron relegadas a cargas menos críticas hasta reemplazarlas.

La lección real: “estable” es específico de la carga de trabajo. No aceptes estabilidad minera como prueba de estabilidad de cómputo a clocks stock en tu entorno.
Ejecuta tus propias pruebas e incluye específicamente asignación de memoria y comprobaciones térmicas sostenidas.

2) La optimización que salió mal: perseguir eficiencia y comprar un problema de mantenimiento

Una empresa de medios montó una granja de render interna. Fueron listos: comprarían GPUs ex-minería baratas, las subvoltarían, limitarían la potencia
y las ejecutarían “frías y eficientes.” En teoría, genial: menor factura eléctrica, más GPUs por rack, menos disyuntores saltados.

Estandarizaron curvas de ventilador agresivas para mantener temperaturas bajas. Los ventiladores giraban fuerte, todo el tiempo.
Las tarjetas fueron estables, el rendimiento aceptable y finanzas contentas—hasta que unos seis meses después comenzaron a acumularse fallas.

Las fallas no eran dramáticas. Eran molestas. Un ventilador aquí, otro allá. Luego una tarjeta estrangulaba térmicamente porque su ventilador empezó a fallar.
Un trabajo tardaba el doble, perdía su ranura y se desataba caos en el calendario. El equipo pasó más horas cambiando ventiladores que mejorando rendimiento.

El postmortem fue directo: optimizaron por eficiencia energética pero sin querer optimizaron por desgaste de ventiladores.
Convirtieron un coste eléctrico predecible en un coste operativo impredecible. Sus “GPUs baratas” dejaron de serlo cuando entró el coste de la mano de obra.

La corrección eventual fue tratar los ventiladores como consumibles: almacenaron repuestos, redujeron políticas de RPM constantes y establecieron
inspecciones trimestrales rápidas con líneas base térmicas. También empezaron a tasar GPUs usadas con un “impuesto de mantenimiento” desde el día uno.

3) La práctica aburrida pero correcta que salvó el día: cuarentena y burn-in serio

Un equipo fintech amplió un clúster de modelado de riesgos usando GPUs. Tenían una regla: ningún hardware nuevo—especialmente usado—va directo a producción.
Todo pasa por un rack de cuarentena para burn-in y verificación de identidad. No es sexy, pero es sobrevivible.

Compraron un lote de tarjetas usadas de varios vendedores. Cada GPU recibió una etiqueta, se registró el serial y se siguió una suite de pruebas estandarizada:
telemetría en reposo, telemetría bajo carga, test de asignación de VRAM y una ejecución de estrés de dos horas con captura de logs. Luego puntuaban las tarjetas:
“limpia”, “necesita mantenimiento” o “rechazar”.

Dos tarjetas fueron heroínas por ser villanas temprano. Pasaron un benchmark corto pero fallaron durante la ejecución larga
con errores PCIe corregidos y reinicios intermitentes del driver. Si esas tarjetas hubieran entrado en producción, habrían causado fallos esporádicos
que parecerían “bugs de software” durante semanas.

En su lugar, el equipo rechazó esas unidades inmediatamente mientras aún estaban dentro de la ventana de devolución. Sin outages, sin llamadas de incidente en fin de semana,
sin conversaciones incómodas con liderazgo sobre por qué las matemáticas estaban embrujadas.

La práctica no era ingeniosa. Era disciplinada: cuarentena, prueba, log, decidir. Lo aburrido es bueno cuando ejecutas sistemas reales.

Listas de verificación / plan paso a paso

Lista de compra en sitio (20–30 minutos)

Inspección visual: conectores, tornillos, juego en ventiladores, polvo, corrosión, descoloramiento del PCB.
Asentar la GPU directamente en un slot PCIe conocido bueno: evita risers para las pruebas.
Arrancar e identificar: lspci coincida con el modelo; confirmar ancho de enlace PCIe razonable.
Comprobación de telemetría: nvidia-smi (o logs AMD) muestre temperaturas, potencia y ventiladores sensatos.
Carga corta: ejecutar glmark2 --off-screen o equivalente; vigilar artefactos y caídas.
Estrés rápido: 10 minutos de carga con uso de memoria; luego escanear logs por fallos GPU.
Decisión: compra solo si identidad, estabilidad y térmicos son sensatos; si no, negocia duro o aléjate.

Lista post-compra para burn-in (mismo día, antes de confiar en ella)

Registrar línea base: versión VBIOS, UUID, versión de driver, temperaturas/potencia en reposo.
Dos cargas diferentes: una intensiva en gráficos y otra intensiva en memoria.
Ejecución larga: 1–2 horas de carga sostenida mientras registras telemetría cada pocos segundos.
Revisión de logs: escanear por errores Xid, timeouts de ring, reinicios, spam AER.
Saneamiento térmico: confirmar que llega a un estado estable, no a una subida continua.
Decidir mantenimiento: repaste/repads solo si los síntomas lo justifican (o si lo compraste como proyecto y lo presupuestaste).

Qué hacer si sospechas que fue explotada en minería intensiva

Asume que los pads térmicos pueden estar gastados o mal reemplazados.
Asume que los ventiladores han consumido parte importante de su vida útil.
Asume que el firmware podría haber sido flasheado.
Valora en consecuencia: “funciona hoy” no es lo mismo que “fiable”.

Errores comunes: síntoma → causa raíz → solución

1) Síntoma: pantalla negra bajo carga, luego se recupera

Causa raíz: reinicio del driver por inestabilidad en la entrega de potencia, core marginal de GPU o sobrecalentamiento del VRM.

Solución: prueba con una PSU conocida buena y cables PCIe directos (sin cadenas). Observa consumo y razones de throttling. Si persiste, rechaza.

2) Síntoma: artefactos solo después de 5–15 minutos

Causa raíz: sobrecalentamiento de VRAM (pads), VRAM marginal o timings de memoria demasiado agresivos (posible VBIOS modificado).

Solución: ejecuta estrés enfocado en memoria y monitoriza temperaturas; prueba a clocks stock en un OS limpio. Si los artefactos persisten a stock, no compres.

3) Síntoma: ventiladores suben al 100% aleatoriamente

Causa raíz: señal tach del ventilador mala, rodamientos fallando o curva de ventilador rara por firmware.

Solución: verifica RPM si está disponible; escucha rechinidos; comprueba si el comportamiento correlaciona con temperatura. Presupuesta reemplazo de ventiladores o rechaza.

4) Síntoma: GPU atascada en alto consumo en reposo

Causa raíz: configuraciones multi-monitor/alto refresco, procesos en segundo plano o estado del driver/firmware atascado.

Solución: prueba con un monitor o en modo headless; comprueba estados de rendimiento y procesos. Si se mantiene alto tras arranques limpios, trátalo como sospechoso.

5) Síntoma: ancho de enlace PCIe cae (x16 a x1) o fluctúa

Causa raíz: conector de borde sucio, slot contaminado, daño físico por risers o señalización PCIe marginal.

Solución: asienta de nuevo una vez, limpia con cuidado, prueba en otro slot/placa. Problema persistente: rechaza.

6) Síntoma: el test de estrés completa, pero los logs muestran errores PCIe corregidos

Causa raíz: integridad de señal al límite; a menudo “funciona hasta que no.”

Solución: no lo ignores. Vuelve a probar en otro sistema. Si se repite, rechaza o cuarentena para uso no crítico.

7) Síntoma: buenos benchmarks pero se cae en tu aplicación específica

Causa raíz: desajuste de carga (compute vs graphics), patrones de acceso a memoria distintos o perfil térmico/potencia distinto.

Solución: incluye una prueba representativa de tu aplicación en el burn-in. Si no puedes reproducir la falla rápidamente, no puedes confiar en la tarjeta.

Precios, riesgo y cómo negociar como adulto

Comprar GPUs usadas no es una cuestión moral. La minería no es automáticamente mala; los operadores malos son malos.
Tu trabajo es convertir la incertidumbre en un número.

Cómo valoro el riesgo ex-minería

Sin ventana de devolución: exige un descuento fuerte. Asumes todo el riesgo a largo plazo.
Signos de desmontaje visibles: descuento salvo que el vendedor explique y muestre evidencia antes/después (pads/pasta/ventiladores).
Indicadores de desgaste de ventiladores: descuenta por el coste esperado de reemplazo más tu tiempo.
Cualquier error en logs durante pruebas: no descuentes—declina. Los sistemas de producción mueren por “casi bien”.
Estrangulamiento térmico: trátalo como mantenimiento necesario. Si no te gusta repadding, no compres el proyecto.

Guiones de negociación que funcionan

Mantén el tono técnico y calmado:

“El enlace PCIe se negocia a x4 en un slot limpio. Eso es riesgo de fiabilidad. Solo puedo comprarlo como piezas.”
“Es estable 60 segundos pero lanza errores del driver en el log del kernel bajo carga. No voy a apostar por eso.”
“Los ventiladores tienen juego y se aceleran de forma inconsistente. Si la compro, los reemplazo. Esta es mi oferta.”

Qué no hacer

No aceptes “funciona en mi rig” como prueba. Su rig no es el tuyo.
No dejes que el precio anule la evidencia. Hardware barato es caro cuando provoca downtime.
No discutas ética minera. Esto es ingeniería, no filosofía.

Preguntas frecuentes

¿Una GPU ex-minería es siempre una mala compra?

No. Algunas son excelentes compras—especialmente si el minero operó subvoltado con buena refrigeración y mantuvo pads/ventiladores.
Pero la variabilidad es enorme, así que debes probar.

¿Qué es lo más importante que debo probar?

La estabilidad bajo carga sostenida más un log del sistema limpio. Una puntuación de benchmark es vanidad; logs sin errores son cordura.

¿Las tarjetas de minería tienen menor vida útil por funcionar 24/7?

No automáticamente. La temperatura constante puede ser más amable para las soldaduras que ciclos térmicos diarios. Los ventiladores, en cambio, acumulan desgaste por las horas.

¿Debo repastear y cambiar pads térmicos inmediatamente?

Solo si ves síntomas térmicos (subida continua de temperatura, problemas de hotspot, inestabilidad vinculada a VRAM), o si la compraste explícitamente como proyecto.
Desmontar innecesariamente añade riesgo si no tienes práctica.

¿Cómo puedo saber si el VBIOS fue modificado?

No puedes probarlo por sensaciones. Compara identidad, límites de potencia y comportamiento contra expectativas stock, y busca valores por defecto extraños.
Si tienes un proceso seguro, puedes reflashear a stock más tarde, pero trata cualquier “historia de firmware” como riesgo añadido.

¿Qué temperaturas son “demasiado altas” durante un estrés?

Depende del modelo, cooler y ambiente. Pero los patrones importan:
si la temperatura sube indefinidamente, si estrangula pronto o si los ventiladores llegan al 100% para mantener apenas la estabilidad, el sistema de refrigeración necesita trabajo.

¿El subvoltaje en minería puede ser buena señal?

Puede serlo. El subvoltaje reduce potencia y calor. Pero también puede ocultar inestabilidad a stock.
Tu prueba debe incluir comportamiento a stock—porque así es como la mayoría de compradores la usarán.

¿Es seguro comprar sin probar si el vendedor tiene buena reputación?

Las calificaciones reducen el riesgo de fraude, no la variación del hardware. Un vendedor puede ser honesto y aun así vender una tarjeta marginal que no diagnosticó.
Prueba de todas formas.

¿Y las tarjetas “reacondicionadas” de revendedores a granel?

“Reacondicionado” puede significar “limpiado y encendido 30 segundos.” Pregunta qué se hizo realmente: pads, pasta, ventiladores, firmware y qué pruebas ejecutaron.
Si no pueden responder, trátalo como no reacondicionado.

¿Cuál es el tiempo mínimo razonable de prueba antes de comprar?

Si solo puedes hacer una cosa: 10–15 minutos de carga sostenida con telemetría en vivo y escaneo de logs después.
Eso detecta una gran fracción de malos actores.

Conclusión: próximos pasos para no meterte en problemas

El mercado de GPUs usadas es un casino que ocasionalmente vende hardware excelente. Tu trabajo es dejar de apostar y empezar a medir.
Haz las comprobaciones de identidad. Haz las comprobaciones de telemetría. Haz la carga sostenida. Lee los logs. Si algo huele raro—literal o figurativamente—aléjate.

Pasos prácticos siguientes:

Construye o pide prestada una bancada de pruebas limpia con una PSU conocida buena y cables PCIe directos.
Mantén un USB Linux en vivo con glmark2 y stress-ng listo.
Ejecuta el guion de diagnóstico rápido en sitio; corre el burn-in más largo el mismo día.
Sólo conserva la tarjeta si es estable a stock, los térmicos se estabilizan y los logs permanecen limpios.

Compra hardware como gestionas producción: no asumas nada, mide todo y no discutas con la física.