Anchura del bus de memoria (128/256/384 bits): cuándo importa realmente

octubre 10, 2025 • febrero 3, 2026 • Lectura: 30 min • Views: 0

¿Te fue útil?

Compraste “la GPU más rápida” y los números siguen sin reaccionar. Los FPS no suben, el rendimiento de entrenamiento no mejora y tu
panel de control muestra una línea plana con una sonrisa burlona. Alguien dice “solo es 128 bits”, otro responde “la anchura del bus es marketing” y
de pronto una reunión de compras se convierte en una clase de geometría.

La anchura del bus de memoria importa—pero no de la forma en que la mayoría discute. En producción importa cuando estás limitado por el ancho de banda,
cuando la caché no puede salvarte y cuando tu conjunto de trabajo se comporta como un mapache en una despensa: por todas partes, desordenado e impredecible.

Qué significa realmente “bus de 128/256/384 bits”

La anchura del bus de memoria es la anchura de la interfaz entre los controladores de memoria de la GPU y la VRAM.
Un “bus de 256 bits” significa que la GPU puede mover 256 bits por pulso de reloj de memoria por transferencia a través de esa interfaz, agregado entre canales.
En la práctica se implementa como múltiples canales de memoria (por ejemplo, 8 canales × 32 bits cada uno = 256 bits en total).

Ese número no es místico. Es un presupuesto de conexiones y de área en el die. Buses más anchos implican más pines, más trazas, más consumo, más complejidad.
Así que los fabricantes no diseñan buses anchos por generosidad. Lo hacen porque algunas cargas necesitan mucho ancho de banda, y las cargas hambrientas dejan benchmarks.

El truco: la anchura del bus por sí sola no te dice el ancho de banda. El ancho de banda es la anchura del bus multiplicada por la tasa de datos de la memoria (y ajustada para señalización tipo DDR),
menos las sobrecargas, más la “magia negra” que haga la caché y la compresión.

Además: la anchura del bus no es la anchura de PCIe. La gente las confunde constantemente. PCIe es el enlace entre CPU y GPU. El bus de VRAM está dentro del paquete de la GPU.
Mezclarlas es como culpar al ascensor porque el grifo de la cocina gotea.

La anchura del bus es un techo, no una promesa

Un bus de 384 bits te da potencial para mayor ancho de banda pico. No garantiza que tu carga de trabajo lo obtenga. El rendimiento real depende de:

Frecuencia y tipo de memoria (GDDR6, GDDR6X, HBM2e/HBM3, variantes LPDDR en móviles)
Patrón de acceso (lecturas/escrituras coalescentes frente a dispersas)
Tasas de acierto en caché y políticas de caché
Eficiencia y programación del controlador de memoria
Esquemas de compresión y tiling (especialmente en gráficos)
Cargas concurrentes compitiendo por la misma DRAM

La matemática del ancho de banda que la gente omite

Si no puedes calcular el ancho de banda teórico en la cabeza, seguirás perdiendo discusiones con gente de voz más alta.
Aquí está la fórmula principal que vas a usar:

Ancho de banda teórico (GB/s) ≈ (anchura del bus (bits) ÷ 8) × tasa de datos de la memoria (Gb/s por pin)

La “tasa de datos” suele ser la tasa efectiva anunciada (p. ej., 14 Gb/s, 19.5 Gb/s, 21 Gb/s). GDDR usa señalización de doble tasa; el número en Gb/s normalmente ya refleja eso.

Cálculos de ejemplo que deberías saber hacer en una pizarra

Bus de 256 bits, GDDR6 a 14 Gb/s:
(256/8) × 14 = 32 × 14 = 448 GB/s
Bus de 128 bits, GDDR6 a 18 Gb/s:
(128/8) × 18 = 16 × 18 = 288 GB/s
Bus de 384 bits, GDDR6X a 21 Gb/s:
(384/8) × 21 = 48 × 21 = 1008 GB/s

Dónde se engañan las personas

Dos GPUs pueden tener la misma anchura de bus y ancho de banda muy diferente porque la velocidad de memoria difiere.
A la inversa, un bus más estrecho con memoria más rápida puede superar a un bus más ancho con memoria más lenta.
Y luego está la caché y la compresión: a veces la GPU evita ir a VRAM por completo, lo que hace que la “anchura del bus” parezca irrelevante… hasta que deja de serlo.

Si compras hardware basándote solo en la anchura del bus, estás comprando con una sola especificación. Eso no es ingeniería; es astrología con hojas de cálculo.

Cuándo importa la anchura del bus (y cuándo no)

Importa cuando estás limitado por el ancho de banda

Estar limitado por el ancho de banda significa que tu kernel/frame/paso de render se ve restringido por la rapidez con que se pueden mover datos hacia/desde la VRAM, no por la velocidad aritmética.
Ves alto throughput de DRAM, utilización de cómputo mediocre y el rendimiento escala con el ancho de banda de memoria en lugar de con la velocidad de reloj o el recuento de núcleos.

Indicadores:

El rendimiento mejora mucho al reducir resolución/tamaño de textura/tamaño de batch/longitud de secuencia
El rendimiento mejora al aumentar la compresión de precisión (en gráficos) o usar tipos de dato más pequeños (en ML) sin aumentar el cómputo
Los perfiles muestran alto “throughput de lectura/escritura DRAM” o “pipeline de memoria ocupado” mientras las unidades SM/compute no están saturadas

Importa más a mayor resolución y mayor tamaño del conjunto de trabajo

Jugar a 1080p con texturas modestas puede no importar tanto. ¿4K con texturas pesadas y trazado de rayos? Ahí estás moviendo más datos por frame: G-buffer,
datos BVH, texturas, buffers del denoiser, pasos de postprocesado. Si esos datos se salen de la caché, el ancho de banda de VRAM se convierte en un muro sólido.

Importa cuando no puedes “salvarte con caché”

Cachés de último nivel grandes (y políticas de caché inteligentes) pueden ocultar un bus estrecho para muchos juegos reales y algunos patrones de inferencia ML.
Pero cuando el conjunto de trabajo excede la caché y tienes accesos en streaming (piensa: tensores grandes, texturas grandes, estructuras dispersas grandes),
la anchura del bus y la velocidad de memoria vuelven con la sutileza de un pagador a las 3 a. m.

Importa menos cuando estás limitado por cómputo

Las cargas limitadas por cómputo saturan ALUs/Tensor cores/SMs. Aquí, la memoria no es la limitación. Un bus más ancho no ayudará mucho.
Ejemplos comunes:

Multiplicación de matrices densa donde la intensidad aritmética es alta y la reutilización de datos fuerte (especialmente con tiling)
Algunos trabajos de trazado de rayos que se ven limitados por el recorrido/cómputo más que por la memoria, según la escena
Kernels de entrenamiento FP16/BF16 bien optimizados que alcanzan el throughput de Tensor cores y reutilizan entradas agresivamente

Importa menos cuando estás limitado por PCIe o por la CPU

Si tu pipeline se detiene en el preprocesado del lado de la CPU, I/O, dataloader o transferencias host-dispositivo, la anchura del bus de VRAM es irrelevante.
Puedes tener un bus de 384 bits y seguir aburrándote esperando a que la CPU decodifique imágenes.

Una cita a la que regreso en trabajo de operaciones es de John Ousterhout: “La medición es el primer paso que conduce al control.”
Cuando la gente discute la anchura del bus sin medir, elige sensaciones sobre control.

Cachés, compresión y otras formas en que los fabricantes “engañan” a la física

Las cachés grandes son un multiplicador de bus—hasta que dejan de serlo

Las GPUs modernas aumentaron sustancialmente las cachés L2, y algunas arquitecturas añadieron incluso cachés de último nivel más grandes (a veces con marca propia).
Cuando tu carga de trabajo acierta en caché, la demanda de ancho de banda de VRAM baja drásticamente. Un bus más estrecho puede parecer “suficiente” porque no lo estás usando mucho.

Modo de fallo: actualizas un juego, cambias un modelo, ajustas el batch o añades una característica que incrementa el conjunto de trabajo.
La tasa de acierto en caché se desploma y de pronto el bus estrecho se convierte en toda tu personalidad.

La compresión de memoria es real—y depende de la carga

Las GPUs suelen comprimir buffers de color, profundidad y otras superficies. Esto incrementa efectivamente el ancho de banda utilizable al mover menos bits.
No es magia; es gestión de entropía. Los datos altamente compresibles se benefician; los datos ruidosos no.

Por eso dos juegos a la misma resolución pueden comportarse distinto en la misma GPU: sus pipelines de render generan características de datos diferentes.

La anchura del bus compite con potencia y coste

Bus más ancho: más chips de memoria (o de mayor densidad), más complejidad en la PCB, más consumo.
En portátiles y sistemas de pequeño factor, un bus más estrecho a veces es un compromiso deliberado para mantener térmicas y coste bajo control.
Quejarse de eso es como quejarse de que tu bicicleta no tenga un V8.

Broma #1: Un bus de memoria más ancho no arreglará el pacing de frames si tu compilación de shaders se queda colgada—aunque hará que el tirón llegue más rápido.

Patrones de carga: juegos, ML, renderizado, analítica

Juegos: la anchura del bus se manifiesta como “impuesto 4K” y “impuesto por texturas”

En juegos, la GPU toca mucha memoria en cada frame: texturas, buffers de vértices/índices, objetivos de render, mapas de sombras, estructuras de aceleración para ray tracing,
además del postprocesado. A resoluciones altas, aumentas el tamaño de los objetivos de render e buffers intermedios. La calidad de texturas incrementa también el tráfico VRAM.

Dónde luchan los buses más estrechos:

4K con calidad de texturas alta y postprocesado intenso
Trazado de rayos + alta resolución + denoising
Escenas de mundo abierto con mucha presión de streaming (muchos assets entrando/saliendo)

Dónde la anchura del bus podría no importar mucho:

1080p/1440p con ajustes moderados
Títulos esports que están limitados por la CPU o ligeros en texturas
Escenarios donde la GPU está limitada por cómputo de sombreado en lugar de tráfico de memoria

Entrenamiento ML: “limitado por ancho de banda” depende de la mezcla de capas

Las cargas de entrenamiento varían. Algunas capas son intensivas en cómputo con alta reutilización (matmul/proyecciones de atención), otras son intensivas en memoria (layernorm, softmax,
búsquedas de embeddings, algunos pasos de optimizador).

La anchura del bus suele importar más cuando:

Usas tamaños de batch pequeños y no amortizas overheads; tienes menos reutilización por lanzamiento
Haces muchas operaciones limitadas por memoria (normalización, elementwise, reducciones) en relación con grandes matmuls
Entrenas modelos con embeddings grandes o componentes dispersos
No usas kernels fusionados y mueves tensores a VRAM entre operaciones pequeñas

Importa menos cuando:

Tu entrenamiento está dominado por grandes GEMMs/conv donde los tensor cores trabajan al máximo y la reutilización de datos es alta
Has fusionado operaciones y aumentado la intensidad aritmética

Inferencia ML: la latencia puede ser sensible al ancho de banda en lugares sorprendentes

La inferencia a menudo se ejecuta con tamaños de batch pequeños. Eso reduce la reutilización de datos e incrementa la posibilidad de que estés limitado por memoria en cachés de atención,
lecturas de caché KV y layernorms. Por eso las GPUs de consumo con bus estrecho pueden ir bien en batch=16 pero fallar en objetivos de latencia con batch=1.

Renderizado/cómputo (offline): conjuntos de datos grandes castigan a los buses estrechos

Los renderizadores offline, simulaciones y cargas científicas a menudo procesan grandes arrays con acceso en streaming: leer un buffer grande, hacer una cantidad modesta de cómputo,
escribir resultados. Ese es el caso clásico limitado por ancho de banda. Si haces esto, la anchura del bus y el ancho de banda de memoria suelen estar en la cima de la lista de prioridades.

Analítica de datos en GPU: scatter/gather es la prueba ácida de la anchura del bus

Analítica de grafos, joins y cargas irregulares crean accesos de memoria dispersos. Las cachés y la coalescencia ayudan, pero hay un límite de cuánto se puede mejorar.
En estos casos quieres tanto ancho de banda como características del sistema de memoria que manejen bien la latencia.

Datos interesantes y contexto histórico (8 puntos rápidos)

Los buses más anchos solían ser la victoria más fácil. Las GPUs tempranas ganaban mucho simplemente aumentando la anchura del bus cuando las velocidades de memoria quedaban atrás respecto al cómputo.
256 bits se convirtió en la referencia “GPU seria”. Fue un equilibrio entre la complejidad de la PCB y el ancho de banda para tarjetas de gama alta durante mucho tiempo.
HBM cambió la conversación. Con interfaces muy anchas y alto ancho de banda por paquete, HBM desplazó el enfoque de “anchura del bus” a “ancho de banda por pila de memoria”.
Los tamaños de caché explotaron. Las arquitecturas modernas usan grandes cachés L2/LLC para reducir viajes a VRAM y hacer viable buses más estrechos.
La compresión es una especificación silenciosa. Los fabricantes rara vez la anuncian con la misma fuerza que la anchura del bus, pero la compresión a menudo decide las necesidades de ancho de banda en el mundo real.
GDDR6X empujó la señalización más lejos. Tasas por pin más rápidas pueden compensar buses más estrechos, al costo de potencia y complejidad.
Las restricciones móviles forzaron creatividad. Límites de potencia y empaquetado en portátiles fomentaron buses más estrechos combinados con cachés y gestión agresiva de memoria.
La anchura del bus también condiciona opciones de capacidad VRAM. El recuento de canales y la organización de los chips puede limitar capacidades “ordenadas” sin usar disposiciones inusuales.

Guía rápida de diagnóstico

Este es el orden que uso cuando alguien dice “necesitamos un bus más ancho” o “esta GPU va lenta”. Intentas responder una pregunta:
¿Es el ancho de banda de VRAM realmente el cuello de botella?

1) Confirma qué hardware tienes realmente

Modelo de GPU, tipo de memoria, relojes, límites de potencia
Versión del driver y ajustes de persistencia
¿Estás en iGPU/dGPU por accidente? (Sucede. A menudo.)

2) Determina si la carga es limitada por cómputo, por ancho de banda o por otra cosa

Revisa utilización de GPU, relojes, consumo de energía, contadores de throughput de memoria si están disponibles
Revisa utilización de CPU y bloqueos por I/O
Revisa volumen de transferencias host-dispositivo y velocidad del enlace PCIe

3) Ejecuta un microbenchmark para estimar el ancho de banda alcanzable

Si el microbench alcanza alto throughput de DRAM pero tu app no, el problema es patrón de acceso, fusión de kernels o movimiento de datos
Si el microbench está muy por debajo de lo esperado, podrías estar con throttling de potencia/relojes, mal configurado o en una plataforma limitada

4) Cambia un control que aísle el ancho de banda

Reduce resolución / tamaño de tensor / tamaño del batch
Desactiva una característica que aumente tráfico de memoria (p. ej., RT, texturas de alta resolución, pases extra)
Observa la escala: lo limitado por ancho de banda suele escalar aproximadamente lineal con los bytes movidos

5) Solo entonces habla de la anchura del bus

Si no sabes si estás limitado por el ancho de banda, la anchura del bus es solo una historia que te cuentas para sentirte decisivo.

Tareas prácticas: comandos, salidas, qué significa, qué decides

Estas son las comprobaciones “hazlas ahora” que espero que ejecute un SRE on-call o un ingeniero de rendimiento antes de escalar a cambios de hardware.
Los comandos asumen Linux. Si estás en Windows, los conceptos son iguales; tu día solo será más gráfico.

Task 1: Identify the GPU and driver

cr0x@server:~$ nvidia-smi
Tue Jan 21 12:04:02 2026
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 555.42.02    Driver Version: 555.42.02    CUDA Version: 12.5     |
|-------------------------------+----------------------+----------------------|
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA RTX A5000    Off  | 00000000:65:00.0 Off |                  N/A |
| 30%   62C    P2   160W / 230W |  18123MiB / 24576MiB |     92%      Default |
+-------------------------------+----------------------+----------------------+

Significado de la salida: Confirma modelo de GPU, driver, límite de potencia, uso de VRAM, utilización de GPU.

Decisión: Si GPU-Util está baja pero el trabajo va lento, deja de discutir la anchura del bus y busca cuellos de botella en CPU/I/O/PCIe o batching deficiente.

Task 2: Verify PCIe link width and speed (host-device bottleneck check)

cr0x@server:~$ nvidia-smi -q | sed -n '/PCIe/,/FB Memory Usage/p'
    PCIe
        PCIe Generation
            Current                         : 4
            Max                             : 4
        Link Width
            Current                         : 8x
            Max                             : 16x
    FB Memory Usage
        Total                               : 24576 MiB
        Reserved                            : 500 MiB
        Used                                : 18123 MiB
        Free                                : 5953 MiB

Significado de la salida: La GPU está operando en PCIe Gen4 x8 aunque soporta x16.

Decisión: Si haces streaming frecuente de datos (servicios de inferencia, batches grandes de entrada), arregla la colocación del slot/bifurcación antes de comprar una GPU con bus más ancho.

Task 3: Confirm CPU model and memory bandwidth context

cr0x@server:~$ lscpu | egrep 'Model name|Socket|NUMA|CPU\(s\)'
CPU(s):                               64
On-line CPU(s) list:                  0-63
Model name:                           AMD EPYC 7543 32-Core Processor
Socket(s):                            2
NUMA node(s):                         2

Significado de la salida: Estás en un sistema NUMA de doble socket; la localidad de memoria en CPU puede perjudicar el suministro a la GPU.

Decisión: Si los dataloaders consumen mucha CPU, asígnalos al nodo NUMA más cercano a la GPU antes de culpar a la anchura del bus de VRAM.

Task 4: Check for GPU throttling (power/thermal)

cr0x@server:~$ nvidia-smi -q -d PERFORMANCE | sed -n '/Clocks/,/Power Readings/p'
    Clocks
        Graphics                          : 1200 MHz
        SM                                : 1200 MHz
        Memory                            : 6250 MHz
    Power Readings
        Power Draw                        : 229.50 W
        Power Limit                       : 230.00 W
        Default Power Limit               : 230.00 W

Significado de la salida: Estás en el límite de potencia; los relojes pueden estar capados.

Decisión: Si hay throttling por potencia, un bus más ancho puede no ayudar; podrías estar simplemente convirtiendo vatios en desilusión. Considera ajustar límites de potencia o mejorar la refrigeración primero.

Task 5: Watch real-time utilization during the slow phase

cr0x@server:~$ nvidia-smi dmon -s pucvmt
# gpu   pwr  u    c    v    m    t
# Idx   W    %    %    %    %    C
    0   218  95   78    6   74   62
    0   225  94   76    5   75   63

Significado de la salida: Alto consumo, alta utilización de SM (c), la utilización de memoria (m) también es relativamente alta.

Decisión: Esto sugiere un cuello de botella mixto. Necesitarás contadores del perfilador (no suposiciones) para decidir si el ancho de banda es el limitante.

Task 6: Inspect GPU clocks and ensure they’re not stuck low

cr0x@server:~$ nvidia-smi --query-gpu=clocks.sm,clocks.mem,clocks.gr,pstate --format=csv
clocks.sm [MHz], clocks.mem [MHz], clocks.gr [MHz], pstate
1200, 6250, 1200, P2

Significado de la salida: En estado P2, el reloj de memoria puede estar bien pero los relojes gráficos pueden gestionarse según el modo de cómputo.

Decisión: Si los relojes están inesperadamente bajos, revisa los ajustes de clocks de la aplicación y el modo de persistencia; corrige eso antes de especular sobre la anchura del bus.

Task 7: Check kernel launch configuration and occupancy hints (CUDA app)

cr0x@server:~$ nvprof --print-gpu-trace ./my_cuda_app 2>&1 | head -n 12
==12345== NVPROF is profiling process 12345, command: ./my_cuda_app
==12345== Profiling application: ./my_cuda_app
Time(%)      Time     Calls       Avg       Min       Max  Name
 45.12%  12.345ms       200  61.72us  40.11us  98.22us  myKernel(float*, float*)
 21.77%   5.950ms       200  29.75us  18.20us  66.50us  layernormKernel(float*, float*)

Significado de la salida: Identifica los kernels principales. Layernorm a menudo está limitado por memoria; tu kernel personalizado podría serlo también.

Decisión: Perfila los kernels calientes con una herramienta de métricas; si layernorm domina, considera fusión o bibliotecas optimizadas antes de cambiar hardware.

Task 8: Use Nsight Compute to check DRAM throughput (single kernel)

cr0x@server:~$ ncu --set full --kernel-name layernormKernel ./my_cuda_app 2>/dev/null | egrep 'dram__throughput|sm__throughput|gpu__time_duration' | head
gpu__time_duration.avg                         28.41 us
dram__throughput.avg                           612.34 GB/s
sm__throughput.avg                             31.12 %

Significado de la salida: El throughput de DRAM es alto mientras la utilización de SM es baja. Ese es un comportamiento clásico limitado por ancho de banda.

Decisión: Un bus más ancho (o una GPU de mayor ancho de banda) puede ayudar si el kernel escala con ancho de banda. Primero intenta fusión de kernels y optimización de accesos a memoria.

Task 9: Estimate arithmetic intensity (quick sanity check)

cr0x@server:~$ python3 - <<'PY'
flops = 2.0e12
bytes = 8.0e12
print("Arithmetic intensity (FLOPs/byte):", flops/bytes)
PY
Arithmetic intensity (FLOPs/byte): 0.25

Significado de la salida: 0.25 FLOPs/byte es bajo; probablemente estés limitado por ancho de banda en GPUs modernas.

Decisión: Prioriza ancho de banda (VRAM o efectividad de caché) y técnicas de reutilización de datos; no esperes que solo mejoras de cómputo ayuden mucho.

Task 10: Check if the app is moving too much over PCIe

cr0x@server:~$ nvidia-smi pmon -c 1
# gpu        pid  type    sm   mem   enc   dec   jpg   ofa   fb   command
    0      28741     C     72    68     0     0     0     0  18123  python3

Significado de la salida: Muestra el uso por proceso de la GPU. No es PCIe directamente, pero te dice qué proceso instrumentar.

Decisión: Si varios procesos comparten la GPU, la contención de memoria puede ser el verdadero problema; aisla la carga o usa MIG (si está soportado) en lugar de comprar por la anchura del bus.

Task 11: Confirm hugepages/IOMMU settings for DMA-heavy paths (platform sanity)

cr0x@server:~$ cat /proc/cmdline
BOOT_IMAGE=/vmlinuz-6.8.0 root=/dev/nvme0n1p2 ro quiet iommu=pt

Significado de la salida: IOMMU está en modo passthrough (iommu=pt), a menudo bueno para rendimiento DMA.

Decisión: Si ves tasas de transferencia host-dispositivo pobres, revisa ajustes de IOMMU/ACS y BIOS antes de culpar al bus de VRAM.

Task 12: Check NUMA placement of the process relative to the GPU

cr0x@server:~$ numactl --show
policy: default
preferred node: current
physcpubind: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
cpubind: 0
nodebind: 0
membind: 0

Significado de la salida: El proceso está vinculado al nodo NUMA 0. Si la GPU está conectada al nodo 1, estás haciendo un salto entre sockets.

Decisión: Enlaza el dataloader y los hilos que alimentan la GPU al nodo NUMA más cercano; puede ser la diferencia entre “comprar bus más grande” y “dejar de dañarte a ti mismo”.

Task 13: Measure raw PCIe bandwidth with a quick copy test (if CUDA samples installed)

cr0x@server:~$ /usr/local/cuda/samples/bin/x86_64/linux/release/bandwidthTest --mode=quick
[CUDA Bandwidth Test] - Starting...
Device 0: NVIDIA RTX A5000
 Quick Mode
 Host to Device Bandwidth, 1 Device(s)
 PINNED Memory Transfers
   Transfer Size (Bytes)  Bandwidth(MB/s)
   33554432               23500.2
 Device to Host Bandwidth, 1 Device(s)
 PINNED Memory Transfers
   Transfer Size (Bytes)  Bandwidth(MB/s)
   33554432               24410.7

Significado de la salida: H2D/D2H ~23–24 GB/s con memoria pinned, consistente con PCIe Gen4 x16 aproximadamente. Si vieras 10 GB/s, algo anda mal.

Decisión: Si las transferencias son lentas, arregla PCIe primero. La anchura del bus de VRAM no ayudará si estás alimentando la GPU con una pajita.

Task 14: Check VRAM error counters / ECC where applicable

cr0x@server:~$ nvidia-smi -q -d ECC | sed -n '/Volatile/,/Aggregate/p'
    Volatile ECC Errors
        SRAM Correctable                  : 0
        DRAM Correctable                  : 0
        SRAM Uncorrectable                : 0
        DRAM Uncorrectable                : 0
    Aggregate ECC Errors
        SRAM Correctable                  : 0
        DRAM Correctable                  : 0
        SRAM Uncorrectable                : 0
        DRAM Uncorrectable                : 0

Significado de la salida: Sin problemas de ECC. Si tuvieras errores corregibles en aumento, podrías ver reintentos/anomalías de rendimiento dependiendo de la plataforma.

Decisión: Descarta inestabilidad del hardware antes de afinar. Depurar rendimiento con RAM defectuosa es como achicar agua mientras haces agujeros nuevos en el barco.

Tres microhistorias del mundo corporativo (anonimizadas, plausibles, técnicamente correctas)

Microhistoria 1: El incidente causado por una suposición errónea

Un equipo desplegó un servicio de inferencia con GPU para embeddings de imágenes. El modelo era modesto, el objetivo de latencia era estricto y el tráfico era puntual.
Compras eligió una SKU de GPU con un bus más estrecho pero buenas especificaciones de cómputo, porque “hacemos multiplicaciones de matrices; el cómputo importa”.

Pasó staging. Incluso pasó la primera semana en producción. Entonces un cambio de producto aumentó la resolución de entrada y añadió una segunda rama al modelo.
On-call empezó a ver estallidos en la latencia de cola durante picos. La latencia promedio parecía aceptable, porque los promedios son tramposos con buena PR.

La primera suposición fue “cuello de botella en la CPU”. Añadieron más CPU. Sin cambio. Luego “cuello de botella en PCIe”. Pusieron memoria pinned y aumentaron tamaños de batch.
El throughput mejoró, pero la latencia de cola siguió siendo mala. Finalmente alguien profiló el camino caliente y encontró que la carga se había vuelto limitada por memoria:
layernorms y componentes tipo atención estaban haciendo muchas lecturas/escrituras con batch=1, y la caché no los salvaba.

La suposición equivocada no fue “la anchura del bus importa”. La suposición equivocada fue “estamos limitados por cómputo porque el modelo usa matmul”.
En servicios reales, la forma y el batching dictan los cuellos de botella. Migraron a una SKU de mayor ancho de banda y además fusionaron algunas operaciones.
La latencia se estabilizó. Compras dejó de pedir una regla de decisión basada en un solo número. Casi siempre.

Microhistoria 2: La optimización que salió mal

Otra organización hacía entrenamiento en GPU para modelos de recomendación con embeddings grandes. Querían reducir uso de VRAM, así que aplicaron checkpointing agresivo de activaciones y recomputación.
Redujo la memoria pico, lo que les permitió aumentar el batch. Todos aplaudieron. Luego el throughput bajó.

El perfil mostró aumento de kernels pequeños y materialización extra de tensores. La recomputación creó más tráfico de memoria del esperado, y el batch mayor empujó el conjunto de trabajo fuera de la caché con más frecuencia.
Las GPUs de bus más estrecho que antes “iban bien” empezaron a saturar el throughput de DRAM.

El efecto adverso fue sutil: “optimizaban memoria” pero crearon un problema de ancho de banda. Los pasos de entrenamiento se volvieron limitados por ancho de banda, no por cómputo.
Las GPUs mostraban buena utilización, pero el pipeline de memoria era el muro. Añadir más GPUs tampoco ayudó mucho; estaban escalando un cuello de botella.

La solución no fue puramente hardware. Rehicieron el modelo para reducir el conjunto caliente de embeddings, usaron optimizadores fusionados y cambiaron el layout de datos para mejor localidad.
También estandarizaron piezas de mayor ancho de banda para ese clúster. La lección: ahorrar VRAM y ahorrar ancho de banda son juegos distintos y no siempre coinciden.

Microhistoria 3: La práctica aburrida pero correcta que salvó el día

Un equipo de plataforma gestionaba una flota mixta: un par de GPUs de alto ancho de banda para entrenamiento y una piscina mayor de GPUs de bus estrecho para cómputo general y CI.
Cada trimestre, alguien intentaba reutilizar la piscina de buses estrechos para entrenamiento pesado “temporalmente”. Temporal es cómo nacen las interrupciones.

La práctica aburrida del equipo era un benchmark de control en la canalización de despliegue: una suite corta que medía ancho de banda de DRAM logrado y un pequeño conjunto de kernels representativos.
Si un nodo rendía mal, se ponía en cuarentena automáticamente. Sin culpas, sin drama, solo una etiqueta y un ticket.

Una semana, tras una actualización de drivers y un cambio de BIOS en una nueva revisión de placa base, notaron que el benchmark marcó la mitad de un rack.
El ancho de banda de PCIe se había negociado a la baja y los relojes de memoria no estaban subiendo correctamente bajo carga sostenida. Sin el benchmark, el equipo de entrenamiento lo habría descubierto en mitad de una corrida larga.

Revirtieron el ajuste de BIOS, arreglaron el mapeo de slots y la flota volvió a la normalidad. No fue glamuroso.
Fue el tipo de “higiene de ops” que nunca tiene una diapositiva en el all-hands—hasta que evita una escalada ejecutiva.

Broma #2: Nada motiva una auditoría cuidadosa de ancho de banda como darse cuenta de que tu “upgrade de GPU” fue en realidad un downgrade de BIOS con mejor branding.

Errores comunes: síntomas → causa raíz → solución

1) Síntoma: Benchmarks geniales, aplicación real horrible

Causa raíz: Las pruebas sintéticas golpean patrones ideales de memoria coalescente; tu app hace scatter/gather o tiene mala localidad.

Solución: Perfila con contadores a nivel de kernel (throughput DRAM, tasa de aciertos en caché). Reordena datos, coalescencia de accesos, fusiona kernels.

2) Síntoma: El rendimiento cae solo a 4K / texturas altas

Causa raíz: El conjunto de trabajo excede la caché; la presión sobre ancho de banda y capacidad de VRAM crece bruscamente.

Solución: Reduce resolución de texturas, ajusta parámetros de streaming, habilita/afina compresión, o usa una GPU de mayor ancho de banda.

3) Síntoma: Throughput de inferencia bien, latencia terrible

Causa raíz: Inferencia con batches pequeños se vuelve limitada por memoria en caché KV/layernorm/operaciones elementwise.

Solución: Usa fusión de kernels, cuantización donde proceda, o elige una GPU con mejor ancho de banda/caché para batch=1.

4) Síntoma: La GPU nueva no supera a la vieja en tu pipeline

Causa raíz: Estás limitado por CPU, I/O o PCIe; la anchura del bus de VRAM es irrelevante.

Solución: Mide transferencias host-dispositivo, velocidad del dataloader, utilización de CPU. Arregla la ruta de alimentación (memoria pinned, pipelines asíncronos, binding NUMA).

5) Síntoma: El rendimiento varía mucho entre ejecuciones

Causa raíz: Sensibilidad a la tasa de aciertos en caché, contención en segundo plano, throttling térmico/por potencia o cargas mixtas en la misma GPU.

Solución: Estabiliza relojes/potencia, aísla cargas, “calienta” cachés, fija procesos y asegura orden y batch consistentes.

6) Síntoma: Uso de memoria bajo, pero throughput de DRAM alto

Causa raíz: “Uso de memoria” en algunas herramientas no es equivalente a “ancho de banda usado”; puede ser una métrica de controlador ocupado.

Solución: Usa contadores de perfilador (métricas de Nsight Compute). No trates “mem %” como lectura directa en GB/s.

7) Síntoma: El ancho de banda VRAM parece limitado por debajo del teórico

Causa raíz: Límites de potencia, relojes de memoria bajos, patrones de acceso subóptimos o sobrecarga por concurrencia.

Solución: Verifica relojes y pstate, revisa consumo de potencia y prueba con un benchmark de ancho de banda conocido para separar plataforma de comportamiento de la app.

Listas de verificación / plan paso a paso

Lista: decidir si deberías preocuparte por 128 vs 256 vs 384 bits

Calcula el ancho de banda teórico para cada candidato (bus × tasa de datos).
Lista modos de carga (p. ej., 1080p vs 4K; batch=1 vs batch=32; entrenamiento vs inferencia).
Perfila una ejecución representativa y captura throughput de DRAM + utilización SM/Tensor.
Si el throughput de DRAM está cerca del pico y la utilización SM es baja/moderada: el ancho de banda importa.
Si la utilización SM/Tensor está cerca del máximo y el throughput de DRAM es moderado: la anchura del bus probablemente no ayudará.
Si el enlace PCIe está en x8 o Gen3 inesperadamente: arregla la plataforma antes de seleccionar hardware.
Si la capacidad de VRAM es ajustada y hay paging/evicciones: la capacidad puede importar más que la anchura.
Decide en función del coste por rendimiento entregado, no por estética de la hoja de especificaciones.

Paso a paso: mejorar una carga limitada por ancho de banda sin hardware nuevo

Mide: Identifica kernels principales y verifica que están limitados por ancho de banda usando contadores.
Reduce tráfico: Fusiona operaciones elementwise; evita viajes a VRAM entre kernels pequeños.
Mejora localidad: Cambia el layout de datos para mejorar coalescencia y reutilización.
Usa la precisión adecuada: FP16/BF16/INT8 donde sea válido reduce bytes movidos.
Haz batch con inteligencia: Aumenta batch cuando importa throughput; mantén batch pequeño cuando importe latencia, pero entonces optimiza comportamiento de memoria.
Minimiza transferencias: Usa memoria pinned, solapa transferencias con cómputo, mantén preprocesado en GPU cuando tenga sentido.
Estabiliza relojes: Evita throttling inadvertido por potencia/temperatura que reduzca ancho de banda alcanzable.

Paso a paso: seleccionar hardware cuando el ancho de banda es el cuello de botella

Estima el ancho de banda requerido a partir de bytes movidos por unidad de tiempo (del perfilador o logs).
Compara GPUs candidatas por ancho de banda (no solo anchura de bus), tamaño de caché y tipo de memoria.
Valida con una ejecución piloto usando tu carga real, no solo microbenchmarks.
Revisa la plataforma: generación PCIe, anchura del enlace, disposición NUMA de la CPU y refrigeración.
Planifica holgura: crecimiento futuro del modelo, resoluciones más altas y concurrencia.

Preguntas frecuentes

1) ¿Un bus de 256 bits es siempre mejor que uno de 128 bits?

No. Si la tarjeta de 128 bits usa memoria mucho más rápida, tiene una caché mayor o tu carga está limitada por cómputo, puede igualar o superar a una tarjeta de 256 bits.
Compara ancho de banda efectivo y perfila tu carga.

2) ¿Por qué algunas GPUs de bus más estrecho rinden sorprendentemente bien?

Grandes cachés, buena compresión y cargas con fuerte localidad. Si aciertas en caché, no necesitas ancho de banda de VRAM con tanta frecuencia.
Pero el rendimiento puede caer drásticamente cuando el conjunto de trabajo crece.

3) ¿La anchura del bus afecta la capacidad de VRAM?

Indirectamente. La anchura del bus está ligada al número de canales de memoria y a la organización de chips.
Ciertas capacidades se mapean de forma natural a ciertos recuentos de canales; capacidades inusuales pueden requerir empaquetados diferentes.

4) Para entrenamiento ML, ¿debo priorizar la anchura del bus o los Tensor cores?

Ninguno aisladamente. Perfila tu modelo. Si estás dominado por grandes matmuls y proyecciones de atención con buena fusión, el cómputo importa.
Si layernorm/elementwise/reducciones y tráfico de embeddings dominan, el ancho de banda de memoria importa más.

5) ¿Cómo detecto rápidamente si estoy limitado por el ancho de banda de VRAM?

Usa un profiler: alto throughput de DRAM y baja utilización SM/Tensor es la firma. También observa cómo escala el rendimiento al reducir bytes movidos
(resolución/tensores más pequeños). Una escala aproximadamente lineal es una pista.

6) ¿El “porcentaje de utilización de memoria” en herramientas de monitorización es un indicador fiable de ancho de banda?

No de forma fiable. A menudo es una métrica de controlador ocupado o una medida normalizada. Usa contadores de GB/s desde un profiler para respuestas reales.

7) ¿La velocidad de PCIe importa más que la anchura del bus de VRAM?

Si mueves datos entre host y GPU con frecuencia, sí—PCIe puede dominar. Si tus datos permanecen en VRAM y lees/escribes mayormente allí,
PCIe importa mucho menos que el ancho de banda de VRAM.

8) ¿Las soluciones software pueden superar un bus de memoria más ancho?

A menudo sí. Fusión de kernels, mejor layout de datos, mejora de localidad y reducción de precisión pueden cortar el tráfico de memoria drásticamente.
Pero si ya eres eficiente y sigues limitado por ancho de banda, el hardware es la salida.

9) ¿Por qué dos GPUs con ancho de banda similar a veces rinden distinto en cargas intensivas en ancho de banda?

El comportamiento del subsistema de memoria no es solo ancho de banda pico: tamaños de caché, políticas de caché, manejo de latencia, diseño del controlador de memoria
y concurrencia importan. “Mismos GB/s” no significa “mismo rendimiento real”.

10) ¿Cuándo tiene sentido obvio un bus de 384 bits?

Gráficos de alta resolución con efectos intensos, kernels de cómputo limitados por ancho de banda, conjuntos de trabajo grandes que fallan en caché y cargas que muestran fuerte
escalado con el ancho de banda en el perfilado. Si no puedes demostrar presión de ancho de banda, no lo pagues.

Conclusión: pasos prácticos siguientes

La anchura del bus de memoria no es un talismán de rendimiento. Es un contribuyente al ancho de banda, y el ancho de banda solo importa cuando realmente estás limitado por él.
Si diagnosticas una carga de GPU lenta, no comiences con “128-bit vs 256-bit”. Comienza por medir.

Pasos siguientes que puedes hacer esta semana:

Calcula el ancho de banda teórico de VRAM para tus GPUs actuales y las candidatas.
Ejecuta la guía rápida de diagnóstico y captura un informe de profiler para la fase lenta.
Arregla primero problemas de plataforma: anchura del enlace PCIe, throttling por potencia/temperatura, colocación NUMA.
Si estás limitado por ancho de banda: reduce bytes movidos mediante fusión/layout/precisión; luego evalúa hardware de mayor ancho de banda.
Institucionaliza un pequeño benchmark de gate para que los “debates sobre anchura del bus” sean datos, no reuniones.