Trazado de rayos en 2026: por qué sigue siendo difícil — y aún inevitable

noviembre 24, 2025 • febrero 3, 2026 • Lectura: 29 min • Views: 0

¿Te fue útil?

Puedes publicar “trazado de rayos activado” hoy y aun así pasar los próximos seis meses explicando por qué a veces se ve peor y funciona más lento que “trazado de rayos desactivado”.
Eso no es un problema de marketing. Es un problema de sistemas: presupuestos de latencia, ancho de banda de memoria, señales ruidosas, compilación de sombreadores, comportamiento de caché, peculiaridades de los controladores y contenido creado para un modelo físico distinto.

En 2026, el trazado de rayos ya no es exótico. Tampoco está “resuelto”. Si lo tratas como una casilla para marcar, te castigará en producción —con picos en el tiempo por frame, artefactos del denoiser y bugs de QA que solo se reproducen en la única GPU que el jefe del estudio compró en rebajas.

Por qué es inevitable (incluso cuando duele)

La verdad incómoda: la rasterización es una aproximación brillante y, al mismo tiempo, un montón de excepciones. Las sombras son un sistema separado.
Las reflexiones son otro sistema. La oclusión ambiental es otro sistema. La iluminación global es otro sistema. Cada uno recibe sus propios trucos,
y cada truco añade restricciones al contenido y casos límite. El trazado de rayos no es “más realista”; es más uniforme. Un único mecanismo —disparar rayos, intersectar geometría, acumular luz— sustituye a un museo de trucos hechos a medida.

Esa uniformidad es la razón por la que el trazado de rayos sigue ganando a largo plazo, incluso cuando a corto plazo es más lento. Escala con el hardware de forma directa: mejor recorrido, mejor caché, más paralelismo, programación más inteligente, más ancho de banda de memoria. Mientras tanto, el coste de mantener un zoológico de hacks de la era raster sigue subiendo, especialmente cuando el contenido exige dinamismo de escena completo, geometría procedural y iteración agresiva.

Si gestionas sistemas de producción, ya conoces el patrón: las tecnologías “inevitables” aparecen primero como un problema de fiabilidad.
No porque las matemáticas estén mal, sino porque la superficie de integración es enorme. El trazado de rayos es exactamente eso: una nueva ruta crítica, un nuevo perfil de caché, una nueva superficie de compilación, una nueva canalización de activos.

Idea parafraseada de John Allspaw (ingeniería de fiabilidad): “Los sistemas fallan de formas sorprendentes; el trabajo es aprender de los incidentes, no culpar a las personas”.
El trabajo con trazado de rayos se siente igual. Si estás culpando a los artistas, a los equipos de drivers o a “esa GPU”, aún no estás haciendo operaciones. Sigues en la superstición.

Por qué sigue siendo difícil en 2026

1) Los rayos son tiranos del ancho de banda

La rasterización es coherente. Los píxeles vecinos tienden a tocar triángulos vecinos, muestrear texturas cercanas y seguir un flujo de control predecible. Los rayos son menos educados.
Un rayo puede golpear un triángulo al otro lado de la escena, muestrear un material distinto, rebotar y luego muestrear algo totalmente diferente. Eso genera fallos de caché.
Incluso con hardware moderno de recorrido, tu frame puede volverse “limitado por memoria” rápidamente.

Lo peor es cómo se oculta. Puedes tener margen de cómputo y aun así detenerte por memoria, con contadores de rendimiento que parecen un encogimiento de hombros.
Si tu modelo mental es “los RT cores son el cuello de botella”, optimizarás lo equivocado.

2) El ruido no es un bug; es la factura

El trazado de rayos en tiempo real suele ser una estimación Monte Carlo con pocas muestras. Pocas muestras significan ruido. Ruido significa denoising. Denoising significa reutilización temporal.
Reutilización temporal significa buffers de historial, vectores de movimiento, lógica de desoclusiones y una nueva clase de artefactos por los que te culparán.

Traducción operativa: no eliminaste hacks; los moviste. Los hacks ahora están en el denoiser y en la gestión del historial.
Siguen siendo hacks, siguen teniendo modos de fallo y sigues necesitando monitorización —simplemente no del tipo que encaja en una captura de renderdoc.

3) Los BVH son estructuras vivas, no activos estáticos

Las estructuras de aceleración (BVHs, TLAS/BLAS) son tu índice. Si está obsoleta, tus rayos mienten. Si se reconstruye con demasiada frecuencia, tu tiempo CPU/GPU desaparece.
Si se refit cuando debería reconstruirse, obtienes ineficiencia de recorrido que parece una “desaceleración aleatoria de GPU”.

Además: tu equipo de contenido enviará algo que viole tus suposiciones. Siempre lo hacen. Los pagan para entregar arte, no para respetar tu estructura espacial.

4) La compilación de sombreadores y la creación de estados de pipeline siguen causando tartamudeos

En 2026, las cachés de sombreadores son mejores, los pipelines son más explícitos y, aun así: el stutter persiste.
El trazado de rayos introduce más variantes de sombreadores (hit groups, miss shaders, callable shaders, permutaciones de materiales) y más oportunidades para compilación “la primera vez que se ve”.
Si no tratas la compilación como un SRE trata la latencia de arranque en frío, publicarás un juego que rinde en benchmarks pero se siente mal.

5) El render híbrido es operativamente desordenado

Muchos motores de producción aún hacen render híbrido: raster para visibilidad primaria + trazado de rayos para reflexiones, sombras, AO, quizá algo de GI.
Eso es pragmático. También es donde nacen los bugs, porque tienes dos mundos: dos nociones de profundidad, dos conjuntos de normales (geométricas vs de shading), dos representaciones de transparencia, dos versiones de “qué es visible”.

Si alguna vez has depurado una división de cerebro en sistemas distribuidos, el render híbrido te resultará familiar. Dos fuentes de verdad. Un presupuesto por frame.
Y un usuario que solo quiere que la reflexión deje de parpadear.

6) El control “calidad/rendimiento” es multidimensional

Las características raster suelen tener una curva de escalado razonablemente monótona: menor resolución de mapas de sombras, menos cascadas, menos muestras. Los controles de calidad del trazado de rayos interactúan:
rayos por píxel, profundidad de rebotes, distancia máxima, umbrales de rugosidad, estrategia de muestreo por importancia, ajustes del denoiser, clamp de historial, re-muestreo de reservorios.
Girar una perilla puede empeorar el denoiser, lo que te hará girar otra perilla, lo que cambia la estabilidad temporal, lo que cambia el ghosting.

Broma 1: El trazado de rayos es fácil si defines “fácil” como “una forma emocionante de convertir milisegundos en reuniones”.

Hechos interesantes y contexto histórico

El trazado de rayos al estilo Whitted (finales de los 70/principios de los 80) popularizó los rayos recursivos de reflexión/refracción, pero suponía un mundo de espejos perfectos y esferas comparado con la complejidad de materiales de hoy.
El path tracing se convirtió en la “verdad física” para el renderizado offline al abrazar la aleatoriedad y muchas muestras; el trabajo en tiempo real es básicamente “path tracing con un presupuesto brutal de muestras”.
Las estructuras de aceleración BVH superaron a los kd-trees en muchos contextos en tiempo real porque los BVH se refit mejor para animación y escenas dinámicas.
Los primeros demos en tiempo real a menudo dependían de escenas restringidas (pocos triángulos, materiales limitados). Lo difícil no era la demo: era enviar una canalización de contenido impredecible.
DXR y Vulkan ray tracing convirtieron al trazado de rayos en una característica de API de primera clase; también hicieron que la creación de pipelines y la gestión de permutaciones de sombreadores fueran un dolor de primera clase.
El hardware dedicado de recorrido/intersección desplazó el cuello de botella hacia el comportamiento de memoria, la divergencia en el shading y el denoising en lugar de solo “¿podemos intersectar lo suficientemente rápido?”.
Los denoisers temporales se volvieron estándar porque el denoise espacial por sí solo no puede recuperar detalle con pocas muestras; por eso los vectores de movimiento y la corrección del historial importan tanto como los impactos de rayos.
El render híbrido se mantuvo porque “path tracing completo” a tasas de frames estables sigue siendo caro cuando incluyes materiales de calidad de producción, partículas, cabello y transparencias.

La canalización real: donde se esconde el dolor

Visibilidad primaria: aún necesitas una base estable

Incluso si haces mucho RT, la mayoría del contenido que se publica aún se beneficia de un pase de visibilidad primaria estable.
Un G-buffer limpio con normales consistentes, rugosidad, vectores de movimiento y profundidad es el sustrato del que se alimenta el denoiser.
Si tu G-buffer miente —vectores de movimiento incorrectos en mallas skinadas, NaNs en normales, desajuste de jitter en TAA— tu trazado de rayos se verá “ruidoso” de una forma que el denoiser no puede arreglar.

Estructuras de aceleración: construir, refit y el coste de equivocarse

Trata el trabajo de BVH como tratas índices en una base de datos. Si reconstruyes todo cada frame, quemarás tiempo. Si nunca reconstruyes, las consultas se vuelven lentas.
La parte complicada es que tu “plan de consultas” es tu escena: mallas skinadas animadas, instanciado, geometría destruible, partículas que deberían o no participar, y cambios de LOD.

Operativamente, quieres:

Políticas claras sobre qué obtiene BLAS construido vs refit vs excluido.
Instrumentación que te diga el tiempo de construcción/refit por frame y el uso de memoria de AS.
Validación de contenido: conteos de triángulos, saneamiento de AABB, transformaciones, degenerados.

El recorrido no es tu único kernel

El trazado de rayos en tiempo real es una cadena de kernels: build/refit, trace, shade hits, sample textures, ejecutar denoiser, componer, post-procesado.
El paso de “trace” a menudo no es el mayor coste. El shading es donde explota la divergencia: diferentes materiales, diferentes texturas, diferentes caminos BRDF.

Si quieres tiempo por frame estable, optimizas para la cola, no para la media. El percentil 99 es donde viven tus bugs de QA y las quejas de los jugadores.

El denoising es un sistema distribuido (a pequeña escala)

Los denoisers dependen de buffers de historial, buffers de velocidad, buffers de normales/profundidad y heurísticas de confianza.
Eso son múltiples fuentes de datos, cada una con su propio reloj (índice de frame), alineación (jitter) y modos de fallo (desoclusiones).
Cuando falla, falla como un bug de replicación: ghosting, resaltados que van con retraso, smearing, popping.

Trazado de rayos y almacenamiento: la parte de la que nadie quiere hablar

Las canalizaciones de activos importan más porque el trazado de rayos hace la geometría y los materiales más “honestos”. Tangentes malas, normales rotas, LODs descuidados —las reflexiones trazadas te delatarán.
Y tu sistema de compilación ahora distribuirá más permutaciones y artefactos de caché. El tamaño de la caché de sombreadores y las reglas de invalidación se vuelven preocupaciones operativas.

Si despliegas a una flota (PCs, consolas, nube), necesitas un comportamiento de caché de sombreadores predecible.
“Se compila en el primer lanzamiento” es un eufemismo para “nuestro SLO de latencia empieza después de que el usuario se aburra”.

Tareas prácticas: comandos, salidas, decisiones

Estas son comprobaciones prácticas que puedes ejecutar en rigs de desarrollo Linux y máquinas de build para diagnosticar las quejas más comunes de “el trazado de rayos va lento/está roto”.
El punto no son los números exactos; es crear el hábito de tomar decisiones a partir de salidas medibles.

Tarea 1: Confirma que la GPU y el driver están realmente en uso

cr0x@server:~$ nvidia-smi
Tue Jan 21 10:14:08 2026
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.18                 Driver Version: 560.18         CUDA Version: 12.4   |
|-----------------------------------------+----------------------+----------------------|
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA RTX 4080                Off | 00000000:01:00.0  On |                  N/A |
| 35%   56C    P2             180W / 320W |   9120MiB / 16376MiB |     92%      Default |
+-----------------------------------------+----------------------+----------------------+

Qué significa: Confirma modelo, driver, utilización actual y uso de VRAM. Si la VRAM está cerca del límite, espera paginación o expulsiones agresivas.

Decisión: Si VRAM > 90% durante escenas con RT, prioriza la reducción de memoria (compactación de AS, menor residencia de texturas, menos objetivos RT) antes de micro-optimizar sombreadores.

Tarea 2: Verifica si estás limitando por energía/temperatura

cr0x@server:~$ nvidia-smi -q -d POWER,CLOCK,TEMPERATURE | sed -n '1,120p'
==============NVSMI LOG==============

Temperature
    GPU Current Temp            : 83 C
    GPU Shutdown Temp           : 95 C
    GPU Slowdown Temp           : 87 C

Clocks
    Graphics                    : 2235 MHz
    SM                          : 2235 MHz
    Memory                      : 10501 MHz

Power Readings
    Power Draw                  : 318.44 W
    Power Limit                 : 320.00 W

Qué significa: Estás cerca del límite de potencia y cerca de la temperatura de ralentización. Las cargas de RT pueden empujar potencia sostenida.

Decisión: Si estás a pocos vatios del límite de potencia durante largos periodos, espera oscilación de frecuencias y jitter en el tiempo por frame. Mejora la refrigeración o ajusta relojes antes de perseguir “regresiones de driver” fantasma.

Tarea 3: Identifica problemas de enlace PCIe que se hacen pasar por “RT lento”

cr0x@server:~$ lspci -vv -s 01:00.0 | sed -n '1,80p'
01:00.0 VGA compatible controller: NVIDIA Corporation Device 2704 (rev a1)
        LnkCap: Port #0, Speed 16GT/s, Width x16
        LnkSta: Speed 8GT/s (downgraded), Width x16 (ok)
        Kernel driver in use: nvidia

Qué significa: El enlace está funcionando a 8GT/s en lugar de 16GT/s. Eso puede perjudicar el streaming y las actualizaciones de AS.

Decisión: Si está degradado, reseat la GPU, revisa la configuración del BIOS o cambia de ranura. No aceptes “probablemente está bien” cuando toda tu canalización es sensible al ancho de banda.

Tarea 4: Captura cuellos de botella en CPU (builds de BVH, envío, streaming)

cr0x@server:~$ mpstat -P ALL 1 3
Linux 6.8.0 (buildbox)  01/21/2026  _x86_64_  (32 CPU)

10:14:20 AM  CPU   %usr %nice %sys %iowait %irq %soft %steal %idle
10:14:21 AM  all   62.10 0.00  9.44   0.35 0.00  0.88   0.00 27.23
10:14:21 AM    7   98.00 0.00  1.00   0.00 0.00  0.00   0.00  1.00
10:14:21 AM   13   97.00 0.00  2.00   0.00 0.00  0.00   0.00  1.00

Qué significa: Unos pocos núcleos están al 100%. Eso es típico de envío single-thread o un paso serial de build de BVH.

Decisión: Si un puñado de núcleos se satura mientras otros están inactivos, arregla el paralelismo y la arquitectura de envío antes de tocar el shading en GPU.

Tarea 5: Comprueba si estás limitado por IO en caché de sombreadores o streaming de activos

cr0x@server:~$ iostat -xz 1 3
Linux 6.8.0 (buildbox)  01/21/2026  _x86_64_  (32 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
          55.10    0.00    8.23    6.42    0.00   30.25

Device            r/s     rkB/s   rrqm/s  %rrqm r_await rareq-sz     w/s     wkB/s w_await aqu-sz  %util
nvme0n1        182.0  52240.0     0.0   0.00    8.40   287.0    96.0  18012.0   14.20   2.92   89.3

Qué significa: La utilización del NVMe es alta y los tiempos de espera no son triviales. Los tirones al lanzar o el “stutter en la primera escena” pueden ser IO.

Decisión: Si %util se mantiene ~90% durante las cargas de juego, reduce lecturas aleatorias: empaqueta la caché de sombreadores, agrupa streaming o precalienta cachés en un pre-paso controlado.

Tarea 6: Comprueba la presión de memoria que causa paradas esporádicas

cr0x@server:~$ free -h
               total        used        free      shared  buff/cache   available
Mem:           128Gi        96Gi        4.2Gi       1.6Gi        28Gi        24Gi
Swap:           16Gi        5.8Gi        10Gi

Qué significa: El swap está activo. Eso es una bandera roja para builds en el editor y canalizaciones de compilación de sombreadores.

Decisión: Si el swap no es cero durante capturas de rendimiento, estás midiendo un incidente de gestión de memoria. Arregla la presión de RAM primero.

Tarea 7: Detecta colocación NUMA incorrecta para cargas CPU-heavy de build/refit

cr0x@server:~$ numactl --hardware
available: 2 nodes (0-1)
node 0 cpus: 0-15
node 0 size: 64088 MB
node 0 free: 11204 MB
node 1 cpus: 16-31
node 1 size: 64110 MB
node 1 free: 4102 MB

Qué significa: El nodo 1 está justo de memoria libre. Si tu hilo de render se ejecuta en el nodo 1 mientras las asignaciones caen en el nodo 0, la latencia sube.

Decisión: Fija hilos críticos y asigna memoria localizada al nodo. Los problemas NUMA se sienten como “picos aleatorios” hasta que los inspeccionas.

Tarea 8: Confirma el comportamiento de hugepages / THP (puede afectar builds en CPU)

cr0x@server:~$ cat /sys/kernel/mm/transparent_hugepage/enabled
always [madvise] never

Qué significa: THP está en madvise (generalmente sensato). “always” puede causar picos de latencia en algunas cargas.

Decisión: Si ves stalls periódicos y THP está en “always”, prueba con “madvise” en máquinas de build. No cargo-cultives; mide.

Tarea 9: Encuentra churn en la caché de sombreadores observando actividad de archivos

cr0x@server:~$ sudo inotifywait -m -e create,modify,delete /var/cache/shadercache
Setting up watches.
Watches established.
/var/cache/shadercache/ CREATE psos.bin.tmp
/var/cache/shadercache/ MODIFY psos.bin.tmp
/var/cache/shadercache/ DELETE psos.bin.tmp

Qué significa: La caché se está reescribiendo constantemente. Eso suele ser un desajuste de clave de versionado o una invalidación demasiado amplia.

Decisión: Si el churn de caché ocurre en cada ejecución, arregla las claves de la caché y el hashing del pipeline. El calentamiento no persistirá si invalidas el mundo.

Tarea 10: Detecta jitter en el scheduling de CPU bajo carga

cr0x@server:~$ pidstat -t -p $(pgrep -n game-client) 1 3
Linux 6.8.0 (buildbox)  01/21/2026  _x86_64_  (32 CPU)

10:14:42 AM   UID      TGID       TID    %usr %system  %guest   %CPU   CPU  Command
10:14:43 AM  1000     22184     22184   35.00    6.00    0.00  41.00     7  game-client
10:14:43 AM  1000     22184     22201   72.00    2.00    0.00  74.00    13  RenderThread
10:14:43 AM  1000     22184     22218   41.00    1.00    0.00  42.00     2  RTASBuilder

Qué significa: Puedes ver qué hilos consumen CPU. Si RenderThread se satura, estás limitado por CPU, no por RT-cores.

Decisión: Rebalancea trabajo entre hilos; mueve builds de BVH a compute asíncrono si es posible, o trocea builds para evitar bloquear el envío.

Tarea 11: Detecta fallos a nivel de kernel en GPU que se culpan en “bugs de RT”

cr0x@server:~$ dmesg -T | tail -n 20
[Tue Jan 21 10:13:58 2026] nvidia-modeset: WARNING: GPU:0: Lost display notification (0:0x00000000); continuing.
[Tue Jan 21 10:13:59 2026] NVRM: Xid (PCI:0000:01:00): 31, pid=22184, name=game-client, Ch 0000002b, intr 10000000

Qué significa: Un Xid sugiere un fallo/reset de GPU. El trazado de rayos puede disparar casos límite, pero también puede exponer overclocks inestables o problemas de energía.

Decisión: Si ves Xids recurrentes, reproduce con relojes de stock y valida la estabilidad del hardware antes de reescribir sombreadores.

Tarea 12: Verifica que tu contenedor/CI exponga la GPU correctamente

cr0x@server:~$ nvidia-container-cli info | sed -n '1,80p'
NVRM version:   560.18
CUDA version:   12.4

Device Index:   0
Device Minor:   0
Model:          NVIDIA RTX 4080
IRQ:            132
GPU UUID:       GPU-3d2a0e2f-7aa3-4a19-9d16-1d2fbbd2a0a1
Bus Location:   00000000:01:00.0

Qué significa: Confirma que el runtime del contenedor puede ver la GPU. Las pruebas de perf en CI sin acceso adecuado a GPU producen tonterías.

Decisión: Si la GPU no es visible, detente. Arregla el runner. No aceptes benchmarks con “fallback por software” para rendimiento RT.

Tarea 13: Comprueba las características del dispositivo Vulkan (sanity check en CI)

cr0x@server:~$ vulkaninfo --summary | sed -n '1,120p'
Vulkan Instance Version: 1.3.280

Devices:
========
GPU0:
        apiVersion         = 1.3.280
        deviceName         = NVIDIA RTX 4080
        driverVersion      = 560.18.0
        deviceType         = DISCRETE_GPU

Qué significa: Confirma que la pila Vulkan está presente e identifica la GPU. Puedes extender esto para afirmar extensiones de trazado de rayos en checks automatizados.

Decisión: Si el loader de Vulkan o el driver difieren de tu baseline de perf, trata las regresiones como deriva del entorno hasta que se pruebe lo contrario.

Tarea 14: Establece una línea base de estabilidad del tiempo por frame capturando pistas de latencia a nivel de sistema

cr0x@server:~$ sudo perf stat -a -- sleep 5
 Performance counter stats for 'system wide':

        24520.33 msec task-clock                #    4.904 CPUs utilized
           182,441      context-switches          #    7.442 K/sec
            11,204      cpu-migrations            #  456.922 /sec
             5,220      page-faults               #    0.213 K/sec

       5.001215625 seconds time elapsed

Qué significa: Un alto número de context switches y migraciones puede correlacionar con jitter, especialmente cuando se empareja con etapas CPU-bound de envío/denoise.

Decisión: Si las migraciones son altas, considera afinidad de CPU para hilos críticos de render en rigs de desarrollo usados para capturas. Al menos reduce el ruido de fondo al perfilar.

Broma 2: El denoiser es básicamente un terapeuta para tus rayos —caro, misterioso y muy enfadado cuando mientes sobre los vectores de movimiento.

Guía rápida de diagnóstico

Cuando un equipo dice “el trazado de rayos va lento” suelen querer decir “el tiempo por frame es inestable”, “la calidad es inconsistente” o “se cuelga en un vendor”.
No empieces ajustando muestras. Empieza por encontrar qué subsistema está mintiendo.

Primero: clasifica el modo de fallo en 10 minutos

Estable pero demasiado lento: el tiempo por frame es consistentemente alto. Piensa en ancho de banda, demasiados rayos, shading muy caro o coste de build de AS.
Rápido en media pero con picos: stutter. Piensa en compilación, IO de streaming, ráfagas de rebuild de AS, oscilación potencia/temperatura o contención de CPU.
Parece incorrecto: ghosting, smearing, chispas. Piensa en vectores de movimiento, invalidación de historial, desajuste normal/profundidad o TLAS desactualizada.
Se cuelga/cae: piensa en timeouts de driver, descriptores inválidos, NaNs, buffers fuera de rango o estabilidad marginal del hardware.

Segundo: aisla CPU vs GPU vs IO

Chequeo bound por GPU: si la utilización de GPU es alta y los hilos de CPU no están al máximo, probablemente estés limitado por GPU (aunque aún pueda ser limitado por memoria en GPU).
Chequeo bound por CPU: si uno o dos hilos de CPU están al máximo y la utilización de GPU baja, estás limitado por envío/build.
Chequeo bound por IO: si el stutter se alinea con alta util disk y churn de archivos de caché, arregla la canalización de streaming/compilación.

Tercero: identifica el bucket de coste dominante de RT

Build/refit de AS domina: demasiadas mallas dinámicas, política de rebuild demasiado agresiva, sin instanciado o mala reutilización de BLAS.
Trace domina: demasiados rayos, distancia máxima demasiado larga, demasiadas operaciones any-hit (alpha testing).
Shading domina: materiales divergentes, texturas caras, demasiados hit shaders o demasiada recursión/rebotes.
Denoise domina: demasiados targets RT a resolución completa, lógica temporal cara o historial pobre que requiere filtrado más agresivo.

Cuarto: aplica una línea base “escena conocida buena”

Necesitas una escena aburrida y predecible: conteo de triángulos conocido, materiales conocidos, trayectoria de cámara fija.
Esa es tu canaria. Si el rendimiento empeora allí, tienes un problema de motor/canalización. Si solo empeora en escenas de contenido, probablemente tengas patologías impulsadas por contenido.
Sin una línea base, cada discusión de rendimiento se vuelve basada en sensaciones.

Tres microhistorias del mundo corporativo

Microhistoria 1: Un incidente causado por una suposición errónea

Un estudio lanzó reflexiones trazadas por rayos en una actualización en vivo. La función estaba protegida por un toggle de configuración, y la suposición interna era simple:
“Si RT está desactivado, no pagamos por RT.” Tenían un diagrama ordenado que lo decía. Los diagramas tranquilizan.

El parche se publicó. En un día llegaron reportes de jugadores: hitching intermitente cada pocos segundos en GPUs de gama media, incluso con RT desactivado.
QA no pudo reproducirlo de forma consistente. Las capturas de perf se veían bien cuando se medían en intervalos largos. Los tickets de soporte trajeron el caos típico: distintos drivers, distintos builds de OS, distintos overlays.

La causa raíz fue mundana y embarazosa: el motor siempre construía TLAS cada N frames porque el sistema de reflexiones reutilizaba la misma representación de escena que un sistema de probes de oclusión.
El toggle deshabilitaba el pase final de reflexiones, no la preparación upstream de datos de escena. En máquinas con RT apagado estaban pagando el impuesto del BVH y no obtenían los visuales.

La solución no fue heroica. Movieron la preparación de BVH detrás de una puerta de capacidad y configuración, añadieron contadores de “tiempo de build de AS incluso con RT apagado” y escribieron una prueba que afirmaba que el contador se mantuviera cerca de cero en modo RT apagado.
La ganancia en rendimiento fue inmediata. La ganancia organizativa fue mayor: el equipo dejó de confiar en “apagado significa apagado” a menos que el profiler estuviera de acuerdo.

Microhistoria 2: Una optimización que salió mal

Otro equipo intentó recuperar milisegundos refiteando BVHs agresivamente en lugar de reconstruirlos. En papel, refit es más barato:
actualizar bounds, mantener topología, seguir adelante. Su escena de benchmark inicial —principalmente mallas rígidas con movimiento suave— funcionó bien.

Luego vino el contenido. Las animaciones se volvieron más extremas, las mallas skinadas se hicieron comunes en planos reflectantes, y los artistas empezaron a usar morph targets para primeros planos faciales.
El coste de recorrido fue subiendo. No poco. Lo suficiente como para que el denoiser tuviera que trabajar más, lo que significó más dependencia temporal, lo que provocó más quejas de ghosting.
La optimización no solo costó rendimiento; degradó la calidad de forma indirecta.

El postmortem fue instructivo: el refit estaba produciendo BVHs “flojos”. Los rayos tenían que recorrer más nodos, golpear más triángulos candidatos y la GPU gastó tiempo en probar negativos.
El equipo había optimizado la etapa de build mientras inflaba en silencio la etapa de query —clásico desplazamiento de coste.

La solución fue una política: refit solo bajo umbrales de deformación medidos, reconstruir al detectar “holgura de BVH”, y registrar una razón por malla “refit-to-rebuild”.
También establecieron una regla interna: ninguna optimización es “real” hasta que se prueba en contenido de peor caso, no en el mapa demo más bonito.

Microhistoria 3: Una práctica aburrida pero correcta que salvó el día

Un editor ejecutaba pruebas nocturnas de rendimiento en una pequeña matriz de GPUs y drivers. No enorme. Suficiente para detectar tendencias.
Además fijaban un “driver conocido bueno” por vendor para candidatas de lanzamiento y trataban las actualizaciones de drivers como eventos gestionados por cambio.
No era glamuroso. Nadie sacó una charla de conferencia por ello.

Una semana, una actualización de driver llegó a un subconjunto de máquinas internas e introdujo stutter esporádico en un camino de sombras trazadas por rayos.
El FPS promedio parecía bien. El tiempo por frame en el percentil 99 no estaba bien. Los jugadores lo habrían llamado “lag”. El equipo lo habría llamado “inreproducible”.

Porque las pruebas seguían percentiles de tiempo por frame y no solo promedios, la regresión fue obvia. Porque la matriz incluía “detección de deriva de drivers”, el cambio se acotó rápidamente.
Porque la organización tenía disciplina de release aburrida, pudieron congelar el driver para el parche próximo y presentar un repro dirigido al vendor sin pánico.

La “práctica aburrida” fue simplemente esta: trata drivers, compilers de sombreadores y toolchains como dependencias de producción.
Los ahorros fueron reales: menos rollbacks de emergencia, menos guerras nocturnas en Slack, menos argumentos de “en mi máquina va bien”.

Errores comunes (síntoma → causa raíz → solución)

1) “Las reflexiones centellean y se desplazan”

Síntoma: destellos especulares que parpadean, especialmente en materiales rugosos.

Causa raíz: submuestreo + secuencia azul-ruido inestable + desajuste entre mapas normales y normales geométricas, causando shading inconsistente frame a frame.

Solución: estabilizar secuencias de muestreo, clamp al historial especular y asegurar que la decodificación de mapas normales sea consistente entre raster y sombreadores de impacto RT. Considerar presupuestos de rayos dependientes de la rugosidad.

2) “Trails fantasma detrás de objetos en movimiento”

Síntoma: reflexiones denoised o GI que van con retraso respecto al movimiento, dejando estelas.

Causa raíz: vectores de movimiento incorrectos (skinning, animación de vértices, desajuste de jitter de cámara) o detección de desoclusiones insuficiente.

Solución: validar vectores de movimiento en aislamiento; añadir máscaras reactivas para iluminación que cambia rápidamente; reducir peso de historial donde la confianza sea baja.

3) “RT activado causa picos aleatorios en el tiempo por frame”

Síntoma: en general bien, luego picos súbitos cada pocos segundos o al ver por primera vez una zona.

Causa raíz: compilación de sombreadores, creación de estados de pipeline o invalidación de caché de sombreadores. A veces también ráfagas de rebuild de AS al streamer geometría nueva.

Solución: precompilar PSOs/hit groups, persistir cachés entre ejecuciones y calentar escenas mediante trayectorias de cámara controladas. Trocea builds de AS y evita reconstruir todo de golpe.

4) “El rendimiento cae en escenas con mucha vegetación”

Síntoma: sombras/reflexiones RT inutilizables en vegetación.

Causa raíz: any-hit shaders para alpha testing son caros; el recorrido se vuelve ramificado; muchos triángulos pequeños arruinan la calidad del BVH.

Solución: reducir la participación alpha-tested (fallback a mapas de sombras), usar opacity micromaps donde esté soportado, simplificar geometría de follaje para RT y preferir materiales enmascarados que puedan aproximarse.

5) “Se ve genial en capturas, terrible en movimiento”

Síntoma: las capturas son bonitas; el gameplay es borroso.

Causa raíz: denoiser afinado para estático, no para movimiento; demasiada dependencia del historial; confianza per-pixel insuficiente.

Solución: afinar la acumulación temporal contra pruebas de estrés por movimiento; invertir en máscaras reactivas; aceptar algo más de ruido para recuperar claridad en movimiento.

6) “Se cuelga solo en un vendor”

Síntoma: GPU hangs/timeouts, device lost, solo en ciertas ramas de driver.

Causa raíz: comportamiento indefinido en sombreadores (NaNs, fuera de rango), bugs de lifetime de descriptores o depender de orden no especificado en compute asíncrono.

Solución: activar capas de validación en builds debug, añadir acceso robusto a buffers donde sea factible y reducir comportamiento indefinido. Implementar un workaround específico por vendor solo después de aislar el disparador real.

7) “RT apagado aún cuesta rendimiento”

Síntoma: desactivar RT cambia los visuales pero no el tiempo por frame.

Causa raíz: trabajo upstream (build de AS, clasificación de materiales, actualizaciones de caché) sigue ejecutándose; el toggle está conectado demasiado tarde en la canalización.

Solución: mover el gating más temprano; añadir contadores de “trabajo hecho con la característica desactivada” y fallar en CI si excede un umbral en modo RT-off.

8) “La calidad varía mucho entre GPUs”

Síntoma: el denoiser se comporta distinto, o el equilibrio perf/calidad cambia inesperadamente entre arquitecturas.

Causa raíz: diferente scheduling, tamaños de wave, comportamiento de caché; diferencias sutiles de precisión; distintos puntos óptimos para presupuestos de rayos.

Solución: afinar perfiles por clase (no por SKU), mantener una matriz por vendor y evitar asumir que la “configuración óptima” de una arquitectura es universal.

Listas de verificación / plan paso a paso

Paso 1: Define tu objetivo de producto de trazado de rayos (deja de ser vago)

Elige tus características hero: ¿reflexiones? ¿sombras? ¿GI? Una o dos, no cinco.
Establece presupuestos de tiempo por frame: por ejemplo, “las características RT tienen 4 ms en objetivo 60 fps” (ajusta según plataforma).
Define la estabilidad mínima aceptable: objetivos de percentiles de tiempo por frame, no solo promedios.

Paso 2: Construye un arnés de medición

Una trayectoria de cámara determinista (“escena conocida buena”).
Una escena de estrés de peor caso (follaje, skinning, partículas, espejos).
Captura: tiempo medio por frame, percentiles 95/99, VRAM, tiempo de build de AS, fallos de caché de sombreadores, utilización de IO.

Paso 3: Decide tu política de AS como ingeniero, no como poeta

Qué activos son BLAS estáticos vs dinámicos?
Umbrales de refit vs rebuild (por clase de malla).
Reglas y límites de instanciado.
Reglas de exclusión: partículas, geometría minúscula, decals, ciertos tipos de transparencia.

Paso 4: Haz del denoising un subsistema de primera clase

Valida vectores de movimiento y alineación de jitter como prueba de puerta.
Implementa detección robusta de desoclusiones y masking reactivo.
Expón vistas de depuración (peso de historial, confianza, estimaciones de varianza).
Presupuesta explícitamente el coste del denoiser; no dejes que “simplemente crezca”.

Paso 5: Trata la compilación de sombreadores como latencia de producción

Cachés persistentes con claves de versión correctas.
Precompilar pipelines/hit groups críticos para materiales comunes.
Compilación en background con limitación de tasa.
Checks en CI que detecten tormentas de invalidación de caché.

Paso 6: Publica con salvaguardas

Escalabilidad dinámica: reducir rayos/muestra, acortar distancias máximas, limitar rebotes bajo carga.
Fallbacks seguros por característica (fallback SSR para reflexiones, mapas de sombras para follaje, etc.).
Telemetría: percentiles de tiempo por frame, uso de toggles RT, crashes de GPU (agregados y respetando privacidad).

Preguntas frecuentes

1) ¿Es práctico el path tracing en tiempo real completo en 2026?

En escenas restringidas y a resoluciones moderadas, sí. En juegos de propósito general con mucho contenido, cabello, partículas, mucho alpha y gran variedad de materiales:
sigue siendo caro. Los pipelines híbridos siguen siendo la opción por defecto porque permiten gastar rayos donde importan.

2) ¿Por qué a veces el trazado de rayos se ve peor que la rasterización?

Porque estás viendo los modos de fallo: ruido por submuestreo, ghosting del denoiser o shading desajustado entre rutas raster y RT.
Los hacks de raster están afinados para estabilidad; la calidad RT depende de muestreo + corrección del historial. Si tus vectores de movimiento están mal, el RT puede perder mucho.

3) ¿Cuál es el coste oculto más grande: recorrido, shading o denoising?

Depende del contenido, pero el shading y el denoising son sorpresas frecuentes. El hardware de recorrido mejoró; el comportamiento de memoria y la divergencia siguen mordiendo.
El denoising puede convertirse en un impuesto que pagas varias veces (reflexiones + sombras + GI), especialmente a alta resolución.

4) ¿Por qué el follaje y los materiales alpha-tested perjudican tanto?

Los any-hit shaders y las alpha tests complican el recorrido y matan la coherencia. Estás pidiendo a la GPU mucho trabajo “por si acaso”.
La solución suele ser contenido + política: limitar la participación RT, simplificar geometría para RT o usar características de hardware especializadas cuando estén disponibles.

5) ¿Cómo reduzco el stutter por compilación de sombreadores?

Persistir cachés, arreglar claves de invalidación, precompilar pipelines comunes y calentar sistemáticamente.
También medir: si el stutter se correlaciona con util disk o churn de caché, no es “comportamiento misterioso de GPU”. Es tu canalización de compilación trabajando en el momento equivocado.

6) ¿Debemos reconstruir BVHs cada frame para evitar problemas de calidad?

No. Reconstruir todo es una solución tosca que quema presupuesto. Prefiere una política medida: BLAS estáicos reutilizados, refit dinámico dentro de límites de deformación,
reconstruir solo cuando la holgura del refit crece. Instrumenta el trade-off; no adivines.

7) ¿Por qué algunas GPUs muestran peor ghosting con las mismas opciones?

Diferencias en scheduling, precisión, comportamiento de caché y distribuciones de muestreo óptimas pueden cambiar el perfil de ruido que alimenta al denoiser.
El denoiser es un sistema no lineal: pequeñas diferencias en la entrada pueden verse grandes. Afina por clase de plataforma y valida con pruebas de estrés por movimiento.

8) ¿Qué probamos en CI para mantener estable el trazado de rayos?

Tests de regresión de percentiles de tiempo por frame, checks de churn de caché de sombreadores, presupuestos de tiempo de build de AS, checks de presupuesto VRAM y aserciones de “RT off significa no trabajo RT”.
Añade detección de deriva de drivers/toolchains para no confundir cambios de entorno con cambios del motor.

9) ¿“Más rayos por píxel” siempre es mejor que “mejor denoising”?

No. Más allá de cierto punto, más rayos pueden aumentar la presión de ancho de banda y reducir la estabilidad temporal al cambiar las características del ruido.
A menudo la mejor ROI es muestreo más inteligente (por importancia, consciente de rugosidad), mejor coherencia en el hit shading y mejoras en la confianza del denoiser.

Siguientes pasos prácticos

El trazado de rayos en 2026 no está bloqueado por las matemáticas. Está bloqueado por la disciplina operativa: medir las cosas correctas, proteger el trabajo correcto y negarse a publicar
una canalización que no puedas explicar bajo presión.

Elige dos características RT hero y asígnales presupuestos explícitos (tiempo, VRAM y percentiles).
Instrumenta build/refit de AS, coste del denoiser y churn de caché para poder responder “¿dónde se fue el tiempo por frame?” sin adivinar.
Establece una escena baseline y trátala como canaria para regresiones del motor.
Haz que RT-off realmente esté off moviendo el gating upstream y luego pruébalo automáticamente.
Estabiliza las entradas al denoiser (vectores de movimiento, normales, profundidad) antes de afinar parámetros del denoiser.
Gestiona drivers y toolchains como dependencias con actualizaciones controladas, no deriva aleatoria.

El trazado de rayos es inevitable porque simplifica el modelo incluso cuando complica la implementación.
Si lo tratas como infraestructura de producción —medida, protegida, gestionada en cambios— deja de ser mágico y empieza a poder enviarse.