Infierno de impresoras: la única industria que todos odian

¿Te fue útil?

Las fallas de impresión no se sienten como “incidencias de TI”. Se sienten como robo de tiempo. Te acercas a un dispositivo que parece despierto, suena despierto,
tiene una pantalla táctil llena de iconos alegres, y sin embargo tu documento ha desaparecido en una capa burocrática invisible de controladores,
colas, protocolos y suposiciones silenciosas.

Como SRE, aprendes a querer los sistemas aburridos porque los sistemas aburridos no te despiertan a las 16:57 cuando la directora financiera necesita tres copias firmadas
“antes de que llegue el mensajero”. Las impresoras son lo opuesto a aburridas. Son sistemas distribuidos con grapadoras.

Por qué todos odian las impresoras (y por qué es racional)

La gente no odia las impresoras porque el papel sea anticuado. Odia las impresoras porque la impresión es la tormenta perfecta:
un dispositivo físico, firmware propietario, controladores frágiles, múltiples protocolos, autenticación extraña y una interfaz cliente “útil”
que miente por omisión. Y cuando falla, lo hace de manera que desperdicia atención humana en lugar de ciclos de CPU.

En ingeniería de producción, construimos sistemas donde la falla es esperada e instrumentada. Las impresoras son mayormente lo contrario:
fallan en silencio, el trabajo desaparece y el único “registro” es una pantalla táctil que dice “Listo” mientras en realidad está de mal humor
por un sensor de bandeja o un apretón de manos TLS roto.

La impresora de oficina también es un sistema sociotécnico. Es compartida, sin dueño y la manipula todo el mundo. No hay un responsable único,
así que los atajos se convierten en “el proceso”. Luego algo cambia—una actualización de controlador, un parche de firmware,
una nueva versión de Windows, un certificado rotado—y todo el ritual se derrumba.

Broma #1: Una impresora es la única computadora que puede quedarse sin tinta y sin papel al mismo tiempo, y aun así exigir una actualización de firmware.

Si administras un entorno de impresión, deberías tratarlo como cualquier otro servicio: define la ruta soportada, elimina opciones “misteriosas”,
estandariza controladores y registra todo lo que puedas. El objetivo no es “la impresión funciona”. El objetivo es “la impresión falla
de forma predecible y se recupera rápido”.

Lo que las impresoras te enseñan sobre la fiabilidad

  • Dependencias ocultas: DNS, sincronización de hora, certificados, LDAP, autenticación SMB, brokers en la nube, agentes del proveedor.
  • Estado en todas partes: cola local del cliente, cola del servidor, almacenamiento del dispositivo, “trabajos en espera”, colas de liberación segura.
  • Múltiples estándares incompatibles: PostScript, PCL, PDF, PWG-Raster; IPP, LPD, SMB; “mejoras” del proveedor.
  • Propiedad ambigua: TI administra la flota, Infraestructura gestiona las salas, Finanzas el contrato, y nadie es dueño del incidente.

Hay una idea parafraseada de Gene Kranz (director de vuelo de Apolo) que los operadores citan por una razón:
idea parafraseada: “Ser duro y competente” vence al pánico cuando los sistemas se comportan mal. — Gene Kranz (idea parafraseada)

Hechos e historia: por qué existe este desastre

El dolor de las impresoras no es una falla moral. Es historia acumulada. Aquí hay puntos concretos de contexto que explican la realidad actual:

  1. Las impresoras láser se popularizaron en los años 80, y con ellas llegaron lenguajes de descripción de página como PostScript, diseñados para tipografía compleja, no para fácil resolución de problemas.
  2. PCL (Printer Command Language) se originó con HP y se convirtió en un estándar de facto para impresión empresarial; es rápido y pragmático, pero no uniforme entre proveedores.
  3. La impresión en Windows giró en torno al spooler (trabajos en cola y renderizados), lo cual tenía sentido para impresoras lentas y escritorios ocupados—hasta que se convirtió en una superficie de ataque y en un punto crítico de fallos.
  4. LPD/LPR (RFC 1179) es antiguo según estándares de red; funciona, pero precede las expectativas modernas de autenticación y cifrado.
  5. IPP (Internet Printing Protocol) fue diseñado para modernizar la impresión con semánticas más ricas e integración en red, pero las implementaciones reales aún incluyen rarezas de los proveedores y opciones inconsistentes.
  6. La distribución de controladores solía ser física (discos, CDs, paquetes del proveedor). Las empresas desarrollaron hábitos alrededor de “un controlador dorado”, a menudo mantenido mucho tiempo después de que fuera seguro.
  7. La “impresión segura” creció por cumplimiento y privacidad, añadiendo liberación por PIN, liberación con tarjeta y retención de trabajos—significando más lugares donde los trabajos pueden “existir” sin imprimirse.
  8. SNMP se convirtió en la forma estándar de consultar el estado de la impresora, pero el estado SNMP a menudo va por detrás de la realidad o informa “desconectado” debido a community strings, firewalls o modos de ahorro de energía.
  9. La era de las vulnerabilidades como PrintNightmare impulsó el endurecimiento de la impresión en Windows y de la instalación de controladores, aumentando la fricción de “simplemente agregar la impresora”.

La moraleja es que las impresoras no evolucionaron como una plataforma coherente. Evolucionaron como una tregua negociada entre los vendedores de SO,
los fabricantes de impresoras, los protocolos de red y la adquisición corporativa.

Un modelo mental práctico: la impresión es una canalización

Deja de pensar “la impresora está rota”. Empieza a pensar “¿qué etapa de la canalización está fallando?”.
La mayoría de los incidentes de impresión son uno de estos:

Etapa 1: la aplicación genera la salida

La app produce PDF, PostScript, EMF, XPS, raster o un híbrido. Los errores aquí se ven como “sale en blanco”, “sale basura”,
“solo falla desde una app” o “la escala de la página está mal”.

Etapa 2: subsistema de impresión del cliente

Windows: el spooler y los controladores. macOS/Linux: CUPS y filtros. Las fallas se ven como “trabajo atascado en ‘spooling’”,
“controlador se bloquea”, “imprime en la cola equivocada” o “pide credenciales para siempre”.

Etapa 3: transporte de red

IPP, LPD, SMB, raw 9100, agentes de proveedor. Las fallas se ven como “impresora desconectada”, “conexión rechazada”,
“funciona solo desde una subred”, “timeouts intermitentes”, “handshake TLS falla tras actualización de firmware”.

Etapa 4: servidor de impresión (opcional, pero común)

Un servidor de impresión añade gestión central y colas compartidas, pero también añade un spool extra, logs extras y modos de fallo adicionales.
Las fallas se ven como “todos están rotos a la vez”, “cola atascada”, “CPU del servidor al máximo”, “desajuste de controladores tras parcheo”.

Etapa 5: ingestión y renderizado en el dispositivo

La impresora analiza el trabajo (PDF/PS/PCL) y lo renderiza. Las fallas se ven como “imprime media página y se detiene”,
“sin memoria”, “se reinicia durante el trabajo”, “sustitución aleatoria de fuentes”, “error en la unidad de grapado bloquea todos los trabajos”.

Etapa 6: salida física

Camino del papel, bandejas, sensores, fuser, tóner, acabado. Las fallas se ven como “manchas”, “imagen fantasma”, “arrugas”,
“atasco de papel”, “salida en la bandeja equivocada”.

Esta visión de canalización cambia el comportamiento. Dejas de reiniciar el equipo como primera medida y en su lugar localizas rápidamente la etapa que falla.
Reiniciar a veces es necesario. No debería ser tu estrategia de diagnóstico.

Guion de diagnóstico rápido (primero/segundo/tercero)

Cuando la impresión falla, quieres un camino corto hasta “¿dónde está el cuello de botella?” Aquí está la secuencia que minimiza el vaivén.
Asume que tienes al menos un usuario afectado y acceso a su estación o al servidor de impresión.

Primero: determina el radio de impacto y el alcance

  • ¿Es un solo usuario, una sola cola, un solo modelo de impresora, un piso o todo el mundo? El alcance te indica si es del lado del cliente, del servidor o del dispositivo.
  • ¿Falla desde varias apps? Si solo una app falla, comienza en la Etapa 1.
  • ¿Falla para varios usuarios en la misma cola? Probablemente servidor/cola/dispositivo, no una estación concreta.

Segundo: confirma la ubicación del trabajo

  • ¿Aparece el trabajo en la cola? Si no, nunca salió de la app/subsistema cliente.
  • Si aparece, está “En espera”, “Pendiente”, “Detenido” o “Procesando”? Esos estados se corresponden con familias de fallos distintas.
  • ¿Muestra la impresora el trabajo en el dispositivo (liberación segura / trabajos retenidos)? Si sí, el transporte está bien; es política o flujo de liberación.

Tercero: verifica la verdad más simple del transporte

  • Resolución de nombres: ¿resuelve el nombre de la impresora a la IP esperada?
  • Alcanzabilidad: ¿puedes hacer ping (si está permitido) y abrir el puerto relevante (631 IPP, 515 LPD, 9100 raw, 445 SMB)?
  • Hora/certs: si se usa IPP sobre TLS, ¿discrepan cliente y dispositivo en la hora o en los certificados?

Cuarto: comprueba la salud de la cola, luego reinicia con intención

Reiniciar los spoolers a ciegas es la forma de convertir un atasco localizado en una caída a nivel de departamento.
Reinicia solo después de saber qué estás aclarando y a quién impactas.

Tareas prácticas: comandos, salidas, decisiones (12+)

Estas son tareas realistas de operaciones. Cada una incluye un comando, una salida típica, qué significa y la decisión que tomas.
Los comandos se muestran desde un host administrador Linux que puede alcanzar clientes/servidores/impresoras. Donde se necesita una comprobación de Windows,
la verás hecha vía consultas remotas de logs de eventos o comprobaciones de servicios desde Linux usando supuestos de herramientas estándar; en la vida real,
podrías ejecutar equivalentes en PowerShell localmente. No sobrepienses la herramienta—sobrepiensa la evidencia.

Task 1: Confirmar que el DNS apunta a la impresora correcta

cr0x@server:~$ getent hosts prn-4f-west.example.corp
10.44.18.27   prn-4f-west.example.corp prn-4f-west

Qué significa: El nombre resuelve a 10.44.18.27. Si esta IP no coincide con la etiqueta del activo o la reserva DHCP, puede que estés imprimiendo en el dispositivo equivocado.

Decisión: Si la IP es inesperada, busca DNS obsoleto, hostnames duplicados o una impresora reemplazada que reutilizó un nombre.

Task 2: Verificar alcance básico (ICMP)

cr0x@server:~$ ping -c 2 10.44.18.27
PING 10.44.18.27 (10.44.18.27) 56(84) bytes of data.
64 bytes from 10.44.18.27: icmp_seq=1 ttl=63 time=1.94 ms
64 bytes from 10.44.18.27: icmp_seq=2 ttl=63 time=1.87 ms

--- 10.44.18.27 ping statistics ---
2 packets transmitted, 2 received, 0% packet loss, time 1002ms
rtt min/avg/max/mdev = 1.872/1.905/1.939/0.033 ms

Qué significa: El dispositivo es alcanzable a nivel de red. Esto no prueba que la impresión funcione, pero descarta problemas evidentes de enrutamiento/firewall.

Decisión: Si el ping falla, pasa a comprobar el puerto del switch/VLAN/firewall; no toques los controladores todavía.

Task 3: Comprobar qué puerto de protocolo de impresión está abierto

cr0x@server:~$ nc -vz 10.44.18.27 631
Connection to 10.44.18.27 631 port [tcp/ipp] succeeded!

Qué significa: IPP es alcanzable. Si la cola usa IPP y los trabajos siguen colgando, ahora estás en territorio de protocolo/auto/TLS de nivel superior.

Decisión: Si el puerto está cerrado, confirma el protocolo configurado en la cola y si un cambio de firewall lo bloqueó.

Task 4: Extraer atributos IPP para ver el estado del dispositivo

cr0x@server:~$ ipptool -tv ipp://10.44.18.27/ipp/print get-printer-attributes.test | sed -n '1,40p'
IPP/2.0 200 OK
printer-uri-supported (1setOf uri) = ipp://10.44.18.27/ipp/print
printer-state (enum) = idle
printer-state-reasons (1setOf keyword) = none
printer-info (textWithoutLanguage) = "4F West MFP"
printer-make-and-model (textWithoutLanguage) = "VendorX ModelY PS"
operations-supported (1setOf enum) = Print-Job, Validate-Job, Cancel-Job, Get-Job-Attributes, Get-Printer-Attributes

Qué significa: La impresora informa “idle” y sin razones de error. Si los usuarios ven “desconectado”, el problema probablemente sea la detección de estado del cliente (a menudo SNMP) o un desajuste de nombre/IP.

Decisión: Si printer-state-reasons muestra “media-needed”, “marker-supply-low” o “door-open”, deja de culpar a la red.

Task 5: Comprobar el estado de la cola CUPS en un servidor Linux

cr0x@server:~$ lpstat -t
scheduler is running
system default destination: prn-4f-west
device for prn-4f-west: ipp://prn-4f-west.example.corp/ipp/print
prn-4f-west accepting requests since Wed 22 Jan 2026 09:12:14 AM UTC
printer prn-4f-west is idle.  enabled since Wed 22 Jan 2026 09:12:15 AM UTC

Qué significa: CUPS está activo, la cola está habilitada y el URI del dispositivo es claro. “Idle” es bueno; si los trabajos aún no imprimen, mira filtros, autenticación o ingestión del dispositivo.

Decisión: Si la impresora está “stopped”, inspecciona por qué antes de habilitarla—CUPS detiene colas por una razón (fallos de auth, errores de backend).

Task 6: Inspeccionar trabajos atascados y sus propietarios

cr0x@server:~$ lpq -P prn-4f-west
prn-4f-west is ready
Rank   Owner   Job  File(s)                         Total Size
active jdoe    1842 Q4-summary.pdf                   246784 bytes
1st    asmith  1843 payroll.pdf                      583219 bytes

Qué significa: Hay un trabajo activo y al menos uno en cola. Si el “active” nunca termina, ese trabajo puede estar bloqueado (PDF defectuoso, fallo de filtro o fallo de parseo del dispositivo).

Decisión: Si muchos trabajos se acumulan detrás de un “active”, aíslalo: cancela el trabajo activo, vuelve a imprimir una página de prueba conocida y luego reintroduce.

Task 7: Cancelar un trabajo individual de forma segura

cr0x@server:~$ cancel -a prn-4f-west-1842
cancel: canceled prn-4f-west-1842

Qué significa: Eliminaste el trabajo bloqueador activo sin volar toda la cola.

Decisión: Después de cancelar, imprime un trabajo de texto simple. Si eso funciona, el documento original es sospechoso; aconseja al usuario reexportar a PDF/A o imprimir como imagen.

Task 8: Imprimir un trabajo de prueba mínimo que evite rarezas de la app

cr0x@server:~$ printf "printer sanity check $(date -Is)\n" | lp -d prn-4f-west
request id is prn-4f-west-1844 (1 file(s))

Qué significa: Esto prueba la cola, el protocolo y el renderizado básico con una carga trivial.

Decisión: Si esto imprime pero los PDFs fallan, enfócate en filtros/renderizadores (Ghostscript/pipeline PDF) o en la configuración del intérprete PDF del dispositivo.

Task 9: Revisar logs de CUPS por errores de backend/auth/filtro

cr0x@server:~$ sudo journalctl -u cups --since "10 min ago" | tail -n 20
Jan 22 10:01:33 print01 cupsd[1187]: [Job 1842] Started backend /usr/lib/cups/backend/ipp (PID 4421)
Jan 22 10:01:34 print01 cupsd[1187]: [Job 1842] ipp://prn-4f-west.example.corp/ipp/print: Unauthorized
Jan 22 10:01:34 print01 cupsd[1187]: [Job 1842] Job stopped due to backend errors; please consult the error_log file for details.
Jan 22 10:01:34 print01 cupsd[1187]: [Job 1842] printer-state-reasons=none

Qué significa: El backend recibió HTTP 401 Unauthorized. Eso no es “impresora desconectada”; es un desajuste de autenticación (credenciales, Kerberos o política).

Decisión: Confirma si la impresora ahora requiere auth para IPP, si una contraseña rotó o si una actualización de firmware cambió los valores predeterminados.

Task 10: Validar problemas TLS/cert cuando se usa IPPS

cr0x@server:~$ openssl s_client -connect prn-4f-west.example.corp:443 -servername prn-4f-west.example.corp -brief
CONNECTION ESTABLISHED
Protocol version: TLSv1.2
Ciphersuite: ECDHE-RSA-AES256-GCM-SHA384
Peer certificate: CN=prn-4f-west.example.corp
Verification error: certificate has expired

Qué significa: El certificado TLS del dispositivo está caducado. Si la ruta de impresión usa IPPS (IPP sobre TLS), los clientes pueden negarse a conectar.

Decisión: Renueva/reemplaza el certificado del dispositivo o cambia temporalmente a IPP plano dentro de un segmento de red confiable mientras arreglas la automatización de certificados.

Task 11: Verificar impresión por socket raw (9100) como aislamiento rápido

cr0x@server:~$ nc -vz 10.44.18.27 9100
Connection to 10.44.18.27 9100 port [tcp/*] succeeded!

Qué significa: La impresión estilo JetDirect raw está disponible. Esto puede ayudar a aislar “auth/TLS de IPP está roto” vs “el dispositivo está muerto”.

Decisión: Si IPP falla pero 9100 funciona, tienes un problema a nivel de protocolo. Decide si arreglas IPP correctamente o estandarizas en un protocolo con controles aceptables.

Task 12: Comprobar IP duplicadas (una clásica “broma” de oficina por accidente)

cr0x@server:~$ arping -c 3 -I eth0 10.44.18.27
ARPING 10.44.18.27 from 10.44.18.10 eth0
Unicast reply from 10.44.18.27 [00:11:22:33:44:55]  1.932ms
Unicast reply from 10.44.18.27 [66:77:88:99:aa:bb]  1.948ms
Unicast reply from 10.44.18.27 [00:11:22:33:44:55]  1.901ms
Sent 3 probes (1 broadcast(s))
Received 3 response(s)

Qué significa: Dos direcciones MAC diferentes respondieron por la misma IP. Eso es territorio de conflicto IP, y crea “a veces imprime, a veces desaparece”.

Decisión: Encuentra y corrige el conflicto: errores en reservas DHCP, un dispositivo clonado o una IP estática mal configurada en otra impresora.

Task 13: Inspeccionar conectividad de impresión SMB (puerto 445)

cr0x@server:~$ nc -vz prn-4f-west.example.corp 445
Connection to prn-4f-west.example.corp 445 port [tcp/microsoft-ds] succeeded!

Qué significa: SMB es alcanzable. Si la impresión SMB sigue fallando, la política de autenticación (NTLM/Kerberos), el firmado o el acceso de invitado probablemente estén en fallo.

Decisión: Prefiere IPP cuando sea posible; la impresión SMB arrastra la complejidad de seguridad del compartido de archivos a los incidentes de impresión.

Task 14: Comprobar presión de disco en el directorio spool del servidor

cr0x@server:~$ df -h /var/spool/cups
Filesystem      Size  Used Avail Use% Mounted on
/dev/sda3        20G   19G  520M  98% /

Qué significa: Estás casi sin espacio en disco. Cuando el espacio de spool se agota, los trabajos se quedan atascados, desaparecen o fallan a mitad de transmisión.

Decisión: Limpia archivos/ trabajos de spool antiguos con seguridad, expande disco o mueve /var/spool/cups a un sistema de archivos dedicado con monitorización y alertas.

Task 15: Comprobar saturación de memoria y CPU durante renderizado pesado

cr0x@server:~$ top -b -n 1 | head -n 15
top - 10:06:11 up 23 days,  4:12,  2 users,  load average: 12.41, 10.88, 9.76
Tasks: 221 total,   2 running, 219 sleeping,   0 stopped,   0 zombie
%Cpu(s): 92.3 us,  5.1 sy,  0.0 ni,  2.1 id,  0.0 wa,  0.0 hi,  0.5 si,  0.0 st
MiB Mem :  7972.3 total,   118.6 free,  7120.5 used,   733.2 buff/cache
PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND
4519 lp        20   0 1584204 412356  25512 R  265.3   5.1   2:11.22 gstoraster

Qué significa: Un filtro de rasterización está consumiendo CPU. La impresión “funciona”, pero la latencia explota y las colas se acumulan.

Decisión: Añade capacidad, reduce conversiones costosas o cambia la configuración del controlador (envía PDF/PS directamente si el dispositivo lo soporta).

Task 16: Validar que la interfaz web de la impresora sea accesible (y no redirigida a ninguna parte)

cr0x@server:~$ curl -I http://10.44.18.27/ | head
HTTP/1.1 302 Found
Location: https://10.44.18.27/
Server: Embedded-WebServer

Qué significa: HTTP redirige a HTTPS. Si tus herramientas asumen HTTP (o tu monitorización), puedes estar ciego al estado real del dispositivo.

Decisión: Actualiza las comprobaciones para seguir redirecciones y validar TLS, o supervisa explícitamente el endpoint de impresión en lugar de la interfaz web.

Tres microhistorias corporativas desde la trinchera

Microhistoria 1: El incidente causado por una suposición errónea

Una empresa mediana reemplazó una flota de multifuncionales durante un fin de semana. Nuevos dispositivos, misma línea de modelos, mismas ubicaciones en los pisos.
El proveedor aseguró a todos que era “plug-and-play”. El lunes por la mañana, todo un departamento no podía imprimir, pero solo desde escritorios Windows.
Los Macs funcionaban bien. El servicio de ayuda hizo la danza habitual: quitar impresora, volver a añadir, reiniciar. Nada.

La suposición errónea fue sutil: “mismo nombre DNS significa mismo comportamiento”. Las colas de impresión seguían apuntando a los mismos hostnames,
y esos hostnames seguían resolviendo. Pero los nuevos dispositivos venían con autenticación IPP habilitada por defecto, mientras que los antiguos
permitían IPP no autenticado dentro de la LAN. Los clientes macOS sucedió que solicitaban y guardaban credenciales. Los clientes Windows, vía
la cola del servidor de impresión, no tenían credenciales configuradas para ese backend.

Los logs fueron poco glamurosos: 401 Unauthorized repetidos en el backend del servidor. Los usuarios veían “imprimiendo” y luego nada.
El servidor de impresión mostraba trabajos detenidos y reintentando. Alguien finalmente extrajo atributos de la impresora y notó cambios de política en la
configuración de seguridad del dispositivo.

La solución fue aburrida e inmediata: alinear la política. O bien deshabilitar la autenticación IPP en el segmento confiable (con controles compensatorios)
o configurar correctamente el backend del servidor de impresión para autenticar. Eligieron lo segundo, porque los auditores ya estaban encima.
La corrección a largo plazo fue aún más aburrida: una lista de verificación de incorporación de dispositivos que incluía “validar valores predeterminados de auth”
y “probar con cada ruta de SO”, no solo “imprimir una página de prueba desde el portátil del proveedor”.

Microhistoria 2: La optimización que salió mal

Otra organización estaba orgullosa de sus controles de coste de impresión. Tenían un servidor de impresión centralizado y una nueva iniciativa: reducir
el tráfico de red y acelerar la impresión forzando el renderizado del lado cliente a un único formato raster. La razón sonaba limpia:
“raster es universal, evita bugs del intérprete del dispositivo y hace la salida consistente”.

Lo desplegaron mediante un cambio de controlador. De la noche a la mañana, se dispararon los tickets. No “algunos usuarios tienen problemas”. Todos se quejaron de
que la impresión tardaba una eternidad y el servidor iba lento. Las colas crecieron y la CPU del servidor de impresión subió. Lo peor:
nada estaba técnicamente “caído”. Los trabajos acababan imprimiéndose, lo que hizo el incidente políticamente problemático.

La causa raíz: movieron trabajo caro al servidor de impresión y lo amplificaron. PDFs complejos que los dispositivos podrían haber procesado
nativamente ahora se rasterizaban centralmente, a menudo a alta DPI, multiplicando el tiempo de CPU y el tamaño del spool. Los trabajos
se inflaron, el I/O de disco subió y el servidor se convirtió en el cuello de botella. Fue un clásico cambio de capacidad: “optimizaste”
un eslabón de la cadena saturando otro.

El rollback fue rápido: revertir la configuración del controlador a “enviar PDF/PS cuando sea posible”, mantener raster como respaldo para el pequeño conjunto
de dispositivos que realmente lo necesitaban. Luego hicieron lo adulto: midieron. Añadieron monitorización para crecimiento del spool, CPU por filtro
y latencia por cola. La lección no fue “nunca optimizar”. La lección fue “no optimices a ciegas y no centralices trabajo solo porque puedes”.

Microhistoria 3: La práctica aburrida pero correcta que salvó el día

Una firma financiera ejecutaba un pequeño entorno de impresión, pero lo trataban como producción. Tenían un conjunto estándar de controladores, un protocolo estándar (IPP)
y una pequeña cola canaria que imprimía un trabajo de una línea cada cinco minutos en una impresora sacrificial en una sala trasera.
No se trataba del papel. Se trataba de la confirmación de extremo a extremo: app → cola → red → dispositivo → salida.

Una mañana, la canaria empezó a fallar con errores TLS. Nadie se había quejado aún, porque los usuarios reales no habían imprimido mucho tan temprano.
El de guardia vio la alerta e inmediatamente comprobó la validez del certificado en el dispositivo. Caducado. El proveedor tenía un proceso de firmware
que reemplazaba certificados en la actualización; este dispositivo no se había actualizado en un tiempo y perdió la rotación.

Sustituyeron el certificado del dispositivo antes de que llegara la oficina principal, verificaron que IPPS funcionara y luego programaron la renovación del resto de la flota
en los días siguientes. Sin caída masiva, sin llamadas frenéticas, sin “simplemente manda por email”.

La práctica que los salvó no fue heroica. Fue validación continua y una ruta de prueba conocida buena. Ese es todo el juego SRE:
detectar la pequeña falla antes de que se convierta en un evento cultural.

Errores comunes: síntoma → causa raíz → solución

Los incidentes de impresoras se repiten porque las organizaciones repiten los mismos errores: confiar demasiado en el estado de la UI, subinstrumentar las colas
y dejar que las flotas deriven en copias de configuración. Aquí tienes una guía de campo.

1) “La impresora está desconectada” pero la impresora está claramente encendida

Síntoma: Los clientes muestran “desconectado”, pero el panel dice Listo y puedes acceder a la interfaz web.
Causa raíz: Detección de estado vía SNMP falla (community erróneo, UDP 161 bloqueado), o DNS apunta a una IP antigua.
Solución: Verifica nombre → IP, luego confirma la alcanzabilidad y configuración SNMP; considera desactivar el estado SNMP en el cliente si miente más de lo que ayuda.

2) Los trabajos desaparecen después de “imprimir”

Síntoma: La app dice enviado, la cola se borra, nada imprime.
Causa raíz: Los trabajos están retenidos para liberación segura, o el dispositivo rechaza el trabajo tras la ingestión (PDL no soportado, PDF malformado).
Solución: Comprueba la lista de trabajos en el dispositivo/bandeja de impresión segura; revisa logs servidor/cliente por trabajos rechazados; estandariza en PDF/PS o un controlador conocido bueno.

3) Un usuario no puede imprimir, todos los demás sí

Síntoma: Fallo de un solo usuario, misma impresora funciona para otros.
Causa raíz: Archivos de spool locales corruptos, estado del controlador por usuario, salida defectuosa de la app o credenciales obsoletas en keychain/gestor de credenciales.
Solución: Limpia el spool del usuario, vuelve a añadir la cola, prueba desde otra app; reinicia credenciales almacenadas para ese endpoint de impresora.

4) La impresión funciona, pero es terriblemente lenta

Síntoma: Los trabajos eventualmente imprimen; la latencia de la cola se dispara.
Causa raíz: Rasterización centralizada, alta DPI, PDFs complejos que desencadenan conversiones pesadas, cuello de botella en CPU/disco del servidor de impresión.
Solución: Mide CPU por filtro, reduce conversiones, evita raster universal por defecto, asegura espacio de spool y I/O rápido.

5) “Acceso denegado” o solicitudes de credenciales repetidas

Síntoma: Los usuarios introducen credenciales repetidamente; los trabajos fallan con errores de auth.
Causa raíz: Política de la impresora cambió (firmware), requisitos de firmado SMB, NTLM deshabilitado, certificados caducados para IPPS o desajuste de reloj.
Solución: Alinea la política de autenticación de extremo a extremo; verifica sincronización de hora; renueva certificados; evita impresión SMB cuando sea posible en entornos endurecidos.

6) Imprimen páginas con basura aleatoria

Síntoma: Páginas con caracteres sin sentido o comandos PCL/PS impresos en el papel.
Causa raíz: Controlador incorrecto/desajuste de PDL (enviar PostScript a una cola solo PCL, o texto crudo al puerto equivocado).
Solución: Usa el controlador y tipo de cola correctos; evita “genérico texto” a menos que realmente quieras texto crudo; estandariza la creación de colas.

7) Opciones de dúplex/grapado/bandeja desaparecen o funcionan mal

Síntoma: Opciones de acabado desaparecen tras actualizar el controlador; la salida va a la bandeja equivocada.
Causa raíz: Detección de capacidades del controlador difiere, PPD/opciones incorrectas, o la impresora informa distintas funciones debido a un cambio en el módulo de acabado.
Solución: Re-sincroniza capacidades del dispositivo; bloquea la versión del controlador para esa flota; documenta la configuración de módulos de acabado.

8) Reiniciar el spooler “lo arregla” pero solo temporalmente

Síntoma: Reinicios del spooler limpian el problema brevemente; luego vuelve.
Causa raíz: Un trabajo específico provoca un crash o bloqueo, o la presión de disco del spool / fuga de memoria se acumula.
Solución: Identifica el patrón del trabajo tóxico; implementa límites de tamaño/tipo de trabajo; monitoriza disco del spool; parchea el filtro/controlador que se bloquea.

Listas de verificación / plan paso a paso

Lista de control de incidente (15 minutos para restaurar el servicio)

  1. Define el alcance: un usuario vs muchos; una impresora vs todas; una app vs todas las apps.
  2. Encuentra el trabajo: ¿aparece en la cola del cliente? ¿en la cola del servidor? ¿trabajos retenidos en el dispositivo?
  3. Confirma identidad: el hostname resuelve a la IP esperada; comprueba conflictos IP si el comportamiento es intermitente.
  4. Confirma transporte: comprobación de puerto para el protocolo en uso (631/443/515/9100/445).
  5. Busca el bloqueo físico obvio: atasco de papel, puerta abierta, bandeja vacía, tóner/kit de mantenimiento, error de finisher.
  6. Revisa salud del servidor: disco de spool, CPU, memoria, estado de cola detenida.
  7. Cancela el bloqueador: elimina un solo trabajo atascado antes de reiniciar servicios.
  8. Ejecuta una impresión de prueba mínima: trabajo de texto simple para validar la ruta.
  9. Si hay implicación de auth/TLS: verifica validez de certificados y sincronización de hora; confirma cambios de política.
  10. Comunica: informa a los usuarios qué colas están afectadas y qué solución alternativa está autorizada (cola alternativa, protocolo alternativo, flujo de liberación segura).

Lista de endurecimiento (hacer que los incidentes de impresoras sean menos frecuentes)

  1. Estandariza protocolos: elige IPP/IPPS como predeterminado; documenta excepciones; evita mezclar impresión SMB salvo que sea necesario.
  2. Estandariza controladores: un controlador aprobado por familia de modelos; versión fijada; probado en cada SO.
  3. Implementa impresión canaria: una prueba periódica controlada de extremo a extremo que valide la salida real.
  4. Monitoriza recursos de spool: uso de disco, profundidad de cola, latencia de trabajos, CPU de filtros, tasas de error.
  5. Planifica el ciclo de vida de certificados: emisión/renovación de certificados de dispositivos y sincronización de hora son responsabilidades operativas, no “agradables de tener”.
  6. Control de cambios para firmware: trata el firmware como despliegues de producción—staging, plan de rollback y matriz de pruebas explícita.
  7. Segmenta y configura firewall con criterio: no permitas que “las impresoras son raras” se convierta en “las impresoras están exentas”. Permite solo lo que uses.
  8. Define propiedad: quién es responsable de colas, controladores, configuraciones de dispositivos y escaladas con el proveedor.

Reglas de sentido común para usuarios (reducir tickets sin engaños)

  • Un nombre de cola soportado por dispositivo; nada de entradas zombis “IMPRESORA (copia 1)”.
  • Una solución alternativa oficial cuando la cola principal está caída (p. ej., una impresora alternativa), no diez remedios caseros.
  • Enseña la liberación segura claramente si la usas; de lo contrario, los usuarios reportarán “el trabajo desapareció” por siempre.

Broma #2: Lo llamamos “impresión segura” porque el trabajo está más seguro cuando nunca sale.

Preguntas frecuentes

¿Por qué la impresión sigue siendo más difícil que la mayoría de las TI “modernas”?

Porque es por naturaleza multi-capa: la app genera documentos complejos, el SO los renderiza, la red los transporta
y un dispositivo con firmware propietario los interpreta y acciona hardware. Eso son fallos de cuatro equipos.

¿Debemos usar un servidor de impresión o imprimir directo a la impresora?

Usa servidor de impresión si necesitas gestión centralizada, auditoría, liberación segura y despliegue consistente de controladores. Ve directo
solo en entornos pequeños donde la simplicidad supera al control. La trampa es “queremos control” pero sin monitorización; entonces solo añadiste
un nuevo cuello de botella sin visibilidad.

¿Es IPP mejor que SMB para imprimir?

La mayoría de las veces, sí. IPP/IPPS está diseñado para imprimir. La impresión SMB hereda la complejidad de autenticación de compartición de archivos,
cambios de endurecimiento y conflictos de política. Si debes usar SMB, trátalo como un proyecto de integración de auth, no como “solo un puerto”.

¿Por qué la impresora muestra “Listo” mientras los trabajos fallan?

“Listo” suele significar “el hardware no está atascado”. No significa que el dispositivo aceptará tu trabajo, te autenticará,
validará la carga útil o tenga suficiente memoria para renderizarlo. Confía más en logs y comprobaciones de protocolo que en el ánimo de la pantalla táctil.

¿Cuál es la forma más rápida de saber si es un problema del documento o del sistema?

Imprime un trabajo de prueba mínimo (texto plano) en la misma cola. Si eso funciona, la canalización está funcional y el camino de documento/renderizado es sospechoso.
Si falla, la ruta cola/protocolo/dispositivo es sospechosa.

¿Por qué las actualizaciones de controladores causan problemas “aleatorios” semanas después?

Porque los controladores codifican capacidades, valores por defecto y rutas de renderizado. Un cambio en las opciones por defecto (DPI, modo raster, opciones de dúplex)
puede alterar la carga del servidor o desencadenar bugs del intérprete del dispositivo. El retraso suele venir de patrones de documentos específicos que aparecen
solo durante ejecuciones mensuales (facturas, nóminas, presentaciones de la junta).

¿Cómo evitamos que los usuarios instalen controladores aleatorios?

Proporciona una cola soportada única por dispositivo, desplígala automáticamente y elimina rutas de administrador local que permitan instalación arbitraria de controladores.
Luego haz que la ruta soportada sea lo suficientemente fiable como para que los usuarios no busquen alternativas.

¿Qué deberíamos registrar para la impresión?

Profundidad de cola y transiciones de estado de trabajos, códigos de error de backend (fallos de auth, timeouts), bloqueos de filtros y tiempo de CPU,
uso de disco de spool y estados de error del dispositivo. Si no puedes responder “¿dónde está el trabajo ahora mismo?” no tienes suficiente telemetría.

¿Vale la pena actualizar el firmware de las impresoras si implica riesgo?

Sí, pero solo con disciplina. El firmware corrige problemas de seguridad y estabilidad, pero también puede cambiar valores predeterminados de protocolo,
soporte de cifrados y comportamiento de auth. Trata el firmware como un cambio de producción: despliegue por etapas, matriz de pruebas y plan de rollback.

¿Cuál es la mejora más efectiva para la fiabilidad?

Estandarización con medición: un protocolo, un conjunto de controladores, definiciones de colas conocidas buenas, más monitorización de espacio de spool,
latencia de colas y una impresión canaria. No es glamoroso, por eso funciona.

Próximos pasos que realmente puedes hacer

El infierno de las impresoras es un ritual de unión porque es sufrimiento compartido y nadie espera que mejore. Esa expectativa es opcional.
Puedes gestionar la impresión como un servicio: entradas estandarizadas, canalizaciones observables, cambios controlados y rollback rápido.

Haz esto a continuación, en orden:

  1. Escribe la ruta soportada: protocolo, colas, controladores, comportamiento de liberación segura.
  2. Añade una impresión canaria: un trabajo minúsculo, lo suficientemente frecuente para detectar deriva, lo bastante ruidoso para despertarte antes que la directora financiera.
  3. Instrumenta el spool: margen de disco, profundidad de cola, CPU de filtros y códigos de error.
  4. Normaliza la incorporación de dispositivos: DNS/IP, valores predeterminados de auth, certificados, sincronización de hora, línea base de firmware y una prueba cross-OS.
  5. Deja de “optimizar” sin medidas: especialmente cambios de renderizado y rasterización.

El objetivo no es amar las impresoras. El objetivo es dejar de permitir que te embosquen el día. Trátalas como los sistemas distribuidos que son,
y se volverán meramente molestas—en lugar de legendarias.

← Anterior
Ubuntu 24.04: congelamientos de disco bajo carga — ajustes de tiempo de espera que evitan bloqueos completos (Caso #30)
Siguiente →
Proxmox Backup Server vs Veeam para VMware: qué es mejor para restauraciones rápidas y operaciones simples

Deja un comentario