Cómo saber cuándo es seguro dejar que un agente de IA actúe por su cuenta

La pregunta que escuchamos con más frecuencia se formula como una disyuntiva binaria: ¿este agente debería ser un asistente o debería ser autónomo? Planteada así, la respuesta siempre es “asistente”, porque nadie puede defender “autónomo” sin evidencia, y la evidencia todavía no existe. De modo que el agente se queda para siempre como un autocompletado glorificado, y la justificación de su valor nunca se cierra.

La disyuntiva binaria es el marco equivocado. La autonomía no es un interruptor. Es una escalera, y se sube peldaño a peldaño, por flujo de trabajo, ganando cada promoción a partir de trazas en lugar de afirmarla en una hoja de ruta. Este es un manual sobre los peldaños, lo que cambia en cada uno y la evidencia que se necesita para ascender.

Por qué una escalera y no un interruptor

Un solo agente rara vez hace una sola cosa. Redacta, recomienda, actúa, escala. Cada uno de esos comportamientos conlleva un radio de impacto distinto. Redactar un correo es reversible. Emitir un reembolso no lo es. Tratar todo el agente como un único ajuste de autonomía te obliga a gobernar el reembolso a la velocidad del correo, o el correo al coste del reembolso. Ninguna de las dos opciones es correcta.

Así que la unidad de autonomía es el flujo de trabajo, no el agente. Distintos flujos de trabajo se sitúan en distintos peldaños al mismo tiempo, y ese es el estado normal y saludable de un sistema desplegado. El agente que redacta respuestas a clientes en el peldaño 4 puede seguir en el peldaño 1 para cualquier cosa que toque la facturación.

La otra razón para una escalera es que la promoción tiene que ser falsable. “Lo hicimos autónomo” es una afirmación. “A lo largo de 4.200 ejecuciones trazadas, la acción recomendada coincidió con la acción aprobada el 98,1 por ciento de las veces, con una reversión documentada para el 1,9 por ciento” es un hallazgo. La escalera convierte la autonomía en algo que un examinador puede verificar.

Los seis peldaños

L0 - Asistente

El agente responde preguntas y produce contenido dentro de la sesión de trabajo de una persona. No toca sistemas de registro. No hay ninguna acción que aprobar porque no hay ninguna acción. Aquí es donde empieza todo flujo de trabajo.

Qué cambia para dejar L0: nada de forma automática. Solo dejas L0 cuando un flujo de trabajo específico tiene una acción definida, un responsable definido y un lugar donde registrar lo que ocurrió. Si no puedes nombrar el almacén de trazas, no estás listo para subir.

L1 - Borrador más aprobación

El agente propone un artefacto concreto (una respuesta, un ticket, un cambio de configuración) y una persona lo edita y lo envía. La persona sigue siendo el actor de registro. El valor aquí está en la velocidad de redacción, no en la delegación.

Evidencia para promover desde L1: una tasa de aprobación que puedas leer en las trazas. Si los revisores aceptan el borrador con ediciones ligeras la mayoría de las veces, el flujo de trabajo es candidato a L2. Si lo reescriben por completo, quédate en L1 y arregla primero la redacción. La promoción no es un evento de calendario.

L2 - Acción recomendada

El agente nombra la acción que tomaría y los parámetros que usaría, pero todavía no ejecuta. Una persona elige entre las recomendaciones. La diferencia con L1 es que el agente ahora razona sobre efectos en los sistemas, no solo produce texto.

Evidencia para promover desde L2: la calidad de la recomendación medida frente a lo que las personas realmente eligieron, más un conjunto de evaluación definido para el espacio de acciones. Quieres la tasa de coincidencia entre la acción recomendada y la elegida, desglosada por tipo de acción, porque el agregado puede ocultar una cola peligrosa.

L3 - Ejecutar con aprobación

El agente ejecuta la acción por sí mismo, pero solo después de que una persona apruebe esa instancia específica. Este es el primer peldaño donde el agente es el actor. La aprobación es por ejecución, en línea, con un registro de quién aprobó y qué vio.

Evidencia para promover desde L3:

Tasa de aprobación por encima de un umbral que fijes por flujo de trabajo, sostenida sobre un volumen significativo, no una semana de demostración.
Tasa de fallo de las acciones ejecutadas, incluidos los fallos silenciosos en los que la acción se ejecutó pero produjo el resultado equivocado.
Cobertura de reproducción: la proporción de ejecuciones realizadas que puedes reconstruir a partir de trazas, con entradas, llamadas a herramientas y salidas incluidas. Si no puedes reproducirla, no puedes defenderla.

L4 - Ejecutar bajo política

El agente ejecuta sin aprobación por ejecución, dentro de un envoltorio de política explícito: acciones permitidas, límites de valor, límites de tasa, alcances de datos y las condiciones que fuerzan una escalada. Las personas ya no ven cada ejecución. Ven las que la política marca y una muestra del resto.

Evidencia para promover desde L4:

Una política escrita que una persona no ingeniera pueda leer, con cada regla trazable hasta un control (RBAC, topes de valor, credenciales delimitadas por KMS, herramientas permitidas).
Calidad del resultado de negocio, no solo éxito de la tarea. ¿Redujeron los reembolsos el volumen de contactos sin inflar el fraude? Las tasas de aprobación a nivel de tarea mienten cuando el efecto de negocio es malo.
Un plan de reversión que se haya ejercitado, no solo escrito. Deberías haber revertido de verdad un lote de acciones del agente en un simulacro y haber medido cuánto tardó.

L5 - Autónomo, personas en las excepciones

El agente ejecuta el flujo de trabajo de principio a fin. Las personas solo intervienen en las excepciones que plantea la política, más las auditorías programadas. Este es el peldaño más alto, y la mayoría de los flujos de trabajo nunca lo alcanzan, ni deberían.

Evidencia para mantener L5: todo lo de L4, sostenido, más evaluaciones continuas que se ejecuten contra el tráfico real y alerten ante la deriva. L5 no es un destino al que llegas y olvidas. Es un estado que sigues ganando, porque los modelos cambian, los datos cambian, y la política que era segura el trimestre pasado puede no serlo ahora.

Las puertas de evidencia, hechas explícitas

“Promover con evidencia” solo es útil si la evidencia lleva números adjuntos. Los umbrales de abajo son puntos de partida, fijados por flujo de trabajo según su radio de impacto, pero la forma es lo que viaja. Un flujo de trabajo de redacción de bajo riesgo puede ir más holgado; un flujo de trabajo que mueve dinero va más ajustado.

Puerta	L1 a L2	L3 a L4	L4 a L5
Tasa de aprobación / coincidencia	borradores aceptados con ediciones ligeras la mayoría de las veces	>= 95% sobre un volumen significativo	>= 98%, sostenida
Tasa de fallo (incl. silenciosos)	n/a, sin ejecución	por debajo de la base humana para la tarea	por debajo de la base, con alertas de deriva
Cobertura de reproducción	parcial es aceptable	100% de las ejecuciones realizadas	100%, continua
Calidad del resultado	criterio del revisor	la métrica de negocio se mueve en la dirección correcta	la métrica de negocio se mantiene en el tiempo
Reversión	no requerida	probada en un simulacro, cronometrada	ejercitada bajo carga real

Una promoción trabajada para un flujo de trabajo de reembolsos de soporte hace concreta la tabla. En L3 el agente ha emitido reembolsos bajo aprobación por ejecución durante seis semanas a lo largo de 4.200 ejecuciones. La tasa de aprobación es del 98,1%, la tasa de fallo de la acción ejecutada está por debajo de la base de error del propio equipo humano, y cada ejecución se reproduce a partir de su traza. Operaciones realiza un simulacro de reversión: un lote de 50 reembolsos se revierte en once minutos. Eso supera la puerta de L3 a L4, así que el flujo de trabajo pasa a un L4 estrecho con un tope de valor de 200 EUR y escalada automática para cualquier cosa por encima o marcada como cercana al fraude. L5 no está sobre la mesa para este flujo de trabajo, porque un reembolso indebido toca dinero y la cola residual no es una que el equipo quiera ejecutar sin supervisión.

La promoción se lee en las trazas, no se promete en un plan

El fallo recurrente que auditamos es una hoja de ruta que dice “L5 para el tercer trimestre” sin instrumentación que respalde ningún peldaño por encima de L1. Las fechas son reales, el agente se despliega, y la primera vez que alguien mira una traza es durante la revisión del incidente.

Dale la vuelta. Instrumenta primero. Cada ejecución, en cada peldaño, debería emitir una traza que puedas reproducir: las entradas, las llamadas a herramientas, las salidas, el aprobador si lo hubo y la decisión de política si la hubo. La promoción se convierte entonces en aritmética sobre ese registro. No discutes sobre si el agente está listo. Lees la tasa de aprobación, la tasa de fallo, la cobertura de reproducción y la calidad del resultado, y los números superan el listón o no lo superan.

Regla práctica: si no puedes reproducir una ejecución a partir de su traza, ese flujo de trabajo no puede promoverse más allá de L3. Sin reproducción, no hay autonomía.

Esto también hace posible la degradación, lo cual importa más de lo que parece. Un flujo de trabajo en L4 que empiece a fallar debería caer a L3 de forma automática, igual que se dispara un interruptor automático. Una autonomía que solo puede subir no es gobernanza, es un trinquete apuntado a tu responsabilidad legal.

Una nota sobre qué estás instrumentando

Las trazas que justifican la promoción registran el comportamiento del agente, no el del empleado. Esa distinción es una restricción de diseño, no un detalle agradable. El principio es trazar a los agentes en profundidad y trazar a las personas con cuidado, y optimizar el flujo de trabajo en lugar de a la persona que lo ejecuta. Bajo el Reglamento de IA de la UE, el Anexo III sitúa la monitorización laboral en la categoría de alto riesgo, y el reglamento prohíbe el reconocimiento de emociones en el lugar de trabajo de forma rotunda, así que un trace lake que se convirtiera en silencio en un sistema de vigilancia de la productividad sería a la vez un problema de cumplimiento y un problema de confianza. Mantén la evidencia sobre el flujo de trabajo. Redacta los datos personales en la puerta de enlace antes de que lleguen a la traza. La escalera es una forma de gobernar máquinas, no de calificar a las personas.

No te saltes peldaños en los flujos de trabajo consecuentes

El tirón hacia L4 y L5 es más fuerte precisamente donde es más peligroso: flujos de trabajo de alto volumen y alto valor donde el ahorro de mano de obra parece enorme. Pagos, cambios de cuenta, cualquier cosa que toque datos regulados bajo el RGPD, cualquier cosa dentro del alcance de una entidad financiera bajo DORA, cualquier cosa que una clasificación de riesgo del Reglamento de IA de la UE marcaría.

Para esos, la regla es simple e impopular: no llegas a L4 hasta que la trazabilidad, las evaluaciones, las aprobaciones y una reversión probada existan todas y se hayan ejercitado bajo carga. No diseñado. Ejercitado. La reproducción tiene que funcionar sobre una ejecución fallida real, el conjunto de evaluación tiene que cubrir los casos de la cola, la cola de aprobación tiene que haber procesado volumen real, y alguien tiene que haber revertido de verdad un lote y haberlo cronometrado.

Una forma razonable para un flujo de trabajo consecuente se parece a esto:

Semanas en L1 y L2 mientras maduran el conjunto de evaluación y el almacén de trazas.
Un tramo medido en L3 donde las personas aprueban cada ejecución y acumulas tasas de aprobación y de fallo.
Un L4 estrecho y acotado con topes de valor ajustados y escalada agresiva, ampliado solo a medida que los números se mantienen.
L5 reservado para los segmentos en los que los datos se lo han ganado, con evaluaciones continuas como condición para permanecer ahí.

La escalera es más lenta que una hoja de ruta que promete autonomía para una fecha. También es la única versión de la historia que puedes defender en una auditoría, en una revisión de incidente o en el cuestionario de un regulador. Súbela peldaño a peldaño, por flujo de trabajo, con evidencia que puedas reproducir.