La IA agéntica en banca es hoy un problema de ingeniería disfrazado de problema de IA. El modelo es intercambiable; el plano de control no. El reto para 2026 no es la adopción —el Cambridge CCAF ya la sitúa en el 52 %—, sino si los sistemas autónomos que su banco está ejecutando hoy podrían superar una inspección SR 11-7 el próximo trimestre. La mayoría no podría.
Resumen ejecutivo / Puntos clave
- Dejen de llamarlos chatbots. La unidad en producción es un flujo de trabajo acotado con permisos estrictos de llamada a herramientas. El trabajo ocurre dentro del flujo, no dentro del LLM.
- OSWorld al 66,3 % es el techo de fiabilidad. El benchmark de Stanford HAI más próximo al uso real de herramientas corporativas aún falla una de cada tres tareas estructuradas. Es una cifra que justifica un despliegue intensivo con humano-en-el-bucle; no justifica la ejecución sin supervisión sobre nada que toque dinero de clientes.
- Clasifique por permisos, no por inteligencia. La escalera de autonomía va del Nivel 0 (extracción de cláusulas ISDA en solo lectura) al Nivel 4 (reparación de pagos multiherramienta con checkpoints obligatorios). El Nivel 5 —ejecución autoorquestada sin checkpoints— no debe existir en banca en producción en 2026.
- El plano de control del agente son cinco componentes de ingeniería, no un documento de política. Cuentas de servicio con scopes OAuth, enrutado semántico determinista, puertas de Open Policy Agent, registro de auditoría WORM y un interruptor de emergencia probado. Lo que falte es un hallazgo.
- SR 11-7 y PRA SS1/23 ya aplican. La Reserva Federal ha aclarado reiteradamente que cualquier sistema de decisión input-output entra en su ámbito. Los bancos que sostengan que un LLM no es un modelo han perdido el debate regulatorio antes de plantearlo.
Por qué 2026 es el año en que este índice importa #
El paso del chat a los flujos de trabajo acotados es lo único que importa este año en IA agéntica para bancos. Un chatbot que redacta un correo a un cliente es revisable. Un agente que invoca POST /accounts/{id}/freeze contra su plataforma de tarjetas en producción es evidencia auditable. La producción ha alcanzado el discurso: la encuesta 2026 del Cambridge CCAF informa un 52 % de adopción agéntica activa y un 23 % en madurez de escalado o transformación (Cambridge CCAF ⧉). El umbral del "piloto aislado" se cruzó en algún momento de finales de 2025.
Hay dos cambios que acompañaron a la adopción.
Primero, los reguladores dejaron de tratar a los LLM como una novedad. La Reserva Federal ha aclarado que SR 11-7 ⧉ aplica a los sistemas de decisión basados en LLM, con independencia de cómo se clasifique internamente al LLM. La SS1/23 ⧉ de la PRA siempre fue suficientemente amplia para abarcarlos. La clasificación de alto riesgo del Reglamento de IA de la UE cubre la mayoría de los usos de LLM en servicios financieros. Ya no queda margen para el argumento "no estamos seguros de si esto cuenta".
Segundo, la realidad de los benchmarks puso las cifras sobre la mesa. El AI Index 2026 de Stanford HAI sitúa OSWorld —el benchmark disponible más cercano al uso real de herramientas en entornos corporativos— en un 66,3 % de precisión (Stanford HAI ⧉). Una de cada tres tareas estructuradas sigue fallando. Esa cifra fija el techo técnico de la autonomía en 2026. Suficiente para justificar despliegues acotados de Nivel 3 bajo supervisión HITL; insuficiente para justificar la ejecución sin supervisión contra cualquier API que toque fondos de clientes.
Lo que el índice de IA agéntica debe hacer por la decisión basada en LLM es lo mismo que el marco de Basilea hizo por el capital: convertir las afirmaciones de "tenemos controles" en evidencia medible y auditable por flujo de trabajo.
La arquitectura del índice 2026 #
| Capa del índice | Cómo es "estar listo" | Métrica de madurez | Modo de fallo |
|---|---|---|---|
| Nivel de autonomía | Cada flujo en producción etiquetado de Nivel 0 a 4; ningún Nivel 5 en producción | % de flujos por nivel; cuota en Nivel 3+ | Un agente en producción emite un pacs.008 a un BIC de beneficiario alucinado porque ninguna lista estática de permitidos filtra el payload antes de SWIFTNet |
| Permisos de API | Cada agente mapea a una cuenta de servicio con scopes OAuth de mínimo privilegio (p. ej., card-freeze:write:lt-5000usd); MTLS al core legado |
% de agentes en mínimo privilegio; recuento de permisos huérfanos | El agente reutiliza una cuenta de servicio con scope excesivo; itera sobre cuentas que no debía leer; incidente del Artículo 33 RGPD notificado en 72 horas |
| Barreras de protección deterministas | Cada llamada a herramienta pasa por un enrutador semántico (NeMo Guardrails / LangChain Guardrails) más un validador de esquema JSON antes de la API | % de llamadas a herramienta interceptadas; tasa de rechazo por categoría | El LLM emite una llamada transfer con amount: 0; la API aguas abajo no valida; alerta de conciliación contable 18 horas después en otra zona horaria |
| Cobertura humano-en-el-bucle | Cada ejecución de Nivel 3 expone una interfaz de aprobación con timeout estricto; auto-aprobación deshabilitada por política | Productividad de aprobaciones; tasa de aprobación por inercia (aprobado en menos de 2 segundos) | El operador pulsa "aprobar" en 200 alertas en 4 minutos; SAR presentada contra un cliente legítimo; queja regulatoria en la misma semana |
| Completitud de auditoría | Registro WORM inmutable captura system prompt + contexto recuperado + salida del LLM + llamada a herramienta + resultado + UID del aprobador; firmado criptográficamente en escritura | % de invocaciones con traza completa | Un inspector de SR 11-7 pregunta por qué el agente #4421 aprobó una transferencia de 4,8 M USD; el banco tiene el justificante y la ficha de modelo; ninguna evidencia a nivel de prompt; hallazgo emitido |
| Economía unitaria | Coste por decisión completada, incluyendo coste de reversión y reparación; positivo frente a la línea base manual | Coste neto por decisión; tasa de reversión | El gasto por token en agentes de caso límite supera el coste del investigador manual al que reemplazan; el CFO cancela el programa en Q3 |
Señales actuales a vigilar #
| Señal | Qué significa para los bancos | Fuente |
|---|---|---|
| 52 % de adopción activa | La IA agéntica ha superado la fase piloto; el gobierno a escala institucional va con retraso | Cambridge CCAF ⧉ |
| 23 % en escalado o transformación | Una minoría significativa ha dejado atrás el teatro de la prueba de concepto | Cambridge CCAF ⧉ |
| OSWorld al 66,3 % | Una de cada tres tareas falla en el uso estructurado de herramientas. La ejecución sin supervisión contra APIs de fondos de clientes es indefendible a este nivel de fiabilidad | Stanford HAI ⧉ |
| 55 % cita la pérdida de supervisión humana como riesgo principal | El diseño de controles es la preocupación primaria de ingeniería, no un asunto de cumplimiento aguas abajo | Cambridge CCAF ⧉ |
| 76 % de grandes entidades tienen dificultades para medir valor | Las afirmaciones genéricas de productividad no sobreviven a una conversación con el CFO. Mida por flujo, no por programa | Cambridge CCAF ⧉ |
La escalera de autonomía #
Clasifique a los agentes por lo que tienen permitido hacer, no por lo brillante que sea el modelo subyacente. La misma instancia de GPT-5 / Claude 4 / Gemini 3 puede ocupar cualquier nivel; lo que cambia es el envoltorio.
- Nivel 0 — Observar. Acceso de solo lectura a logs, trazas o transacciones. El agente saca a la luz patrones o anomalías; ninguna escritura en ningún sitio. Ejemplo: detectar deriva en las tasas de rechazo de
pacs.008por corredor y alertar al equipo de operaciones. - Nivel 1 — Recuperación en solo lectura. Lee de los sistemas operativos; emite salida estructurada para consumo humano. Ejemplo: extraer variaciones de cláusulas CSA del ISDA Master Agreement de una contraparte y señalar las desviaciones respecto a la plantilla estándar del banco. El agente nunca escribe en el repositorio de contratos.
- Nivel 2 — Borrador para presentación humana. Genera contenido que un humano revisa y presenta. Ejemplo: redactar una Suspicious Activity Report a partir de una alerta del sistema antifraude más el expediente KYC más la traza de transacciones; el BSA officer la lee, edita si procede y la presenta. El sistema de registro solo ve la versión aprobada por el humano.
- Nivel 3 — Ejecución acotada. Invoca una API en producción con límites deterministas estrictos aplicados por el envoltorio. Ejemplo: llamada a la API de bloqueo de tarjeta con
max-amount-at-risk: 5000 USDaplicada por una política de lista de permitidos; el agente no puede bloquear una tarjeta vinculada a saldos por encima de ese umbral sin un escalado de Nivel 2. El límite vive en la política como código, no en el prompt: los prompts no son una frontera de seguridad. - Nivel 4 — Orquestación multiherramienta con checkpoints obligatorios. Ejecuta una secuencia entre sistemas; cada transición de estado se registra; los checkpoints requieren aprobación humana antes de la siguiente llamada a herramienta. Ejemplo: flujo de reparación de pago — extraer el
pacs.008fallido de la cola de mensajes muertos → consultar el beneficiario correcto vía SWIFT KYC Registry → generar el mensaje corregido → escribir en la cola de salida → el humano aprueba el reenvío. Si algún paso falla la validación de esquema, el flujo se detiene y crea un caso de excepción. - Nivel 5 — Autoorquestación. El agente planifica y ejecuta sin aprobación en checkpoint. Ningún flujo de banca en producción debería estar en Nivel 5 en 2026. No es un juicio de madurez; es un juicio de fiabilidad. OSWorld al 66,3 % se compone a lo largo de cadenas de llamadas a API. Tres llamadas a herramienta al 66 % cada una son un 29 % de éxito de extremo a extremo. Cinco son un 13 %. No lo haga.
El plano de control del agente #
El plano de control es la capa de ingeniería entre el LLM y sus sistemas de producción. Cinco componentes, todos en tiempo de ejecución, ninguno escrito en un documento de política.
1. Identidad y permisos #
Cada agente mapea a exactamente una cuenta de servicio. Esa cuenta sostiene tokens OAuth client_credentials con scope acotado a la mínima superficie de API necesaria. El token del agente de bloqueo de tarjetas puede invocar POST /accounts/{id}/freeze con amount-at-risk: 0..5000 usd. No puede invocar GET /accounts/{id}/balance para otros clientes. No puede invocar nada en custodia, tesorería o trading. Los secretos de las cuentas de servicio rotan semanalmente; las credenciales de larga vida son el fallo más común del plano de control en despliegues en producción.
2. Barreras de protección deterministas en las llamadas a herramienta #
Cada llamada a herramienta del LLM atraviesa un enrutador semántico determinista (NeMo Guardrails, LangChain Guardrails o equivalente) antes de que la llamada alcance la API en producción. El enrutador clasifica la intención contra una lista finita de permitidos; las llamadas fuera de lista se rechazan y se registran. A continuación, un validador de esquema JSON revisa el payload: campos obligatorios presentes, importes dentro de los límites, códigos de país ISO válidos, BIC de beneficiario en la lista de contrapartes preaprobadas del banco. El validador debe ser paranoico: un pacs.008 con amount: 0 es un fallo de modelo, no una transacción legítima. Lo mismo aplica a una transferencia hacia un país que su filtro de sanciones no haya preaprobado para el segmento de cliente originante.
3. Política como código #
Open Policy Agent (o equivalente) se sitúa entre el validador y la API. Las políticas se versionan en Git; las decisiones de rechazo se registran; el mismo motor de políticas que controla las llamadas microservicio a microservicio en su plataforma actual controla las llamadas a herramientas de los agentes. Tratar a los agentes como una clase especial con control ad hoc es la forma en que los bancos acaban con planos de control en la sombra que nadie en el equipo de plataforma entiende seis meses después.
4. Registro de auditoría #
Almacenamiento WORM inmutable: S3 Object Lock, inmutabilidad de Azure Blob o una base de datos con libro mayor. Cada invocación captura: marca de tiempo, ID del agente, ID de la cuenta de servicio, hash del system prompt, contexto recuperado, proveedor del LLM más modelo más versión, salida bruta del LLM, llamada a herramienta parseada, decisión de OPA, respuesta de la API, efecto aguas abajo y UID del aprobador cuando proceda. Los registros se firman criptográficamente en el momento de la escritura. Este registro es lo que pedirán los inspectores de SR 11-7 y SS1/23. Si no puede producir una traza completa de cualquier decisión dada, no tiene un agente con gestión de riesgo de modelo.
5. Interruptor de emergencia #
Una API de botón rojo que cancela todas las invocaciones de agente en curso dentro de una clase de permiso en menos de 60 segundos. Probado trimestralmente con un ejercicio de tabletop. El interruptor de emergencia es lo único que le recupera de una nueva versión del modelo del proveedor que regresione silenciosamente, de un vector de prompt injection que no anticipó o de un evento de deriva que empuja la tasa de falsos positivos más allá de su umbral operativo. Los interruptores de emergencia no probados no funcionan; presupueste el tiempo del ejercicio.
Gestión del riesgo de modelo #
Los bancos que argumentan "un LLM no es un modelo bajo SR 11-7" ya han perdido. La Reserva Federal ha aclarado reiteradamente que cualquier sistema input-output usado en un flujo de decisión está en su ámbito. La SS1/23 de la PRA es aún más amplia. La postura correcta: tratar a cada agente en producción como un modelo SR 11-7 / SS1/23 desde el primer día. El coste de encuadrar retroactivamente un agente desplegado como modelo es múltiplos del coste de diseñarlo así desde el inicio.
Tres líneas de defensa, aplicadas a agentes:
- Primera línea (model owner). Documenta el uso previsto del agente, la trazabilidad de los datos de entrenamiento y evaluación, el esquema del system prompt, la lista de permitidos de llamadas a herramienta y los resultados de las pruebas del interruptor de emergencia. Es responsable del monitoreo de deriva en producción.
- Segunda línea (equipo de MRM). Valida al agente antes de producción. El informe de validación cubre las puntuaciones de evaluación publicadas por el proveedor (MMLU, HumanEval, HellaSwag son útiles pero insuficientes), las puntuaciones específicas del banco (su propio set de evaluación reservado, construido a partir de ejemplos operativos —es el trabajo en el que la mayoría de los bancos infrainvierten—), los resultados del red team de prompt injection, el análisis de sesgo y equidad cuando el flujo tenga impacto en cliente y un enunciado cuantificado del riesgo residual.
- Tercera línea (auditoría interna). Prueba las puertas del plano de control y la completitud del registro de auditoría contra una muestra de decisiones de producción. El ciclo de auditoría 2027 tendrá poco que ver con el de 2025; presupueste ahora.
El monitoreo continuo importa más que la validación puntual. Los suites de evaluación específicos del banco re-ejecutados semanalmente capturan regresiones por actualización de modelo que los benchmarks del proveedor no expondrán. La cadencia de release de OpenAI, Anthropic y Google es más rápida que su cadencia de validación; o cierra el hueco usted con evaluaciones continuas, o lo cierra un inspector con un hallazgo a su nombre.
Medir el impacto de negocio #
Las afirmaciones genéricas de productividad no sobreviven a una conversación con el CFO. Mida a los agentes como mide cualquier otro cambio operativo:
- Coste por decisión completada, incluyendo el coste de reversión y reparación de las decisiones fallidas. Un agente de redacción de SAR que recorta el tiempo del BSA officer en un 40 % pero genera un 12 % de presentaciones falsas positivas ha destruido valor, no creado.
- Toques manuales evitados, contados neto de los nuevos toques generados por la supervisión del plano de control y la gestión de excepciones. El objetivo no es minimizar la atención humana; es redirigirla a decisiones de mayor palanca.
- Tasa de reversión: porcentaje de acciones ejecutadas por el agente que se revierten en 24 horas. Una tasa de reversión por encima del 2 % en un flujo de Nivel 3 es un problema de fiabilidad. Por encima del 5 % es un problema de plano de control.
- Completitud de la traza de auditoría: porcentaje de decisiones con procedencia completa reconstruible desde el registro WORM. Debería ser el 100 % en flujos de Nivel 3 y Nivel 4. Cualquier cifra inferior es un fallo de política que aflorará en auditoría.
Si un flujo se vuelve más rápido pero menos explicable, el índice debe penalizarlo. La forma más barata de suspender una inspección regulatoria es optimizar por throughput y perder la traza.
Lectura por tipo de banco #
Bancos de importancia sistémica mundial #
El problema duro es el gobierno a escala: cientos de agentes a lo largo de las líneas de negocio, cada uno con su propio model owner, cada uno un hallazgo de auditoría potencial. La inversión no es otro piloto. Es el plano de control central, la infraestructura unificada de registro de auditoría y un banco de MRM capaz de validar más de 50 agentes por trimestre. Sin esa capacidad, los agentes aterrizan más rápido de lo que pueden ser gobernados y la entidad acumula exposición SR 11-7 en silencio.
Banca transaccional y corporativa #
Los flujos de mayor ROI son la reparación de pagos, la extracción de documentos KYC, el desvío de FAQ de servicios de tesorería y las roturas de conciliación. Todo Nivel 2 o Nivel 3 acotado. Al cliente corporativo no le importa que el trabajo lo haya hecho un agente; le importa que el SLA mejore y que la tasa de disputa se mantenga plana. Lidere con las métricas, no con la tecnología.
Banca regional #
Comprar, no construir. Elija un proveedor cuya plataforma de agentes ya tenga las primitivas del plano de control —scopes OAuth, integración con OPA, registro de auditoría WORM, interruptor de emergencia probado— y valide esa plataforma contra su marco de MRM. Construir un plano de control a medida es una inversión de varios años que no diferencia a escala regional. Dedique la capacidad de ingeniería al diseño de flujos y a la UX del operador.
Fintechs, PSP y proveedores de infraestructura #
La pregunta de producto para los proveedores no es "¿su agente de IA rinde mejor que los humanos?". Es "¿su plataforma produce una traza de auditoría conforme con SR 11-7 desde el primer día?". Los proveedores capaces de responder que sí cerrarán acuerdos enterprise. Los que no, se quedarán atrapados en bucles de prueba de concepto mientras el equipo de MRM del banco encuentra razones para suspender la validación.
Conclusión #
La IA agéntica en bancos en 2026 es un problema de ingeniería. El trabajo interesante está en el plano de control, no en el modelo. El modelo es intercambiable; los scopes OAuth, el enrutador semántico determinista, las puertas de política OPA, el registro de auditoría inmutable y el interruptor de emergencia no lo son.
Las entidades que aparecerán creíbles ante los reguladores dentro de 18 meses son las que traten a cada agente en producción como un modelo SR 11-7 / SS1/23 desde el primer día, con suites de evaluación específicos del banco corriendo de forma continua y un plano de control diseñado para fallar de forma segura. Las que no, descubrirán si su banco de MRM puede escalar hasta gestionar más de 50 hallazgos de remediación por trimestre.
Mida a los agentes como mide cualquier cambio operativo: coste, fiabilidad, reversibilidad, evidencia. OSWorld al 66,3 % es su techo de fiabilidad. Planifique en consecuencia.
Preguntas frecuentes #
¿Qué es la IA agéntica en banca?
Un flujo de trabajo acotado que combina un LLM con llamadas a herramientas hacia los sistemas de producción, barreras de protección en tiempo de ejecución y checkpoints humano-en-el-bucle. El trabajo ocurre dentro del flujo, no dentro del modelo. Si ha oído la palabra "chatbot", está en la categoría equivocada.
¿Por dónde deberían empezar los bancos?
Por flujos de Nivel 1 y Nivel 2 donde el valor sea medible y el riesgo a la baja sea contenible: extracción de cláusulas ISDA, redacción de SAR, triaje de reparación de pagos, recuperación de conocimiento interno, asistencia a la revisión de código, clasificación de documentos KYC. Aplace el Nivel 3 hasta que su plano de control gestione scopes OAuth, enrutado semántico, puertas OPA, registro WORM y un interruptor de emergencia probado.
¿Cuál es el mayor riesgo?
Dejar que los agentes ejecuten contra APIs en producción sin barreras de protección deterministas entre la salida del LLM y la API. El 66,3 % de OSWorld es la advertencia. Llamadas a herramientas sin envolver, a esa tasa de fallo, contra un SWIFT MT103 o una API de fondos de clientes redactan el titular del peor caso del próximo ciclo regulatorio.
¿Aplica SR 11-7 a los agentes basados en LLM?
Sí. La Reserva Federal ha aclarado que cualquier sistema input-output usado en flujos de decisión cae bajo SR 11-7. La SS1/23 de la PRA cubre el mismo terreno en el Reino Unido. La clasificación de alto riesgo del Reglamento de IA de la UE cubre la mayoría de los casos de uso en servicios financieros. El debate de "si esto es un modelo" terminó; actúe en consecuencia.
¿Cómo debe reportarse la IA agéntica al consejo?
Cuatro cifras por flujo: nivel de autonomía, completitud de la traza de auditoría, tasa de reversión y coste neto por decisión. Más una lista de los cinco riesgos residuales principales. Sin diapositivas de marketing sobre fichas de modelo.
Referencias #
- Stanford HAI, (2026). The 2026 AI Index Report ⧉.
- Stanford HAI, (2026). Capítulo Technical Performance ⧉.
- Cambridge Centre for Alternative Finance, (2026). Informe 2026 Global AI in Financial Services ⧉.
- Reserva Federal, (2011). SR 11-7: Guidance on Model Risk Management ⧉.
- Prudential Regulation Authority, (2023). Supervisory Statement SS1/23: Principios de gestión del riesgo de modelo para bancos ⧉.
- Comisión Europea, (2024). Reglamento (UE) 2024/1689 — Reglamento de IA ⧉.
- NVIDIA, (2024). Framework NeMo Guardrails ⧉.
- Cloud Native Computing Foundation, (2018). Open Policy Agent (OPA) ⧉.
Última revisión .
Última revisión .
