El Índice de IA Agéntica para la banca en 2026: medir la autonomía

TL;DR. Índice de seis dimensiones que mide la preparación en IA agéntica de los bancos: autonomía, gobernanza, evidencia regulatoria, economía y alineamiento global.

Points clés

Por qué existe este índice. El Evident AI Index clasifica 50 bancos globales en Talento, Innovación, Liderazgo y Transparencia usando millones de puntos de datos públicos.
El panorama de madurez de la IA agéntica en 2026. El informe de Cambridge CCAF de 2026 — el mayor estudio global de IA en servicios financieros, que abarca 628 organizaciones en 151 jurisdicciones en colaboración con el BIS, el FMI, el WEF y el Banco Mundial —…
La arquitectura del índice de seis dimensiones. Este índice puntúa la preparación de la IA agéntica en seis dimensiones.
La puntuación compuesta del índice. Las seis puntuaciones dimensionales se combinan en un índice compuesto usando la siguiente ponderación por materialidad regulatoria:.

La IA agéntica en la banca ha pasado del experimento a la infraestructura operativa. La pregunta en 2026 ya no es si desplegarla — el 52 % de las entidades financieras ya lo ha hecho — sino si el sector puede medir lo que ha construido con el mismo rigor que aplica al capital, el crédito y la liquidez. Este índice es ese marco de medición (Cambridge CCAF, 2026).

Resumen ejecutivo / Conclusiones clave

La autonomía es la nueva adecuación de capital. Igual que Basilea fijó estándares medibles para la resiliencia financiera, el sector necesita ahora un estándar medible para la toma de decisiones autónoma. Este índice es el primer marco multidimensional que puntúa la preparación de la IA agéntica en gobernanza, arquitectura técnica, evidencia regulatoria, retorno económico y madurez organizativa como un único modelo operativo.

El 52 % de adopción enmascara una tasa de transformación del 14 %. La encuesta de Cambridge CCAF de 2026 a 628 organizaciones en 151 jurisdicciones constata que, aunque cuatro de cada cinco entidades financieras despliegan IA, solo el 14 % la describe como transformadora de su posición competitiva. La brecha es de gobernanza, no de tecnología.

OSWorld con un 66,3 % es el techo de fiabilidad, no el suelo. El benchmark de Stanford HAI de 2026 muestra que los agentes de IA completan el 66,3 % de las tareas empresariales estructuradas (Stanford HAI, 2026). Tres llamadas a herramientas encadenadas a esa tasa se componen en un éxito de extremo a extremo del 29 %. La ejecución sin supervisión contra sistemas de pago en producción no es defendible a este nivel de fiabilidad.

El FSB se ha pronunciado. El 10 de junio de 2026, el Consejo de Estabilidad Financiera (FSB, Financial Stability Board) publicó su primer marco operativo para gobernar la IA agéntica en servicios financieros (FSB, 2026) — 12 buenas prácticas sobre rendición de cuentas del consejo, gestión del ciclo de vida y arquitecturas de IA-supervisando-IA. Los comentarios cierran el 22 de julio de 2026.

El reloj de aplicación del EU AI Act corre. Las obligaciones para los sistemas de IA de alto riesgo bajo el Anexo III entran en vigor el 2 de agosto de 2026 (Guía del EU AI Act, 2026). Las entidades financieras que operan IA agéntica en la UE sin identidad por agente en el registro de auditoría, procedimientos de revocación documentados y evidencia a nivel de consejo están en mora.

JP Morgan ha fijado un año. Derek Waldron, director de analítica, confirmó a la CNBC el 9 de junio de 2026 que el banco desplegará agentes autónomos de larga ejecución (CNBC, 2026) — capaces de operar de forma independiente entre una y dos horas — dentro de 2026. Esa revelación cambia el marco competitivo para toda entidad que se compare con él.

El índice puntúa seis dimensiones. Nivel de Autonomía, Arquitectura de Gobernanza, Evidencia Regulatoria, Rendición de Cuentas Económica, Preparación Organizativa y Alineamiento Regulatorio Global. En conjunto convierten un programa de IA de una cartera de iniciativas en una capacidad medible.

Por qué existe este índice

El Evident AI Index clasifica 50 bancos globales en Talento, Innovación, Liderazgo y Transparencia usando millones de puntos de datos públicos. Es el benchmark externo más fiable de madurez en IA en los servicios financieros. Lo que no hace — por diseño — es puntuar la arquitectura específica de ingeniería y gobernanza que hace que la IA agéntica sea segura de desplegar contra API bancarias en producción. El Stanford AI Index sigue la producción investigadora, el rendimiento técnico y el impacto social. Lo que no hace es traducir los porcentajes de finalización de tareas de OSWorld en un conjunto operativo de instrucciones para un tesorero, un director de riesgos o un equipo de validación de modelos.

Este índice llena ese vacío. Toma la disciplina de medibilidad del marco de Stanford, el contexto competitivo del Evident Index y la especificidad regulatoria de SR 11-7, SS1/23, el EU AI Act, las buenas prácticas del FSB y el Marco Modelo de Gobernanza de IA para IA Agéntica de la IMDA de Singapur — y los convierte en un modelo de puntuación de seis dimensiones sobre el que un consejo puede actuar.

El detonante práctico es que la IA agéntica ha pasado de ser una conversación de planificación a una cuestión de auditoría. Cuando el director de analítica de JP Morgan anuncia el despliegue en el mismo año de agentes autónomos de larga ejecución, cuando DBS integra planos de control de agentes en la preparación de memorandos de crédito y la atención al cliente, cuando el FSB indica que los agentes que ejecutan transacciones financieras requieren "aprobación humana o doble autorización por encima de un valor umbral, acceso restringido de los agentes a los sistemas de pago y trazas de auditoría de cada transacción del agente" — la entidad que no pueda puntuar su propia postura encontrará que es un regulador quien la puntúa.

El panorama de madurez de la IA agéntica en 2026

Lo que muestran los datos

El informe de Cambridge CCAF de 2026 — el mayor estudio global de IA en servicios financieros, que abarca 628 organizaciones en 151 jurisdicciones en colaboración con el BIS, el FMI, el WEF y el Banco Mundial — proporciona la base estadística de este índice.

Señal	Hallazgo	Fuente
Adopción activa de IA	El 81 % de las firmas financieras despliega IA en algún nivel	Cambridge CCAF
Adopción de IA agéntica	El 52 % ya pilota o despliega sistemas agénticos capaces de acción autónoma sostenida en múltiples pasos	Cambridge CCAF
Tasa de transformación	Solo el 14 % describe la IA como redefinidora de su ventaja competitiva	Cambridge CCAF
Dificultad de medición	El 55 % del sector y el 63 % de los reguladores tienen dificultades para medir el valor del despliegue de IA; el 76 % de las grandes entidades financieras en concreto	Cambridge CCAF
Rentabilidad	Solo el 40 % reporta mayor rentabilidad por la IA; el 43 % no reporta cambios	Cambridge CCAF
Pérdida de supervisión humana	El 51 % cita la pérdida de supervisión humana como un riesgo principal	Cambridge CCAF
Casos de uso agénticos	El 31 % de los nuevos casos de uso de IA bancaria del primer trimestre de 2026 fueron aplicaciones agénticas — la cifra más alta registrada, frente al 15 % del cuarto trimestre de 2025	Evident Insights
Brecha de gobernanza	El 77 % de 2.000 líderes tecnológicos afirma que la adopción de IA supera las capacidades de gobernanza; un promedio de 54 incidentes con agentes de IA por empresa en 2025	IBM
Proliferación de agentes	Las empresas esperan desplegar un promedio de 1.661 agentes de IA para 2027; solo el 11 % se considera plenamente preparado	IBM
Riesgo para las reservas de beneficio de McKinsey	La IA agéntica podría reducir los costes operativos bancarios un 20 %, pero amenaza con erosionar hasta 170.000 millones de dólares en reservas de beneficio globales para 2030 si los modelos de negocio no se adaptan	McKinsey

Estas cifras definen el problema con precisión: la adopción va por delante de la gobernanza, las ganancias de productividad son visibles, la transformación es rara y la brecha de medición es mayor donde el riesgo regulatorio es más alto: las grandes entidades financieras.

Dónde están trazando las líneas los competidores

El Evident AI Index 2025 situó a JP Morgan Chase en primer lugar (puntuación: 79), seguido de Capital One (78,1), RBC (58,4), CommBank Australia (53,9) y Morgan Stanley (52,2). El índice mide cuatro pilares de capacidad — Talento, Innovación, Liderazgo, Transparencia — no la arquitectura operativa de los agentes. Eso crea una brecha estructural: un banco puede puntuar alto en divulgación de innovación mientras despliega agentes sin interruptor de emergencia, sin registro de auditoría WORM y sin barrera de política OPA. Este índice está diseñado para hacer visible esa brecha.

El informe Tech Trends 2026 de Deloitte señala que solo el 11 % de las organizaciones tiene IA agéntica en producción. McKinsey constata que solo alrededor de un tercio de las organizaciones alcanza un nivel de madurez de gobernanza de tres o superior en los controles de IA agéntica, incluso cuando las capacidades técnicas avanzan rápidamente. Los datos de la encuesta de CCG Catalyst muestran que el 93 % del gasto relacionado con la IA va a infraestructura tecnológica y solo el 7 % a personas, talento, formación, gestión del cambio y gobernanza — una proporción que hace estructuralmente imposible escalar.

El Evident Venture Tracker del primer trimestre de 2026 identifica a Anthropic como el proveedor más referenciado, con una larga cola de actores especializados que representa el 68 % de todos los despliegues, dirigidos en gran medida a casos de uso específicos de flujos de trabajo en crédito, prevención del blanqueo de capitales y tesorería. El lado de la oferta está maduro. El de la gobernanza no.

La arquitectura del índice de seis dimensiones

Este índice puntúa la preparación de la IA agéntica en seis dimensiones. Cada dimensión tiene una escala de madurez de cuatro niveles. La puntuación del índice de un banco es el producto de sus puntuaciones dimensionales ponderadas por su materialidad regulatoria. El marco de ponderación se calibra con SR 11-7, SS1/23, las obligaciones del Anexo III del EU AI Act y las categorías de Buenas Prácticas del FSB.

Dimensión 1: cobertura del nivel de autonomía

Qué mide: si cada flujo de trabajo agéntico en producción está clasificado en una escala de autonomía definida, sin que ningún flujo opere por encima de su nivel permitido sin excepción documentada — y si esa asignación de nivel define no solo los límites de la tarea sino los límites de responsabilidad legal.

La escala de autonomía sigue siendo el constructo fundamental. Los cinco niveles — desde el Nivel 0 (observar y solo lectura) hasta el Nivel 4 (orquestación de múltiples herramientas con puntos de control obligatorios) — definen el límite de permisos del agente, no la sofisticación del modelo. El mismo LLM subyacente puede situarse en cualquier nivel; lo que difiere es el envoltorio. El Nivel 5 — ejecución autoorquestada sin puntos de control — no debería existir en la banca en producción en 2026. OSWorld con un 66,3 % de finalización de tareas se compone: tres llamadas encadenadas al 66 % cada una producen una tasa de éxito de extremo a extremo del 29 %. Cinco eslabones producen un 13 %.

El Marco Modelo de Gobernanza de IA para IA Agéntica de la IMDA de Singapur, publicado en Davos el 22 de enero de 2026 como el primer marco de gobernanza del mundo que aborda explícitamente los agentes autónomos (IMDA, 2026), define cuatro conceptos equivalentes: jerarquía del principal (quién puede instruir al agente), límite de la tarea (qué está autorizado a hacer el agente), huella mínima (el agente no debe acumular permisos más allá de la necesidad inmediata) y explicabilidad (los caminos de razonamiento deben ser trazables). Estos cuatro se corresponden directamente con el modelo de niveles de autonomía.

El problema del principal-agente y la atribución legal de la intención. El marco de la IMDA introduce una dimensión que las especificaciones puramente de ingeniería subestiman: cuando un agente de IA actúa como apoderado de una entidad corporativa — ejecutando un pago, aprobando un ajuste de límite de crédito, presentando una declaración regulatoria — crea un problema legal de atribución de la intención. ¿Bajo la autoridad de quién actuó el agente? ¿Quién asume la responsabilidad cuando el agente se desvía de las restricciones de su prompt? ¿A quién se atribuye la intención cuando el agente elige entre dos interpretaciones válidas pero distintas de una instrucción ambigua?

Para los flujos de Nivel 3 y Nivel 4 — donde el agente ejecuta acciones de consecuencia de forma autónoma dentro de parámetros definidos — la definición del nivel debe especificar no solo el límite técnico de la tarea sino el límite de responsabilidad legal: un principal humano nombrado que autorizó el flujo, un instrumento de delegación documentado (acuerdo del consejo, delegación de autoridad o mandato firmado), las condiciones bajo las cuales las acciones del agente vinculan a la entidad y las condiciones bajo las cuales una desviación de las restricciones del prompt desencadena reversión automática, escalado y registro del incidente. Sin esto, la clasificación del nivel de autonomía es un artefacto de ingeniería que no sobrevivirá a una impugnación legal, una inspección regulatoria o una disputa con una contraparte cuyos fondos se movieron porque un agente malinterpretó una instrucción condicional.

Nivel de madurez	Cómo se ve	Puntuación del índice
Nivel 1 — Sin clasificar	Sin taxonomía formal; los agentes se describen informalmente como "asistentes" o "copilotos"; sin documentación de niveles	0–24
Nivel 2 — Clasificado, sin validar	Etiquetas de nivel aplicadas; sin validación formal de que el envoltorio impone el nivel declarado; pueden existir flujos de Nivel 5 sin detección	25–49
Nivel 3 — Clasificado y controlado	Todos los flujos en producción etiquetados de Nivel 0 a 4; Nivel 5 prohibido contractualmente; artefactos trimestrales de auditoría de niveles disponibles para revisión de la MRM	50–74
Nivel 4 — Clasificado, controlado y listo para evidencia	Registro completo de niveles; supervisión continua de deriva; cualquier reclasificación de nivel desencadena una nueva validación de la MRM; el auditor puede reconstruir la asignación de nivel de cualquier flujo bajo demanda	75–100

Dimensión 2: arquitectura de gobernanza

Qué mide: si el plano de control del agente de cinco componentes está plenamente diseñado y operativo en producción — no descrito en un documento de política.

La consulta del FSB de junio de 2026 afirma explícitamente que los marcos de gobernanza existentes no se diseñaron para sistemas que "planifican, ejecutan acciones de múltiples pasos e interactúan con sistemas externos sin supervisión humana paso a paso". El plano de control de cinco componentes traduce esa observación en una lista de verificación de ingeniería:

Componente 1: identidad y permisos. Cada agente se corresponde con exactamente una cuenta de servicio con tokens OAuth client_credentials con alcance limitado a la mínima superficie de API. El token del agente de congelación de tarjetas puede llamar a POST /accounts/{id}/freeze con un techo de importe; no puede llamar a nada en custodia, tesorería o trading. Los secretos de las cuentas de servicio rotan en un ciclo definido. Las credenciales de larga duración son el fallo de plano de control más común en despliegues en producción. El FSB recomienda explícitamente "el privilegio mínimo para los agentes y sus subagentes, y una gestión dinámica de identidad y acceso que conceda, cambie o revoque permisos en tiempo real según el comportamiento y el contexto, en lugar de los perfiles estáticos usados para los usuarios humanos".

Componente 2: barreras de protección deterministas. Cada llamada a herramienta del LLM pasa por un enrutador semántico (NeMo Guardrails, LangChain Guardrails o equivalente) antes de llegar a la API de producción. El enrutador clasifica la intención frente a una lista de permitidos finita y rechaza las llamadas fuera de esa lista. Un validador de esquema JSON comprueba después la carga útil. Un pacs.008 con amount: 0 es un fallo del modelo, no una transacción legítima. También lo es una transferencia a un país no preaprobado para el segmento de cliente originador.

Componente 3: política como código. Open Policy Agent (o equivalente) se sitúa entre el validador y la API. Las políticas se versionan en Git; las decisiones de rechazo se registran; el mismo motor de políticas que controla las llamadas de microservicio a microservicio en la plataforma existente controla las llamadas a herramientas del agente. La guía de mayo de 2026 de la Oficina de IA de la UE sobre el registro de auditoría del Artículo 12 exige que las entradas de registro de los sistemas de IA de alto riesgo atribuyan las acciones a una instancia de agente específica, no solo a un despliegue o una credencial de API. Los despliegues multiagente que comparten una credencial no superan esta prueba.

Componente 4: completitud de la auditoría. Almacenamiento WORM inmutable — S3 Object Lock, inmutabilidad de Azure Blob o una base de datos con libro mayor. Cada invocación captura: marca de tiempo, ID del agente, ID de la cuenta de servicio, hash del prompt del sistema, contexto recuperado, proveedor del LLM más modelo más versión, salida bruta del LLM, llamada a herramienta interpretada, decisión de OPA, respuesta de la API, efecto posterior y UID del aprobador cuando proceda. Los registros se firman criptográficamente en el momento de la escritura. La aclaración del Artículo 12 del EU AI Act publicada en mayo de 2026 señala la identidad por agente como una brecha específica; las entidades que ejecutan múltiples instancias de agente compartiendo una credencial están explícitamente fuera de cumplimiento.

Componente 5: interruptor de emergencia e IA-supervisando-IA. Una API de botón rojo probada que cancela todas las invocaciones de agentes en curso dentro de una clase de permiso en menos de 60 segundos. La palabra probada es determinante. Un interruptor de emergencia sin probar es una aspiración de política.

Más allá del interruptor de emergencia, la Dimensión 2 en el nivel de madurez más alto debe exigir una arquitectura de IA-supervisando-IA (AMI) — y la razón es aritmética. Los datos de IBM sitúan la población media de agentes empresariales en 1.661 para 2027 (IBM, 2026). El FSB acepta explícitamente que la supervisión humana continua de las decisiones individuales de los agentes se vuelve físicamente imposible a escala, y recomienda complementar la supervisión humana con sistemas de IA que alerten a las personas cuando se incumplan las métricas de rendimiento o el comportamiento del agente derive. Un responsable de cumplimiento humano no puede supervisar 1.661 agentes concurrentes ejecutando decisiones a velocidad de máquina. El modelo de control que supone que puede fallará la primera vez que una población de agentes sufra un cambio de comportamiento correlacionado — una actualización de modelo que cambie silenciosamente las distribuciones de salida en decenas de flujos de trabajo simultáneamente.

La capa de AMI no sustituye a la supervisión humana; es el mecanismo de detección que hace que la supervisión humana sea accionable a escala. Sus tres funciones obligatorias son: detección de deriva (supervisión estadística de la distribución de salida entre agentes del mismo nivel y tipo, señalando desviaciones más allá de un umbral sigma definido antes de que una persona pudiera notarlas); alerta de correlación entre agentes (identificación de cuándo varios agentes empiezan a ejecutar en un patrón direccionalmente consistente que no estaba presente ayer — la señal temprana de la dinámica de manada descrita en la Dimensión 6); y preescalado de anomalías (generación de una alerta estructurada, con contexto y evaluación de reversibilidad, a un responsable humano antes de que el interruptor de emergencia sea la única opción restante). El FSB recomienda explícitamente arquitecturas de AMI en la Buena Práctica 9. Una entidad que alcanza el Nivel de Madurez 4 en la Dimensión 2 sin una capa de AMI operativa no está en el Nivel 4.

Nivel de madurez	Cómo se ve	Puntuación del índice
Nivel 1 — Ad hoc	Algunos componentes presentes pero sin documentar; sin propietario formal del plano de control; sin registro de pruebas del interruptor de emergencia	0–24
Nivel 2 — Documentado	Los cinco componentes documentados; existen brechas de implementación; el interruptor de emergencia existe pero no está probado; los registros WORM están incompletos	25–49
Nivel 3 — Operativo	Los cinco componentes operativos en producción; el interruptor de emergencia se prueba trimestralmente; registros WORM completos para flujos de Nivel 3 o superior; políticas de OPA bajo control de versiones	50–74
Nivel 4 — Listo para evidencia	El plano de control genera evidencia continua y firmada criptográficamente; la identidad por agente satisface el Artículo 12 del EU AI Act; los resultados de las pruebas del interruptor de emergencia son artefactos de auditoría; la detección de deriva está automatizada	75–100

Dimensión 3: completitud de la evidencia regulatoria

Qué mide: si la entidad puede producir bajo demanda un paquete completo de evidencia regulatoria por flujo de trabajo para SR 11-7, SS1/23, EU AI Act, DORA, FSB y los marcos nacionales aplicables.

La Reserva Federal ha aclarado en repetidas ocasiones que SR 11-7 se aplica a cualquier sistema de toma de decisiones de entrada a salida, con independencia de que la entidad clasifique el LLM subyacente como un modelo. La SS1/23 de la PRA es aún más amplia. La clasificación de alto riesgo del Anexo III del EU AI Act cubre la mayoría de los casos de uso de LLM en servicios financieros — puntuación crediticia, detección de fraude, idoneidad del cliente, fijación de precios de seguros. El cumplimiento pleno para los sistemas en el ámbito de la UE se exige antes del 2 de agosto de 2026, con Alemania, Francia y los Países Bajos confirmados para revisiones supervisoras en el tercer trimestre de 2026. El Conjunto de Herramientas de Supervisión de IOSCO para el Uso de IA en los Mercados de Capitales, finalizado el 25 de mayo de 2026, cubre todo el ciclo de vida de la IA desde el aprendizaje automático tradicional hasta la IA generativa y la IA agéntica — e identifica explícitamente que las capacidades de planificación, la memoria a largo plazo y el acceso a herramientas externas crean riesgos de comportamiento emergente y fallos en cascada entre sistemas interconectados.

El modelo de las tres líneas de defensa, aplicado a los agentes:

Primera línea (propietario del modelo): documenta el uso previsto, el linaje de los datos de entrenamiento y evaluación, el esquema del prompt del sistema, la lista de permitidos de llamadas a herramientas y los resultados de las pruebas del interruptor de emergencia. Es responsable de la supervisión de deriva en producción. Es responsable del conjunto de evaluación reservado específico del banco — el trabajo en el que la mayoría de las entidades invierte de menos.
Segunda línea (equipo de MRM): valida el agente antes de producción. El informe de validación cubre las puntuaciones de evaluación del proveedor (MMLU, HumanEval — útiles pero no suficientes), las puntuaciones de evaluación específicas del banco, los resultados del equipo rojo de inyección de prompts, el análisis de sesgo y equidad y una declaración cuantificada de riesgo residual.
Tercera línea (auditoría interna): prueba las barreras del plano de control y la completitud del registro de auditoría frente a una muestra de decisiones en producción. El ciclo de auditoría de 2027 será sustancialmente distinto del de 2025; presupueste en consecuencia.

El Marco Modelo de Gobernanza de IA para IA Agéntica de Singapur (MGF) exige a las entidades financieras evaluar a los agentes en cuatro dimensiones: acotar la autonomía y el acceso del agente, establecer la rendición de cuentas humana en puntos de control definidos, implementar controles técnicos incluidas las pruebas de referencia y habilitar la responsabilidad del usuario final mediante la transparencia. El Conjunto de Herramientas de Gestión de Riesgos de IA de la MAS de marzo de 2026 — desarrollado en el marco del Proyecto MindForge con 24 entidades — representa la guía a nivel nacional más detallada operativamente disponible.

Nivel de madurez	Cómo se ve	Puntuación del índice
Nivel 1 — Conciencia de cumplimiento	Obligaciones regulatorias identificadas; sin evidencia a nivel de flujo; fichas de modelo SR 11-7 ausentes o incompletas	0–24
Nivel 2 — Validación puntual	Validación previa al despliegue completada; existe evidencia en la fecha de despliegue; sin supervisión continua; sin cadencia de evidencia por flujo	25–49
Nivel 3 — Evidencia continua	Fichas de modelo mantenidas por flujo; suites de evaluación continuas reejecutadas semanalmente; registro por agente del Artículo 12 del EU AI Act operativo; categorías de Buenas Prácticas del FSB mapeadas a controles internos	50–74
Nivel 4 — Listo para el examinador	Paquete completo de evidencia regulatoria recuperable bajo demanda por flujo; registros de validación de las tres líneas de defensa actualizados; la suite de evaluación específica del banco detecta regresiones por actualización de modelo más rápido que los ciclos de versión del proveedor; mapeo de las cuatro dimensiones del MGF de la MAS completado	75–100

Dimensión 4: rendición de cuentas económica

Qué mide: si la entidad mide el retorno de la IA agéntica usando la economía unitaria a nivel de flujo de trabajo en lugar de afirmaciones de productividad a nivel de programa.

El análisis de McKinsey identifica que la IA agéntica podría reducir los costes operativos bancarios un 15-20 % (McKinsey, 2026) — equivalente al 9-15 % de los beneficios operativos — pero que la mayoría de esas ganancias se disiparán por la competencia. La ventaja competitiva más duradera está en las entidades que construyen la infraestructura de medición para actuar más rápido que los competidores cuando hay mejoras de modelo y de flujo disponibles. El hallazgo de Cambridge CCAF de que el 76 % de las grandes entidades financieras no puede medir el valor del despliegue de IA no es un problema de calidad de datos. Es un problema de arquitectura de rendición de cuentas: los programas se presupuestan y reportan a nivel de cartera, lo que hace imposible rastrear el valor o el fallo hasta flujos de trabajo individuales.

Las cuatro métricas de economía unitaria que sobreviven a una conversación con el director financiero:

Coste por decisión completada, incluido el coste de reversión y reparación de las decisiones fallidas. Un agente de redacción de SAR que recorta el tiempo del responsable de la BSA en un 40 % pero genera un 12 % de declaraciones de falsos positivos ha destruido valor, no lo ha creado. Esta es la métrica que el hallazgo de Deloitte — que el 93 % del gasto en IA va a infraestructura y solo el 7 % a personas y gobernanza — vuelve incalculable: las entidades no pueden calcular el coste de reversión de un fallo de gobernanza que no han instrumentado para detectar.

Intervenciones manuales evitadas, contadas netas de las nuevas intervenciones creadas por la supervisión del plano de control y la gestión de excepciones. El objetivo no es minimizar la atención humana; es redirigirla a decisiones de mayor apalancamiento.

Tasa de reversión — el porcentaje de acciones ejecutadas por el agente revertidas en un plazo de 24 horas. Un flujo de Nivel 3 con una tasa de reversión por encima del 2 % es un problema de fiabilidad. Por encima del 5 % es un problema de plano de control. Esta cifra debería rastrearse por flujo, no por programa. Una media de cartera oculta el caso atípico que generará el próximo hallazgo de auditoría.

Completitud de la traza de auditoría — el porcentaje de decisiones con procedencia completa reconstruible desde el registro WORM. Debería ser del 100 % en los flujos de Nivel 3 y Nivel 4. Cualquier cifra inferior es un fallo de política.

El mercado de la IA agéntica en la banca crece a un ritmo que hace urgente esta infraestructura de medición. El informe Banking Trends 2026 de Newgen prevé que el mercado de la IA agéntica crezca de 2.100 millones a 81.000 millones de dólares para 2034. El modelado de escenarios de McKinsey indica que el resultado más probable — un escenario con un 30 % de probabilidad — implica que los agentes de IA alcancen una ratio agente-humano de aproximadamente 20:1 y generen una reducción de costes del 15-20 %. Los pioneros podrían abrir una brecha de 4 puntos porcentuales de ROTE respecto a los rezagados. Ese margen es real, pero solo es medible y defendible si la economía unitaria se rastrea a nivel de flujo de trabajo.

Nivel de madurez	Cómo se ve	Puntuación del índice
Nivel 1 — Reporte a nivel de presupuesto	Gasto en IA rastreado; sin economía unitaria a nivel de flujo; afirmaciones de productividad no validadas frente a líneas de base operativas	0–24
Nivel 2 — Métricas agregadas	Métricas de productividad y coste a nivel de programa disponibles; tasa de reversión no rastreada por flujo; el reporte al director financiero se basa en plantilla evitada	25–49
Nivel 3 — Seguimiento a nivel de flujo	Coste por decisión completada rastreado por flujo; tasa de reversión supervisada; intervenciones manuales evitadas calculadas netas de la sobrecarga del plano de control	50–74
Nivel 4 — Rendición de cuentas económica plena	Las cuatro métricas de economía unitaria rastreadas por flujo; tasas de reversión por encima del 2 % desencadenan una revisión automática del flujo; la completitud de la traza de auditoría es una métrica de panel reportada al consejo trimestralmente	75–100

Dimensión 5: preparación organizativa

Qué mide: si la entidad tiene el talento, la gobernanza interfuncional, el reporte a nivel de consejo y la cultura para desplegar y sostener la IA agéntica a escala — no solo para pilotarla.

El hallazgo de Cambridge CCAF es preciso: la preparación de la plantilla predice la rentabilidad de la IA cuatro veces mejor que la adquisición de tecnología. Las firmas donde la plantilla está muy preparada reportan un 23 % de rentabilidad de la IA; las que no, un 6 %. Solo el 10 % de todas las firmas describe a su plantilla como preparada. Las fintech alcanzan la fase de transformación tres veces más a menudo que las entidades financieras tradicionales — 19 % frente a 6 % — pese a que muchas gastan menos de 10.000 dólares anuales en IA. El diferenciador es la arquitectura, no el presupuesto.

McKinsey describe tres posturas estratégicas para los bancos ante la IA agéntica: esperar y ver, adaptarse convirtiéndose en proveedor de productos tras las interfaces de los agentes, o competir por ser dueños de la relación directa con el cliente. La mayoría de los bancos opta por defecto por la primera postura mientras se presentan a sí mismos como perseguidores de la tercera. La conversación estratégica tiene que ser explícita, y el consejo es donde debe aterrizar.

La Buena Práctica 1 del FSB aborda directamente la rendición de cuentas del consejo: los consejos asumen la responsabilidad última de la gobernanza de la IA, fijan el apetito de riesgo y aseguran que las estructuras de rendición de cuentas sean claras. La aplicación del Artículo 5 del EU AI Act y las disposiciones de responsabilidad del consejo del Artículo 5 de DORA traducen ese principio en responsabilidad personal. El Conjunto de Herramientas de Supervisión de IOSCO de mayo de 2026 afirma que "los sistemas de IA ya no son proyectos aislados. Son infraestructura operativa central que requiere validación continua, gobernanza a nivel de consejo y evidencia supervisora lista para inspección".

El marco de reporte al consejo para la IA agéntica debería cubrir cuatro cifras por flujo: nivel de autonomía, completitud de la traza de auditoría, tasa de reversión y coste neto por decisión. Más una lista de los cinco principales riesgos residuales. Las presentaciones de documentos de política no son un sustituto.

Nivel de madurez	Cómo se ve	Puntuación del índice
Nivel 1 — Conciencia	El consejo es consciente del programa de IA; sin gobernanza específica de agentes; sin rol de director de IA; sin comité de gobernanza interfuncional constituido	0–24
Nivel 2 — Estructura en formación	Función dedicada de gobernanza de IA establecida; estructura de rendición de cuentas definida; declaración de apetito de riesgo para la IA redactada; programa de alfabetización en IA de la plantilla incipiente	25–49
Nivel 3 — Gobernanza operativa	El consejo recibe un panel trimestral de IA agéntica con métricas por flujo; comité interfuncional de riesgo de modelo que cubre a los agentes; preparación de la plantilla rastreada frente a referencias; banco de pruebas de MRM escalado para validar más de 20 agentes por trimestre	50–74
Nivel 4 — Gobernanza como ventaja competitiva	El paquete de evidencia del consejo satisface las Buenas Prácticas 1-4 del FSB y los requisitos de responsabilidad personal del Artículo 5 de DORA; el banco de pruebas de MRM valida más de 50 agentes por trimestre; cultura de mejora continua de la gobernanza documentada en el informe anual; la entidad responde a la consulta del FSB	75–100

Dimensión 6: alineamiento regulatorio global

Qué mide: si el modelo operativo de IA agéntica de la entidad está alineado con los cuatro grandes marcos regulatorios que aplican en sus principales jurisdicciones de operación — y si ese alineamiento se evidencia, no se afirma.

El entorno regulatorio de la IA agéntica se ha cristalizado en la primera mitad de 2026. Cuatro marcos son ahora operativamente materiales:

Estados Unidos (SR 11-7 / Boletín OCC 2025-26). La guía de gestión de riesgo de modelos de la Reserva Federal se aplica a cualquier flujo de toma de decisiones basado en LLM. La OCC ha publicado una guía específica de gestión de riesgo de modelos para bancos comunitarios que enfatiza la proporcionalidad — "proporcionado no significa ausente". El modelo de las tres líneas de defensa aplica en su totalidad.

Reino Unido (PRA SS1/23 / FCA). Los principios de gestión de riesgo de modelos de la SS1/23 de la PRA son lo bastante amplios para abarcar a todos los agentes basados en LLM. La autoridad supervisora del Reino Unido está desarrollando expectativas específicas para la IA agéntica. La FCA figura entre las autoridades nacionales que emiten guía complementaria sobre gobernanza de IA en servicios financieros.

Unión Europea (EU AI Act / DORA). Las obligaciones para los sistemas de IA de alto riesgo del Anexo III están en vigor desde el 2 de agosto de 2026. Los requisitos incluyen gestión estructurada de riesgos (Artículo 9), gobernanza de datos (Artículo 10), transparencia (Artículo 13), supervisión humana (Artículo 14) y registro de auditoría por agente (Artículo 12). Las disposiciones de responsabilidad del consejo del Artículo 5 de DORA aplican a la resiliencia operativa, incluida la IA agéntica. La guía de mayo de 2026 de la Oficina de IA de la UE exige identidad criptográfica por agente en los registros de auditoría. El incumplimiento conlleva multas de hasta 35 millones de euros o el 7 % de la facturación global.

Asia-Pacífico (MAS / IMDA / reguladores regionales). La IMDA de Singapur publicó el primer Marco Modelo de Gobernanza de IA para IA Agéntica del mundo en Davos el 22 de enero de 2026. La MAS publicó su Conjunto de Herramientas de Gestión de Riesgos de IA en marzo de 2026 en el marco del Proyecto MindForge, desarrollado con 24 entidades financieras. El marco cubre el alcance y la supervisión de la IA, la gestión de riesgos de la IA, la gestión del ciclo de vida de la IA y los habilitadores organizativos. Se espera que las Directrices formales propuestas por la MAS sobre Gestión de Riesgos de IA se finalicen en 2026, pasando de los principios FEAT voluntarios a expectativas supervisoras con implicaciones de cumplimiento. La ASIC de Australia emitió una carta abierta en mayo de 2026 exigiendo una mejora de la ciberseguridad en respuesta a las amenazas de la IA de frontera.

FSB (global, intersjurisdiccional). La consulta del FSB de junio de 2026 — el primer marco global que trata la IA agéntica como operativamente distinta — identifica seis modelos de supervisión para los sistemas agénticos y recomienda el control humano para los flujos de alta autonomía, la supervisión con IA en el bucle a medida que crecen las poblaciones de agentes, y la aprobación humana o doble autorización para los agentes que ejecutan transacciones financieras por encima de valores umbral. Los comentarios cierran el 22 de julio de 2026; el informe final a los ministros de finanzas del G20 en octubre de 2026.

Nivel de madurez	Cómo se ve	Puntuación del índice
Nivel 1 — Inventario jurisdiccional	Marcos aplicables identificados por jurisdicción; sin mapeo a nivel de flujo; "cumplimiento por analogía" con marcos anteriores a la IA	0–24
Nivel 2 — Mapeo de marcos	Cada flujo agéntico en producción mapeado a los marcos aplicables; brechas identificadas; planes de subsanación redactados	25–49
Nivel 3 — Cumplimiento evidenciado	Paquetes de evidencia por flujo producidos frente a los marcos aplicables; registro por agente del Artículo 12 del EU AI Act completo; Buenas Prácticas 5-10 del FSB mapeadas a controles internos; mapeo de las cuatro dimensiones del MGF de Singapur completado	50–74
Nivel 4 — Compromiso regulatorio proactivo	La entidad participa en las consultas del FSB, IOSCO y los reguladores nacionales; la inteligencia regulatoria está integrada en el ciclo de vida del despliegue de agentes; la evidencia supervisora se genera automáticamente mediante las canalizaciones operativas, no se ensambla a posteriori	75–100

La puntuación compuesta del índice

Las seis puntuaciones dimensionales se combinan en un índice compuesto usando la siguiente ponderación por materialidad regulatoria:

Dimensión	Peso	Justificación
Arquitectura de Gobernanza	25 %	Mayor peso: el plano de control es lo único que falla de forma segura cuando falla el modelo
Completitud de la Evidencia Regulatoria	20 %	Vital para la fecha límite del EU AI Act del 2 de agosto y la preparación supervisora continua
Cobertura del Nivel de Autonomía	15 %	Ligeramente reducida para reflejar que la clasificación de niveles, aunque fundamental, es ya una expectativa de umbral más que un diferenciador
Rendición de Cuentas Económica	15 %	Crítica para el alineamiento con el director financiero y el ROI frente a los escenarios de reservas de beneficio y brecha de ROTE de McKinsey
Preparación Organizativa	10 %	Racionalizada: la gobernanza estructural es necesaria pero cada vez más una condición básica en las entidades de Nivel 1
Alineamiento Regulatorio Global	15 %	Incrementada: debe tener en cuenta activamente el riesgo de concentración de TIC de terceros de DORA, la ejecución transfronteriza de agentes y la puntuación del riesgo sistémico de manada

Una puntuación compuesta por debajo de 50 significa que la entidad no puede defender su postura actual de IA agéntica ante un examinador de SR 11-7, una revisión in situ de la PRA o una evaluación supervisora del EU AI Act. Una puntuación de 50 a 74 significa que existen controles pero aún no son continuos ni están listos para evidencia. Una puntuación de 75 a 100 significa que la gobernanza es un activo competitivo, no un coste de cumplimiento.

Señales actuales a seguir

Señal	Qué significa para los bancos	Fuente
52 % de adopción de IA agéntica	La gobernanza llega tarde; las entidades en fase de escalado o transformación necesitan un plano de control, no otro piloto	Cambridge CCAF
66,3 % de éxito en tareas de OSWorld	Tasa de fallo de uno de cada tres en uso estructurado de herramientas; la ejecución sin supervisión contra API de fondos de clientes es insostenible	Stanford HAI
31 % de los nuevos casos de uso de IA bancaria son agénticos	La categoría de más rápido crecimiento en el primer trimestre de 2026; la infraestructura de gobernanza se queda cada vez más rezagada respecto al despliegue	Evident Insights
Buenas prácticas del FSB de junio de 2026	Primer marco global que trata la IA agéntica como operativamente distinta; no vinculante ahora, entregable al G20 en octubre de 2026	FSB
Fecha límite del EU AI Act del 2 de agosto de 2026	Las obligaciones plenas del Anexo III en vigor; revisiones supervisoras de Alemania, Francia y los Países Bajos confirmadas para el tercer trimestre de 2026	Oficina de IA de la UE
JP Morgan, agentes de larga ejecución: 2026	El despliegue en el mismo año de agentes autónomos de 1-2 horas cambia la referencia competitiva para todo G-SIB y banco regional	CNBC
IBM: 1.661 agentes para 2027	La proliferación de agentes empresariales es el reto de gobernanza de 2027 si no se aborda en 2026; solo el 11 % se dice preparado	IBM
MGF de IA agéntica de Singapur: enero de 2026	Primer marco de gobernanza específico de IA agéntica del mundo; cuatro conceptos (jerarquía del principal, límite de la tarea, huella mínima, explicabilidad) aplican universalmente	IMDA
Conjunto de Herramientas de Supervisión de IOSCO: mayo de 2026	Cobertura de todo el ciclo de vida de la IA, incluida la IA agéntica; riesgos de comportamiento emergente y fallo en cascada nombrados explícitamente	IOSCO
McKinsey: brecha de 4 pp de ROTE	Los pioneros en IA podrían abrir una ventaja de 4 puntos porcentuales de ROTE sobre los rezagados; la infraestructura de medición para capturar esa brecha es la economía unitaria a nivel de flujo	McKinsey

Qué significa esto según el tipo de entidad

Bancos de importancia sistémica global (G-SIB)

Los G-SIB afrontan el reto de gobernanza más difícil — no porque la tecnología sea más compleja, sino porque la escala y la jurisdicción multiplican cada brecha. Un G-SIB con 200 agentes en producción en 30 líneas de negocio en 15 jurisdicciones regulatorias tiene 200 posibles hallazgos de SR 11-7, 200 posibles fallos de registro de auditoría del EU AI Act y 200 posibles brechas de Buenas Prácticas del FSB — simultáneamente. La prioridad de inversión no es otro piloto. Es el plano de control central, la infraestructura unificada de registro de auditoría y un banco de pruebas de MRM capaz de validar más de 50 agentes por trimestre.

El anuncio de JP Morgan de agentes autónomos de larga ejecución en 2026 — los planos de control de agentes de DBS en la preparación de memorandos de crédito y la atención al cliente — BNP Paribas cumpliendo sus objetivos de IA de 2025 y comenzando el reporte trimestral de ROI — estos son los puntos de datos competitivos frente a los que debería compararse todo consejo de un G-SIB. La cuestión institucional no es si desplegar; es si el plano de control puede escalar al mismo ritmo que la población de agentes.

El FSB advierte explícitamente contra el riesgo de concentración por depender de unos pocos proveedores de nube, hardware y modelos fundacionales — y señala que los modelos y datos compartidos podrían empujar a las entidades hacia un comportamiento correlacionado que amplifique la manada y la prociclicidad en una recesión. Los G-SIB que obtienen el 80 % de su infraestructura agéntica de dos proveedores de modelos fundacionales están construyendo una correlación sistémica que tendrán que explicar tanto a sus propios equipos de riesgo como a sus supervisores.

Manada sistémica y prociclicidad: el riesgo arquitectónico que ningún banco puede resolver solo. El rastreador de casos de uso del primer trimestre de 2026 de Evident Insights identifica que el 68 % de los despliegues agénticos bancarios usa ahora una larga cola de proveedores especializados — la mayoría de los cuales están construidos sobre modelos de frontera subyacentes idénticos, predominantemente Claude de Anthropic. Esto crea una vulnerabilidad estructural de manada que es materialmente distinta de los riesgos de concentración que los bancos ya gestionan en la infraestructura de nube o las redes de pago.

El mecanismo es el siguiente. El agente de trading, el agente de liquidez y el agente de endurecimiento del crédito de un banco están construidos sobre plataformas de distintos proveedores. Tienen distintos prompts de sistema, distintos esquemas de llamada a herramientas, distintas barreras de política OPA. Pero comparten un modelo subyacente idéntico — los mismos pesos, la misma distribución de entrenamiento, los mismos patrones de comportamiento emergente bajo estrés distribucional. Cuando ocurre un evento de mercado significativo — un evento de crédito soberano, una comunicación de la Fed que difiere del consenso, la quiebra de un gran banco — cada agente construido sobre el mismo modelo subyacente procesará el evento a través de las mismas ponderaciones implícitas de características. Si esas ponderaciones producen un sesgo direccional hacia un comportamiento de aversión al riesgo, los agentes de trading, liquidez y crédito de varios bancos podrían ejecutar ventas masivas, ciclos de endurecimiento del crédito o retiradas de liquidez correlacionados simultáneamente — no porque el agente de ningún banco individual esté funcionando mal, sino porque todos funcionan correctamente sobre el mismo modelo.

IOSCO nombró esta dinámica explícitamente en el Conjunto de Herramientas de Supervisión de mayo de 2026, advirtiendo que las capacidades de planificación, la memoria a largo plazo y el acceso a herramientas externas crean riesgos de comportamientos emergentes y fallos en cascada entre sistemas interconectados. La consulta del FSB de junio de 2026 aborda la prociclicidad directamente — señalando que si los agentes de IA se entrenan con los mismos datos y usan modelos similares, es probable que su comportamiento esté correlacionado, amplificando potencialmente los movimientos del mercado.

Puntuar la resiliencia ante la manada sistémica en la Dimensión 6 requiere tres divulgaciones y un control arquitectónico. Las divulgaciones: cuál es el modelo fundacional subyacente de cada flujo agéntico en producción; cuál es el mapa de dependencias de proveedores en toda la cartera de agentes; y cuál es la evaluación de la entidad sobre su contribución al comportamiento correlacionado interinstitucional bajo un escenario de estrés definido. El control arquitectónico: al menos uno de los agentes principales en clases de activos de alto riesgo (trading, gestión de liquidez, crédito) debe usar un modelo subyacente distinto o una variante ajustada significativamente diferente, de modo que la respuesta distribucional de un único modelo a un evento de estrés no pueda producir un resultado plenamente correlacionado en todos los flujos agénticos simultáneamente. Esto es la diversidad de modelos como gestión del riesgo sistémico — el equivalente agéntico de la diversificación de contrapartes.

Bancos de transacciones y corporativos

Los flujos agénticos de mayor ROI son la reparación de pagos, la extracción de documentos de KYC, los servicios de tesorería, las roturas de conciliación y la desviación de preguntas frecuentes de clientes corporativos. Todos de Nivel 2 o de Nivel 3 acotado en la escala de autonomía. Al cliente corporativo no le importa que un agente ejecutara la reparación del pago; le importa que el SLA mejorara y que la tasa de disputas se mantuviera estable. Empiece con las cuatro métricas de economía unitaria, no con afirmaciones de capacidad tecnológica.

El marco de Tesorería Autónoma — observar → detectar → prever → preparar → solicitar aprobación humana → enviar carga útil firmada — es la arquitectura correcta para los agentes de tesorería corporativa en 2026. La carga útil pain.001 preparada por el agente se enruta a través de la misma validación de esquema, puntuación de fraude y motores de sanciones que un envío desde un ERP corporativo. La capa de condicionalidad (umbral, elegibilidad de colateral, suelo de reserva) controla si se envía el pain.001, no la forma que adopta. Las plataformas de tesorería que inventan cargas útiles a medida para expresar condiciones quedarán fuera de la vía consumible por el banco.

Bancos regionales y comunitarios

El análisis de escenarios de McKinsey identifica tres posiciones viables: esperar y ver, adaptarse como proveedor de productos tras las interfaces de los agentes, o competir por la relación directa con el cliente. Los bancos regionales que no tomen esta decisión de forma explícita se deslizarán por defecto hacia la postura de esperar y ver — y descubrirán que la deuda de gobernanza acumulada durante esa deriva es el principal obstáculo cuando la presión competitiva fuerce la acción.

El principio de proporcionalidad de la OCC — "proporcionado no significa ausente" — es el marco operativo para la gobernanza regional. Un banco regional no necesita validar 50 agentes por trimestre. Necesita un responsable de riesgo de modelo que entienda la escala de autonomía, una implementación de una plataforma de agentes de un proveedor que venga con alcance de OAuth, integración de OPA y registro de auditoría WORM de fábrica, y una plantilla de reporte al consejo que cubra las cuatro métricas de economía unitaria. La inversión está en el diseño de flujos y en la experiencia de usuario del operador, no en la ingeniería de un plano de control a medida.

La encuesta de Prioridades Bancarias 2026 de CSI constató que el 85 % de los encuestados de banca comunitaria cree que la adopción de IA proporcionará una ventaja competitiva significativa y el 50 % la nombró la principal tendencia tecnológica para 2026. La infraestructura de gobernanza es lo que separa al 85 % de creyentes de la pequeña fracción que capturará el valor.

Fintech, PSP y proveedores de infraestructura

La pregunta de producto para los proveedores de IA agéntica en 2026 no es "¿su plataforma rinde mejor que los humanos?". Es "¿su plataforma produce una traza de auditoría conforme con SR 11-7, un registro por agente conforme con el Artículo 12 del EU AI Act y un modelo de supervisión conforme con la Buena Práctica 10 del FSB — de fábrica?". Los proveedores que puedan responder a eso con un sí documentado y verificable cerrarán acuerdos empresariales. Los que no puedan darán vueltas en bucles de prueba de concepto mientras los equipos de MRM de los bancos encuentran motivos para no superar la validación.

Oracle lanzó una plataforma empresarial de IA agéntica para la banca en febrero de 2026. FIS se asoció con Mastercard y Visa para habilitar el comercio iniciado por agentes. Microsoft publicó un plan específico para la banca de experiencia de cliente agéntica. Accenture ha esbozado las implicaciones para la plantilla en la primera línea y la trastienda. El lado de la oferta está listo. La diferenciación está en la evidencia regulatoria como característica de producto, no como un añadido de cumplimiento a posteriori.

La dinámica de larga cola de proveedores identificada por Evident — el 68 % de los despliegues de IA agéntica en bancos usa ahora proveedores especializados más allá de los hiperescaladores — significa que el riesgo de proveedor de IA de terceros se acelera más rápido de lo que la mayoría de los marcos de contratación bancaria pueden evaluarlo. DORA exige diligencia debida documentada sobre cada proveedor de TIC de terceros. El EU AI Act añade requisitos adicionales para los proveedores cuyos sistemas se usan en categorías de alto riesgo. Los bancos que externalizan la gobernanza a su proveedor están externalizando la rendición de cuentas — y el registro supervisor lo reflejará.

Empresas y pymes (servicios financieros no bancarios)

La carga de gobernanza es proporcional a la materialidad del riesgo del uso de la IA agéntica, pero el marco de medición aplica universalmente. Una empresa que despliega agentes en cuentas a pagar, optimización del capital circulante o planificación y análisis financiero necesita el mismo marco de rendición de cuentas de economía unitaria — coste por decisión completada, tasa de reversión, completitud de la traza de auditoría — aunque las obligaciones regulatorias sean más ligeras que las de un banco de importancia sistémica. Las Buenas Prácticas del FSB se plantean como guía no vinculante aplicable a entidades financieras de todos los tipos y tamaños. El hallazgo de IBM de que las empresas promedian 54 incidentes con agentes de IA al año, incluidas brechas de datos y fallos en cascada de sistemas, aplica a todo el panorama empresarial.

Para las pymes que acceden a servicios bancarios a través de interfaces agénticas — el escenario que McKinsey describe como consumidores que usan agentes de IA como un nuevo canal bancario — la obligación de gobernanza recae aguas arriba en el banco o el PSP que provee la capa agéntica. Pero la integridad de los datos y operativa de la propia pyme depende de que esa gobernanza sea real. Entender la puntuación del índice de las entidades que gestionan sus flujos de trabajo financieros se está convirtiendo rápidamente en un criterio de selección de proveedores.

El cuadro de mando a nivel de consejo

Un cuadro de mando útil para el consejo sobre la IA agéntica debería seguir seis métricas — el conjunto mínimo que distingue un programa gobernado de uno no gobernado:

Distribución del nivel de autonomía: el recuento de flujos en producción por nivel (Nivel 0 a 4), actualizado trimestralmente. Cualquier flujo de Nivel 5 es un hallazgo reportable.
Completitud del plano de control: el porcentaje de flujos en producción con los cinco componentes del plano de control operativos (identidad, barreras de protección, política como código, registro WORM, interruptor de emergencia).
Completitud de la traza de auditoría: el porcentaje de invocaciones de flujos de Nivel 3 o superior con procedencia completa reconstruible desde el registro inmutable. Objetivo: 100 %.
Tasa de reversión por flujo: el porcentaje de acciones ejecutadas por el agente revertidas en un plazo de 24 horas, rastreado por flujo. Umbral de alerta: 2 %. Umbral de escalado: 5 %.
Coste neto por decisión: coste unitario a nivel de flujo incluido el coste de reversión y reparación, comparado con la línea de base manual. Rastreado frente al caso económico del programa.
Vigencia de la evidencia regulatoria: la fecha de la actualización más reciente de evidencia regulatoria por flujo en los marcos aplicables (SR 11-7, SS1/23, EU AI Act, MGF de la MAS). Cualquier flujo con más de 90 días fuera de la cadencia de evidencia es un hallazgo de riesgo.

Estas seis cifras convierten la IA agéntica de una presentación de diapositivas en un modelo operativo. Son también las cifras que un examinador de SR 11-7, un revisor in situ de la PRA o una autoridad supervisora de la UE pedirán primero.

Las brechas que aborda este índice

Tres brechas estructurales distinguen este índice de los marcos existentes:

Brecha 1: los índices existentes miden la madurez de la IA, no la gobernanza específica de la IA agéntica. El Evident AI Index mide Talento, Innovación, Liderazgo y Transparencia en 50 bancos usando datos públicos. No evalúa — ni está diseñado para evaluar — si los flujos agénticos en producción de un banco tienen interruptores de emergencia operativos, registros de auditoría WORM por agente o barreras de política OPA. Un banco puede situarse primero en el Evident Index mientras no supera una auditoría del Artículo 12 del EU AI Act.

Brecha 2: los marcos regulatorios existentes abordan qué se requiere, no cómo puntuar la preparación. SR 11-7, SS1/23, el EU AI Act, las Buenas Prácticas del FSB y el MGF de Singapur definen cada uno obligaciones de gobernanza. Ninguno proporciona un marco de puntuación multidimensional que permita a una entidad comparar su postura con la de sus pares o medir la mejora a lo largo del tiempo. Este índice proporciona ese marco de puntuación, usando los marcos regulatorios existentes como base de evidencia.

Brecha 3: la economía a nivel de programa enmascara el fallo a nivel de flujo. El estándar del sector de reportar el valor de la IA a nivel de programa — "la IA ahorró X horas de trabajo de cumplimiento" — hace estructuralmente imposible rastrear una reversión, una declaración de SAR de falso positivo o una acción inexplicada de un agente hasta el flujo que la produjo. La dimensión de economía unitaria de este índice exige rendición de cuentas a nivel de flujo. Esta es la arquitectura de medición que hace defendible una conversación con el director financiero y soportable una conversación de auditoría.

Conclusión

La IA agéntica en los bancos en 2026 es un problema de ingeniería vestido con la ropa de una conversación de estrategia. El modelo es intercambiable. El plano de control — alcance de OAuth, enrutamiento semántico determinista, barreras de política OPA, registros de auditoría WORM inmutables y un interruptor de emergencia probado — no lo es. La arquitectura de gobernanza — validación de las tres líneas de defensa, suites de evaluación continuas específicas del banco, reporte de economía unitaria a nivel de consejo — no lo es. El paquete de evidencia regulatoria — fichas de modelo SR 11-7 por flujo, registros por agente del Artículo 12 del EU AI Act, mapeos de Buenas Prácticas del FSB — no lo es.

Las entidades que serán creíbles ante los reguladores en 2027 son las que hoy puntúan por encima de 75 en las seis dimensiones del índice: clasificando cada agente en producción en la escala de autonomía, diseñando el plano de control completo de cinco componentes, produciendo evidencia regulatoria continua, rastreando la economía unitaria a nivel de flujo, invirtiendo en preparación organizativa y participando de forma proactiva en las consultas del FSB, IOSCO y los reguladores nacionales que están dando forma a los estándares vinculantes de 2028.

OSWorld con un 66,3 % es el techo de fiabilidad. Tres llamadas a herramientas encadenadas a esa tasa producen una tasa de éxito de extremo a extremo del 29 %. Planifique en consecuencia. Las entidades que midan a los agentes como miden cualquier otro riesgo operativo — por evidencia, no por aspiración — descubrirán que la gobernanza no es la restricción de la IA agéntica. Es lo único que hace competitiva a la IA agéntica.

Preguntas frecuentes

¿Cuál es la diferencia entre este índice y el Evident AI Index? El Evident AI Index compara la madurez de la IA en 50 bancos globales usando datos públicos en Talento, Innovación, Liderazgo y Transparencia. Este índice puntúa la arquitectura específica de ingeniería y gobernanza — el plano de control, el registro de auditoría, la clasificación del nivel de autonomía, el paquete de evidencia regulatoria — que hace que la IA agéntica sea segura de desplegar contra API bancarias en producción. Los dos índices son complementarios: Evident mide la postura estratégica; este índice mide la preparación operativa.

¿Quién debería usar este índice? Directores de operaciones, directores de riesgos, directores de IA, responsables de gestión de riesgo de modelos y comités de riesgo del consejo en bancos globales, bancos regionales, entidades de banca corporativa y entidades financieras que despliegan IA agéntica. También es relevante para fintech, PSP y proveedores de infraestructura que venden en procesos de contratación bancaria donde la evidencia regulatoria es un criterio de selección.

¿Cuál es la postura de gobernanza mínima viable para 2026? Plano de control completo de cinco componentes operativo en producción; todos los flujos en producción clasificados de Nivel 0 a 4; flujos de Nivel 5 prohibidos contractualmente; registros de auditoría WORM completos para flujos de Nivel 3 o superior; registro por agente del Artículo 12 del EU AI Act implantado antes del 2 de agosto de 2026; Buenas Prácticas 1-4 del FSB mapeadas a las estructuras de rendición de cuentas del consejo; suite de evaluación específica del banco ejecutándose de forma continua.

¿Qué significa el anuncio de JP Morgan para mi entidad? Significa que la referencia competitiva para el despliegue de agentes autónomos tiene un calendario con nombre en 2026 procedente de un banco de importancia sistémica. No significa que toda entidad deba igualar ese calendario. Significa que toda entidad debería conocer su puntuación actual del índice, conocer la brecha entre esa puntuación y la postura de despliegue que describe JP Morgan, y tener una visión aprobada por el consejo de la inversión en gobernanza necesaria para cerrar esa brecha de forma segura.

¿Cómo debería reportarse al consejo el riesgo de la IA agéntica? Seis métricas por flujo: nivel de autonomía, completitud del plano de control, completitud de la traza de auditoría, tasa de reversión, coste neto por decisión y vigencia de la evidencia regulatoria. Más una lista de los cinco principales riesgos residuales. Omita las presentaciones de fichas de modelo y los resúmenes de productividad a nivel de programa.

¿La consulta del FSB crea obligaciones vinculantes ahora? No. El FSB afirma explícitamente que las 12 Buenas Prácticas no son estándares vinculantes. No obstante, la consulta cierra el 22 de julio de 2026 y el informe final va a los ministros de finanzas del G20 en octubre de 2026. Los reguladores nacionales — la Fed, la PRA, BaFin, DNB, ACPR, MAS — son libres de incorporar las Buenas Prácticas a expectativas supervisoras vinculantes en sus propios plazos. Las entidades que responden a la consulta ahora son las que dan forma a lo que será vinculante.

Referencias

Última revisión 2026-06-30.

Última revisión 2026-06-29.

Volver a publicar este artículo

El Índice de IA Agéntica para la banca en 2026: medir la autonomía — Sebastien Rousseau

Índice de seis dimensiones que mide la preparación en IA agéntica de los bancos: autonomía, gobernanza, evidencia regulatoria, economía y alineamiento global.

Este artículo se publica bajo Creative Commons Attribution 4.0 International. La republicación requiere atribución a la URL canónica.

El Índice de IA Agéntica para la banca en 2026: medir la autonomía — Sebastien Rousseau

Índice de seis dimensiones que mide la preparación en IA agéntica de los bancos: autonomía, gobernanza, evidencia regulatoria, economía y alineamiento global.

Originally published at https://sebastienrousseau.com/es/2026-06-30-agentic-ai-index-banks-measuring-autonomy-2026/ by Sebastien Rousseau.
Licensed under CC-BY-4.0.

SEBASTIEN ROUSSEAU FOUNDER · ENGINEER