L’indice Agentic AI per le banche nel 2026: misurare l’autonomia

TL;DR. Un indice a sei dimensioni che misura la maturità dell'IA agentica nelle banche: livelli di autonomia, governance, evidenze regolamentari, economia, prontezza e allineamento globale.

Points clés

Perché esiste questo indice. L'Evident AI Index classifica 50 banche globali su Talento, Innovazione, Leadership e Trasparenza usando milioni di dati pubblicamente disponibili.
Lo stato della maturità dell'IA agentica nel 2026. Il rapporto 2026 di Cambridge CCAF — il più ampio studio globale sull'IA nei servizi finanziari, che copre 628 organizzazioni in 151 giurisdizioni in collaborazione con BIS, FMI, WEF e Banca Mondiale — fornisce la…
L'architettura dell'indice a sei dimensioni. Questo indice misura la prontezza dell'IA agentica su sei dimensioni.
Il punteggio composito dell'indice. I sei punteggi dimensionali si combinano in un indice composito secondo la seguente ponderazione per rilevanza regolamentare:.

L'IA agentica nel settore bancario è passata dall'esperimento all'infrastruttura operativa. Nel 2026 la domanda non è più se adottarla — il 52% degli istituti finanziari lo ha già fatto — ma se il settore sia in grado di misurare ciò che ha costruito con lo stesso rigore che applica a capitale, credito e liquidità. Questo indice è quel quadro di misurazione (Cambridge CCAF, 2026).

Sintesi esecutiva / Punti chiave

L'autonomia è il nuovo coefficiente patrimoniale. Così come Basilea ha fissato standard misurabili per la resilienza finanziaria, il settore ha ora bisogno di uno standard misurabile per le decisioni autonome. Questo indice è il primo quadro trasversale a misurare la prontezza dell'IA agentica integrando governance, architettura tecnica, evidenze regolamentari, ritorno economico e maturità organizzativa in un unico modello operativo.

Un'adozione del 52% maschera un tasso di trasformazione del 14%. L'indagine 2026 di Cambridge CCAF su 628 organizzazioni in 151 giurisdizioni rileva che, mentre quattro istituti finanziari su cinque usano l'IA, solo il 14% la descrive come elemento che trasforma la propria posizione competitiva. Il divario è di governance, non di tecnologia.

OSWorld al 66,3% è il tetto di affidabilità, non il pavimento. Il benchmark 2026 di Stanford HAI mostra agenti IA che completano il 66,3% delle attività aziendali strutturate (Stanford HAI, 2026). Tre chiamate di strumento concatenate a quel tasso si compongono in un tasso di successo end-to-end del 29%. L'esecuzione non supervisionata su sistemi di pagamento attivi non è difendibile a questo livello di affidabilità.

L'FSB si è pronunciato. Il 10 giugno 2026 il Financial Stability Board ha pubblicato il suo primo quadro operativo per la governance dell'IA agentica nei servizi finanziari (FSB, 2026) — 12 sound practices che coprono la responsabilità del consiglio, la gestione del ciclo di vita e le architetture in cui l'IA monitora l'IA. I commenti si chiudono il 22 luglio 2026.

L'orologio dell'enforcement dell'EU AI Act è in moto. Gli obblighi per i sistemi di IA ad alto rischio ai sensi dell'Allegato III entrano in vigore il 2 agosto 2026 (guida EU AI Act, 2026). Gli istituti finanziari che operano IA agentica nell'UE senza un'identità per agente nei registri di audit, senza procedure di revoca documentate e senza evidenze a livello di consiglio sono in ritardo.

JP Morgan ha indicato un anno. Derek Waldron, chief analytics officer, ha confermato alla CNBC il 9 giugno 2026 che la banca dispiegherà agenti autonomi a lungo orizzonte (CNBC, 2026) — capaci di operare in autonomia per una o due ore — entro il 2026. Quella dichiarazione cambia il quadro competitivo per ogni istituto che si confronta con essa.

L'indice misura sei dimensioni. Livello di autonomia, architettura di governance, evidenze regolamentari, responsabilità economica, prontezza organizzativa e allineamento regolamentare globale. Insieme, trasformano un programma di IA da portafoglio di iniziative in una capacità misurabile.

Perché esiste questo indice

L'Evident AI Index classifica 50 banche globali su Talento, Innovazione, Leadership e Trasparenza usando milioni di dati pubblicamente disponibili. È il benchmark esterno più affidabile della maturità IA nei servizi finanziari. Ciò che non fa — per scelta progettuale — è misurare la specifica architettura ingegneristica e di governance che rende l'IA agentica sicura da impiegare su API bancarie attive. Lo Stanford AI Index traccia produzione di ricerca, prestazioni tecniche e impatto sociale. Ciò che non fa è tradurre le percentuali di completamento delle attività di OSWorld in un set di istruzioni operative per un tesoriere, un chief risk officer o un team di validazione dei modelli.

Questo indice colma quel divario. Prende la disciplina di misurabilità del quadro Stanford, il contesto competitivo dell'Evident Index e la specificità regolamentare di SR 11-7, SS1/23, EU AI Act, sound practices FSB e Model AI Governance Framework for Agentic AI dell'IMDA di Singapore — e li converte in un modello di punteggio a sei dimensioni su cui un consiglio può agire.

L'innesco pratico è che l'IA agentica è passata da una conversazione di pianificazione a una questione di audit. Quando il chief analytics officer di JP Morgan annuncia il dispiegamento nello stesso anno di agenti autonomi a lungo orizzonte, quando DBS integra piani di controllo degli agenti nella preparazione dei memo di credito e nell'assistenza ai clienti, quando l'FSB stabilisce che gli agenti che eseguono transazioni finanziarie richiedono "approvazione umana o doppia autorizzazione al di sopra di un valore soglia, accesso limitato degli agenti ai sistemi di pagamento e tracce di audit di ogni transazione dell'agente" — l'istituto che non sa misurare la propria postura troverà un regolatore a misurarla al suo posto.

Lo stato della maturità dell'IA agentica nel 2026

Cosa dicono i dati

Il rapporto 2026 di Cambridge CCAF — il più ampio studio globale sull'IA nei servizi finanziari, che copre 628 organizzazioni in 151 giurisdizioni in collaborazione con BIS, FMI, WEF e Banca Mondiale — fornisce la base statistica di questo indice.

Segnale	Risultato	Fonte
Adozione attiva dell'IA	L'81% delle imprese finanziarie usa l'IA a qualche livello	Cambridge CCAF
Adozione dell'IA agentica	Il 52% sta già sperimentando o impiegando sistemi agentici capaci di azione autonoma sostenuta in più passaggi	Cambridge CCAF
Tasso di trasformazione	Solo il 14% descrive l'IA come elemento che ridefinisce il proprio vantaggio competitivo	Cambridge CCAF
Difficoltà di misurazione	Il 55% del settore e il 63% dei regolatori faticano a misurare il valore dei progetti di IA; il 76% nei grandi istituti finanziari nello specifico	Cambridge CCAF
Redditività	Solo il 40% riporta una maggiore redditività dall'IA; il 43% non riporta alcun cambiamento	Cambridge CCAF
Perdita di supervisione umana	Il 51% cita la perdita di supervisione umana tra i rischi principali	Cambridge CCAF
Casi d'uso agentici	Il 31% dei nuovi casi d'uso bancari di IA nel Q1 2026 erano applicazioni agentiche — il massimo storico, in crescita dal 15% del Q4 2025	Evident Insights
Divario di governance	Il 77% di 2.000 dirigenti tecnologici afferma che l'adozione dell'IA supera le capacità di governance; in media 54 incidenti per agente IA per impresa nel 2025	IBM
Proliferazione di agenti	Le imprese prevedono di impiegare in media 1.661 agenti IA entro il 2027; solo l'11% si dichiara pienamente preparato	IBM
Rischio sui profit pool secondo McKinsey	L'IA agentica potrebbe ridurre i costi operativi bancari del 20%, ma rischia di erodere fino a 170 miliardi di dollari nei profit pool globali entro il 2030 se i modelli di business non si adattano	McKinsey

Questi numeri definiscono il problema con precisione: l'adozione è davanti alla governance, i guadagni di produttività sono visibili, la trasformazione è rara e il divario di misurazione è più ampio dove la posta in gioco regolamentare è più alta — i grandi istituti finanziari.

Dove i concorrenti tracciano i confini

L'Evident AI Index 2025 ha collocato JP Morgan Chase al primo posto (punteggio: 79), seguita da Capital One (78,1), RBC (58,4), CommBank Australia (53,9) e Morgan Stanley (52,2). L'indice misura quattro pilastri di capacità — Talento, Innovazione, Leadership, Trasparenza — non l'architettura operativa degli agenti. Questo crea un divario strutturale: una banca può ottenere punteggi elevati sulla trasparenza dell'Innovazione mentre impiega agenti senza interruttore di emergenza, senza registro di audit WORM e senza un gate di policy OPA. Questo indice è progettato per rendere visibile quel divario.

I Tech Trends 2026 di Deloitte riportano che solo l'11% delle organizzazioni ha IA agentica in produzione. McKinsey rileva che solo circa un terzo delle organizzazioni raggiunge un livello di maturità di governance pari a tre o superiore nei controlli sull'IA agentica, anche mentre le capacità tecniche avanzano rapidamente. I dati d'indagine di CCG Catalyst mostrano che il 93% della spesa legata all'IA va all'infrastruttura tecnologica e solo il 7% a persone, talento, formazione, change management e governance — un rapporto che rende strutturalmente impossibile la scalabilità.

L'Evident Venture Tracker per il Q1 2026 individua Anthropic come il fornitore più citato, con una coda lunga di operatori specializzati che rappresenta il 68% di tutti i progetti, prevalentemente orientati a casi d'uso specifici per flusso di lavoro in credito, antiriciclaggio e tesoreria. Il lato dell'offerta è maturo. Il lato della governance non lo è.

L'architettura dell'indice a sei dimensioni

Questo indice misura la prontezza dell'IA agentica su sei dimensioni. Ogni dimensione ha una scala di maturità a quattro livelli. Il punteggio di indice di una banca è il prodotto dei suoi punteggi dimensionali ponderati per la rilevanza regolamentare. Il quadro di ponderazione è calibrato su SR 11-7, SS1/23, gli obblighi dell'Allegato III dell'EU AI Act e le categorie delle Sound Practice FSB.

Dimensione 1: copertura dei livelli di autonomia

Cosa misura: se ogni flusso di lavoro agentico in produzione è classificato su una scala di autonomia definita, senza che alcun flusso operi al di sopra del livello consentito in assenza di un'eccezione documentata — e se quell'assegnazione di livello definisca non solo i confini delle attività ma anche i confini di responsabilità legale.

La scala di autonomia rimane il costrutto fondante. I cinque livelli — dal Livello 0 (osservazione e sola lettura) fino al Livello 4 (orchestrazione multi-strumento con checkpoint obbligatori) — definiscono il confine di permessi dell'agente, non la sofisticazione del modello. Lo stesso LLM sottostante può collocarsi a qualunque livello; ciò che cambia è il wrapper. Il Livello 5 — esecuzione auto-orchestrata senza checkpoint — non dovrebbe esistere nella produzione bancaria nel 2026. OSWorld al 66,3% di completamento delle attività si compone: tre chiamate concatenate al 66% ciascuna producono un tasso di successo end-to-end del 29%. Cinque concatenamenti producono il 13%.

Il Model AI Governance Framework for Agentic AI dell'IMDA di Singapore, pubblicato a Davos il 22 gennaio 2026 come primo quadro di governance al mondo a trattare esplicitamente gli agenti autonomi (IMDA, 2026), definisce quattro concetti equivalenti: gerarchia del principale (chi può istruire l'agente), confine dell'attività (cosa l'agente è autorizzato a fare), impronta minima (l'agente non dovrebbe accumulare permessi oltre il bisogno immediato) ed esplicabilità (i percorsi di ragionamento devono essere tracciabili). Questi quattro si mappano direttamente sul modello dei livelli di autonomia.

Il problema principale-agente e l'attribuzione legale dell'intento. Il quadro IMDA introduce una dimensione che le specifiche puramente ingegneristiche sottovalutano: quando un agente IA agisce come delegato di un'entità aziendale — eseguendo un pagamento, approvando una modifica di un limite di credito, presentando una segnalazione regolamentare — genera un problema legale di attribuzione dell'intento. Sotto l'autorità di chi ha agito l'agente? Chi ne risponde quando l'agente si discosta dai vincoli del prompt? A chi si attribuisce l'intento quando l'agente sceglie tra due interpretazioni valide ma differenti di un'istruzione ambigua?

Per i flussi di lavoro di Livello 3 e Livello 4 — dove l'agente esegue azioni rilevanti in autonomia entro parametri definiti — la definizione del livello deve specificare non solo il confine tecnico dell'attività ma anche il confine di responsabilità legale: un principale umano nominato che ha autorizzato il flusso, uno strumento di delega documentato (delibera del consiglio, delega di poteri o mandato firmato), le condizioni in cui le azioni dell'agente vincolano l'istituto e le condizioni in cui uno scostamento dai vincoli del prompt innesca annullamento automatico, escalation e registrazione dell'incidente. Senza questo, la classificazione del livello di autonomia è un artefatto ingegneristico che non sopravviverà a una contestazione legale, a un esame regolamentare o a una controversia con una controparte i cui fondi si sono mossi perché un agente ha frainteso un'istruzione condizionale.

Livello di maturità	Come si presenta	Punteggio di indice
Livello 1 — Non classificato	Nessuna tassonomia formale; agenti descritti informalmente come "assistenti" o "co-pilot"; nessuna documentazione dei livelli	0–24
Livello 2 — Classificato, non validato	Etichette di livello applicate; nessuna validazione formale che il wrapper imponga il livello dichiarato; flussi di Livello 5 possono esistere senza essere rilevati	25–49
Livello 3 — Classificato e controllato	Tutti i flussi in produzione etichettati Livello 0–4; Livello 5 contrattualmente vietato; artefatti trimestrali di audit dei livelli disponibili per la revisione MRM	50–74
Livello 4 — Classificato, controllato e pronto per le evidenze	Registro completo dei livelli; monitoraggio continuo della deriva; ogni riclassificazione di livello innesca una nuova validazione MRM; l'auditor può ricostruire su richiesta l'assegnazione di livello di qualunque flusso	75–100

Dimensione 2: architettura di governance

Cosa misura: se il piano di controllo degli agenti a cinque componenti sia pienamente ingegnerizzato e operativo in produzione — non descritto in un documento di policy.

La consultazione FSB di giugno 2026 afferma esplicitamente che i quadri di governance esistenti non sono stati progettati per sistemi che "pianificano, compiono azioni in più passaggi e interagiscono con sistemi esterni senza supervisione umana passo dopo passo". Il piano di controllo a cinque componenti traduce quell'osservazione in una checklist ingegneristica:

Componente 1: identità e permessi. Ogni agente è associato a esattamente un account di servizio con token OAuth client_credentials limitati alla minima superficie API. Il token dell'agente di blocco carta può chiamare POST /accounts/{id}/freeze con un tetto di importo; non può chiamare nulla in custodia, tesoreria o trading. I segreti degli account di servizio ruotano su un ciclo definito. Le credenziali a lunga vita sono il guasto più comune del piano di controllo nei progetti in produzione. L'FSB raccomanda esplicitamente "il privilegio minimo per gli agenti e i loro sub-agenti, e una gestione dinamica di identità e accessi che concede, modifica o revoca i permessi in tempo reale in base al comportamento e al contesto, anziché i profili statici usati per gli utenti umani".

Componente 2: guardrail deterministici. Ogni chiamata di strumento dell'LLM passa attraverso un router semantico (NeMo Guardrails, LangChain Guardrails o equivalente) prima di raggiungere l'API di produzione. Il router classifica l'intento rispetto a una allow-list finita e respinge le chiamate al di fuori di essa. Un validatore di schema JSON verifica poi il payload. Un pacs.008 con amount: 0 è un guasto del modello, non una transazione legittima. Lo è anche un bonifico verso un paese non pre-approvato per il segmento di clientela originante.

Componente 3: policy-as-code. Open Policy Agent (o equivalente) si colloca tra il validatore e l'API. Le policy sono versionate in Git; le decisioni di rifiuto sono registrate; lo stesso motore di policy che regola le chiamate microservizio-a-microservizio nella piattaforma esistente regola le chiamate di strumento degli agenti. La guida di maggio 2026 dell'EU AI Office sulla registrazione di audit dell'Articolo 12 richiede che le voci di log per i sistemi di IA ad alto rischio attribuiscano le azioni a una specifica istanza di agente, non solo a un deployment o a una credenziale API. I progetti multi-agente che condividono una credenziale falliscono questo test.

Componente 4: completezza dell'audit. Archiviazione WORM immutabile — S3 Object Lock, immutabilità di Azure Blob o un database con registro. Ogni invocazione cattura: timestamp, ID agente, ID account di servizio, hash del prompt di sistema, contesto recuperato, fornitore dell'LLM più modello più versione, output grezzo dell'LLM, chiamata di strumento parsata, decisione OPA, risposta dell'API, effetto a valle e UID dell'approvatore ove applicabile. I record sono firmati crittograficamente al momento della scrittura. La precisazione dell'Articolo 12 dell'EU AI Act pubblicata a maggio 2026 indica l'identità per agente come una lacuna specifica; gli istituti che eseguono più istanze di agente condividendo una credenziale sono esplicitamente non conformi.

Componente 5: interruttore di emergenza e IA che monitora l'IA. Un'API a pulsante rosso testata che annulla tutte le invocazioni di agenti in corso entro una classe di permessi in meno di 60 secondi. La parola testata è portante. Un interruttore di emergenza non testato è un'aspirazione di policy.

Oltre all'interruttore di emergenza, la Dimensione 2 al massimo livello di maturità deve imporre un'architettura di IA che monitora l'IA (AMI) — e la ragione è aritmetica. I dati di IBM stimano la popolazione media di agenti aziendali a 1.661 entro il 2027 (IBM, 2026). L'FSB accetta esplicitamente che il monitoraggio umano continuo delle singole decisioni degli agenti diventa fisicamente impossibile su larga scala, e raccomanda di integrare la supervisione umana con sistemi di IA che allertano gli esseri umani quando le metriche di performance vengono violate o il comportamento dell'agente devia. Un compliance officer umano non può monitorare 1.661 agenti simultanei che eseguono decisioni a velocità di macchina. Il modello di controllo che presume di poterlo fare fallirà la prima volta che una popolazione di agenti subisce uno spostamento comportamentale correlato — un aggiornamento di modello che cambia silenziosamente le distribuzioni di output su decine di flussi di lavoro contemporaneamente.

Il livello AMI non è un sostituto della supervisione umana; è il meccanismo di rilevamento che rende la supervisione umana azionabile su scala. Le sue tre funzioni obbligatorie sono: rilevamento della deriva (monitoraggio statistico della distribuzione di output tra agenti dello stesso livello e tipo, segnalando deviazioni oltre una soglia sigma definita prima che un essere umano possa notarle); allerta di correlazione tra agenti (individuazione del momento in cui più agenti iniziano a eseguire secondo uno schema direzionalmente coerente non presente il giorno prima — il segnale precoce della dinamica di gregge descritta nella Dimensione 6); e pre-escalation delle anomalie (generazione di un'allerta strutturata, con contesto e valutazione di reversibilità, a un decisore umano prima che l'interruttore di emergenza sia l'unica opzione rimasta). L'FSB raccomanda esplicitamente le architetture AMI nella Sound Practice 9. Un istituto che raggiunge il Livello di maturità 4 nella Dimensione 2 senza un livello AMI operativo non è al Livello 4.

Livello di maturità	Come si presenta	Punteggio di indice
Livello 1 — Ad hoc	Alcuni componenti presenti ma non documentati; nessun titolare formale del piano di controllo; nessuna registrazione di test dell'interruttore di emergenza	0–24
Livello 2 — Documentato	Tutti e cinque i componenti documentati; permangono lacune di implementazione; l'interruttore di emergenza esiste ma non è testato; registri WORM incompleti	25–49
Livello 3 — Operativo	Tutti e cinque i componenti operativi in produzione; interruttore di emergenza testato trimestralmente; registri WORM completi per i flussi di Livello 3 e superiori; policy OPA sotto controllo di versione	50–74
Livello 4 — Pronto per le evidenze	Il piano di controllo genera evidenze continue e firmate crittograficamente; l'identità per agente soddisfa l'Articolo 12 dell'EU AI Act; i risultati dei test dell'interruttore di emergenza sono artefatti di audit; il rilevamento della deriva è automatizzato	75–100

Dimensione 3: completezza delle evidenze regolamentari

Cosa misura: se l'istituto sia in grado di produrre su richiesta un pacchetto completo di evidenze regolamentari per ogni flusso di lavoro, valido per SR 11-7, SS1/23, EU AI Act, DORA, FSB e i quadri nazionali applicabili.

La Federal Reserve ha ripetutamente chiarito che SR 11-7 si applica a qualunque sistema di decisione da input a output, indipendentemente dal fatto che l'istituto classifichi l'LLM sottostante come un modello. La SS1/23 della PRA è ancora più ampia. La classificazione ad alto rischio dell'Allegato III dell'EU AI Act copre la maggior parte dei casi d'uso degli LLM nei servizi finanziari — scoring del credito, rilevamento frodi, adeguatezza del cliente, pricing assicurativo. La piena conformità per i sistemi nell'ambito UE è richiesta entro il 2 agosto 2026, con Germania, Francia e Paesi Bassi confermati per revisioni di vigilanza nel Q3 2026. Il Supervisory Toolkit dell'IOSCO per l'uso dell'IA nei mercati dei capitali, finalizzato il 25 maggio 2026, copre l'intero ciclo di vita dell'IA, dal ML tradizionale alla GenAI fino all'IA agentica — e individua esplicitamente che le capacità di pianificazione, la memoria a lungo termine e l'accesso a strumenti esterni creano rischi di comportamento emergente e guasti a cascata tra sistemi interconnessi.

Il modello delle tre linee di difesa, applicato agli agenti:

Prima linea (titolare del modello): documenta l'uso previsto, la tracciabilità dei dati di addestramento e valutazione, lo schema del prompt di sistema, la allow-list delle chiamate di strumento e i risultati dei test dell'interruttore di emergenza. Possiede il monitoraggio della deriva in produzione. Possiede il set di valutazione held-out specifico della banca — il lavoro su cui la maggior parte degli istituti investe troppo poco.
Seconda linea (team MRM): valida l'agente prima della produzione. Il rapporto di validazione copre i punteggi di valutazione del fornitore (MMLU, HumanEval — utili ma non sufficienti), i punteggi di valutazione specifici della banca, i risultati del red-team di prompt-injection, l'analisi di bias ed equità e una dichiarazione quantificata del rischio residuo.
Terza linea (internal audit): verifica i gate del piano di controllo e la completezza dei registri di audit rispetto a un campione di decisioni in produzione. Il ciclo di audit del 2027 sarà sostanzialmente diverso da quello del 2025; pianificate il budget di conseguenza.

Il Model AI Governance Framework for Agentic AI di Singapore (MGF) richiede agli istituti finanziari di valutare gli agenti su quattro dimensioni: delimitare autonomia e accessi dell'agente, stabilire la responsabilità umana in checkpoint definiti, implementare controlli tecnici inclusa la verifica di base e abilitare la responsabilità dell'utente finale attraverso la trasparenza. L'AI Risk Management Toolkit della MAS di marzo 2026 — sviluppato nell'ambito del Project MindForge con 24 istituti — rappresenta la guida a livello nazionale più dettagliata operativamente oggi disponibile.

Livello di maturità	Come si presenta	Punteggio di indice
Livello 1 — Consapevolezza della conformità	Obblighi regolamentari identificati; nessuna evidenza a livello di flusso prodotta; model card SR 11-7 assenti o incomplete	0–24
Livello 2 — Validazione puntuale	Validazione pre-deployment completata; le evidenze esistono alla data di deployment; nessun monitoraggio continuo; nessuna cadenza di evidenze per flusso	25–49
Livello 3 — Evidenze continue	Model card mantenute per ogni flusso; suite di valutazione continue rieseguite settimanalmente; registrazione per agente dell'Articolo 12 dell'EU AI Act operativa; categorie delle Sound Practice FSB mappate sui controlli interni	50–74
Livello 4 — Pronto per gli esaminatori	Pacchetto completo di evidenze regolamentari recuperabile su richiesta per ogni flusso; registrazioni di validazione delle tre linee di difesa aggiornate; suite di valutazione specifica della banca che intercetta le regressioni da aggiornamento di modello più rapidamente dei cicli di rilascio del fornitore; mappatura a quattro dimensioni del MAS MGF completata	75–100

Dimensione 4: responsabilità economica

Cosa misura: se l'istituto misuri il ritorno dell'IA agentica usando un'economia unitaria a livello di flusso di lavoro anziché affermazioni di produttività a livello di programma.

L'analisi di McKinsey rileva che l'IA agentica potrebbe ridurre i costi operativi bancari del 15–20% (McKinsey, 2026) — l'equivalente del 9–15% dei profitti operativi — ma che la maggior parte di questi guadagni verrà eroso dalla concorrenza. Il vantaggio competitivo più duraturo è negli istituti che costruiscono l'infrastruttura di misurazione per agire più rapidamente dei concorrenti quando diventano disponibili miglioramenti di modello e di flusso. Il dato di Cambridge CCAF, secondo cui il 76% dei grandi istituti finanziari non riesce a misurare il valore dei progetti di IA, non è un problema di qualità dei dati. È un problema di architettura della responsabilità: i programmi vengono budgetati e rendicontati a livello di portafoglio, rendendo impossibile ricondurre valore o fallimento ai singoli flussi di lavoro.

Le quattro metriche di economia unitaria che sopravvivono a una conversazione con il CFO:

Costo per decisione completata, comprensivo del costo di annullamento e riparazione delle decisioni fallite. Un agente di redazione di SAR che riduce del 40% il tempo del BSA officer ma genera il 12% di segnalazioni falsamente positive ha distrutto valore, non creato. Questa è la metrica che il dato di Deloitte — il 93% della spesa IA va all'infrastruttura e solo il 7% a persone e governance — rende non misurabile: gli istituti non possono calcolare il costo di annullamento di un guasto di governance che non hanno strumentato per rilevare.

Interventi manuali evitati, conteggiati al netto dei nuovi interventi creati dalla supervisione del piano di controllo e dalla gestione delle eccezioni. Il punto non è minimizzare l'attenzione umana; è reindirizzarla verso decisioni a maggiore leva.

Tasso di annullamento — la percentuale di azioni eseguite dall'agente annullate entro 24 ore. Un flusso di Livello 3 con un tasso di annullamento superiore al 2% è un problema di affidabilità. Sopra il 5% è un problema del piano di controllo. Questo numero va tracciato per flusso, non per programma. Una media di portafoglio nasconde l'anomalia che genererà il prossimo rilievo di audit.

Completezza della traccia di audit — la percentuale di decisioni con provenienza completa ricostruibile dal registro WORM. Dovrebbe essere il 100% sui flussi di Livello 3 e Livello 4. Qualunque valore inferiore è un guasto di policy.

Il mercato dell'IA agentica nel settore bancario cresce a un ritmo che rende urgente questa infrastruttura di misurazione. Il rapporto Banking Trends 2026 di Newgen prevede una crescita del mercato dell'IA agentica da 2,1 miliardi a 81 miliardi di dollari entro il 2034. La modellazione di scenario di McKinsey indica che l'esito più probabile — uno scenario con probabilità del 30% — prevede agenti IA che raggiungono un rapporto agente-umano di circa 20:1 generando una riduzione dei costi del 15–20%. I pionieri potrebbero aprire un divario di 4 punti percentuali di ROTE rispetto ai più lenti. Quel margine è reale, ma è misurabile e difendibile solo se l'economia unitaria è tracciata a livello di flusso di lavoro.

Livello di maturità	Come si presenta	Punteggio di indice
Livello 1 — Rendicontazione a livello di budget	Spesa IA tracciata; nessuna economia unitaria a livello di flusso; affermazioni di produttività non validate rispetto alle baseline operative	0–24
Livello 2 — Metriche aggregate	Metriche di produttività e di costo a livello di programma disponibili; tasso di annullamento non tracciato per flusso; la rendicontazione al CFO si basa sul personale risparmiato	25–49
Livello 3 — Tracciamento a livello di flusso	Costo per decisione completata tracciato per flusso; tasso di annullamento monitorato; interventi manuali evitati calcolati al netto dell'onere del piano di controllo	50–74
Livello 4 — Piena responsabilità economica	Tutte e quattro le metriche di economia unitaria tracciate per flusso; tassi di annullamento superiori al 2% innescano una revisione automatica del flusso; la completezza della traccia di audit è una metrica di dashboard riportata al consiglio ogni trimestre	75–100

Dimensione 5: prontezza organizzativa

Cosa misura: se l'istituto disponga di talento, governance interfunzionale, rendicontazione a livello di consiglio e cultura per impiegare e sostenere l'IA agentica su scala — non solo per sperimentarla.

Il dato di Cambridge CCAF è preciso: la preparazione della forza lavoro è quattro volte più predittiva della redditività dell'IA rispetto all'acquisto di tecnologia. Le imprese in cui la forza lavoro è altamente preparata riportano una redditività dell'IA del 23%; quelle in cui non lo è riportano il 6%. Solo il 10% di tutte le imprese descrive la propria forza lavoro come pronta. Le fintech raggiungono lo stadio trasformativo tre volte più spesso degli istituti finanziari tradizionali — 19% contro 6% — pur spendendo molte di loro meno di 10.000 dollari all'anno in IA. Il differenziatore è l'architettura, non il budget.

McKinsey descrive tre posture strategiche per le banche di fronte all'IA agentica: attendere e osservare, adattarsi diventando un fornitore di prodotti dietro le interfacce degli agenti, oppure competere per detenere la relazione diretta con il cliente. La maggior parte delle banche adotta per default la prima postura pur presentandosi come se perseguisse la terza. La conversazione strategica deve essere esplicita, ed è al consiglio che deve approdare.

La Sound Practice 1 dell'FSB affronta direttamente la responsabilità del consiglio: i consigli hanno la responsabilità ultima della governance dell'IA, nel definire la propensione al rischio e nell'assicurare che le strutture di responsabilità siano chiare. L'enforcement dell'Articolo 5 dell'EU AI Act e le disposizioni sulla responsabilità del consiglio dell'Articolo 5 di DORA traducono quel principio in responsabilità personale. Il Supervisory Toolkit dell'IOSCO di maggio 2026 afferma che "i sistemi di IA non sono più progetti isolati. Sono infrastruttura operativa centrale che richiede validazione continua, governance a livello di consiglio ed evidenze di vigilanza pronte per l'ispezione".

Il quadro di rendicontazione al consiglio per l'IA agentica dovrebbe coprire quattro numeri per flusso di lavoro: livello di autonomia, completezza della traccia di audit, tasso di annullamento e costo netto per decisione. Più un elenco dei cinque principali rischi residui. Le slide di un documento di policy non sono un sostituto.

Livello di maturità	Come si presenta	Punteggio di indice
Livello 1 — Consapevolezza	Consiglio consapevole del programma di IA; nessuna governance specifica per gli agenti; ruolo di Chief AI Officer assente; comitato di governance interfunzionale non costituito	0–24
Livello 2 — Struttura in formazione	Funzione dedicata alla governance dell'IA istituita; struttura di responsabilità definita; dichiarazione di propensione al rischio per l'IA in bozza; programma di alfabetizzazione IA della forza lavoro nascente	25–49
Livello 3 — Governance operativa	Il consiglio riceve una dashboard trimestrale sull'IA agentica con metriche per flusso; il comitato interfunzionale sul rischio di modello copre gli agenti; preparazione della forza lavoro tracciata rispetto a benchmark; capacità MRM dimensionata per validare oltre 20 agenti al trimestre	50–74
Livello 4 — Governance come vantaggio competitivo	Il pacchetto di evidenze per il consiglio soddisfa le Sound Practice FSB 1–4 e i requisiti di responsabilità personale dell'Articolo 5 di DORA; la capacità MRM valida oltre 50 agenti al trimestre; cultura di miglioramento continuo della governance documentata nel bilancio annuale; l'istituto risponde alla consultazione FSB	75–100

Dimensione 6: allineamento regolamentare globale

Cosa misura: se il modello operativo dell'IA agentica dell'istituto sia allineato ai quattro principali quadri regolamentari applicabili nelle sue principali giurisdizioni operative — e se tale allineamento sia provato, non asserito.

Il quadro regolamentare per l'IA agentica si è cristallizzato nella prima metà del 2026. Quattro quadri sono ora operativamente rilevanti:

Stati Uniti (SR 11-7 / OCC Bulletin 2025-26). La guida della Federal Reserve sulla gestione del rischio di modello si applica a qualunque flusso di decisione basato su LLM. L'OCC ha pubblicato una guida specifica di gestione del rischio di modello per le community bank che sottolinea la proporzionalità — "proporzionato non significa assente". Il modello delle tre linee di difesa si applica pienamente.

Regno Unito (PRA SS1/23 / FCA). I principi di gestione del rischio di modello della SS1/23 della PRA sono abbastanza ampi da comprendere tutti gli agenti basati su LLM. L'autorità di vigilanza britannica sta sviluppando aspettative specifiche per l'IA agentica. La FCA è tra le autorità nazionali che emanano guida supplementare sulla governance dell'IA nei servizi finanziari.

Unione Europea (EU AI Act / DORA). Gli obblighi per i sistemi di IA ad alto rischio dell'Allegato III sono in vigore dal 2 agosto 2026. I requisiti includono gestione strutturata del rischio (Articolo 9), governance dei dati (Articolo 10), trasparenza (Articolo 13), supervisione umana (Articolo 14) e registrazione di audit per agente (Articolo 12). Le disposizioni sulla responsabilità del consiglio dell'Articolo 5 di DORA si applicano alla resilienza operativa, inclusa l'IA agentica. La guida di maggio 2026 dell'EU AI Office impone un'identità crittografica per agente nei registri di audit. La non conformità comporta sanzioni fino a 35 milioni di euro o al 7% del fatturato globale.

Asia-Pacifico (MAS / IMDA / regolatori regionali). L'IMDA di Singapore ha pubblicato il primo Model AI Governance Framework for Agentic AI al mondo a Davos il 22 gennaio 2026. La MAS ha pubblicato il suo AI Risk Management Toolkit a marzo 2026 nell'ambito del Project MindForge, sviluppato con 24 istituti finanziari. Il quadro copre ambito e supervisione dell'IA, gestione del rischio dell'IA, gestione del ciclo di vita dell'IA e abilitatori organizzativi. Le Linee Guida formali proposte dalla MAS sulla gestione del rischio dell'IA sono attese in versione finale nel 2026, passando dai principi volontari FEAT ad aspettative di vigilanza con implicazioni di conformità. L'ASIC australiana ha emesso una lettera aperta a maggio 2026 chiedendo un rafforzamento cibernetico in risposta alle minacce dell'IA di frontiera.

FSB (globale, trans-giurisdizionale). La consultazione FSB di giugno 2026 — il primo quadro globale a trattare l'IA agentica come operativamente distinta — individua sei modelli di supervisione per i sistemi agentici e raccomanda il presidio umano (human-in-command) per i flussi ad alta autonomia, il monitoraggio con IA nel ciclo (AI-in-the-loop) man mano che le popolazioni di agenti crescono, e l'approvazione umana o la doppia autorizzazione per gli agenti che eseguono transazioni finanziarie al di sopra di valori soglia. I commenti si chiudono il 22 luglio 2026; il rapporto finale ai ministri delle finanze del G20 è atteso a ottobre 2026.

Livello di maturità	Come si presenta	Punteggio di indice
Livello 1 — Inventario per giurisdizione	Quadri applicabili identificati per giurisdizione; nessuna mappatura a livello di flusso; "conformità per analogia" ai quadri pre-IA	0–24
Livello 2 — Mappatura dei quadri	Ogni flusso agentico in produzione mappato sui quadri applicabili; lacune identificate; piani di rimedio in bozza	25–49
Livello 3 — Conformità provata	Pacchetti di evidenze per flusso prodotti rispetto ai quadri applicabili; registrazione per agente dell'Articolo 12 dell'EU AI Act completa; Sound Practice FSB 5–10 mappate sui controlli interni; mappatura a quattro dimensioni del MGF di Singapore completata	50–74
Livello 4 — Engagement regolamentare proattivo	L'istituto partecipa alle consultazioni di FSB, IOSCO e dei regolatori nazionali; l'intelligence regolamentare è integrata nel ciclo di vita di dispiegamento degli agenti; le evidenze di vigilanza sono generate automaticamente dalle pipeline operative, non assemblate a posteriori	75–100

Il punteggio composito dell'indice

I sei punteggi dimensionali si combinano in un indice composito secondo la seguente ponderazione per rilevanza regolamentare:

Dimensione	Peso	Motivazione
Architettura di governance	25%	Peso più alto: il piano di controllo è l'unico elemento che fallisce in sicurezza quando fallisce il modello
Completezza delle evidenze regolamentari	20%	Essenziale per la scadenza del 2 agosto dell'EU AI Act e per la prontezza di vigilanza continua
Copertura dei livelli di autonomia	15%	Leggermente ridotta per riflettere che la classificazione dei livelli, pur fondante, è ormai un'aspettativa di soglia anziché un differenziatore
Responsabilità economica	15%	Critica per l'allineamento CFO/ROI rispetto agli scenari di McKinsey su profit pool e divario di ROTE
Prontezza organizzativa	10%	Snellita: la governance strutturale è necessaria ma sempre più scontata negli istituti di Tier 1
Allineamento regolamentare globale	15%	Aumentata: deve tenere conto attivamente del rischio di concentrazione ICT su terze parti di DORA, dell'esecuzione transfrontaliera degli agenti e della misurazione del rischio sistemico di gregge

Un punteggio composito inferiore a 50 significa che l'istituto non può difendere la propria postura attuale sull'IA agentica davanti a un esaminatore SR 11-7, a una revisione in loco della PRA o a una valutazione di vigilanza dell'EU AI Act. Un punteggio di 50–74 significa che i controlli esistono ma non sono ancora continui o pronti per le evidenze. Un punteggio di 75–100 significa che la governance è un asset competitivo, non un costo di conformità.

Segnali attuali da monitorare

Segnale	Cosa significa per le banche	Fonte
52% di adozione dell'IA agentica	La governance è in ritardo; gli istituti in fase di scaling o trasformazione hanno bisogno di un piano di controllo, non di un altro progetto pilota	Cambridge CCAF
66,3% di successo nelle attività OSWorld	Tasso di fallimento di uno su tre nell'uso strutturato di strumenti; l'esecuzione non supervisionata su API di fondi dei clienti è insostenibile	Stanford HAI
31% dei nuovi casi d'uso bancari di IA sono agentici	La categoria a più rapida crescita nel Q1 2026; l'infrastruttura di governance resta sempre più indietro rispetto al dispiegamento	Evident Insights
Sound practices FSB di giugno 2026	Primo quadro globale che tratta l'IA agentica come operativamente distinta; ora non vincolante, deliverable per il G20 a ottobre 2026	FSB
Scadenza EU AI Act del 2 agosto 2026	Obblighi completi dell'Allegato III in vigore; revisioni di vigilanza confermate per Germania, Francia e Paesi Bassi nel Q3 2026	EU AI Office
Agenti a lungo orizzonte di JP Morgan: 2026	Il dispiegamento nello stesso anno di agenti autonomi da 1–2 ore cambia il benchmark competitivo per ogni G-SIB e banca regionale	CNBC
IBM: 1.661 agenti entro il 2027	La proliferazione di agenti aziendali è la sfida di governance del 2027 se non affrontata nel 2026; solo l'11% si dichiara preparato	IBM
MGF di Singapore per l'IA agentica: gennaio 2026	Primo quadro di governance al mondo specifico per l'IA agentica; quattro concetti (gerarchia del principale, confine dell'attività, impronta minima, esplicabilità) applicabili universalmente	IMDA
Supervisory Toolkit IOSCO: maggio 2026	Copertura dell'intero ciclo di vita dell'IA inclusa l'IA agentica; rischi di comportamento emergente e guasti a cascata nominati esplicitamente	IOSCO
McKinsey: divario di 4 pp di ROTE	I pionieri dell'IA potrebbero aprire un vantaggio di ROTE di 4 punti percentuali sui ritardatari; l'infrastruttura di misurazione per cogliere quel divario è l'economia unitaria a livello di flusso	McKinsey

Cosa significa per tipologia di istituto

Banche di importanza sistemica globale (G-SIB)

Le G-SIB affrontano la sfida di governance più dura — non perché la tecnologia sia più complessa, ma perché scala e giurisdizione amplificano ogni lacuna. Una G-SIB con 200 agenti in produzione su 30 linee di business in 15 giurisdizioni regolamentari ha 200 potenziali rilievi SR 11-7, 200 potenziali guasti nei registri di audit dell'EU AI Act e 200 potenziali lacune nelle Sound Practice FSB — simultaneamente. La priorità d'investimento non è un altro progetto pilota. È il piano di controllo centrale, l'infrastruttura unificata dei registri di audit e una capacità MRM in grado di validare oltre 50 agenti al trimestre.

L'annuncio di JP Morgan sugli agenti autonomi a lungo orizzonte nel 2026 — i piani di controllo degli agenti di DBS nella preparazione dei memo di credito e nell'assistenza ai clienti — BNP Paribas che centra i suoi obiettivi di IA del 2025 e avvia la rendicontazione trimestrale del ROI — questi sono i dati competitivi rispetto a cui ogni consiglio di una G-SIB dovrebbe confrontarsi. La questione istituzionale non è se dispiegare; è se il piano di controllo possa scalare allo stesso ritmo della popolazione di agenti.

L'FSB mette esplicitamente in guardia contro il rischio di concentrazione derivante dalla dipendenza da pochi fornitori di cloud, hardware e modelli di base — e osserva che modelli e dati condivisi potrebbero spingere gli istituti verso comportamenti correlati che amplificano gregge e prociclicità in una fase di recessione. Le G-SIB che approvvigionano l'80% della propria infrastruttura agentica da due fornitori di modelli di base stanno costruendo una correlazione sistemica che dovranno spiegare sia ai propri team di rischio sia ai propri supervisori.

Gregge sistemico e prociclicità: il rischio architetturale che nessuna singola banca può risolvere da sola. Il tracker dei casi d'uso di Evident Insights per il Q1 2026 rileva che il 68% dei dispiegamenti agentici bancari usa ora una coda lunga di fornitori specializzati — la maggior parte dei quali costruita su identici modelli di frontiera sottostanti, prevalentemente Claude di Anthropic. Questo crea una vulnerabilità di gregge strutturale materialmente diversa dai rischi di concentrazione che le banche già gestiscono nell'infrastruttura cloud o nei circuiti di pagamento.

Il meccanismo è il seguente. L'agente di trading, l'agente di liquidità e l'agente di restringimento del credito di una banca sono costruiti su piattaforme di fornitori diversi. Hanno prompt di sistema diversi, schemi di chiamate di strumento diversi, gate di policy OPA diversi. Ma condividono un identico modello sottostante — gli stessi pesi, la stessa distribuzione di addestramento, gli stessi pattern comportamentali emergenti sotto stress distributivo. Quando si verifica un evento di mercato significativo — un evento creditizio su un sovrano, una comunicazione della Fed che diverge dal consenso, il fallimento di una grande banca — ogni agente costruito sullo stesso modello sottostante elaborerà l'evento attraverso le stesse ponderazioni implicite delle feature. Se quelle ponderazioni producono una propensione direzionale verso un comportamento di risk-off, gli agenti di trading, liquidità e credito di più banche potrebbero eseguire simultaneamente vendite correlate, cicli di restringimento del credito o ritiri di liquidità — non perché l'agente di una singola banca stia funzionando male, ma perché stanno tutti funzionando correttamente sopra lo stesso modello.

L'IOSCO ha nominato questa dinamica esplicitamente nel Supervisory Toolkit di maggio 2026, avvertendo che le capacità di pianificazione, la memoria a lungo termine e l'accesso a strumenti esterni creano rischi di comportamenti emergenti e guasti a cascata tra sistemi interconnessi. La consultazione FSB di giugno 2026 affronta direttamente la prociclicità — osservando che, se gli agenti IA sono addestrati sugli stessi dati e usano modelli simili, è probabile che il loro comportamento sia correlato, amplificando potenzialmente i movimenti di mercato.

Misurare la resilienza al gregge sistemico nella Dimensione 6 richiede tre informazioni e un controllo architetturale. Le informazioni: qual è il modello di base sottostante per ciascun flusso agentico in produzione; qual è la mappa di dipendenza dai fornitori nell'intero portafoglio di agenti; e qual è la valutazione dell'istituto del proprio contributo al comportamento correlato tra istituti in uno scenario di stress definito. Il controllo architetturale: almeno uno degli agenti primari nelle classi di attivi ad alto rischio (trading, gestione della liquidità, credito) deve usare un modello sottostante diverso o una variante fine-tuned significativamente diversa, così che la risposta distributiva di un singolo modello a un evento di stress non possa produrre un esito pienamente correlato su tutti i flussi agentici contemporaneamente. Questa è la diversità di modello come gestione del rischio sistemico — l'equivalente agentico della diversificazione delle controparti.

Banche di transazione e corporate

I flussi agentici a più alto ROI sono la riparazione dei pagamenti, l'estrazione di documenti KYC, i servizi di tesoreria, le rotture di riconciliazione e la deflezione delle FAQ dei clienti corporate. Tutti di Livello 2 o di Livello 3 delimitato secondo la scala di autonomia. Al cliente corporate non interessa che un agente abbia eseguito la riparazione del pagamento; interessa che lo SLA sia migliorato e che il tasso di contestazione sia rimasto stabile. Aprite con le quattro metriche di economia unitaria, non con affermazioni sulle capacità tecnologiche.

Il quadro della Tesoreria Autonoma — osservare → rilevare → prevedere → preparare → richiedere approvazione umana → inviare payload firmato — è l'architettura corretta per gli agenti di tesoreria corporate nel 2026. Il payload pain.001 preparato dall'agente passa attraverso gli stessi motori di validazione dello schema, scoring delle frodi e controllo sanzioni di una sottomissione da un ERP corporate. Il livello di condizionalità (soglia, ammissibilità del collaterale, soglia minima di buffer) regola se il pain.001 viene inviato, non la forma che assume. Le piattaforme di tesoreria che inventano payload su misura per esprimere condizioni usciranno dal percorso consumabile dalla banca.

Banche regionali e community bank

L'analisi di scenario di McKinsey individua tre posizioni praticabili: attendere e osservare, adattarsi come fornitore di prodotti dietro le interfacce degli agenti, oppure competere per la relazione diretta con il cliente. Le banche regionali che non compiono questa scelta esplicitamente scivoleranno per default nella postura di attesa — e scopriranno che il debito di governance accumulato durante quella deriva è l'ostacolo principale quando la pressione competitiva imporrà di agire.

Il principio di proporzionalità dell'OCC — "proporzionato non significa assente" — è il quadro operativo per la governance regionale. Una banca regionale non ha bisogno di validare 50 agenti al trimestre. Ha bisogno di un model risk officer che comprenda la scala di autonomia, di un'implementazione di una piattaforma di agenti di un fornitore che integri di serie scoping OAuth, integrazione OPA e registrazione di audit WORM, e di un modello di rendicontazione al consiglio che copra le quattro metriche di economia unitaria. L'investimento è nella progettazione dei flussi e nella UX dell'operatore, non in un'ingegneria su misura del piano di controllo.

L'indagine Banking Priorities 2026 di CSI ha rilevato che l'85% degli intervistati delle community bank ritiene che l'adozione dell'IA fornirà un vantaggio competitivo significativo e il 50% l'ha indicata come la principale tendenza tecnologica per il 2026. L'infrastruttura di governance è ciò che separa l'85% di chi ci crede dalla piccola frazione che ne coglierà il valore.

Fintech, PSP e fornitori di infrastruttura

La domanda di prodotto per i fornitori di IA agentica nel 2026 non è "la vostra piattaforma rende meglio degli esseri umani?" È "la vostra piattaforma produce una traccia di audit conforme a SR 11-7, un log per agente conforme all'Articolo 12 dell'EU AI Act e un modello di supervisione conforme alla Sound Practice 10 dell'FSB — di serie?" I fornitori che possono rispondere con un sì documentato e verificabile chiuderanno contratti enterprise. Quelli che non possono cicleranno tra prove di concetto mentre i team MRM delle banche trovano motivi per far fallire la validazione.

Oracle ha lanciato una piattaforma enterprise di IA agentica per il settore bancario a febbraio 2026. FIS si è alleata con Mastercard e Visa per abilitare il commercio avviato dagli agenti. Microsoft ha pubblicato un blueprint specifico per il settore bancario per la customer experience agentica. Accenture ha delineato le implicazioni sulla forza lavoro tra front e back office. Il lato dell'offerta è pronto. La differenziazione è nelle evidenze regolamentari come funzionalità di prodotto, non come aggiunta di conformità a posteriori.

La dinamica dei fornitori di coda lunga individuata da Evident — il 68% dei dispiegamenti di IA agentica nelle banche usa ora fornitori specializzati oltre gli hyperscaler — significa che il rischio da fornitori di IA terzi accelera più rapidamente di quanto la maggior parte dei quadri di procurement bancario sia in grado di valutarlo. DORA richiede una due diligence documentata su ogni fornitore ICT terzo. L'EU AI Act sovrappone requisiti aggiuntivi per i fornitori i cui sistemi sono usati in categorie ad alto rischio. Le banche che esternalizzano la governance al proprio fornitore stanno esternalizzando la responsabilità — e il registro di vigilanza lo rifletterà.

Imprese e PMI (servizi finanziari non bancari)

L'onere di governance è proporzionato alla rilevanza di rischio dell'uso dell'IA agentica, ma il quadro di misurazione si applica universalmente. Un'impresa che impiega agenti in contabilità fornitori, ottimizzazione del capitale circolante o pianificazione e analisi finanziaria ha bisogno dello stesso quadro di responsabilità di economia unitaria — costo per decisione completata, tasso di annullamento, completezza della traccia di audit — anche se gli obblighi regolamentari sono più leggeri di quelli su una banca di importanza sistemica. Le Sound Practice FSB sono formulate come guida non vincolante applicabile a istituti finanziari di ogni tipo e dimensione. Il dato di IBM secondo cui le imprese registrano in media 54 incidenti per agente IA all'anno, incluse violazioni di dati e guasti di sistema a cascata, si applica all'intero panorama aziendale.

Per le PMI che accedono ai servizi bancari attraverso interfacce agentiche — lo scenario che McKinsey descrive come consumatori che usano agenti IA come nuovo canale bancario — l'obbligo di governance ricade a monte sulla banca o sul PSP che fornisce il livello agentico. Ma i dati e l'integrità operativa della PMI stessa dipendono dal fatto che quella governance sia reale. Comprendere il punteggio di indice degli istituti che gestiscono i vostri flussi finanziari sta rapidamente diventando un criterio di selezione del fornitore.

La scorecard a livello di consiglio

Una scorecard utile per il consiglio sull'IA agentica dovrebbe tracciare sei metriche — l'insieme minimo che distingue un programma governato da uno non governato:

Distribuzione dei livelli di autonomia: il conteggio dei flussi in produzione per livello (Livello 0–4), aggiornato trimestralmente. Qualunque flusso di Livello 5 è un rilievo da segnalare.
Completezza del piano di controllo: la percentuale di flussi in produzione con tutti e cinque i componenti del piano di controllo operativi (identità, guardrail, policy-as-code, registrazione WORM, interruttore di emergenza).
Completezza della traccia di audit: la percentuale di invocazioni di flussi di Livello 3 e superiori con provenienza completa ricostruibile dal registro immutabile. Obiettivo: 100%.
Tasso di annullamento per flusso: la percentuale di azioni eseguite dall'agente annullate entro 24 ore, tracciata per flusso. Soglia di allerta: 2%. Soglia di escalation: 5%.
Costo netto per decisione: costo unitario a livello di flusso comprensivo dei costi di annullamento e riparazione, confrontato con la baseline manuale. Tracciato rispetto al business case economico del programma.
Aggiornamento delle evidenze regolamentari: la data dell'aggiornamento più recente delle evidenze regolamentari per flusso rispetto ai quadri applicabili (SR 11-7, SS1/23, EU AI Act, MAS MGF). Qualunque flusso con più di 90 giorni di ritardo sulla cadenza delle evidenze è un rilievo di rischio.

Questi sei numeri trasformano l'IA agentica da una serie di slide in un modello operativo. Sono anche i numeri che un esaminatore SR 11-7, un revisore in loco della PRA o un'autorità di vigilanza UE chiederanno per primi.

Le lacune che questo indice affronta

Tre lacune strutturali distinguono questo indice dai quadri esistenti:

Lacuna 1: gli indici esistenti misurano la maturità dell'IA, non la governance specifica dell'IA agentica. L'Evident AI Index misura Talento, Innovazione, Leadership e Trasparenza su 50 banche usando dati pubblicamente disponibili. Non misura — e non è progettato per farlo — se i flussi agentici in produzione di una banca abbiano interruttori di emergenza operativi, registri di audit WORM per agente o gate di policy OPA. Una banca può classificarsi prima nell'Evident Index pur fallendo un audit dell'Articolo 12 dell'EU AI Act.

Lacuna 2: i quadri regolamentari esistenti definiscono ciò che è richiesto, non come misurare la prontezza. SR 11-7, SS1/23, l'EU AI Act, le Sound Practice FSB e il MGF di Singapore definiscono ciascuno obblighi di governance. Nessuno fornisce un quadro di punteggio trasversale che consenta a un istituto di confrontare la propria postura con i pari o di misurare i progressi nel tempo. Questo indice fornisce quel quadro di punteggio, usando i quadri regolamentari esistenti come base di evidenza.

Lacuna 3: l'economia a livello di programma maschera il fallimento a livello di flusso. Lo standard di settore di rendicontare il valore dell'IA a livello di programma — "l'IA ha risparmiato X ore di lavoro di compliance" — rende strutturalmente impossibile ricondurre un annullamento, una segnalazione SAR falsamente positiva o un'azione inspiegata dell'agente al flusso che l'ha prodotta. La dimensione di economia unitaria di questo indice richiede responsabilità a livello di flusso. È l'architettura di misurazione che rende difendibile una conversazione con il CFO e sopravvivibile una conversazione di audit.

Conclusione

Nel 2026 l'IA agentica nelle banche è un problema ingegneristico travestito da conversazione strategica. Il modello è intercambiabile. Il piano di controllo — scoping OAuth, instradamento semantico deterministico, gate di policy OPA, registri di audit WORM immutabili e un interruttore di emergenza testato — non lo è. L'architettura di governance — validazione a tre linee di difesa, suite di valutazione continue specifiche della banca, rendicontazione al consiglio dell'economia unitaria — non lo è. Il pacchetto di evidenze regolamentari — model card SR 11-7 per flusso, log per agente dell'Articolo 12 dell'EU AI Act, mappature delle Sound Practice FSB — non lo è.

Gli istituti che saranno credibili per i regolatori nel 2027 sono quelli che oggi ottengono un punteggio superiore a 75 su tutte e sei le dimensioni dell'indice: classificare ogni agente in produzione sulla scala di autonomia, ingegnerizzare l'intero piano di controllo a cinque componenti, produrre evidenze regolamentari continue, tracciare l'economia unitaria a livello di flusso, investire nella prontezza organizzativa e impegnarsi proattivamente nelle consultazioni di FSB, IOSCO e dei regolatori nazionali che stanno plasmando gli standard vincolanti del 2028.

OSWorld al 66,3% è il tetto di affidabilità. Tre chiamate di strumento concatenate a quel tasso producono un tasso di successo end-to-end del 29%. Pianificate di conseguenza. Gli istituti che misurano gli agenti come misurano qualunque altro rischio operativo — per evidenza, non per aspirazione — scopriranno che la governance non è il vincolo dell'IA agentica. È l'unica cosa che rende l'IA agentica competitiva.

Domande frequenti

Qual è la differenza tra questo indice e l'Evident AI Index? L'Evident AI Index misura la maturità dell'IA su 50 banche globali usando dati pubblicamente disponibili su Talento, Innovazione, Leadership e Trasparenza. Questo indice misura la specifica architettura ingegneristica e di governance — il piano di controllo, il registro di audit, la classificazione dei livelli di autonomia, il pacchetto di evidenze regolamentari — che rende l'IA agentica sicura da impiegare su API bancarie attive. I due indici sono complementari: Evident misura la postura strategica; questo indice misura la prontezza operativa.

Chi dovrebbe usare questo indice? Direttori operativi, direttori del rischio, Chief AI Officer, responsabili della gestione del rischio di modello e comitati rischi dei consigli presso banche globali, banche regionali, entità di corporate banking e istituti finanziari che impiegano IA agentica. Rilevante anche per fintech, PSP e fornitori di infrastruttura che vendono nei processi di procurement bancario dove le evidenze regolamentari sono un criterio di selezione.

Qual è la postura di governance minima vitale per il 2026? Piano di controllo completo a cinque componenti operativo in produzione; tutti i flussi in produzione classificati Livello 0–4; flussi di Livello 5 contrattualmente vietati; registri di audit WORM completi per i flussi di Livello 3 e superiori; registrazione per agente dell'Articolo 12 dell'EU AI Act in atto prima del 2 agosto 2026; Sound Practice FSB 1–4 mappate sulle strutture di responsabilità del consiglio; suite di valutazione specifica della banca in esecuzione continua.

Cosa significa l'annuncio di JP Morgan per il mio istituto? Significa che il benchmark competitivo per il dispiegamento di agenti autonomi ha una tempistica dichiarata nel 2026 da parte di una banca di importanza sistemica. Non significa che ogni istituto debba eguagliare quella tempistica. Significa che ogni istituto dovrebbe conoscere il proprio punteggio di indice attuale, conoscere il divario tra quel punteggio e la postura di dispiegamento descritta da JP Morgan, e disporre di una visione approvata dal consiglio dell'investimento di governance necessario per colmare quel divario in sicurezza.

Come dovrebbe essere riportato al consiglio il rischio dell'IA agentica? Sei metriche per flusso: livello di autonomia, completezza del piano di controllo, completezza della traccia di audit, tasso di annullamento, costo netto per decisione e aggiornamento delle evidenze regolamentari. Più un elenco dei cinque principali rischi residui. Tralasciate le slide delle model card e i riepiloghi di produttività a livello di programma.

La consultazione FSB crea obblighi vincolanti adesso? No. L'FSB afferma esplicitamente che le 12 Sound Practice non sono standard vincolanti. Tuttavia, la consultazione si chiude il 22 luglio 2026 e il rapporto finale va ai ministri delle finanze del G20 a ottobre 2026. I regolatori nazionali — Fed, PRA, BaFin, DNB, ACPR, MAS — sono liberi di incorporare le Sound Practice in aspettative di vigilanza vincolanti secondo le proprie tempistiche. Gli istituti che rispondono alla consultazione ora sono quelli che plasmano ciò che diventerà vincolante.

Riferimenti

Ultima revisione 2026-06-30.

Ultima revisione 2026-06-29.

Ripubblica questo articolo

L’indice Agentic AI per le banche nel 2026: misurare l’autonomia — Sebastien Rousseau

Un indice a sei dimensioni che misura la maturità dell'IA agentica nelle banche: livelli di autonomia, governance, evidenze regolamentari, economia, prontezza e allineamento globale.

Questo articolo è pubblicato con licenza Creative Commons Attribution 4.0 International. La ripubblicazione richiede l'attribuzione all'URL canonico.

L’indice Agentic AI per le banche nel 2026: misurare l’autonomia — Sebastien Rousseau

Un indice a sei dimensioni che misura la maturità dell'IA agentica nelle banche: livelli di autonomia, governance, evidenze regolamentari, economia, prontezza e allineamento globale.

Originally published at https://sebastienrousseau.com/it/2026-06-30-agentic-ai-index-banks-measuring-autonomy-2026/ by Sebastien Rousseau.
Licensed under CC-BY-4.0.

SEBASTIEN ROUSSEAU FOUNDER · ENGINEER