De Agentic AI-index voor banken in 2026: autonomie meten

TL;DR. Een index met zes dimensies die de agentic AI-gereedheid van banken scoort: autonomieniveaus, governance, toezichtbewijs, economie, gereedheid en wereldwijde afstemming.

Points clés

Waarom deze index bestaat. De Evident AI Index rangschikt 50 wereldwijde banken op Talent, Innovatie, Leiderschap en Transparantie aan de hand van miljoenen openbaar beschikbare datapunten.
Het volwassenheidsbeeld van agentic AI in 2026. Het Cambridge CCAF-rapport van 2026 — de grootste mondiale studie naar AI in financiële dienstverlening, met 628 organisaties in 151 jurisdicties, in samenwerking met BIS, IMF, WEF en de Wereldbank — vormt de…
De architectuur van de index met zes dimensies. Deze index scoort de agentic AI-gereedheid over zes dimensies.
De samengestelde indexscore. De zes dimensiescores worden gecombineerd tot een samengestelde index met de volgende weging naar toezichtmaterialiteit:.

Agentic AI in het bankwezen is overgegaan van experiment naar operationele infrastructuur. De vraag in 2026 is niet langer óf je het inzet — 52% van de financiële instellingen doet dat al — maar of de sector kan meten wat zij heeft gebouwd, met dezelfde striktheid die zij toepast op kapitaal, krediet en liquiditeit. Deze index is dat meetkader (Cambridge CCAF, 2026).

Managementsamenvatting / belangrijkste conclusies

Autonomie is de nieuwe kapitaaltoereikendheid. Net zoals Basel meetbare normen vaststelde voor financiële veerkracht, heeft de sector nu een meetbare norm nodig voor autonome besluitvorming. Deze index is het eerste cross-dimensionale kader dat de agentic AI-gereedheid scoort over governance, technische architectuur, toezichtbewijs, economisch rendement en organisatorische volwassenheid als één samenhangend operating model.

52% adoptie verhult een transformatiegraad van 14%. De Cambridge CCAF-enquête uit 2026 onder 628 organisaties in 151 jurisdicties laat zien dat vier op de vijf financiële instellingen AI inzet, maar dat slechts 14% het omschrijft als een verschuiving van hun concurrentiepositie. Het gat is governance, niet technologie.

OSWorld op 66,3% is het betrouwbaarheidsplafond, niet de bodem. De 2026-benchmark van Stanford HAI laat zien dat AI-agents 66,3% van de gestructureerde bedrijfstaken voltooien (Stanford HAI, 2026). Drie gekoppelde tool-aanroepen op dat percentage leveren samen een succespercentage van 29% over de hele keten. Toezichtloze uitvoering tegen live betaalsystemen is op dit betrouwbaarheidsniveau niet verdedigbaar.

De FSB heeft gesproken. Op 10 juni 2026 publiceerde de Financial Stability Board (FSB, Raad voor Financiële Stabiliteit) haar eerste operationele kader voor het besturen van agentic AI in financiële dienstverlening (FSB, 2026) — 12 sound practices die bestuurlijke verantwoording, levenscyclusbeheer en AI-die-AI-monitort-architecturen omvatten. De reactietermijn sluit op 22 juli 2026.

De handhavingsklok van de EU AI Act loopt. De verplichtingen voor AI-systemen met hoog risico onder bijlage III worden van kracht op 2 augustus 2026 (EU AI Act-richtsnoer, 2026). Financiële instellingen die agentic AI in de EU draaien zonder identiteit per agent in de auditlog, gedocumenteerde intrekkingsprocedures en bewijs op bestuursniveau lopen achter.

JP Morgan heeft een jaartal genoemd. Derek Waldron, chief analytics officer, bevestigde op 9 juni 2026 aan CNBC dat de bank langlopende autonome agents zal inzetten (CNBC, 2026) — in staat om één tot twee uur zelfstandig te opereren — binnen 2026. Die openbaarmaking verandert het concurrentiekader voor elke instelling die zich daaraan spiegelt.

De index scoort zes dimensies. Autonomieniveau, governance-architectuur, toezichtbewijs, economische verantwoording, organisatorische gereedheid en wereldwijde toezichtafstemming. Samen maken ze van een AI-programma geen portefeuille van initiatieven meer, maar een meetbare capaciteit.

Waarom deze index bestaat

De Evident AI Index rangschikt 50 wereldwijde banken op Talent, Innovatie, Leiderschap en Transparantie aan de hand van miljoenen openbaar beschikbare datapunten. Het is de meest vertrouwde externe benchmark van AI-volwassenheid in financiële dienstverlening. Wat hij — bewust — niet doet, is de specifieke engineering- en governance-architectuur scoren die agentic AI veilig maakt om in te zetten tegen live bank-API's. De Stanford AI Index volgt onderzoeksoutput, technische prestaties en maatschappelijke impact. Wat hij niet doet, is OSWorld-percentages voor taakvoltooiing vertalen naar een operationele instructieset voor een treasurer, een chief risk officer of een modelvalidatieteam.

Deze index vult dat gat. Hij neemt de meetdiscipline van het Stanford-kader, de concurrentiecontext van de Evident Index en de toezichtspecificiteit van SR 11-7, SS1/23, de EU AI Act, de FSB sound practices en Singapore's IMDA Model AI Governance Framework for Agentic AI — en zet die om in een scoremodel met zes dimensies waar een bestuur naar kan handelen.

De praktische aanleiding is dat agentic AI is verschoven van een planningsgesprek naar een auditvraag. Wanneer de chief analytics officer van JP Morgan inzet van langlopende autonome agents in hetzelfde jaar aankondigt, wanneer DBS agent-controlevlakken inbouwt in het opstellen van kredietmemo's en klantbediening, wanneer de FSB voorschrijft dat agents die financiële transacties uitvoeren "menselijke goedkeuring of dubbele autorisatie boven een drempelwaarde, beperkte agenttoegang tot betaalsystemen en audittrails van elke agenttransactie" vereisen — dan zal de instelling die haar eigen positie niet kan scoren, merken dat een toezichthouder dat in haar plaats doet.

Het volwassenheidsbeeld van agentic AI in 2026

Wat de data laten zien

Het Cambridge CCAF-rapport van 2026 — de grootste mondiale studie naar AI in financiële dienstverlening, met 628 organisaties in 151 jurisdicties, in samenwerking met BIS, IMF, WEF en de Wereldbank — vormt de statistische basis voor deze index.

Signaal	Bevinding	Bron
Actieve AI-adoptie	81% van de financiële ondernemingen zet AI op enig niveau in	Cambridge CCAF
Agentic AI-adoptie	52% pilot of implementeert al agentic systemen die tot aanhoudende autonome actie in meerdere stappen in staat zijn	Cambridge CCAF
Transformatiegraad	Slechts 14% omschrijft AI als herdefiniërend voor het concurrentievoordeel	Cambridge CCAF
Meetmoeilijkheid	55% van de sector en 63% van de toezichthouders hebben moeite om de waarde van AI-inzet te meten; specifiek 76% van de grote financiële instellingen	Cambridge CCAF
Winstgevendheid	Slechts 40% rapporteert hogere winstgevendheid door AI; 43% rapporteert geen verandering	Cambridge CCAF
Verlies van menselijk toezicht	51% noemt verlies van menselijk toezicht als toprisico	Cambridge CCAF
Agentic use cases	31% van de nieuwe AI-use-cases bij banken in Q1 2026 was agentic — de hoogste ooit, op van 15% in Q4 2025	Evident Insights
Governancegat	77% van 2.000 technologieleiders zegt dat AI-adoptie sneller gaat dan de governancecapaciteiten; gemiddeld 54 AI-agentincidenten per onderneming in 2025	IBM
Agent-wildgroei	Ondernemingen verwachten gemiddeld 1.661 AI-agents in te zetten tegen 2027; slechts 11% zegt volledig voorbereid te zijn	IBM
McKinsey-risico voor winstpools	Agentic AI kan de operationele kosten van banken met 20% verlagen, maar dreigt tot $170 miljard aan mondiale winstpools weg te slijten tegen 2030 als businessmodellen zich niet aanpassen	McKinsey

Deze cijfers omschrijven het probleem nauwkeurig: adoptie loopt voor op governance, productiviteitswinst is zichtbaar, transformatie is zeldzaam, en het meetgat is het grootst waar de toezichtbelangen het hoogst zijn — bij grote financiële instellingen.

Waar concurrenten de grenzen trekken

De Evident AI Index 2025 plaatste JP Morgan Chase op de eerste plaats (score: 79), gevolgd door Capital One (78,1), RBC (58,4), CommBank Australia (53,9) en Morgan Stanley (52,2). De index meet vier capaciteitspijlers — Talent, Innovatie, Leiderschap, Transparantie — niet de operationele agentarchitectuur. Dat creëert een structureel gat: een bank kan hoog scoren op Innovatie-openbaarmaking terwijl zij agents inzet zonder noodknop, zonder WORM-auditlog en zonder OPA-policypoort. Deze index is ontworpen om dat gat zichtbaar te maken.

Deloitte's Tech Trends 2026 rapporteert dat slechts 11% van de organisaties agentic AI in productie heeft. McKinsey constateert dat slechts ongeveer een derde van de organisaties een governance-volwassenheidsniveau van drie of hoger bereikt in agentic AI-controles, zelfs nu de technische mogelijkheden snel toenemen. De enquêtedata van CCG Catalyst tonen dat 93% van de AI-gerelateerde uitgaven naar technologische infrastructuur gaat en slechts 7% naar mensen, talent, training, verandermanagement en governance — een verhouding die opschalen structureel onmogelijk maakt.

De Evident Venture Tracker voor Q1 2026 identificeert Anthropic als de meest genoemde leverancier, met een lange staart van gespecialiseerde spelers die samen goed zijn voor 68% van alle implementaties, grotendeels gericht op workflow-specifieke use cases in krediet, witwasbestrijding en treasury. De aanbodzijde is volwassen. De governancezijde niet.

De architectuur van de index met zes dimensies

Deze index scoort de agentic AI-gereedheid over zes dimensies. Elke dimensie kent een volwassenheidsschaal met vier niveaus. De indexscore van een bank is het product van haar dimensiescores, gewogen naar toezichtmaterialiteit. Het wegingskader is gekalibreerd op SR 11-7, SS1/23, de verplichtingen onder bijlage III van de EU AI Act en de categorieën van de FSB Sound Practices.

Dimensie 1: dekking van het autonomieniveau

Wat het meet: of elke agentic productieworkflow is geclassificeerd op een gedefinieerde autonomieladder, waarbij geen enkele workflow boven het toegestane niveau opereert zonder gedocumenteerde uitzondering — en of die niveautoewijzing niet alleen taakgrenzen vastlegt, maar ook de grenzen van juridische verantwoordelijkheid.

De autonomieladder blijft de fundamentele constructie. De vijf niveaus — van Level 0 (observeren en alleen-lezen) tot en met Level 4 (orkestratie met meerdere tools en verplichte controlepunten) — definiëren de bevoegdheidsgrens van de agent, niet de verfijning van het model. Hetzelfde onderliggende LLM kan op elk niveau zitten; de wrapper is wat verschilt. Level 5 — zelforkestrerende uitvoering zonder controlepunten — hoort in 2026 niet voor te komen in productie in het bankwezen. OSWorld op 66,3% taakvoltooiing stapelt: drie gekoppelde aanroepen van elk 66% leveren een succespercentage van 29% over de hele keten. Vijf schakels leveren 13%.

Singapore's IMDA Model AI Governance Framework for Agentic AI, gepubliceerd in Davos op 22 januari 2026 als 's werelds eerste governancekader dat autonome agents expliciet adresseert (IMDA, 2026), definieert vier equivalente concepten: principaalhiërarchie (wie de agent mag instrueren), taakgrens (wat de agent gemachtigd is te doen), minimale voetafdruk (de agent mag geen bevoegdheden vergaren buiten de directe behoefte) en verklaarbaarheid (redeneerpaden moeten traceerbaar zijn). Deze vier vertalen zich rechtstreeks naar het autonomieniveau-model.

Het principaal-agentprobleem en de juridische toerekening van intentie. Het IMDA-kader introduceert een dimensie die zuivere engineeringspecificaties onderschatten: wanneer een AI-agent optreedt als gevolmachtigde van een rechtspersoon — een betaling uitvoeren, een aanpassing van een kredietlimiet goedkeuren, een toezichtrapportage indienen — ontstaat een juridisch probleem van toerekening van intentie. Onder wiens gezag handelde de agent? Wie draagt de aansprakelijkheid wanneer de agent afwijkt van zijn promptbeperkingen? Wiens intentie wordt toegerekend wanneer de agent kiest tussen twee geldige-maar-verschillende interpretaties van een dubbelzinnige instructie?

Voor Level 3- en Level 4-workflows — waar de agent ingrijpende handelingen autonoom binnen gedefinieerde parameters uitvoert — moet de niveaudefinitie niet alleen de technische taakgrens vastleggen, maar ook de grens van juridische verantwoording: een bij naam genoemde menselijke principaal die de workflow heeft geautoriseerd, een gedocumenteerd delegatie-instrument (bestuursbesluit, delegatie van bevoegdheid of ondertekend mandaat), de voorwaarden waaronder de handelingen van de agent de instelling binden, en de voorwaarden waaronder een afwijking van promptbeperkingen een automatische terugdraaiing, escalatie en incidentregistratie activeert. Zonder dit is de classificatie van het autonomieniveau een engineering-artefact dat een juridische betwisting, een toezichtonderzoek of een geschil met een tegenpartij wier middelen verschoven omdat een agent een voorwaardelijke instructie verkeerd interpreteerde, niet zal overleven.

Volwassenheidsniveau	Hoe het eruitziet	Indexscore
Niveau 1 — Niet-geclassificeerd	Geen formele taxonomie; agents informeel omschreven als "assistenten" of "co-pilots"; geen niveaudocumentatie	0–24
Niveau 2 — Geclassificeerd, niet-gevalideerd	Niveaulabels toegekend; geen formele validatie dat de wrapper het verklaarde niveau afdwingt; Level 5-workflows kunnen onopgemerkt bestaan	25–49
Niveau 3 — Geclassificeerd en beheerst	Alle productieworkflows getagd als Level 0–4; Level 5 contractueel verboden; per kwartaal artefacten van niveau-audits beschikbaar voor MRM-review	50–74
Niveau 4 — Geclassificeerd, beheerst en bewijsklaar	Volledig niveauregister; continue driftmonitoring; elke herclassificatie van een niveau activeert een nieuwe MRM-validatie; een auditor kan op verzoek de niveautoewijzing voor elke workflow reconstrueren	75–100

Dimensie 2: governance-architectuur

Wat het meet: of het agent-controlevlak met vijf componenten volledig is uitgewerkt en operationeel is in productie — niet beschreven in een beleidsdocument.

De FSB-consultatie van juni 2026 stelt expliciet dat bestaande governancekaders niet zijn ontworpen voor systemen die "plannen, acties in meerdere stappen uitvoeren en interageren met externe systemen zonder stapsgewijs menselijk toezicht". Het controlevlak met vijf componenten vertaalt die observatie naar een engineering-checklist:

Component 1: identiteit en bevoegdheden. Elke agent koppelt aan precies één serviceaccount met OAuth client_credentials-tokens, gescoped op het minimale API-oppervlak. Het token van de kaartblokkeer-agent kan POST /accounts/{id}/freeze aanroepen met een bedragplafond; het kan niets aanroepen in custody, treasury of trading. Serviceaccount-geheimen roteren in een vastgestelde cyclus. Langlevende credentials zijn de meest voorkomende fout in het controlevlak bij productie-implementaties. De FSB beveelt expliciet "minimale bevoegdheden voor agents en hun subagents aan, en dynamisch identiteits- en toegangsbeheer dat bevoegdheden in realtime verleent, wijzigt of intrekt op basis van gedrag en context, in plaats van de statische profielen die voor menselijke gebruikers worden gebruikt".

Component 2: deterministische vangrails. Elke LLM-tool-aanroep passeert een semantische router (NeMo Guardrails, LangChain Guardrails of gelijkwaardig) voordat hij de productie-API bereikt. De router classificeert de intentie tegen een eindige allow-list en weigert aanroepen buiten die lijst. Een JSON-schemavalidator controleert vervolgens de payload. Een pacs.008 met amount: 0 is een modelfout, geen legitieme transactie. Dat geldt ook voor een overboeking naar een land dat niet vooraf is goedgekeurd voor het oorspronkelijke klantsegment.

Component 3: policy-as-code. Open Policy Agent (of gelijkwaardig) zit tussen de validator en de API. Beleid wordt geversioneerd in Git; weigeringsbeslissingen worden gelogd; dezelfde policy-engine die microservice-naar-microservice-aanroepen in het bestaande platform poortbewaakt, poortbewaakt agent-tool-aanroepen. Het richtsnoer van de EU AI Office van mei 2026 over auditlogging onder artikel 12 vereist dat logregels voor AI-systemen met hoog risico handelingen toerekenen aan een specifieke agent-instantie, niet alleen aan een implementatie of API-credential. Multi-agentimplementaties die een credential delen, falen deze toets.

Component 4: auditvolledigheid. Onveranderlijke WORM-opslag — S3 Object Lock, Azure Blob-onveranderlijkheid of een ledger-database. Elke aanroep legt vast: tijdstempel, agent-ID, serviceaccount-ID, hash van de systeemprompt, opgehaalde context, LLM-provider plus model plus versie, ruwe LLM-output, geparste tool-aanroep, OPA-beslissing, API-respons, downstream-effect en, waar van toepassing, de UID van de goedkeurder. Records worden cryptografisch ondertekend op het moment van schrijven. De verduidelijking van artikel 12 van de EU AI Act, gepubliceerd in mei 2026, noemt identiteit per agent als een specifiek hiaat; instellingen die meerdere agent-instanties met een gedeelde credential draaien, voldoen expliciet niet.

Component 5: noodknop en AI-die-AI-monitort. Een geteste rode-knop-API die alle lopende agentaanroepen binnen een bevoegdheidsklasse in minder dan 60 seconden annuleert. Het woord getest is dragend. Een ongeteste noodknop is een beleidsambitie.

Voorbij de noodknop moet dimensie 2 op het hoogste volwassenheidsniveau een AI-die-AI-monitort-architectuur (AMI) verplicht stellen — en de reden is rekenkundig. De data van IBM zetten de gemiddelde agentpopulatie van een onderneming op 1.661 tegen 2027 (IBM, 2026). De FSB aanvaardt expliciet dat continue menselijke monitoring van individuele agentbeslissingen op schaal fysiek onmogelijk wordt, en beveelt aan om menselijk toezicht aan te vullen met AI-systemen die mensen waarschuwen wanneer prestatiemetrieken worden overschreden of het gedrag van agents drift vertoont. Een menselijke compliance-officer kan geen 1.661 gelijktijdige agents monitoren die beslissingen op machinesnelheid uitvoeren. Het controlemodel dat ervan uitgaat dat dat wel kan, zal falen zodra een agentpopulatie een gecorreleerde gedragsverschuiving ondergaat — een modelupdate die stilzwijgend de outputverdelingen over tientallen workflows tegelijk verandert.

De AMI-laag is geen vervanging voor menselijk toezicht; het is het detectiemechanisme dat menselijk toezicht op schaal hanteerbaar maakt. De drie verplichte functies zijn: driftdetectie (statistische monitoring van de outputverdeling over agents van hetzelfde niveau en type, waarbij afwijkingen voorbij een gedefinieerde sigmadrempel worden gemarkeerd voordat een mens ze kon opmerken); cross-agent correlatiewaarschuwing (signaleren wanneer meerdere agents in een richtingsgewijs consistent patroon beginnen te opereren dat er gisteren niet was — het vroege signaal van de kuddedynamiek beschreven in dimensie 6); en pre-escalatie van anomalieën (het genereren van een gestructureerde waarschuwing, met context en een beoordeling van omkeerbaarheid, aan een menselijke beslisser voordat de noodknop de enige resterende optie is). De FSB beveelt AMI-architecturen expliciet aan in Sound Practice 9. Een instelling die volwassenheidsniveau 4 in dimensie 2 bereikt zonder operationele AMI-laag, zit niet op niveau 4.

Volwassenheidsniveau	Hoe het eruitziet	Indexscore
Niveau 1 — Ad hoc	Sommige componenten aanwezig maar ongedocumenteerd; geen formele eigenaar van het controlevlak; geen testverslag van de noodknop	0–24
Niveau 2 — Gedocumenteerd	Alle vijf componenten gedocumenteerd; implementatiehiaten bestaan; noodknop bestaat maar is ongetest; WORM-logs onvolledig	25–49
Niveau 3 — Operationeel	Alle vijf componenten operationeel in productie; noodknop per kwartaal getest; WORM-logs volledig voor Level-3+-workflows; OPA-beleid onder versiebeheer	50–74
Niveau 4 — Bewijsklaar	Het controlevlak genereert continu, cryptografisch ondertekend bewijs; identiteit per agent voldoet aan artikel 12 van de EU AI Act; testresultaten van de noodknop zijn auditartefacten; driftdetectie is geautomatiseerd	75–100

Dimensie 3: volledigheid van toezichtbewijs

Wat het meet: of de instelling op verzoek een volledig toezichtbewijspakket per workflow kan leveren voor SR 11-7, SS1/23, de EU AI Act, DORA, de FSB en toepasselijke nationale kaders.

De Federal Reserve heeft herhaaldelijk verduidelijkt dat SR 11-7 van toepassing is op elk besluitvormingssysteem van input naar output, ongeacht of de instelling het onderliggende LLM als een model classificeert. De SS1/23 van de PRA is nog breder. De classificatie van hoog risico onder bijlage III van de EU AI Act dekt de meeste LLM-use-cases in financiële dienstverlening — kredietscoring, fraudedetectie, klantgeschiktheid, verzekeringstarifering. Volledige naleving voor systemen binnen de EU-reikwijdte is vereist op 2 augustus 2026, waarbij Duitsland, Frankrijk en Nederland zijn bevestigd voor toezichtonderzoeken in Q3 2026. De IOSCO Supervisory Toolkit for AI Use in Capital Markets, afgerond op 25 mei 2026, dekt de volledige AI-levenscyclus van traditionele ML via GenAI tot agentic AI — en stelt expliciet vast dat planningsvermogen, langetermijngeheugen en externe toolaccess risico's creëren op emergent gedrag en cascaderende storingen over onderling verbonden systemen.

Het drielijnenmodel, toegepast op agents:

Eerste lijn (modeleigenaar): documenteert het beoogde gebruik, de herkomst van trainings- en evaluatiedata, het schema van de systeemprompt, de allow-list van tool-aanroepen en de testresultaten van de noodknop. Is eigenaar van driftmonitoring in productie. Is eigenaar van de bankspecifieke held-out evaluatieset — het werk waarin de meeste instellingen te weinig investeren.
Tweede lijn (MRM-team): valideert de agent vóór productie. Het validatierapport dekt de evaluatiescores van de leverancier (MMLU, HumanEval — nuttig maar niet voldoende), bankspecifieke evaluatiescores, resultaten van prompt-injectie-red-teaming, bias- en fairnessanalyse en een gekwantificeerde verklaring over restrisico.
Derde lijn (interne audit): test de poorten van het controlevlak en de volledigheid van de auditlog tegen een steekproef van productiebeslissingen. De auditcyclus van 2027 zal er wezenlijk anders uitzien dan die van 2025; begroot daarnaar.

Het Singapore Model AI Governance Framework for Agentic AI (MGF) verplicht financiële instellingen om agents te beoordelen over vier dimensies: het begrenzen van agentautonomie en -toegang, het vestigen van menselijke verantwoording op gedefinieerde controlepunten, het implementeren van technische controles inclusief basistesten, en het mogelijk maken van eindgebruikersverantwoordelijkheid via transparantie. De AI Risk Management Toolkit van MAS van maart 2026 — ontwikkeld onder Project MindForge met 24 instellingen — vormt het meest operationeel gedetailleerde richtsnoer op nationaal niveau dat beschikbaar is.

Volwassenheidsniveau	Hoe het eruitziet	Indexscore
Niveau 1 — Compliancebewustzijn	Toezichtverplichtingen geïdentificeerd; geen bewijs op workflowniveau geproduceerd; SR 11-7-modelkaarten afwezig of onvolledig	0–24
Niveau 2 — Momentopname-validatie	Validatie vóór implementatie afgerond; bewijs bestaat op de implementatiedatum; geen continue monitoring; geen bewijsritme per workflow	25–49
Niveau 3 — Continu bewijs	Modelkaarten onderhouden per workflow; continue evaluatiesuites wekelijks opnieuw gedraaid; logging per agent onder artikel 12 van de EU AI Act operationeel; FSB Sound Practice-categorieën gekoppeld aan interne controles	50–74
Niveau 4 — Onderzoeksklaar	Volledig toezichtbewijspakket op verzoek opvraagbaar per workflow; validatieverslagen van het drielijnenmodel actueel; bankspecifieke evaluatiesuite vangt regressies door modelupdates sneller dan de releasecycli van leveranciers; vierdimensionale mapping van het MAS MGF afgerond	75–100

Dimensie 4: economische verantwoording

Wat het meet: of de instelling het rendement van agentic AI meet met stuksgewijze economie op workflowniveau in plaats van productiviteitsclaims op programmaniveau.

De analyse van McKinsey stelt vast dat agentic AI de operationele kosten van banken met 15–20% kan verlagen (McKinsey, 2026) — gelijk aan 9–15% van de bedrijfswinst — maar dat het grootste deel van die winst zal worden weggeconcurreerd. Het duurzamere concurrentievoordeel ligt bij instellingen die de meetinfrastructuur bouwen om sneller te handelen dan concurrenten wanneer model- en workflowverbeteringen beschikbaar komen. De bevinding van Cambridge CCAF dat 76% van de grote financiële instellingen de waarde van AI-inzet niet kan meten, is geen datakwaliteitsprobleem. Het is een verantwoordingsarchitectuurprobleem: programma's worden begroot en gerapporteerd op portefeuilleniveau, waardoor het onmogelijk is om waarde of falen te herleiden tot individuele workflows.

De vier stuksgewijze economische metrieken die een gesprek met de CFO overleven:

Kosten per voltooide beslissing, inclusief de terugdraai- en herstelkosten van mislukte beslissingen. Een SAR-opstellende agent die de tijd van de BSA-officer met 40% bekort maar 12% vals-positieve meldingen genereert, heeft waarde vernietigd, niet gecreëerd. Dit is de metriek die de bevinding van Deloitte — dat 93% van de AI-uitgaven naar infrastructuur gaat en slechts 7% naar mensen en governance — onmeetbaar maakt: instellingen kunnen de terugdraaikosten van een governancefalen dat zij niet hebben geïnstrumenteerd om te detecteren, niet berekenen.

Vermeden handmatige handelingen, geteld na aftrek van nieuwe handelingen die ontstaan door toezicht vanuit het controlevlak en uitzonderingsafhandeling. Het doel is niet om menselijke aandacht te minimaliseren; het is om die om te leiden naar beslissingen met meer hefboomwerking.

Terugdraaipercentage — het percentage door de agent uitgevoerde handelingen dat binnen 24 uur wordt teruggedraaid. Een Level-3-workflow met een terugdraaipercentage boven 2% is een betrouwbaarheidsprobleem. Boven 5% is het een probleem van het controlevlak. Dit cijfer moet per workflow worden gevolgd, niet per programma. Een portefeuillegemiddelde verbergt de uitschieter die de volgende auditbevinding zal genereren.

Volledigheid van het auditspoor — het percentage beslissingen waarvan de volledige herkomst reconstrueerbaar is uit de WORM-log. Zou 100% moeten zijn op Level-3- en Level-4-workflows. Alles daaronder is een beleidsfalen.

De markt voor agentic AI in het bankwezen groeit in een tempo dat deze meetinfrastructuur urgent maakt. Het Banking Trends-rapport van Newgen uit 2026 voorspelt dat de markt voor agentic AI groeit van $2,1 miljard naar $81 miljard tegen 2034. McKinsey's scenariomodellering geeft aan dat de meest waarschijnlijke uitkomst — een scenario met 30% kans — inhoudt dat AI-agents een verhouding agent-tot-mens van ongeveer 20:1 bereiken en 15–20% kostenreductie genereren. Pioniers zouden een kloof van 4 procentpunten ROTE kunnen openen ten opzichte van langzame bewegers. Die marge is reëel, maar alleen meetbaar en verdedigbaar als de stuksgewijze economie op workflowniveau wordt gevolgd.

Volwassenheidsniveau	Hoe het eruitziet	Indexscore
Niveau 1 — Rapportage op budgetniveau	AI-uitgaven gevolgd; geen stuksgewijze economie op workflowniveau; productiviteitsclaims niet gevalideerd tegen operationele baselines	0–24
Niveau 2 — Geaggregeerde metrieken	Productiviteits- en kostenmetrieken op programmaniveau beschikbaar; terugdraaipercentage niet per workflow gevolgd; CFO-rapportage steunt op vermeden fte's	25–49
Niveau 3 — Tracking op workflowniveau	Kosten per voltooide beslissing gevolgd per workflow; terugdraaipercentage gemonitord; vermeden handmatige handelingen berekend na aftrek van de overhead van het controlevlak	50–74
Niveau 4 — Volledige economische verantwoording	Alle vier stuksgewijze economische metrieken gevolgd per workflow; terugdraaipercentages boven 2% activeren automatische workflowreview; volledigheid van het auditspoor is een dashboardmetriek die per kwartaal aan het bestuur wordt gerapporteerd	75–100

Dimensie 5: organisatorische gereedheid

Wat het meet: of de instelling het talent, de cross-functionele governance, de rapportage op bestuursniveau en de cultuur heeft om agentic AI op schaal in te zetten en in stand te houden — niet alleen om ermee te piloten.

De bevinding van Cambridge CCAF is nauwkeurig: de gereedheid van het personeel voorspelt AI-winstgevendheid vier keer sterker dan technologie-inkoop. Ondernemingen waar het personeel sterk voorbereid is, rapporteren 23% AI-winstgevendheid; ondernemingen waar dat niet zo is, rapporteren 6%. Slechts 10% van alle ondernemingen omschrijft het eigen personeel als klaar. Fintechs bereiken het transformerende stadium drie keer zo vaak als traditionele financiële instellingen — 19% tegenover 6% — ondanks dat velen jaarlijks minder dan $10.000 aan AI uitgeven. De architectuur is de onderscheidende factor, niet het budget.

McKinsey beschrijft drie strategische houdingen voor banken die met agentic AI te maken krijgen: afwachten, zich aanpassen door productleverancier achter agentinterfaces te worden, of concurreren om de directe klantrelatie in handen te houden. De meeste banken vallen standaard terug op de eerste houding terwijl ze zichzelf presenteren als nastrevend van de derde. Het strategische gesprek moet expliciet zijn, en het bestuur is waar het moet landen.

FSB Sound Practice 1 adresseert bestuurlijke verantwoording rechtstreeks: besturen dragen de uiteindelijke verantwoordelijkheid voor AI-governance, het bepalen van de risicobereidheid en het waarborgen van heldere verantwoordingsstructuren. De handhaving van artikel 5 van de EU AI Act en de bestuursaansprakelijkheidsbepalingen van artikel 5 van DORA vertalen dat beginsel naar persoonlijke aansprakelijkheid. De Supervisory Toolkit van IOSCO van mei 2026 stelt dat "AI-systemen geen geïsoleerde projecten meer zijn. Het is kerninfrastructuur die continue validatie, governance op bestuursniveau en toezichtbewijs gereed voor inspectie vereist".

Het bestuurlijke rapportagekader voor agentic AI zou vier cijfers per workflow moeten dekken: autonomieniveau, volledigheid van het auditspoor, terugdraaipercentage en nettokosten per beslissing. Plus een lijst met de top vijf restrisico's. Slideware van beleidsdocumenten is geen vervanging.

Volwassenheidsniveau	Hoe het eruitziet	Indexscore
Niveau 1 — Bewustzijn	Bestuur bewust van het AI-programma; geen agentspecifieke governance; rol van Chief AI Officer afwezig; cross-functioneel governancecomité niet gevormd	0–24
Niveau 2 — Structuur in wording	Toegewijde AI-governancefunctie opgericht; verantwoordingsstructuur gedefinieerd; risicobereidheidsverklaring voor AI in concept; programma voor AI-geletterdheid van personeel pril	25–49
Niveau 3 — Operationele governance	Bestuur ontvangt per kwartaal een agentic AI-dashboard met metrieken per workflow; cross-functioneel modelrisicocomité dekt agents; gereedheid van personeel gevolgd tegen benchmarks; MRM-capaciteit opgeschaald om 20+ agents per kwartaal te valideren	50–74
Niveau 4 — Governance als concurrentievoordeel	Bestuurlijk bewijspakket voldoet aan FSB Sound Practices 1–4 en de persoonlijke-aansprakelijkheidsvereisten van artikel 5 van DORA; MRM-capaciteit valideert 50+ agents per kwartaal; cultuur van continue governanceverbetering gedocumenteerd in het jaarverslag; instelling reageert op de FSB-consultatie	75–100

Dimensie 6: wereldwijde toezichtafstemming

Wat het meet: of het agentic AI-operating model van de instelling is afgestemd op de vier grote toezichtkaders die gelden in haar belangrijkste werkjurisdicties — en of die afstemming wordt onderbouwd met bewijs, niet beweerd.

Het toezichtkader voor agentic AI is in de eerste helft van 2026 uitgekristalliseerd. Vier kaders zijn nu operationeel materieel:

Verenigde Staten (SR 11-7 / OCC Bulletin 2025-26). Het richtsnoer voor modelrisicobeheer van de Federal Reserve is van toepassing op elke LLM-gebaseerde besluitvormingsworkflow. De OCC heeft specifiek richtsnoer voor modelrisicobeheer gepubliceerd voor community banks, met nadruk op proportionaliteit — "proportioneel betekent niet afwezig". Het drielijnenmodel is onverkort van toepassing.

Verenigd Koninkrijk (PRA SS1/23 / FCA). De principes voor modelrisicobeheer van SS1/23 van de PRA zijn breed genoeg om alle LLM-gebaseerde agents te vatten. De Britse toezichthouder ontwikkelt specifieke verwachtingen voor agentic AI. De FCA behoort tot de nationale autoriteiten die aanvullend richtsnoer uitvaardigen over AI-governance in financiële dienstverlening.

Europese Unie (EU AI Act / DORA). De verplichtingen voor AI-systemen met hoog risico onder bijlage III zijn van kracht vanaf 2 augustus 2026. Vereisten omvatten gestructureerd risicobeheer (artikel 9), datagovernance (artikel 10), transparantie (artikel 13), menselijk toezicht (artikel 14) en auditlogging per agent (artikel 12). De bestuursaansprakelijkheidsbepalingen van artikel 5 van DORA zijn van toepassing op operationele veerkracht, inclusief agentic AI. Het richtsnoer van de EU AI Office van mei 2026 schrijft cryptografische identiteit per agent in auditlogs voor. Niet-naleving brengt boetes met zich mee tot EUR 35 miljoen of 7% van de wereldwijde omzet.

Azië-Pacific (MAS / IMDA / regionale toezichthouders). Singapore's IMDA publiceerde 's werelds eerste Model AI Governance Framework for Agentic AI in Davos op 22 januari 2026. MAS publiceerde haar AI Risk Management Toolkit in maart 2026 onder Project MindForge, ontwikkeld met 24 financiële instellingen. Het kader dekt reikwijdte en AI-toezicht, AI-risicobeheer, AI-levenscyclusbeheer en organisatorische randvoorwaarden. De voorgestelde formele Guidelines on AI Risk Management van MAS worden naar verwachting in 2026 afgerond, waarmee vrijwillige FEAT-principes overgaan in toezichtverwachtingen met nalevingsimplicaties. Australië's ASIC bracht in mei 2026 een open brief uit waarin cyberversterking werd geëist als reactie op frontier-AI-bedreigingen.

FSB (wereldwijd, cross-jurisdictioneel). De FSB-consultatie van juni 2026 — het eerste mondiale kader dat agentic AI als operationeel onderscheidend behandelt — identificeert zes toezichtmodellen voor agentic systemen en beveelt human-in-command aan voor workflows met hoge autonomie, AI-in-the-loop-monitoring naarmate agentpopulaties groeien, en menselijke goedkeuring of dubbele autorisatie voor agents die financiële transacties boven drempelwaarden uitvoeren. De reactietermijn sluit op 22 juli 2026; het eindrapport gaat in oktober 2026 naar de ministers van financiën van de G20.

Volwassenheidsniveau	Hoe het eruitziet	Indexscore
Niveau 1 — Jurisdictie-inventarisatie	Toepasselijke kaders geïdentificeerd per jurisdictie; geen mapping op workflowniveau; "naleving naar analogie" met pre-AI-kaders	0–24
Niveau 2 — Kadermapping	Elke agentic productieworkflow gekoppeld aan toepasselijke kaders; hiaten geïdentificeerd; herstelplannen in concept	25–49
Niveau 3 — Onderbouwde naleving	Bewijspakketten per workflow geproduceerd tegen toepasselijke kaders; logging per agent onder artikel 12 van de EU AI Act volledig; FSB Sound Practices 5–10 gekoppeld aan interne controles; vierdimensionale mapping van het Singapore MGF afgerond	50–74
Niveau 4 — Proactieve toezichtbetrokkenheid	Instelling neemt deel aan consultaties van FSB, IOSCO en nationale toezichthouders; toezichtintelligentie geïntegreerd in de levenscyclus van agentinzet; toezichtbewijs automatisch gegenereerd door operationele pipelines, niet achteraf samengesteld	75–100

De samengestelde indexscore

De zes dimensiescores worden gecombineerd tot een samengestelde index met de volgende weging naar toezichtmaterialiteit:

Dimensie	Gewicht	Onderbouwing
Governance-architectuur	25%	Hoogste gewicht: het controlevlak is het enige dat veilig faalt wanneer het model faalt
Volledigheid van toezichtbewijs	20%	Cruciaal voor de EU AI Act-deadline van 2 augustus en continue toezichtgereedheid
Dekking van het autonomieniveau	15%	Licht verlaagd om te weerspiegelen dat niveauclassificatie, hoewel fundamenteel, nu een drempelverwachting is in plaats van een onderscheidende factor
Economische verantwoording	15%	Kritisch voor afstemming met CFO/ROI tegen McKinsey's scenario's voor winstpools en de ROTE-kloof
Organisatorische gereedheid	10%	Gestroomlijnd: structurele governance is noodzakelijk maar steeds meer basisvereiste bij Tier 1-instellingen
Wereldwijde toezichtafstemming	15%	Verhoogd: moet actief rekening houden met DORA-concentratierisico bij ICT-derden, grensoverschrijdende agentuitvoering en de scoring van systemisch kuddegedrag

Een samengestelde score onder 50 betekent dat de instelling haar huidige agentic AI-positie niet kan verdedigen tegenover een SR 11-7-onderzoeker, een PRA-onderzoek ter plaatse of een toezichtbeoordeling onder de EU AI Act. Een score van 50–74 betekent dat controles bestaan maar nog niet continu of bewijsklaar zijn. Een score van 75–100 betekent dat governance een concurrentiekracht is, geen nalevingskostenpost.

Actuele signalen om te volgen

Signaal	Wat het betekent voor banken	Bron
52% agentic AI-adoptie	Governance is over tijd; instellingen in de schalings- of transformatiefase hebben een controlevlak nodig, geen nieuwe pilot	Cambridge CCAF
66,3% OSWorld-taaksucces	Eén-op-drie faalpercentage bij gestructureerd toolgebruik; toezichtloze uitvoering tegen API's voor klantgelden is onhoudbaar	Stanford HAI
31% van nieuwe AI-use-cases bij banken is agentic	De snelst groeiende categorie in Q1 2026; governance-infrastructuur raakt verder achterop bij de inzet	Evident Insights
FSB sound practices juni 2026	Eerste mondiale kader dat agentic AI als operationeel onderscheidend behandelt; nu niet-bindend, G20-deliverable oktober 2026	FSB
EU AI Act-deadline 2 augustus 2026	Volledige verplichtingen onder bijlage III van kracht; toezichtonderzoeken in Duitsland, Frankrijk en Nederland bevestigd voor Q3 2026	EU AI Office
JP Morgan langlopende agents: 2026	Inzet in hetzelfde jaar van autonome agents van 1–2 uur verandert de concurrentiebenchmark voor elke G-SIB en regionale bank	CNBC
IBM: 1.661 agents tegen 2027	Wildgroei van bedrijfsagents is de governance-uitdaging van 2027 als die in 2026 niet wordt aangepakt; slechts 11% zegt voorbereid te zijn	IBM
Singapore MGF agentic AI: januari 2026	's Werelds eerste agentic-AI-specifieke governancekader; vier concepten (principaalhiërarchie, taakgrens, minimale voetafdruk, verklaarbaarheid) gelden universeel	IMDA
IOSCO Supervisory Toolkit: mei 2026	Dekking van de volledige AI-levenscyclus inclusief agentic AI; risico's van emergent gedrag en cascaderende storingen expliciet benoemd	IOSCO
McKinsey: 4pp ROTE-kloof	AI-pioniers zouden een ROTE-voordeel van 4 procentpunten kunnen openen op achterblijvers; de meetinfrastructuur om die kloof te benutten is stuksgewijze economie op workflowniveau	McKinsey

Wat dit betekent per type instelling

Mondiaal systeemrelevante banken (G-SIB's)

G-SIB's staan voor de zwaarste governance-uitdaging — niet omdat de technologie complexer is, maar omdat schaal en jurisdictie elk hiaat vermenigvuldigen. Een G-SIB met 200 productieagents over 30 business lines in 15 toezichtjurisdicties heeft 200 potentiële SR 11-7-bevindingen, 200 potentiële auditlogfalen onder de EU AI Act en 200 potentiële FSB Sound Practice-hiaten — tegelijkertijd. De investeringsprioriteit is geen nieuwe pilot. Het is het centrale controlevlak, de uniforme auditlog-infrastructuur en een MRM-capaciteit die 50-plus agents per kwartaal kan valideren.

De aankondiging van JP Morgan van langlopende autonome agents in 2026 — de agent-controlevlakken van DBS in het opstellen van kredietmemo's en klantbediening — BNP Paribas die zijn AI-doelen voor 2025 haalt en begint met kwartaalrapportage over ROI — dit zijn de concurrentiedatapunten waaraan elk G-SIB-bestuur zich zou moeten spiegelen. De institutionele vraag is niet óf je inzet; het is of het controlevlak kan opschalen in hetzelfde tempo als de agentpopulatie.

De FSB waarschuwt expliciet voor concentratierisico door afhankelijkheid van een handvol cloud-, hardware- en foundation-modelleveranciers — en merkt op dat gedeelde modellen en data instellingen kunnen duwen naar gecorreleerd gedrag dat kuddegedrag en procycliciteit versterkt in een neergang. G-SIB's die 80% van hun agentic infrastructuur betrekken van twee foundation-modelleveranciers bouwen een systemische correlatie die zij zullen moeten uitleggen aan zowel hun eigen risicoteams als hun toezichthouders.

Systemisch kuddegedrag en procycliciteit: het architecturale risico dat geen enkele bank alleen kan oplossen. De use-case-tracker van Evident Insights voor Q1 2026 stelt vast dat 68% van de agentic implementaties bij banken nu gebruikmaakt van een lange staart van gespecialiseerde leveranciers — waarvan de meerderheid gebouwd is op identieke onderliggende frontier-modellen, overwegend Anthropics Claude. Dit creëert een structurele kuddekwetsbaarheid die wezenlijk verschilt van de concentratierisico's die banken al beheren in cloudinfrastructuur of betaalrails.

Het mechanisme is als volgt. De trading-agent, liquiditeitsagent en kredietverkrappingsagent van een bank zijn gebouwd op verschillende leveranciersplatforms. Ze hebben verschillende systeemprompts, verschillende tool-aanroepschema's, verschillende OPA-policypoorten. Maar ze delen een identiek onderliggend model — dezelfde gewichten, dezelfde trainingsverdeling, dezelfde emergente gedragspatronen onder distributionele stress. Wanneer zich een significante marktgebeurtenis voordoet — een soevereine kredietgebeurtenis, een Fed-communicatie die afwijkt van de consensus, een grootbankfaillissement — zal elke agent gebouwd op hetzelfde onderliggende model de gebeurtenis verwerken via dezelfde impliciete feature-wegingen. Als die wegingen een richtingsbias naar risk-off-gedrag opleveren, kunnen de trading-, liquiditeits- en kredietagents van meerdere banken gelijktijdig gecorreleerde uitverkopen, kredietverkrappingscycli of liquiditeitsonttrekkingen uitvoeren — niet omdat de agent van een individuele bank defect is, maar omdat ze allemaal correct functioneren bovenop hetzelfde model.

IOSCO benoemde deze dynamiek expliciet in de Supervisory Toolkit van mei 2026, met de waarschuwing dat planningsvermogen, langetermijngeheugen en externe toolaccess risico's creëren op emergent gedrag en cascaderende storingen over onderling verbonden systemen. De FSB-consultatie van juni 2026 adresseert procycliciteit rechtstreeks — met de opmerking dat als AI-agents op dezelfde data worden getraind en vergelijkbare modellen gebruiken, hun gedrag waarschijnlijk gecorreleerd zal zijn en marktbewegingen mogelijk versterkt.

Het scoren van veerkracht tegen systemisch kuddegedrag in dimensie 6 vereist drie openbaarmakingen en één architecturale controle. De openbaarmakingen: wat is het onderliggende foundation-model voor elke agentic productieworkflow; wat is de leveranciersafhankelijkheidskaart over de agentportefeuille; en wat is de beoordeling door de instelling van haar bijdrage aan cross-institutioneel gecorreleerd gedrag onder een gedefinieerd stressscenario. De architecturale controle: ten minste één van de primaire agents in hoogrisico-activaklassen (trading, liquiditeitsbeheer, krediet) moet een ander onderliggend model of een wezenlijk andere fijn-afgestelde variant gebruiken, zodat de distributionele reactie van één model op een stressgebeurtenis niet gelijktijdig over alle agentic workflows een volledig gecorreleerde uitkomst kan produceren. Dit is modeldiversiteit als systeemrisicobeheer — het agentic equivalent van tegenpartijdiversificatie.

Transactie- en zakelijke banken

De agentic workflows met het hoogste rendement zijn betalingsherstel, KYC-documentextractie, treasurydiensten, reconciliatiebreuken en het afvangen van veelgestelde vragen van zakelijke klanten. Alle Level-2 of afgebakend Level-3 onder de autonomieladder. De zakelijke klant geeft er niet om dat een agent het betalingsherstel uitvoerde; hij geeft erom dat de SLA verbeterde en het geschillenpercentage gelijk bleef. Leid met de vier stuksgewijze economische metrieken, niet met claims over technologische mogelijkheden.

Het Autonomous Treasury-kader — observeren → detecteren → voorspellen → voorbereiden → menselijke goedkeuring vragen → ondertekende payload indienen — is de juiste architectuur voor zakelijke treasury-agents in 2026. De door de agent voorbereide pain.001-payload loopt door dezelfde schemavalidatie-, fraudescoring- en sanctie-engines als een inzending vanuit een zakelijk ERP. De voorwaardelijkheidslaag (drempel, onderpandgeschiktheid, buffervloer) bepaalt óf de pain.001 wordt verzonden, niet welke vorm hij krijgt. Treasuryplatforms die op maat gemaakte payloads verzinnen om voorwaarden uit te drukken, vallen buiten het door de bank verwerkbare pad.

Regionale banken en community banks

De scenarioanalyse van McKinsey identificeert drie levensvatbare posities: afwachten, zich aanpassen als productleverancier achter agentinterfaces, of concurreren om de directe klantrelatie. Regionale banken die deze keuze niet expliciet maken, glijden standaard af naar de afwachtende houding — en zullen merken dat de governanceschuld die tijdens dat afglijden is opgebouwd, het belangrijkste obstakel is wanneer concurrentiedruk tot actie dwingt.

Het proportionaliteitsbeginsel van de OCC — "proportioneel betekent niet afwezig" — is het operationele kader voor regionale governance. Een regionale bank hoeft geen 50 agents per kwartaal te valideren. Zij heeft één modelrisico-officer nodig die de autonomieladder begrijpt, één implementatie van een leveranciers-agentplatform dat standaard met OAuth-scoping, OPA-integratie en WORM-auditlogging wordt geleverd, en één bestuurlijk rapportagesjabloon dat de vier stuksgewijze economische metrieken dekt. De investering zit in workflowontwerp en operator-UX, niet in op maat gemaakte engineering van het controlevlak.

De Banking Priorities-enquête van CSI uit 2026 vond dat 85% van de respondenten uit community banking gelooft dat AI-adoptie een significant concurrentievoordeel zal opleveren, en 50% noemde het de belangrijkste technologietrend voor 2026. De governance-infrastructuur is wat de 85% gelovigen scheidt van de kleine fractie die de waarde zal vangen.

Fintechs, PSP's en infrastructuuraanbieders

De productvraag voor agentic AI-leveranciers in 2026 is niet "presteert uw platform beter dan mensen?" Het is "produceert uw platform een SR 11-7-conform auditspoor, een artikel 12-conforme log per agent onder de EU AI Act en een Sound Practice 10-conform toezichtmodel van de FSB — standaard?" Leveranciers die dat met een gedocumenteerd, toetsbaar ja kunnen beantwoorden, sluiten enterprise-deals. Leveranciers die dat niet kunnen, blijven rondjes draaien in proof-of-concept-lussen terwijl bank-MRM-teams redenen vinden om validatie te laten mislukken.

Oracle lanceerde in februari 2026 een enterprise-platform voor agentic AI voor het bankwezen. FIS werkte samen met Mastercard en Visa om agent-geïnitieerde handel mogelijk te maken. Microsoft publiceerde een bankspecifieke blauwdruk voor agentic klantbeleving. Accenture heeft de personeelsimplicaties over front- en backoffice uiteengezet. De aanbodzijde is gereed. De differentiatie zit in toezichtbewijs als productkenmerk, niet als een nalevingsuitbreiding achteraf.

De lange-staart-leveranciersdynamiek die Evident identificeerde — 68% van de agentic AI-implementaties bij banken gebruikt nu gespecialiseerde leveranciers voorbij de hyperscalers — betekent dat het risico van externe AI-leveranciers sneller versnelt dan de meeste bank-inkoopkaders het kunnen beoordelen. DORA vereist gedocumenteerde due diligence op elke ICT-derde. De EU AI Act stapelt aanvullende vereisten voor leveranciers wier systemen worden gebruikt in hoogrisicocategorieën. Banken die governance uitbesteden aan hun leverancier, besteden verantwoording uit — en het toezichtdossier zal dat weerspiegelen.

Enterprises en mkb-ondernemingen (niet-bancaire financiële dienstverlening)

De governancelast is proportioneel aan de risicomaterialiteit van het agentic AI-gebruik, maar het meetkader geldt universeel. Een enterprise die agents inzet in crediteurenbeheer, optimalisatie van werkkapitaal of financiële planning en analyse heeft hetzelfde stuksgewijze economische verantwoordingskader nodig — kosten per voltooide beslissing, terugdraaipercentage, volledigheid van het auditspoor — ook als de toezichtverplichtingen lichter zijn dan die van een systeemrelevante bank. De FSB Sound Practices zijn geformuleerd als niet-bindend richtsnoer dat van toepassing is op financiële instellingen van alle types en groottes. De bevinding van IBM dat ondernemingen gemiddeld 54 AI-agentincidenten per jaar kennen, waaronder datalekken en cascaderende systeemstoringen, geldt over het hele ondernemingsspectrum.

Voor mkb-ondernemingen die bankdiensten benaderen via agentic interfaces — het scenario dat McKinsey beschrijft als consumenten die AI-agents als nieuw bankkanaal gebruiken — valt de governanceverplichting stroomopwaarts op de bank of PSP die de agentic laag levert. Maar de eigen data en operationele integriteit van het mkb hangen ervan af dat die governance reëel is. Het kennen van de indexscore van de instellingen die uw financiële workflows beheren, wordt in hoog tempo een leveranciersselectiecriterium.

De scorecard op bestuursniveau

Een bruikbare bestuurlijke scorecard voor agentic AI zou zes metrieken moeten volgen — de minimale set die een bestuurd programma onderscheidt van een onbestuurd:

Verdeling over autonomieniveaus: het aantal productieworkflows per niveau (Level 0–4), per kwartaal bijgewerkt. Elke Level-5-workflow is een rapporteerbare bevinding.
Volledigheid van het controlevlak: het percentage productieworkflows met alle vijf controlevlakcomponenten operationeel (identiteit, vangrails, policy-as-code, WORM-logging, noodknop).
Volledigheid van het auditspoor: het percentage Level-3+-workflowaanroepen met volledige herkomst reconstrueerbaar uit de onveranderlijke log. Doel: 100%.
Terugdraaipercentage per workflow: het percentage door de agent uitgevoerde handelingen dat binnen 24 uur wordt teruggedraaid, gevolgd per workflow. Waarschuwingsdrempel: 2%. Escalatiedrempel: 5%.
Nettokosten per beslissing: stuksgewijze kosten op workflowniveau inclusief terugdraai- en herstelkosten, vergeleken met de handmatige baseline. Gevolgd tegen de economische business case van het programma.
Actualiteit van toezichtbewijs: de datum van de meest recente toezichtbewijsupdate per workflow over toepasselijke kaders (SR 11-7, SS1/23, EU AI Act, MAS MGF). Elke workflow die meer dan 90 dagen achterloopt op het bewijsritme is een risicobevinding.

Deze zes cijfers maken van agentic AI geen slidedeck meer, maar een operating model. Het zijn ook de cijfers waar een SR 11-7-onderzoeker, een PRA-reviewer ter plaatse of een EU-toezichthouder als eerste om zal vragen.

De hiaten die deze index adresseert

Drie structurele hiaten onderscheiden deze index van bestaande kaders:

Hiaat 1: bestaande indexen meten AI-volwassenheid, niet agentic-AI-specifieke governance. De Evident AI Index meet Talent, Innovatie, Leiderschap en Transparantie over 50 banken aan de hand van openbaar beschikbare data. Hij beoordeelt niet — en is niet ontworpen om te beoordelen — of de agentic productieworkflows van een bank operationele noodknoppen, WORM-auditlogs per agent of OPA-policypoorten hebben. Een bank kan eerste worden op de Evident Index terwijl ze zakt voor een audit onder artikel 12 van de EU AI Act.

Hiaat 2: bestaande toezichtkaders adresseren wat vereist is, niet hoe je gereedheid scoort. SR 11-7, SS1/23, de EU AI Act, de FSB Sound Practices en het Singapore MGF definiëren elk governanceverplichtingen. Geen van alle biedt een cross-dimensionaal scorekader waarmee een instelling haar positie tegen die van peers kan benchmarken of verbetering over de tijd kan meten. Deze index biedt dat scorekader, met de bestaande toezichtkaders als bewijsbasis.

Hiaat 3: economie op programmaniveau verhult falen op workflowniveau. De industriestandaard om AI-waarde op programmaniveau te rapporteren — "AI bespaarde X uur compliancewerk" — maakt het structureel onmogelijk om een terugdraaiing, een vals-positieve SAR-melding of een onverklaarde agenthandeling te herleiden tot de workflow die deze produceerde. De stuksgewijze economische dimensie van deze index vereist verantwoording op workflowniveau. Dit is de meetarchitectuur die een gesprek met de CFO verdedigbaar maakt en een auditgesprek overleefbaar.

Conclusie

Agentic AI in banken is in 2026 een engineeringprobleem in de kleren van een strategiegesprek. Het model is uitwisselbaar. Het controlevlak — OAuth-scoping, deterministische semantische routering, OPA-policypoorten, onveranderlijke WORM-auditlogs en een geteste noodknop — is dat niet. De governance-architectuur — validatie via het drielijnenmodel, continue bankspecifieke evaluatiesuites, rapportage van stuksgewijze economie op bestuursniveau — is dat niet. Het toezichtbewijspakket — SR 11-7-modelkaarten per workflow, logs per agent onder artikel 12 van de EU AI Act, FSB Sound Practice-mappings — is dat niet.

De instellingen die in 2027 geloofwaardig zullen zijn voor toezichthouders, zijn degene die vandaag boven 75 scoren over alle zes indexdimensies: elke productieagent classificeren op de autonomieladder, het volledige controlevlak met vijf componenten bouwen, continu toezichtbewijs produceren, stuksgewijze economie op workflowniveau volgen, investeren in organisatorische gereedheid, en proactief deelnemen aan de consultaties van de FSB, IOSCO en nationale toezichthouders die de bindende normen van 2028 vormgeven.

OSWorld op 66,3% is het betrouwbaarheidsplafond. Drie gekoppelde tool-aanroepen op dat percentage leveren een succespercentage van 29% over de hele keten. Plan daarnaar. De instellingen die agents meten zoals ze elk ander operationeel risico meten — met bewijs, niet met ambitie — zullen ontdekken dat governance niet de beperking op agentic AI is. Het is het enige dat agentic AI concurrerend maakt.

Veelgestelde vragen

Wat is het verschil tussen deze index en de Evident AI Index? De Evident AI Index benchmarkt AI-volwassenheid over 50 wereldwijde banken aan de hand van openbaar beschikbare data over Talent, Innovatie, Leiderschap en Transparantie. Deze index scoort de specifieke engineering- en governance-architectuur — het controlevlak, de auditlog, de classificatie van het autonomieniveau, het toezichtbewijspakket — die agentic AI veilig maakt om in te zetten tegen live bank-API's. De twee indexen zijn complementair: Evident meet de strategische positie; deze index meet de operationele gereedheid.

Wie zou deze index moeten gebruiken? Chief Operating Officers, Chief Risk Officers, Chief AI Officers, hoofden modelrisicobeheer en risicocomités van besturen bij wereldwijde banken, regionale banken, zakelijke bankentiteiten en financiële instellingen die agentic AI inzetten. Ook relevant voor fintechs, PSP's en infrastructuurleveranciers die verkopen in bank-inkoopprocessen waar toezichtbewijs een selectiecriterium is.

Wat is de minimaal werkbare governancepositie voor 2026? Volledig controlevlak met vijf componenten operationeel in productie; alle productieworkflows geclassificeerd als Level 0–4; Level-5-workflows contractueel verboden; WORM-auditlogs volledig voor Level-3+-workflows; logging per agent onder artikel 12 van de EU AI Act op orde vóór 2 augustus 2026; FSB Sound Practices 1–4 gekoppeld aan bestuurlijke verantwoordingsstructuren; bankspecifieke evaluatiesuite die continu draait.

Wat betekent de aankondiging van JP Morgan voor mijn instelling? Het betekent dat de concurrentiebenchmark voor de inzet van autonome agents een genoemde tijdlijn in 2026 heeft van een systeemrelevante bank. Het betekent niet dat elke instelling die tijdlijn moet evenaren. Het betekent dat elke instelling haar huidige indexscore moet kennen, de kloof tussen die score en de inzetpositie die JP Morgan beschrijft moet kennen, en een door het bestuur goedgekeurde visie moet hebben op de governance-investering die nodig is om die kloof veilig te dichten.

Hoe zou agentic AI-risico aan het bestuur moeten worden gerapporteerd? Zes metrieken per workflow: autonomieniveau, volledigheid van het controlevlak, volledigheid van het auditspoor, terugdraaipercentage, nettokosten per beslissing en actualiteit van toezichtbewijs. Plus een lijst met de top vijf restrisico's. Sla de modelkaart-slideware en de productiviteitssamenvattingen op programmaniveau over.

Schept de FSB-consultatie nu bindende verplichtingen? Nee. De FSB stelt expliciet dat de 12 Sound Practices geen bindende normen zijn. De consultatie sluit echter op 22 juli 2026 en het eindrapport gaat in oktober 2026 naar de ministers van financiën van de G20. Nationale toezichthouders — de Fed, PRA, BaFin, DNB, ACPR, MAS — staat het vrij om de Sound Practices op hun eigen tijdlijnen op te nemen in bindende toezichtverwachtingen. De instellingen die nu op de consultatie reageren, zijn degene die vormgeven aan hoe "bindend" eruit zal zien.

Referenties

Laatst herzien op 2026-06-30.

Laatst herzien 2026-06-29.

Dit artikel herpubliceren

De Agentic AI-index voor banken in 2026: autonomie meten — Sebastien Rousseau

Een index met zes dimensies die de agentic AI-gereedheid van banken scoort: autonomieniveaus, governance, toezichtbewijs, economie, gereedheid en wereldwijde afstemming.

Dit artikel valt onder de licentie Creative Commons Attribution 4.0 International. Herpublicatie vereist attributie aan de canonieke URL.

De Agentic AI-index voor banken in 2026: autonomie meten — Sebastien Rousseau

Een index met zes dimensies die de agentic AI-gereedheid van banken scoort: autonomieniveaus, governance, toezichtbewijs, economie, gereedheid en wereldwijde afstemming.

Originally published at https://sebastienrousseau.com/nl/2026-06-30-agentic-ai-index-banks-measuring-autonomy-2026/ by Sebastien Rousseau.
Licensed under CC-BY-4.0.

SEBASTIEN ROUSSEAU FOUNDER · ENGINEER