Agentic AI-index voor banken 2026: autonomie, governance, auditeerbaarheid en bedrijfsimpact

Agentic AI in het bankwezen is een engineeringvraagstuk verkleed als AI-vraagstuk. Het model is uitwisselbaar; het control plane niet. De uitdaging voor 2026 is niet adoptie — Cambridge CCAF zet die al op 52% — maar de vraag of de autonome systemen die uw bank vandaag draait volgend kwartaal een SR 11-7-onderzoek doorstaan. De meeste niet.

Executive samenvatting / Kernpunten

Stop met de term chatbot. De productie-eenheid is een afgebakende workflow met strikte rechten op tool-aanroepen. Het werk gebeurt binnen de workflow, niet binnen het LLM.

OSWorld op 66,3% is het betrouwbaarheidsplafond. De benchmark van Stanford HAI die het dichtst bij enterprise tool-aanroepen ligt, faalt nog steeds op één op drie gestructureerde taken. Dat cijfer rechtvaardigt forse uitrol met human-in-the-loop; het rechtvaardigt geen ongesuperviseerde uitvoering op iets dat klantgeld raakt.

Classificeer op rechten, niet op intelligentie. De Autonomieladder loopt van Niveau 0 (read-only ISDA-clausule-extractie) tot Niveau 4 (multi-tool payment repair met verplichte controlepunten). Niveau 5 — zelfsturende uitvoering zonder controlepunten — hoort in 2026 niet thuis in productie binnen het bankwezen.

Het Agent Control Plane bestaat uit vijf geëngineerde componenten, geen beleidsdocument. OAuth-gescopete service-accounts, deterministische semantische routing, Open Policy Agent als poort, WORM-auditlogging en een geteste noodknop. Wat ontbreekt, wordt een bevinding.

SR 11-7 en PRA SS1/23 zijn al van toepassing. De Fed heeft herhaaldelijk verduidelijkt dat elk beslissingssysteem van input naar output binnen het bereik valt. Banken die betogen dat een LLM geen model is, hebben de toezichtsdiscussie verloren voordat zij hem begonnen.

Waarom 2026 het jaar is waarin deze index telt

De verschuiving van chat naar afgebakende workflows is dit jaar het enige dat telt voor agentic AI bij banken. Een chatbot die een klantmail opstelt, is te beoordelen. Een agent die POST /accounts/{id}/freeze aanroept op uw productieplatform voor kaarten, levert auditeerbaar bewijs. Productie heeft de framing ingehaald: het Cambridge CCAF-onderzoek van 2026 meldt 52% actieve agentic-adoptie en 23% in opschaling of transformatie (Cambridge CCAF ⧉). De drempel van de "geïsoleerde pilot" is ergens eind 2025 gepasseerd.

Twee dingen zijn naast de adoptie verschoven.

Ten eerste behandelen toezichthouders LLM's niet langer als een nieuwigheid. De Federal Reserve heeft verduidelijkt dat SR 11-7 ⧉ van toepassing is op LLM-gedreven besluitvorming, ongeacht of het LLM intern als model is geclassificeerd. De SS1/23 ⧉ van de PRA was altijd al ruim genoeg om ze te vatten. De hoog-risicoclassificatie van de EU AI Act dekt het merendeel van het LLM-gebruik in de financiële sector. Het argument "we weten niet zeker of dit eronder valt" bestaat niet meer.

Ten tweede heeft de benchmarkrealiteit zich aangepast. De 2026 AI Index van Stanford HAI noteert OSWorld — de dichtstbijzijnde benchmark voor echt enterprise tool-gebruik — op 66,3% nauwkeurigheid (Stanford HAI ⧉). Eén op drie gestructureerde taken faalt nog steeds. Dat cijfer zet het technische plafond voor autonomie in 2026. Hoog genoeg om afgebakende Niveau-3-uitrol onder HITL-toezicht te rechtvaardigen; niet hoog genoeg voor ongesuperviseerde uitvoering tegen welke API dan ook die klantgeld raakt.

De Agentic AI-index voor banken moet voor LLM-gedreven besluitvorming doen wat het Basel-raamwerk deed voor kapitaal: de claim "we hebben controls" omzetten in meetbaar, auditeerbaar bewijs per workflow.

De architectuur van de index voor 2026

Indexlaag	Hoe "klaar" eruitziet	Indicator voor gereedheid	Faalmodus
Autonomieniveau	Elke productie-workflow gelabeld op Niveau 0–4; geen Niveau 5 in productie	% workflows per niveau; aandeel op Niveau 3+	Productie-agent verstuurt een `pacs.008` naar een gehallucineerde begunstigde-BIC omdat geen statische allow-list de payload poortwacht voor SWIFTNet
API-permissionering	Elke agent koppelt aan één service-account met OAuth-scopes volgens minste rechten (bijv. `card-freeze:write:lt-5000usd`); MTLS naar de legacy-core	% agents op minste rechten; aantal wees-permissies	Agent hergebruikt een te ruim gescopet service-account; itereert door accounts die hij niet hoorde te lezen; AVG-artikel-33-incident binnen 72 uur gemeld
Deterministische vangrails	Elke tool-aanroep loopt via een semantische router (NeMo Guardrails / LangChain Guardrails) plus JSON-schema-validator voor de API	% onderschepte tool-aanroepen; afwijzingspercentage per categorie	LLM verstuurt een `transfer`-aanroep met `amount: 0`; downstream-API valideert niet; reconciliatie-alert op het grootboek volgt 18 uur later in een andere tijdzone
Dekking human-in-the-loop	Elke Niveau-3-uitvoering toont een goedkeurings-UI met een harde time-out; auto-goedkeuring uitgeschakeld door beleid	Goedkeuringsdoorlooptijd; rubber-stamp-percentage (binnen 2 seconden goedgekeurd)	Operator klikt "goedkeuren" op 200 alerts in 4 minuten; SAR ingediend tegen een legitieme klant; klacht van de toezichthouder binnen de week
Volledigheid van het auditlog	Onveranderbaar WORM-log legt system prompt + opgehaalde context + LLM-output + tool-aanroep + tool-resultaat + UID van de goedkeurder vast; cryptografisch ondertekend bij wegschrijven	% aanroepen met volledig spoor	SR 11-7-onderzoeker vraagt waarom agent #4421 een wire van USD 4,8 mln goedkeurde; bank heeft de wire-bevestiging en de model card; geen bewijs op prompt-niveau; bevinding afgegeven
Unit economics	Kosten per voltooide beslissing gemeten inclusief reversal- en herstelkosten; positief versus handmatige nullijn	Nettokosten per beslissing; reversal-percentage	Tokenkosten op edge-case-agents overstijgen de handmatige onderzoekers die zij vervingen; CFO stopt het programma in Q3

Actuele signalen om te volgen

Signaal	Wat dit voor banken betekent	Bron
52% actieve adoptie	Agentic AI is voorbij het pilotstadium; instellingsbrede governance is overdue	Cambridge CCAF ⧉
23% in opschaling of transformatie	Een betekenisvolle minderheid is voorbij het proof-of-concept-theater	Cambridge CCAF ⧉
OSWorld op 66,3%	Eén op drie faalt op gestructureerd tool-gebruik. Ongesuperviseerde uitvoering tegen API's voor klantgelden is op dit betrouwbaarheidsniveau niet verdedigbaar	Stanford HAI ⧉
55% noemt verlies van menselijk toezicht als topriciso	Het ontwerp van controls is de primaire engineeringzorg, geen downstream-compliancevraagstuk	Cambridge CCAF ⧉
76% van de grote FI's worstelt om waarde te meten	Algemene productiviteitsclaims overleven geen gesprek met de CFO. Meet per workflow, niet per programma	Cambridge CCAF ⧉

De Autonomieladder

Classificeer agents op wat zij mogen doen, niet op hoe slim het onderliggende model is. Dezelfde GPT-5- / Claude 4- / Gemini 3-instantie kan op elk niveau zitten; de wrapper is wat verschilt.

Niveau 0 — Observeren. Read-only toegang tot logs, traces of transacties. De agent legt patronen of anomalieën bloot; nergens schrijfacties. Voorbeeld: drift in pacs.008-afwijzingspercentages per corridor detecteren en het operationsteam alerteren.
Niveau 1 — Read-only retrieval. Leest uit operationele systemen; produceert gestructureerde output voor menselijke consumptie. Voorbeeld: CSA-clausulevariaties uit het ISDA Master Agreement van een tegenpartij halen en afwijkingen ten opzichte van het standaardtemplate van de bank markeren. De agent schrijft nooit terug naar de contractenstore.
Niveau 2 — Opstellen voor menselijke indiening. Genereert inhoud die een mens beoordeelt en indient. Voorbeeld: een Suspicious Activity Report opstellen op basis van een fraud-system-alert plus KYC-record plus transactietrace; de BSA-officer leest, bewerkt indien nodig en dient in. Het system of record ziet alleen de door de mens goedgekeurde versie.
Niveau 3 — Afgebakende uitvoering. Roept een productie-API aan met harde, deterministische limieten die door de wrapper worden afgedwongen. Voorbeeld: card-freeze-API-aanroep met max-amount-at-risk: 5000 USD afgedwongen door een allow-list-beleid; de agent kan geen kaart bevriezen die gekoppeld is aan saldi boven die drempel zonder Niveau-2-escalatie. De limiet zit in policy-as-code, niet in de prompt — prompts vormen geen beveiligingsgrens.
Niveau 4 — Multi-tool-orkestratie met verplichte controlepunten. Doorloopt een reeks over systemen; elke statetransitie wordt gelogd; controlepunten vragen menselijke goedkeuring voor de volgende tool-aanroep. Voorbeeld: payment-repair-workflow — gefaalde pacs.008 uit de dead-letter queue halen → juiste begunstigde opzoeken via SWIFT KYC Registry → gecorrigeerd bericht genereren → naar de uitgaande queue schrijven → mens keurt het opnieuw versturen goed. Faalt een stap op de schema-validator, dan stopt de workflow en wordt een uitzonderingszaak aangemaakt.
Niveau 5 — Zelfsturing. De agent plant en voert uit zonder goedkeuring op controlepunten. Geen enkele productie-bankworkflow hoort in 2026 op Niveau 5 te draaien. Dit is geen volwassenheidsstelling; het is een betrouwbaarheidsstelling. OSWorld op 66,3% stapelt over gekoppelde API-aanroepen. Drie tool-aanroepen van elk 66% levert 29% end-to-end-succes op. Vijf is 13%. Doen niet.

Het Agent Control Plane

Het control plane is de engineeringlaag tussen het LLM en uw productiesystemen. Vijf componenten, allemaal runtime, geen ervan staat in een beleidsdocument.

1. Identiteit en rechten

Elke agent koppelt aan precies één service-account. Dat account houdt OAuth-client_credentials-tokens met scopes op het minimale API-oppervlak dat nodig is. Het token van de card-freeze-agent kan POST /accounts/{id}/freeze aanroepen met amount-at-risk: 0..5000 usd. Het kan GET /accounts/{id}/balance niet aanroepen voor andere klanten. Het kan niets aanroepen in custody, treasury of trading. Service-accountgeheimen roteren wekelijks; langlevende credentials zijn de meest voorkomende control-plane-fout in productie-uitrol.

2. Deterministische vangrails op tool-aanroepen

Elke LLM-tool-aanroep gaat door een deterministische semantische router (NeMo Guardrails, LangChain Guardrails of gelijkwaardig) voordat de aanroep de productie-API raakt. De router classificeert de intentie tegen een eindige allow-list; aanroepen daarbuiten worden afgewezen en gelogd. Daarna controleert een JSON-schema-validator de payload — verplichte velden aanwezig, bedragen binnen grenzen, ISO-landcodes valide, begunstigde-BIC op de vooraf goedgekeurde tegenpartijlijst van de bank. De validator hoort paranoïde te zijn: een pacs.008 met amount: 0 is een modelfout, geen legitieme transactie. Een wire naar een land dat uw sanctiefilter niet vooraf heeft goedgekeurd voor het uitgaande klantsegment evenmin.

3. Policy-as-code

Open Policy Agent (of gelijkwaardig) zit tussen de validator en de API. Policies staan onder Git-versiebeheer; afwijzingsbeslissingen worden gelogd; dezelfde policy-engine die microservice-naar-microservice-aanroepen op uw bestaande platform poortwacht, poortwacht agent-tool-aanroepen. Agents als bijzondere klasse met op maat gemaakte poorten behandelen, is hoe banken zes maanden later zitten met schaduw-control-planes die niemand op het platformteam nog begrijpt.

4. Auditlogging

Onveranderbare WORM-opslag — S3 Object Lock, Azure Blob immutability of een ledger-database. Elke aanroep legt vast: tijdstempel, agent-ID, service-account-ID, hash van de system prompt, opgehaalde context, LLM-provider plus model plus versie, ruwe LLM-output, geparseerde tool-aanroep, OPA-beslissing, API-respons, downstream-effect en UID van de goedkeurder waar van toepassing. Records worden cryptografisch ondertekend bij wegschrijven. Dit log is wat SR 11-7- en SS1/23-onderzoekers zullen opvragen. Kunt u voor een gegeven beslissing geen volledig spoor leveren, dan beheert u geen model-risk-managed agent.

5. Noodknop

Een red-button-API die alle lopende agent-aanroepen binnen een rechtenklasse in minder dan 60 seconden annuleert. Elk kwartaal getest met een tabletop-oefening. De noodknop is het enige dat u recupereert van een vendor-modelrelease die stilletjes regresseert, een prompt-injection-vector die u niet voorzag, of een drift-event dat de fout-positief-percentages voorbij uw operationele drempel duwt. Ongeteste noodknoppen werken niet; reserveer de oefentijd in het budget.

Model Risk Management

Banken die beweren "een LLM is geen model onder SR 11-7" hebben al verloren. De Federal Reserve heeft herhaaldelijk verduidelijkt dat elk input-naar-output-systeem dat in een beslisproces wordt gebruikt, binnen het bereik valt. De SS1/23 van de PRA is nog breder. De juiste houding: behandel elke productie-agent vanaf dag één als een SR 11-7- / SS1/23-model. De kosten om een uitgerolde agent achteraf als model te framen zijn een veelvoud van de kosten om hem vooraf zo te ontwerpen.

Drie verdedigingslinies, toegepast op agents:

Eerste lijn (modeleigenaar). Documenteert het beoogde gebruik van de agent, de lineage van trainings- en evaluatiedata, het schema van de system prompt, de allow-list voor tool-aanroepen en de testresultaten van de noodknop. Eigenaar van drift-monitoring in productie.
Tweede lijn (MRM-team). Valideert de agent voor productie. Het validatierapport dekt vendor-evaluatiescores (MMLU, HumanEval, HellaSwag zijn nuttig maar niet voldoende), bank-specifieke evaluatiescores (uw eigen held-out evaluatieset opgebouwd uit operationele voorbeelden — dit is het werk waar de meeste banken te weinig in investeren), red-team-resultaten op prompt-injection, bias- en fairnessanalyse waar de workflow klantimpact heeft en een gekwantificeerde residual-risk-verklaring.
Derde lijn (internal audit). Test de control-plane-poorten en de volledigheid van het auditlog tegen een steekproef van productie-beslissingen. De auditcyclus van 2027 zal er heel anders uitzien dan die van 2025; reserveer er nu budget voor.

Continue monitoring telt meer dan punt-in-tijdvalidatie. Wekelijks herdraaiende bank-specifieke evaluatiesuites vangen modelupdate-regressies die vendor-benchmarks niet aan het licht brengen. De releasecadans van OpenAI, Anthropic en Google ligt hoger dan uw validatiecadans; of u sluit het gat door continue evaluaties te draaien, of een onderzoeker sluit het voor u via een bevinding.

Bedrijfsimpact meten

Algemene productiviteitsclaims overleven geen gesprek met de CFO. Meet agents zoals u andere operationele veranderingen meet:

Kosten per voltooide beslissing, inclusief de reversal- en herstelkosten van gefaalde beslissingen. Een SAR-opstellende agent die BSA-officer-tijd met 40% terugbrengt maar 12% fout-positieve filings genereert, heeft waarde vernietigd, niet gecreëerd.
Vermeden handmatige acties, geteld na aftrek van nieuwe handmatige acties die ontstaan door control-plane-toezicht en exception handling. Het doel is niet menselijke aandacht minimaliseren; het is die aandacht herleiden naar beslissingen met meer hefboom.
Reversal-percentage — aandeel agent-uitgevoerde acties dat binnen 24 uur wordt teruggedraaid. Een reversal-percentage boven 2% op een Niveau-3-workflow is een betrouwbaarheidsprobleem. Boven 5% is een control-plane-probleem.
Volledigheid van het audit-spoor — aandeel beslissingen met volledige provenance reconstrueerbaar uit het WORM-log. Hoort 100% te zijn op Niveau-3- en Niveau-4-workflows. Minder is een beleidsfout die in audit naar boven komt.

Wordt een workflow sneller maar minder verklaarbaar, dan moet de index hem afstraffen. De goedkoopste manier om een toezichtsonderzoek te falen, is optimaliseren op doorvoer en het spoor verliezen.

Wat dit betekent per banktype

Global Systemically Important Banks

Het lastige vraagstuk is governance op schaal: honderden agents over business lines, elk met een eigen modeleigenaar, elk een potentiële auditbevinding. De investering is niet nog een pilot. Het is het centrale control plane, de uniforme auditlog-infrastructuur en een MRM-bench die 50-plus agents per kwartaal kan valideren. Zonder die capaciteit landen agents sneller dan ze beheerd kunnen worden en bouwt de instelling stilletjes SR 11-7-exposure op.

Transaction- en corporate banks

De workflows met de hoogste ROI zijn payment repair, KYC-documentextractie, treasury-services-FAQ-deflectie en reconciliation breaks. Allemaal Niveau-2 of afgebakend Niveau-3. De corporate klant maakt het niet uit dat een agent het werk deed; hij geeft erom dat de SLA verbeterde en het disputeercijfer vlak bleef. Leid met de metrics, niet met de technologie.

Regionale banken

Kopen, niet bouwen. Kies een leverancier wiens agent-platform de control-plane-primitieven al heeft — OAuth-scoping, OPA-integratie, WORM-auditlogging, geteste noodknop — en valideer dat platform tegen uw MRM-raamwerk. Een eigen control plane bouwen is een meerjarige investering die op regionale schaal niet onderscheidt. Besteed de engineeringcapaciteit aan workflowontwerp en operator-UX.

Fintechs, PSP's en infrastructuuraanbieders

De productvraag voor leveranciers is niet "presteert uw AI-agent beter dan mensen". Het is "produceert uw platform standaard een SR 11-7-conform audit-spoor". Leveranciers die hier ja op kunnen zeggen, sluiten enterprise-deals. Leveranciers die dat niet kunnen, blijven steken in proof-of-concept-cycli terwijl het MRM-team van de bank redenen vindt om validatie te laten falen.

Conclusie

Agentic AI in banken in 2026 is een engineeringvraagstuk. Het interessante werk zit in het control plane, niet in het model. Het model is uitwisselbaar; de OAuth-scoping, de deterministische semantische router, de OPA-policy-poorten, het onveranderbare auditlog en de noodknop zijn dat niet.

De instellingen die er over 18 maanden geloofwaardig uitzien voor toezichthouders zijn die welke elke productie-agent vanaf dag één behandelen als een SR 11-7- / SS1/23-model, met bank-specifieke evaluatiesuites die continu draaien en een control plane dat veilig faalt. De instellingen die dat niet doen, zullen ontdekken of hun MRM-bench kan opschalen om 50-plus remediatiebevindingen per kwartaal te verwerken.

Meet agents zoals u elke operationele verandering meet: kosten, betrouwbaarheid, omkeerbaarheid, bewijs. OSWorld op 66,3% is uw betrouwbaarheidsplafond. Plan dienovereenkomstig.

Veelgestelde vragen

Wat is agentic AI in het bankwezen?

Een afgebakende workflow die een LLM combineert met tool-aanroepen naar productiesystemen, runtime-vangrails en human-in-the-loop-controlepunten. Het werk gebeurt binnen de workflow, niet binnen het model. Hoort u het woord "chatbot", dan zit u in de verkeerde categorie.

Waar zouden banken moeten beginnen?

Niveau-1- en Niveau-2-workflows waar waarde meetbaar is en het neerwaarts risico beheersbaar: ISDA-clausule-extractie, SAR-opstellen, payment-repair-triage, interne kennisontsluiting, code-reviewondersteuning, KYC-documentclassificatie. Sla Niveau 3 over totdat uw control plane OAuth-scoping, semantische routing, OPA-poorten, WORM-logging en een geteste noodknop afhandelt.

Wat is het grootste risico?

Agents laten uitvoeren tegen productie-API's zonder deterministische vangrails tussen LLM-output en API. Het OSWorld-cijfer van 66,3% is de waarschuwing. Onverpakte tool-aanroepen met dat faalpercentage tegen een SWIFT MT103 of een API voor klantgelden schrijven de slechtst denkbare kop van de volgende toezichtscyclus.

Is SR 11-7 van toepassing op LLM-gebaseerde agents?

Ja. De Federal Reserve heeft verduidelijkt dat elk input-naar-output-systeem dat in beslisworkflows wordt gebruikt onder SR 11-7 valt. De SS1/23 van de PRA dekt hetzelfde terrein in het VK. De hoog-risicoclassificatie van de EU AI Act dekt de meeste use cases in de financiële sector. De discussie "is dit een model" is voorbij; handel ernaar.

Hoe rapporteer je agentic AI aan boards?

Vier cijfers per workflow: autonomieniveau, volledigheid van het audit-spoor, reversal-percentage en nettokosten per beslissing. Plus een top-vijf-residual-risk-lijst. Sla de model-card-slideware over.

Referenties

Stanford HAI, (2026). The 2026 AI Index Report ⧉.
Stanford HAI, (2026). Hoofdstuk Technische prestaties ⧉.
Cambridge Centre for Alternative Finance, (2026). Wereldwijd rapport AI in financiële dienstverlening 2026 ⧉.
Federal Reserve, (2011). SR 11-7: Richtlijn voor Model Risk Management ⧉.
Prudential Regulation Authority, (2023). Toezichtsbrief SS1/23: principes voor model risk management bij banken ⧉.
Europese Commissie, (2024). Verordening (EU) 2024/1689 — AI Act ⧉.
NVIDIA, (2024). NeMo Guardrails-framework ⧉.
Cloud Native Computing Foundation, (2018). Open Policy Agent (OPA) ⧉.

Laatst beoordeeld 2026-06-03.

Laatst herzien 2026-07-28.

Dit artikel herpubliceren

Agentic AI-index voor banken 2026: autonomie, governance en impact — Sebastien Rousseau

Een indexkader voor de meting van agentic AI-volwassenheid bij banken: autonomie, governance, auditeerbaarheid, betrouwbaarheid en bedrijfswaarde.

Dit artikel valt onder de licentie Creative Commons Attribution 4.0 International. Herpublicatie vereist attributie aan de canonieke URL.

Agentic AI-index voor banken 2026: autonomie, governance en impact — Sebastien Rousseau

Een indexkader voor de meting van agentic AI-volwassenheid bij banken: autonomie, governance, auditeerbaarheid, betrouwbaarheid en bedrijfswaarde.

Originally published at https://sebastienrousseau.com/nl/2026-06-03-agentic-ai-index-banks-autonomy-governance-auditability-2026/ by Sebastien Rousseau.
Licensed under CC-BY-4.0.

SEBASTIEN ROUSSEAU FOUNDER · ENGINEER