Sebastien Rousseau

Agentic AI-index voor banken 2026: autonomie, governance en impact

Agentic AI in het bankwezen is een engineeringvraagstuk verkleed als AI-vraagstuk. Het model is uitwisselbaar; de OAuth-gescopete service-accounts, de deterministische semantische router, de Open Policy Agent-poorten, het WORM-auditlog en de geteste noodknop zijn dat niet.

13 min. leestijd
Banner for: Agentic AI-index voor banken 2026: autonomie, governance en impact

Agentic AI-index voor banken 2026: autonomie, governance, auditeerbaarheid en bedrijfsimpact

Agentic AI in het bankwezen is een engineeringvraagstuk verkleed als AI-vraagstuk. Het model is uitwisselbaar; het control plane niet. De uitdaging voor 2026 is niet adoptie — Cambridge CCAF zet die al op 52% — maar de vraag of de autonome systemen die uw bank vandaag draait volgend kwartaal een SR 11-7-onderzoek doorstaan. De meeste niet.


Executive samenvatting / Kernpunten

  • Stop met de term chatbot. De productie-eenheid is een afgebakende workflow met strikte rechten op tool-aanroepen. Het werk gebeurt binnen de workflow, niet binnen het LLM.
  • OSWorld op 66,3% is het betrouwbaarheidsplafond. De benchmark van Stanford HAI die het dichtst bij enterprise tool-aanroepen ligt, faalt nog steeds op één op drie gestructureerde taken. Dat cijfer rechtvaardigt forse uitrol met human-in-the-loop; het rechtvaardigt geen ongesuperviseerde uitvoering op iets dat klantgeld raakt.
  • Classificeer op rechten, niet op intelligentie. De Autonomieladder loopt van Niveau 0 (read-only ISDA-clausule-extractie) tot Niveau 4 (multi-tool payment repair met verplichte controlepunten). Niveau 5 — zelfsturende uitvoering zonder controlepunten — hoort in 2026 niet thuis in productie binnen het bankwezen.
  • Het Agent Control Plane bestaat uit vijf geëngineerde componenten, geen beleidsdocument. OAuth-gescopete service-accounts, deterministische semantische routing, Open Policy Agent als poort, WORM-auditlogging en een geteste noodknop. Wat ontbreekt, wordt een bevinding.
  • SR 11-7 en PRA SS1/23 zijn al van toepassing. De Fed heeft herhaaldelijk verduidelijkt dat elk beslissingssysteem van input naar output binnen het bereik valt. Banken die betogen dat een LLM geen model is, hebben de toezichtsdiscussie verloren voordat zij hem begonnen.

Waarom 2026 het jaar is waarin deze index telt #

De verschuiving van chat naar afgebakende workflows is dit jaar het enige dat telt voor agentic AI bij banken. Een chatbot die een klantmail opstelt, is te beoordelen. Een agent die POST /accounts/{id}/freeze aanroept op uw productieplatform voor kaarten, levert auditeerbaar bewijs. Productie heeft de framing ingehaald: het Cambridge CCAF-onderzoek van 2026 meldt 52% actieve agentic-adoptie en 23% in opschaling of transformatie (Cambridge CCAF ⧉). De drempel van de "geïsoleerde pilot" is ergens eind 2025 gepasseerd.

Twee dingen zijn naast de adoptie verschoven.

Ten eerste behandelen toezichthouders LLM's niet langer als een nieuwigheid. De Federal Reserve heeft verduidelijkt dat SR 11-7 ⧉ van toepassing is op LLM-gedreven besluitvorming, ongeacht of het LLM intern als model is geclassificeerd. De SS1/23 ⧉ van de PRA was altijd al ruim genoeg om ze te vatten. De hoog-risicoclassificatie van de EU AI Act dekt het merendeel van het LLM-gebruik in de financiële sector. Het argument "we weten niet zeker of dit eronder valt" bestaat niet meer.

Ten tweede heeft de benchmarkrealiteit zich aangepast. De 2026 AI Index van Stanford HAI noteert OSWorld — de dichtstbijzijnde benchmark voor echt enterprise tool-gebruik — op 66,3% nauwkeurigheid (Stanford HAI ⧉). Eén op drie gestructureerde taken faalt nog steeds. Dat cijfer zet het technische plafond voor autonomie in 2026. Hoog genoeg om afgebakende Niveau-3-uitrol onder HITL-toezicht te rechtvaardigen; niet hoog genoeg voor ongesuperviseerde uitvoering tegen welke API dan ook die klantgeld raakt.

De Agentic AI-index voor banken moet voor LLM-gedreven besluitvorming doen wat het Basel-raamwerk deed voor kapitaal: de claim "we hebben controls" omzetten in meetbaar, auditeerbaar bewijs per workflow.

De architectuur van de index voor 2026 #

Indexlaag Hoe "klaar" eruitziet Indicator voor gereedheid Faalmodus
Autonomieniveau Elke productie-workflow gelabeld op Niveau 0–4; geen Niveau 5 in productie % workflows per niveau; aandeel op Niveau 3+ Productie-agent verstuurt een pacs.008 naar een gehallucineerde begunstigde-BIC omdat geen statische allow-list de payload poortwacht voor SWIFTNet
API-permissionering Elke agent koppelt aan één service-account met OAuth-scopes volgens minste rechten (bijv. card-freeze:write:lt-5000usd); MTLS naar de legacy-core % agents op minste rechten; aantal wees-permissies Agent hergebruikt een te ruim gescopet service-account; itereert door accounts die hij niet hoorde te lezen; AVG-artikel-33-incident binnen 72 uur gemeld
Deterministische vangrails Elke tool-aanroep loopt via een semantische router (NeMo Guardrails / LangChain Guardrails) plus JSON-schema-validator voor de API % onderschepte tool-aanroepen; afwijzingspercentage per categorie LLM verstuurt een transfer-aanroep met amount: 0; downstream-API valideert niet; reconciliatie-alert op het grootboek volgt 18 uur later in een andere tijdzone
Dekking human-in-the-loop Elke Niveau-3-uitvoering toont een goedkeurings-UI met een harde time-out; auto-goedkeuring uitgeschakeld door beleid Goedkeuringsdoorlooptijd; rubber-stamp-percentage (binnen 2 seconden goedgekeurd) Operator klikt "goedkeuren" op 200 alerts in 4 minuten; SAR ingediend tegen een legitieme klant; klacht van de toezichthouder binnen de week
Volledigheid van het auditlog Onveranderbaar WORM-log legt system prompt + opgehaalde context + LLM-output + tool-aanroep + tool-resultaat + UID van de goedkeurder vast; cryptografisch ondertekend bij wegschrijven % aanroepen met volledig spoor SR 11-7-onderzoeker vraagt waarom agent #4421 een wire van USD 4,8 mln goedkeurde; bank heeft de wire-bevestiging en de model card; geen bewijs op prompt-niveau; bevinding afgegeven
Unit economics Kosten per voltooide beslissing gemeten inclusief reversal- en herstelkosten; positief versus handmatige nullijn Nettokosten per beslissing; reversal-percentage Tokenkosten op edge-case-agents overstijgen de handmatige onderzoekers die zij vervingen; CFO stopt het programma in Q3

Actuele signalen om te volgen #

Signaal Wat dit voor banken betekent Bron
52% actieve adoptie Agentic AI is voorbij het pilotstadium; instellingsbrede governance is overdue Cambridge CCAF ⧉
23% in opschaling of transformatie Een betekenisvolle minderheid is voorbij het proof-of-concept-theater Cambridge CCAF ⧉
OSWorld op 66,3% Eén op drie faalt op gestructureerd tool-gebruik. Ongesuperviseerde uitvoering tegen API's voor klantgelden is op dit betrouwbaarheidsniveau niet verdedigbaar Stanford HAI ⧉
55% noemt verlies van menselijk toezicht als topriciso Het ontwerp van controls is de primaire engineeringzorg, geen downstream-compliancevraagstuk Cambridge CCAF ⧉
76% van de grote FI's worstelt om waarde te meten Algemene productiviteitsclaims overleven geen gesprek met de CFO. Meet per workflow, niet per programma Cambridge CCAF ⧉

De Autonomieladder #

Classificeer agents op wat zij mogen doen, niet op hoe slim het onderliggende model is. Dezelfde GPT-5- / Claude 4- / Gemini 3-instantie kan op elk niveau zitten; de wrapper is wat verschilt.

Het Agent Control Plane #

Het control plane is de engineeringlaag tussen het LLM en uw productiesystemen. Vijf componenten, allemaal runtime, geen ervan staat in een beleidsdocument.

1. Identiteit en rechten #

Elke agent koppelt aan precies één service-account. Dat account houdt OAuth-client_credentials-tokens met scopes op het minimale API-oppervlak dat nodig is. Het token van de card-freeze-agent kan POST /accounts/{id}/freeze aanroepen met amount-at-risk: 0..5000 usd. Het kan GET /accounts/{id}/balance niet aanroepen voor andere klanten. Het kan niets aanroepen in custody, treasury of trading. Service-accountgeheimen roteren wekelijks; langlevende credentials zijn de meest voorkomende control-plane-fout in productie-uitrol.

2. Deterministische vangrails op tool-aanroepen #

Elke LLM-tool-aanroep gaat door een deterministische semantische router (NeMo Guardrails, LangChain Guardrails of gelijkwaardig) voordat de aanroep de productie-API raakt. De router classificeert de intentie tegen een eindige allow-list; aanroepen daarbuiten worden afgewezen en gelogd. Daarna controleert een JSON-schema-validator de payload — verplichte velden aanwezig, bedragen binnen grenzen, ISO-landcodes valide, begunstigde-BIC op de vooraf goedgekeurde tegenpartijlijst van de bank. De validator hoort paranoïde te zijn: een pacs.008 met amount: 0 is een modelfout, geen legitieme transactie. Een wire naar een land dat uw sanctiefilter niet vooraf heeft goedgekeurd voor het uitgaande klantsegment evenmin.

3. Policy-as-code #

Open Policy Agent (of gelijkwaardig) zit tussen de validator en de API. Policies staan onder Git-versiebeheer; afwijzingsbeslissingen worden gelogd; dezelfde policy-engine die microservice-naar-microservice-aanroepen op uw bestaande platform poortwacht, poortwacht agent-tool-aanroepen. Agents als bijzondere klasse met op maat gemaakte poorten behandelen, is hoe banken zes maanden later zitten met schaduw-control-planes die niemand op het platformteam nog begrijpt.

4. Auditlogging #

Onveranderbare WORM-opslag — S3 Object Lock, Azure Blob immutability of een ledger-database. Elke aanroep legt vast: tijdstempel, agent-ID, service-account-ID, hash van de system prompt, opgehaalde context, LLM-provider plus model plus versie, ruwe LLM-output, geparseerde tool-aanroep, OPA-beslissing, API-respons, downstream-effect en UID van de goedkeurder waar van toepassing. Records worden cryptografisch ondertekend bij wegschrijven. Dit log is wat SR 11-7- en SS1/23-onderzoekers zullen opvragen. Kunt u voor een gegeven beslissing geen volledig spoor leveren, dan beheert u geen model-risk-managed agent.

5. Noodknop #

Een red-button-API die alle lopende agent-aanroepen binnen een rechtenklasse in minder dan 60 seconden annuleert. Elk kwartaal getest met een tabletop-oefening. De noodknop is het enige dat u recupereert van een vendor-modelrelease die stilletjes regresseert, een prompt-injection-vector die u niet voorzag, of een drift-event dat de fout-positief-percentages voorbij uw operationele drempel duwt. Ongeteste noodknoppen werken niet; reserveer de oefentijd in het budget.

Model Risk Management #

Banken die beweren "een LLM is geen model onder SR 11-7" hebben al verloren. De Federal Reserve heeft herhaaldelijk verduidelijkt dat elk input-naar-output-systeem dat in een beslisproces wordt gebruikt, binnen het bereik valt. De SS1/23 van de PRA is nog breder. De juiste houding: behandel elke productie-agent vanaf dag één als een SR 11-7- / SS1/23-model. De kosten om een uitgerolde agent achteraf als model te framen zijn een veelvoud van de kosten om hem vooraf zo te ontwerpen.

Drie verdedigingslinies, toegepast op agents:

Continue monitoring telt meer dan punt-in-tijdvalidatie. Wekelijks herdraaiende bank-specifieke evaluatiesuites vangen modelupdate-regressies die vendor-benchmarks niet aan het licht brengen. De releasecadans van OpenAI, Anthropic en Google ligt hoger dan uw validatiecadans; of u sluit het gat door continue evaluaties te draaien, of een onderzoeker sluit het voor u via een bevinding.

Bedrijfsimpact meten #

Algemene productiviteitsclaims overleven geen gesprek met de CFO. Meet agents zoals u andere operationele veranderingen meet:

Wordt een workflow sneller maar minder verklaarbaar, dan moet de index hem afstraffen. De goedkoopste manier om een toezichtsonderzoek te falen, is optimaliseren op doorvoer en het spoor verliezen.

Wat dit betekent per banktype #

Global Systemically Important Banks #

Het lastige vraagstuk is governance op schaal: honderden agents over business lines, elk met een eigen modeleigenaar, elk een potentiële auditbevinding. De investering is niet nog een pilot. Het is het centrale control plane, de uniforme auditlog-infrastructuur en een MRM-bench die 50-plus agents per kwartaal kan valideren. Zonder die capaciteit landen agents sneller dan ze beheerd kunnen worden en bouwt de instelling stilletjes SR 11-7-exposure op.

Transaction- en corporate banks #

De workflows met de hoogste ROI zijn payment repair, KYC-documentextractie, treasury-services-FAQ-deflectie en reconciliation breaks. Allemaal Niveau-2 of afgebakend Niveau-3. De corporate klant maakt het niet uit dat een agent het werk deed; hij geeft erom dat de SLA verbeterde en het disputeercijfer vlak bleef. Leid met de metrics, niet met de technologie.

Regionale banken #

Kopen, niet bouwen. Kies een leverancier wiens agent-platform de control-plane-primitieven al heeft — OAuth-scoping, OPA-integratie, WORM-auditlogging, geteste noodknop — en valideer dat platform tegen uw MRM-raamwerk. Een eigen control plane bouwen is een meerjarige investering die op regionale schaal niet onderscheidt. Besteed de engineeringcapaciteit aan workflowontwerp en operator-UX.

Fintechs, PSP's en infrastructuuraanbieders #

De productvraag voor leveranciers is niet "presteert uw AI-agent beter dan mensen". Het is "produceert uw platform standaard een SR 11-7-conform audit-spoor". Leveranciers die hier ja op kunnen zeggen, sluiten enterprise-deals. Leveranciers die dat niet kunnen, blijven steken in proof-of-concept-cycli terwijl het MRM-team van de bank redenen vindt om validatie te laten falen.

Conclusie #

Agentic AI in banken in 2026 is een engineeringvraagstuk. Het interessante werk zit in het control plane, niet in het model. Het model is uitwisselbaar; de OAuth-scoping, de deterministische semantische router, de OPA-policy-poorten, het onveranderbare auditlog en de noodknop zijn dat niet.

De instellingen die er over 18 maanden geloofwaardig uitzien voor toezichthouders zijn die welke elke productie-agent vanaf dag één behandelen als een SR 11-7- / SS1/23-model, met bank-specifieke evaluatiesuites die continu draaien en een control plane dat veilig faalt. De instellingen die dat niet doen, zullen ontdekken of hun MRM-bench kan opschalen om 50-plus remediatiebevindingen per kwartaal te verwerken.

Meet agents zoals u elke operationele verandering meet: kosten, betrouwbaarheid, omkeerbaarheid, bewijs. OSWorld op 66,3% is uw betrouwbaarheidsplafond. Plan dienovereenkomstig.

Veelgestelde vragen #

Wat is agentic AI in het bankwezen?

Een afgebakende workflow die een LLM combineert met tool-aanroepen naar productiesystemen, runtime-vangrails en human-in-the-loop-controlepunten. Het werk gebeurt binnen de workflow, niet binnen het model. Hoort u het woord "chatbot", dan zit u in de verkeerde categorie.

Waar zouden banken moeten beginnen?

Niveau-1- en Niveau-2-workflows waar waarde meetbaar is en het neerwaarts risico beheersbaar: ISDA-clausule-extractie, SAR-opstellen, payment-repair-triage, interne kennisontsluiting, code-reviewondersteuning, KYC-documentclassificatie. Sla Niveau 3 over totdat uw control plane OAuth-scoping, semantische routing, OPA-poorten, WORM-logging en een geteste noodknop afhandelt.

Wat is het grootste risico?

Agents laten uitvoeren tegen productie-API's zonder deterministische vangrails tussen LLM-output en API. Het OSWorld-cijfer van 66,3% is de waarschuwing. Onverpakte tool-aanroepen met dat faalpercentage tegen een SWIFT MT103 of een API voor klantgelden schrijven de slechtst denkbare kop van de volgende toezichtscyclus.

Is SR 11-7 van toepassing op LLM-gebaseerde agents?

Ja. De Federal Reserve heeft verduidelijkt dat elk input-naar-output-systeem dat in beslisworkflows wordt gebruikt onder SR 11-7 valt. De SS1/23 van de PRA dekt hetzelfde terrein in het VK. De hoog-risicoclassificatie van de EU AI Act dekt de meeste use cases in de financiële sector. De discussie "is dit een model" is voorbij; handel ernaar.

Hoe rapporteer je agentic AI aan boards?

Vier cijfers per workflow: autonomieniveau, volledigheid van het audit-spoor, reversal-percentage en nettokosten per beslissing. Plus een top-vijf-residual-risk-lijst. Sla de model-card-slideware over.

Referenties #

Laatst beoordeeld .

Laatst herzien .