Agentní AI v bankovnictví je dnes inženýrský problém převlečený za problém AI. Model je zaměnitelný; řídicí rovina nikoli. Výzva roku 2026 není adopce — Cambridge CCAF ji odhaduje již na 52 % — ale to, zda autonomní systémy, které vaše banka dnes provozuje, projdou kontrolou podle SR 11-7 příští kvartál. Většina neprojde.
Shrnutí pro vedení / Klíčová zjištění
- Přestaňte jim říkat chatboti. Produkční jednotkou je ohraničený pracovní postup s přísnými oprávněními pro volání nástrojů. Práce se odehrává uvnitř pracovního postupu, nikoli uvnitř LLM.
- OSWorld na 66,3 % je strop spolehlivosti. Nejbližší srovnávací test podnikového použití nástrojů od Stanford HAI stále selhává v každé třetí strukturované úloze. To je číslo, které ospravedlňuje agresivní nasazení člověka ve smyčce; neospravedlňuje nedohlížený provoz proti čemukoli, co se dotýká peněz klientů.
- Klasifikujte podle oprávnění, nikoli podle inteligence. Žebřík autonomie sahá od úrovně 0 (extrakce ustanovení ISDA jen pro čtení) po úroveň 4 (víceúčelová oprava plateb s povinnými kontrolními body). Úroveň 5 — samoorganizující se provoz bez kontrolních bodů — by v produkčním bankovnictví roku 2026 existovat neměla.
- Řídicí rovina agentů má pět inženýrských komponent, nikoli politický dokument. Servisní účty s OAuth oprávněními, deterministické sémantické směrování, brány Open Policy Agent, auditní protokoly WORM a otestovaný nouzový vypínač. Cokoli chybí, je nález.
- SR 11-7 a PRA SS1/23 už platí. Fed opakovaně upřesnil, že jakýkoli rozhodovací systém vstup-výstup spadá do působnosti. Banky, které tvrdí, že LLM není model, ten regulatorní spor prohrály dříve, než ho zahájily.
Proč je rok 2026 rokem, kdy tento index začíná hrát roli #
Přechod od chatu k ohraničeným pracovním postupům je letos jediná věc, na které u agentní AI pro banky záleží. Chatbot, který sepíše klientovi e-mail, je kontrolovatelný. Agent, který volá POST /accounts/{id}/freeze proti vaší produkční kartové platformě, je auditovatelný důkaz. Produkce dohnala tuto perspektivu: průzkum Cambridge CCAF z roku 2026 uvádí 52 % aktivní agentní adopce a 23 % ve fázi škálování či transformace (Cambridge CCAF ⧉). Hranice „izolovaného pilotu" padla někdy koncem roku 2025.
Souběžně s adopcí se posunuly dvě věci.
Za prvé, regulátoři přestali zacházet s LLM jako s novinkou. Federální rezervní systém upřesnil, že SR 11-7 ⧉ se vztahuje na rozhodování založené na LLM bez ohledu na to, zda je LLM interně klasifikováno jako model. SS1/23 ⧉ od PRA bylo vždy dostatečně široké, aby je pokrylo. Klasifikace vysokého rizika podle EU AI Act pokrývá většinu použití LLM ve finančních službách. Argument „nejsme si jisti, zda to spadá" už nelze použít.
Za druhé, dohnala vás realita srovnávacích testů. Index AI od Stanford HAI z roku 2026 uvádí OSWorld — nejbližší dostupný test reálnému podnikovému použití nástrojů — na 66,3 % přesnosti (Stanford HAI ⧉). Každá třetí strukturovaná úloha stále selhává. Toto číslo stanovuje technický strop autonomie v roce 2026. Dost vysoké, aby ospravedlnilo ohraničená nasazení úrovně 3 pod dohledem HITL; ne dost vysoké, aby ospravedlnilo nedohlížený provoz proti jakémukoli API, které se dotýká klientských prostředků.
Index agentní AI pro banky musí udělat pro rozhodování založené na LLM totéž, co rámec Basilej udělal pro kapitál: převést tvrzení „máme kontroly" na měřitelný, auditovatelný důkaz na pracovní postup.
Architektura indexu pro rok 2026 #
| Vrstva indexu | Jak vypadá „připravenost" | Metrika připravenosti | Režim selhání |
|---|---|---|---|
| Úroveň autonomie | Každý produkční pracovní postup označen úrovní 0–4; v produkci žádná úroveň 5 | % pracovních postupů podle úrovně; podíl na úrovni 3 a vyšší | Produkční agent odešle pacs.008 na halucinovaný BIC příjemce, protože před SWIFTNetem nebrání statický seznam povolených příjemců |
| Oprávnění k API | Každý agent je namapován na jeden servisní účet s OAuth oprávněními podle nejnižšího oprávnění (např. card-freeze:write:lt-5000usd); MTLS na legacy jádro |
% agentů s nejnižšími oprávněními; počet osiřelých oprávnění | Agent znovu použije servisní účet s nadměrným rozsahem; iteruje účty, které neměl právo číst; incident podle čl. 33 GDPR nahlášen do 72 hodin |
| Deterministické ochranné mantinely | Každé volání nástroje směrováno přes sémantický směrovač (NeMo Guardrails / LangChain Guardrails) plus validátor JSON schématu před API | % zachycených volání nástrojů; míra odmítnutí podle kategorie | LLM vyšle volání transfer s amount: 0; downstream API nevaliduje; rekonciliační upozornění hlavní knihy dorazí o 18 hodin později v jiné časové zóně |
| Pokrytí člověkem ve smyčce | Každé spuštění úrovně 3 zobrazí schvalovací UI s tvrdým časovým limitem; automatické schvalování zakázáno politikou | Propustnost schvalování; míra razítkování (schváleno za méně než 2 vteřiny) | Operátor klikne na „schválit" u 200 výstrah za 4 minuty; SAR podáno proti legitimnímu klientovi; stížnost regulátora do týdne |
| Úplnost auditu | Nezměnitelný protokol WORM zachycuje systémový prompt + získaný kontext + výstup LLM + volání nástroje + výsledek nástroje + UID schvalovatele; kryptograficky podepsán při zápisu | % vyvolání s úplnou stopou | Kontrolor SR 11-7 se ptá, proč agent č. 4421 schválil převod 4,8 mil. USD; banka má potvrzení převodu a kartu modelu; žádný důkaz na úrovni promptu; nález vystaven |
| Jednotková ekonomika | Náklady na dokončené rozhodnutí sledovány včetně nákladů na storno a opravu; pozitivní proti manuální základní úrovni | Čisté náklady na rozhodnutí; míra storna | Spotřeba tokenů u okrajových agentů přesáhne manuální náklady na vyšetřovatele, kterého nahradili; CFO program ukončí ve 3. kvartále |
Současné signály ke sledování #
| Signál | Co to znamená pro banky | Zdroj |
|---|---|---|
| 52 % aktivní adopce | Agentní AI překročila pilotní fázi; institucionální governance je opožděná | Cambridge CCAF ⧉ |
| 23 % škáluje nebo transformuje | Smysluplná menšina se posunula za divadlo proof-of-concept | Cambridge CCAF ⧉ |
| OSWorld na 66,3 % | Míra selhání jedna ze tří u strukturovaného použití nástrojů. Nedohlížený provoz proti API klientských prostředků je při této úrovni spolehlivosti neobhájitelný | Stanford HAI ⧉ |
| 55 % uvádí ztrátu lidského dohledu jako přední riziko | Návrh kontrol je primárním inženýrským tématem, nikoli následným compliance tématem | Cambridge CCAF ⧉ |
| 76 % velkých finančních institucí má potíže měřit hodnotu | Obecná tvrzení o produktivitě neobstojí v rozhovoru s CFO. Měřte na pracovní postup, ne na program | Cambridge CCAF ⧉ |
Žebřík autonomie #
Klasifikujte agenty podle toho, co smějí dělat, nikoli podle toho, jak chytrý je podkladový model. Tatáž instance GPT-5 / Claude 4 / Gemini 3 může sedět na každé úrovni; liší se obal.
- Úroveň 0 — Pozorování. Přístup k protokolům, stopám nebo transakcím jen pro čtení. Agent odhaluje vzory nebo anomálie; nikde žádný zápis. Příklad: detekce posunu v míře zamítnutí
pacs.008podle koridoru a upozornění provozního týmu. - Úroveň 1 — Získávání jen pro čtení. Čte z provozních systémů; vydává strukturovaný výstup ke konzumaci člověkem. Příklad: extrahování variací ustanovení CSA z ISDA Master Agreement protistrany a označování odchylek od standardní šablony banky. Agent nikdy nezapisuje zpět do úložiště smluv.
- Úroveň 2 — Návrh k lidskému podání. Generuje obsah, který člověk zkontroluje a odešle. Příklad: sepsání Suspicious Activity Report z výstrahy fraud systému, KYC záznamu a stopy transakce; pracovník BSA si jej přečte, případně upraví a podá. Systém záznamu vidí pouze verzi schválenou člověkem.
- Úroveň 3 — Ohraničený provoz. Volá produkční API s tvrdými, deterministickými limity vynucenými obalem. Příklad: volání API pro zmrazení karty s
max-amount-at-risk: 5000 USDvynuceným politikou seznamu povolených; agent nemůže zmrazit kartu napojenou na zůstatky nad tuto hranici bez eskalace na úroveň 2. Limit žije v politice jako kód, ne v promptu — prompty nejsou bezpečnostní hranice. - Úroveň 4 — Vícenástrojová orchestrace s povinnými kontrolními body. Spouští sekvenci napříč systémy; každý přechod stavu je zaznamenán; kontrolní body vyžadují schválení člověkem před dalším voláním nástroje. Příklad: pracovní postup opravy plateb — extrahovat selhaný
pacs.008z fronty mrtvých zpráv → vyhledat správného příjemce přes SWIFT KYC Registry → vygenerovat opravenou zprávu → zapsat do odchozí fronty → člověk schválí opětovné odeslání. Pokud kterýkoli krok selže u validátoru schématu, pracovní postup se zastaví a vytvoří se výjimkový případ. - Úroveň 5 — Samoorganizace. Agent plánuje a vykonává bez schválení kontrolním bodem. Žádný produkční bankovní pracovní postup by neměl být na úrovni 5 v roce 2026. Není to prohlášení o zralosti; je to prohlášení o spolehlivosti. OSWorld na 66,3 % se skládá napříč propojenými voláními API. Tři volání nástrojů po 66 % znamenají 29% úspěšnost end-to-end. Pět znamená 13 %. Nedělejte to.
Řídicí rovina agentů #
Řídicí rovina je inženýrská vrstva mezi LLM a vašimi produkčními systémy. Pět komponent, všechny běhové, žádná napsaná v politickém dokumentu.
1. Identita a oprávnění #
Každý agent je namapován na přesně jeden servisní účet. Ten účet drží OAuth tokeny client_credentials s rozsahem na minimální nezbytný povrch API. Token agenta pro zmrazení karty může volat POST /accounts/{id}/freeze s amount-at-risk: 0..5000 usd. Nemůže volat GET /accounts/{id}/balance pro jiné klienty. Nemůže volat nic v custody, treasury ani v obchodování. Tajné údaje servisních účtů se rotují týdně; dlouhodobé přihlašovací údaje jsou nejčastější selhání řídicí roviny v produkčních nasazeních.
2. Deterministické ochranné mantinely u volání nástrojů #
Každé volání nástroje z LLM prochází deterministickým sémantickým směrovačem (NeMo Guardrails, LangChain Guardrails nebo ekvivalent) dříve, než dorazí na produkční API. Směrovač klasifikuje záměr proti konečnému seznamu povolených; volání mimo seznam jsou odmítnuta a zaznamenána. Pak validátor JSON schématu kontroluje payload — požadovaná pole jsou přítomna, dolarové částky v mezích, ISO kódy zemí platné, BIC příjemce na bankou předem schváleném seznamu protistran. Validátor by měl být paranoidní: pacs.008 s amount: 0 je selhání modelu, nikoli legitimní transakce. Stejně tak převod do země, kterou váš sankční filtr předem neschválil pro daný segment klientů.
3. Politika jako kód #
Open Policy Agent (nebo ekvivalent) sedí mezi validátorem a API. Politiky jsou verzovány v Gitu; rozhodnutí o odmítnutí jsou zaznamenávána; tentýž politický engine, který hradí volání mezi mikroslužbami ve vaší stávající platformě, hradí volání nástrojů agentů. Zacházet s agenty jako se zvláštní třídou s vlastním hradlováním je cesta, jak banky končí se stínovými řídicími rovinami, kterým za šest měsíců nikdo z platformového týmu nerozumí.
4. Auditní protokoly #
Nezměnitelné úložiště WORM — S3 Object Lock, Azure Blob immutability nebo databáze s ledgerem. Každé vyvolání zachycuje: časové razítko, ID agenta, ID servisního účtu, hash systémového promptu, získaný kontext, poskytovatele LLM s modelem a verzí, surový výstup LLM, parsované volání nástroje, rozhodnutí OPA, odpověď API, downstream dopad a UID schvalovatele, pokud relevantní. Záznamy jsou kryptograficky podepsány při zápisu. Tento protokol je to, co budou kontroloři SR 11-7 a SS1/23 požadovat. Pokud nemůžete předložit úplnou stopu pro libovolné rozhodnutí, nemáte agenta řízeného z hlediska modelového rizika.
5. Nouzový vypínač #
API s červeným tlačítkem, které zruší všechna probíhající vyvolání agentů v rámci permission class za méně než 60 vteřin. Čtvrtletně testováno tabletop cvičením. Nouzový vypínač je jediná věc, která vás vytáhne z vydání vendor modelu, jež tiše regreduje, z vektoru prompt injection, který jste nepředvídali, nebo z události posunu, která tlačí míru falešně pozitivních za váš provozní práh. Neotestované nouzové vypínače nefungují; rozpočtujte si čas na cvičení.
Řízení modelového rizika #
Banky, které argumentují „LLM není model podle SR 11-7", už prohrály. Federální rezervní systém opakovaně upřesnil, že jakýkoli systém vstup-výstup používaný v rozhodovacím pracovním postupu spadá do působnosti. SS1/23 od PRA je ještě širší. Správný postoj: ke každému produkčnímu agentovi přistupujte jako k modelu SR 11-7 / SS1/23 od prvního dne. Náklady na zpětné rámování nasazeného agenta jako modelu jsou násobky nákladů na jeho návrh jako modelu od začátku.
Tři linie obrany aplikované na agenty:
- První linie (vlastník modelu). Dokumentuje zamýšlené použití agenta, původ tréninkových a evaluačních dat, schéma systémového promptu, seznam povolených volání nástrojů, výsledky testů nouzového vypínače. Vlastní monitoring posunu v produkci.
- Druhá linie (tým MRM). Validuje agenta před produkcí. Validační zpráva pokrývá evaluační skóre zveřejněná dodavatelem (MMLU, HumanEval, HellaSwag jsou užitečná, ale ne dostatečná), bankově specifická evaluační skóre (vaše vlastní oddělená evaluační sada postavená na provozních příkladech — to je práce, do které většina bank investuje nedostatečně), výsledky red-teamu prompt injection, analýzu zkreslení a férovosti tam, kde má pracovní postup dopad na klienta, a kvantifikované prohlášení o zbytkovém riziku.
- Třetí linie (interní audit). Testuje brány řídicí roviny a úplnost auditního protokolu na vzorku produkčních rozhodnutí. Auditní cyklus 2027 bude vypadat velmi odlišně od cyklu 2025; rozpočtujte na něj už nyní.
Průběžné monitorování je důležitější než bodová validace. Bankově specifické evaluační sady spouštěné týdně zachytí regresí z aktualizace modelu, které benchmarky dodavatele neodhalí. Tempo vydávání OpenAI, Anthropic a Google je rychlejší než vaše tempo validace; buď mezeru zacelíte provozováním průběžných evaluací, nebo ji za vás zacelí kontrolor nálezem.
Měření obchodního dopadu #
Obecná tvrzení o produktivitě neobstojí v rozhovoru s CFO. Měřte agenty stejně, jako měříte jiné provozní změny:
- Náklady na dokončené rozhodnutí, včetně nákladů na storno a opravu neúspěšných rozhodnutí. Agent pro sepisování SAR, který zkrátí čas pracovníka BSA o 40 %, ale generuje 12 % falešně pozitivních podání, hodnotu zničil, nikoli vytvořil.
- Vyhnuté manuální zásahy, počítané čistě po odečtu nových zásahů vzniklých z dohledu řídicí roviny a obsluhy výjimek. Cílem není minimalizovat lidskou pozornost; je přesměrovat ji k rozhodnutím s vyšší pákou.
- Míra storna — procento akcí provedených agentem vrácených do 24 hodin. Míra storna nad 2 % u pracovního postupu úrovně 3 je problém spolehlivosti. Nad 5 % je problém řídicí roviny.
- Úplnost auditní stopy — procento rozhodnutí s úplným původem rekonstruovatelným z protokolu WORM. Mělo by být 100 % u pracovních postupů úrovně 3 a 4. Cokoli méně je selhání politiky, které vyplave při auditu.
Pokud se pracovní postup stane rychlejším, ale méně vysvětlitelným, index ho musí penalizovat. Nejlevnější způsob, jak neuspět v regulatorní kontrole, je optimalizovat propustnost a ztratit stopu.
Co to znamená podle typu banky #
Globálně systémově významné banky #
Tvrdým problémem je governance v měřítku: stovky agentů napříč liniemi podnikání, každý s vlastním vlastníkem modelu, každý potenciálním auditním nálezem. Investicí není další pilot. Je to centrální řídicí rovina, sjednocená infrastruktura auditních protokolů a MRM kapacita schopná validovat 50 a více agentů za kvartál. Bez této kapacity přistávají agenti rychleji, než je možno je řídit, a instituce tiše akumuluje expozici SR 11-7.
Transakční a korporátní banky #
Pracovní postupy s nejvyšší návratností jsou oprava plateb, extrakce KYC dokumentů, odklon dotazů u treasury služeb a rekonciliační rozdíly. Vše úroveň 2 nebo ohraničená úroveň 3. Korporátnímu klientovi je jedno, že práci udělal agent; zajímá ho, že se zlepšilo SLA a míra sporů zůstala plochá. Veďte komunikaci metrikami, ne technologií.
Regionální banky #
Nakupujte, nestavějte. Vyberte si dodavatele, jehož platforma agentů už má primitiva řídicí roviny — OAuth scoping, integraci OPA, auditní protokoly WORM, otestovaný nouzový vypínač — a validujte tu platformu proti svému MRM rámci. Stavba vlastní řídicí roviny je víceletá investice, která se v regionálním měřítku nediferencuje. Inženýrskou kapacitu investujte do návrhu pracovních postupů a UX pro operátory.
Fintechy, PSP a poskytovatelé infrastruktury #
Produktová otázka pro dodavatele není „pracuje váš AI agent lépe než lidé". Je „produkuje vaše platforma SR 11-7 kompatibilní auditní stopu rovnou z krabice". Dodavatelé, kteří na to odpoví ano, uzavřou podnikové obchody. Dodavatelé, kteří ne, uvíznou ve smyčkách proof-of-concept, zatímco MRM tým banky bude nacházet důvody, proč validaci nevydat.
Závěr #
Agentní AI v bankách v roce 2026 je inženýrský problém. Zajímavá práce je v řídicí rovině, ne v modelu. Model je zaměnitelný; OAuth scoping, deterministický sémantický směrovač, brány politiky OPA, nezměnitelný auditní protokol a nouzový vypínač nejsou.
Instituce, které budou za 18 měsíců vypadat věrohodně v očích regulátorů, jsou ty, které ke každému produkčnímu agentovi přistupují jako k modelu SR 11-7 / SS1/23 od prvního dne, s bankově specifickými evaluačními sadami spouštěnými průběžně a s řídicí rovinou inženýrsky navrženou tak, aby selhávala bezpečně. Instituce, které tak nečiní, zjistí, zda jejich MRM kapacita ustojí 50 a více nápravných nálezů za kvartál.
Měřte agenty stejně jako jakoukoli provozní změnu: náklady, spolehlivost, vratnost, důkazy. OSWorld na 66,3 % je váš strop spolehlivosti. Plánujte podle toho.
Často kladené otázky #
Co je agentní AI v bankovnictví?
Ohraničený pracovní postup, který kombinuje LLM s voláními nástrojů do produkčních systémů, běhové ochranné mantinely a kontrolní body s člověkem ve smyčce. Práce se odehrává uvnitř pracovního postupu, nikoli uvnitř modelu. Pokud jste slyšeli slovo „chatbot", jste ve špatné kategorii.
Kde by banky měly začít?
Pracovní postupy úrovně 1 a úrovně 2, kde je hodnota měřitelná a riziko zvládnutelné: extrakce ustanovení ISDA, sepisování SAR, triáž oprav plateb, interní vyhledávání znalostí, asistence při code review, klasifikace KYC dokumentů. Úroveň 3 přeskočte, dokud vaše řídicí rovina nezvládá OAuth scoping, sémantické směrování, brány OPA, protokoly WORM a otestovaný nouzový vypínač.
Co je největší riziko?
Nechat agenty vykonávat operace proti produkčním API bez deterministických ochranných mantinelů mezi výstupem LLM a API. Číslo OSWorld 66,3 % je varováním. Neobalená volání nástrojů s touto mírou selhání proti SWIFT MT103 nebo API klientských prostředků napíšou nejhorší titulek příštího regulatorního cyklu.
Platí SR 11-7 na agenty založené na LLM?
Ano. Federální rezervní systém upřesnil, že jakýkoli systém vstup-výstup používaný v rozhodovacích pracovních postupech spadá pod SR 11-7. SS1/23 od PRA pokrývá stejnou oblast v UK. Klasifikace vysokého rizika podle EU AI Act pokrývá většinu použití ve finančních službách. Debata „je to model" je u konce; jednejte podle toho.
Jak by se měla agentní AI reportovat správním radám?
Čtyři čísla na pracovní postup: úroveň autonomie, úplnost auditní stopy, míra storna, čisté náklady na rozhodnutí. Plus top pět zbytkových rizik. Vynechte model-card slideware.
Reference #
- Stanford HAI, (2026). Zpráva AI Index 2026 ⧉.
- Stanford HAI, (2026). Kapitola Technický výkon ⧉.
- Cambridge Centre for Alternative Finance, (2026). Globální zpráva o AI ve finančních službách 2026 ⧉.
- Federal Reserve, (2011). SR 11-7: Pokyny k řízení modelového rizika ⧉.
- Prudential Regulation Authority, (2023). Dozorové prohlášení SS1/23: Zásady řízení modelového rizika pro banky ⧉.
- Evropská komise, (2024). Nařízení (EU) 2024/1689 — AI Act ⧉.
- NVIDIA, (2024). Framework NeMo Guardrails ⧉.
- Cloud Native Computing Foundation, (2018). Open Policy Agent (OPA) ⧉.
Naposledy ověřeno .
Naposledy revidováno .
