L'IA agentique en banque est désormais un problème d'ingénierie déguisé en problème d'IA. Le modèle est interchangeable ; le plan de contrôle ne l'est pas. L'enjeu de 2026 n'est plus l'adoption — le Cambridge CCAF la situe déjà à 52 % — mais de savoir si les systèmes autonomes que votre banque exploite aujourd'hui passeraient une revue SR 11-7 le trimestre prochain. La plupart n'y parviendraient pas.
Synthèse exécutive / Points clés
- Cesser de les appeler des chatbots. L'unité de production est un flux de travail délimité, avec des permissions strictes sur chaque appel d'outil. Le travail se déroule à l'intérieur du flux, pas à l'intérieur du LLM.
- OSWorld à 66,3 % constitue le plafond de fiabilité. Le benchmark de Stanford HAI le plus proche de l'usage outillé en entreprise échoue toujours sur une tâche structurée sur trois. Ce chiffre justifie un déploiement HITL exigeant ; il ne justifie pas une exécution non supervisée sur quoi que ce soit qui touche aux fonds des clients.
- Classer par permissions, pas par intelligence. L'échelle d'autonomie va du niveau 0 (extraction en lecture seule de clauses ISDA) au niveau 4 (réparation de paiements multi-outils avec points de contrôle obligatoires). Le niveau 5 — exécution auto-orchestrée sans points de contrôle — n'a pas sa place en production bancaire en 2026.
- Le plan de contrôle des agents est un assemblage de cinq composants d'ingénierie, pas un document de politique. Comptes de service à portée OAuth, routage sémantique déterministe, garde-fous OPA, journalisation d'audit WORM et coupure d'urgence testée. Tout composant manquant est un constat.
- SR 11-7 et SS1/23 s'appliquent déjà. La Réserve fédérale a précisé à plusieurs reprises que tout système de décision allant d'entrées à des sorties relève du périmètre. Les banques qui soutiennent qu'un LLM n'est pas un modèle ont perdu l'argument réglementaire avant de l'avoir formulé.
Pourquoi 2026 est l'année où cet index prend toute son importance #
Le passage du chat aux flux de travail délimités est la seule chose qui compte dans l'IA agentique bancaire cette année. Un chatbot qui rédige un e-mail client se relit. Un agent qui appelle POST /accounts/{id}/freeze contre votre plateforme cartes en production constitue une preuve auditable. La production a rattrapé le discours : l'enquête 2026 du Cambridge CCAF rapporte 52 % d'adoption active de l'IA agentique et 23 % en phase de mise à l'échelle ou de transformation (Cambridge CCAF ⧉). Le seuil du « pilote isolé » a été franchi quelque part fin 2025.
Deux choses ont basculé en parallèle de l'adoption.
D'abord, les régulateurs ont cessé de traiter les LLM comme une nouveauté. La Réserve fédérale a précisé que SR 11-7 ⧉ s'applique à la prise de décision fondée sur un LLM, que le LLM soit ou non classé comme modèle en interne. Le périmètre du SS1/23 ⧉ de la PRA a toujours été assez large pour les couvrir. La classification « haut risque » de l'EU AI Act englobe la plupart des cas d'usage LLM dans les services financiers. L'argument du « on ne sait pas si cela compte » n'a plus cours.
Ensuite, la réalité des benchmarks a rattrapé le terrain. L'AI Index 2026 de Stanford HAI rapporte OSWorld — le benchmark le plus proche de l'usage outillé réel en entreprise — à 66,3 % de réussite (Stanford HAI ⧉). Une tâche structurée sur trois échoue encore. Ce chiffre fixe le plafond technique de l'autonomie en 2026. Suffisant pour justifier des déploiements de niveau 3 délimités sous supervision HITL ; insuffisant pour justifier une exécution non supervisée contre une API qui touche aux fonds clients.
L'index de l'IA agentique pour les banques doit faire pour la décision fondée sur LLM ce que le cadre de Bâle a fait pour le capital : convertir les déclarations du type « nous avons des contrôles » en preuves mesurables et auditables, flux par flux.
L'architecture de l'index 2026 #
| Couche de l'index | À quoi ressemble « prêt » | Indicateur de maturité | Mode de défaillance |
|---|---|---|---|
| Niveau d'autonomie | Chaque flux de travail en production est étiqueté de niveau 0 à 4 ; aucun niveau 5 en production | Part des flux par niveau ; part au niveau 3 ou plus | L'agent en production émet un pacs.008 vers un BIC bénéficiaire halluciné parce qu'aucune liste d'autorisations statique ne contrôle la charge utile avant SWIFTNet |
| Gestion des permissions API | Chaque agent est rattaché à un compte de service unique aux portées OAuth de moindre privilège (ex. card-freeze:write:lt-5000usd) ; MTLS vers le cœur historique |
Part des agents au moindre privilège ; nombre de permissions orphelines | L'agent réutilise un compte de service sur-périmétré ; il itère sur des comptes qu'il n'aurait pas dû lire ; un incident relevant de l'article 33 du RGPD est notifié dans les 72 heures |
| Garde-fous déterministes | Chaque appel d'outil passe par un routeur sémantique (NeMo Guardrails / LangChain Guardrails) puis un validateur de schéma JSON avant l'API | Part des appels d'outil interceptés ; taux de rejet par catégorie | Le LLM émet un appel transfer avec amount: 0 ; l'API en aval ne valide pas ; l'alerte de rapprochement du grand livre tombe 18 heures plus tard, sur un autre fuseau horaire |
| Couverture humain dans la boucle | Chaque exécution de niveau 3 fait apparaître une interface d'approbation avec délai d'expiration ferme ; l'approbation automatique est désactivée par politique | Débit d'approbation ; taux de validation expéditive (approuvé en moins de 2 secondes) | Un opérateur clique « approuver » sur 200 alertes en 4 minutes ; une déclaration de soupçon est déposée contre un client légitime ; une plainte du régulateur arrive dans la semaine |
| Exhaustivité de l'audit | Le journal WORM immuable capture l'invite système, le contexte récupéré, la sortie LLM, l'appel d'outil, le résultat de l'outil et l'UID de l'approbateur ; signature cryptographique à l'écriture | Part des invocations dotées d'une trace complète | Un examinateur SR 11-7 demande pourquoi l'agent n°4421 a approuvé un virement de 4,8 M $ ; la banque a le reçu et la fiche du modèle ; pas de preuve au niveau de l'invite ; constat formulé |
| Économie unitaire | Coût par décision finalisée suivi, y compris coût d'annulation et de réparation ; comparaison positive face à la base manuelle | Coût net par décision ; taux d'annulation | Le coût par token sur les agents de cas marginaux dépasse celui des enquêteurs manuels remplacés ; le CFO arrête le programme au T3 |
Signaux à suivre dès aujourd'hui #
| Signal | Ce que cela signifie pour les banques | Source |
|---|---|---|
| 52 % d'adoption active | L'IA agentique a passé le stade du pilote ; la gouvernance à l'échelle de l'institution est en retard | Cambridge CCAF ⧉ |
| 23 % en mise à l'échelle ou transformation | Une minorité significative a dépassé la mise en scène de la preuve de concept | Cambridge CCAF ⧉ |
| OSWorld à 66,3 % | Une tâche structurée sur trois échoue à l'usage outillé. Une exécution non supervisée contre des API touchant aux fonds clients est intenable à ce niveau de fiabilité | Stanford HAI ⧉ |
| 55 % citent la perte de supervision humaine comme risque majeur | La conception des contrôles est la préoccupation d'ingénierie principale, pas une question aval de conformité | Cambridge CCAF ⧉ |
| 76 % des grandes institutions financières peinent à mesurer la valeur | Les promesses de productivité génériques ne survivent pas à une conversation avec un CFO. Mesurer par flux, pas par programme | Cambridge CCAF ⧉ |
L'échelle d'autonomie #
Classer les agents par ce qu'ils sont autorisés à faire, et non par l'intelligence du modèle sous-jacent. La même instance GPT-5 / Claude 4 / Gemini 3 peut s'installer à chaque niveau ; c'est l'enveloppe qui diffère.
- Niveau 0 — Observer. Accès en lecture seule aux journaux, traces ou transactions. L'agent fait remonter des motifs ou des anomalies ; aucune écriture nulle part. Exemple : détecter une dérive des taux de rejet de
pacs.008par corridor et alerter l'équipe opérations. - Niveau 1 — Récupération en lecture seule. Lit dans les systèmes opérationnels ; produit une sortie structurée à destination humaine. Exemple : extraire les variations de clauses CSA d'un ISDA Master Agreement de contrepartie et signaler les écarts par rapport au modèle standard de la banque. L'agent n'écrit jamais dans le référentiel contractuel.
- Niveau 2 — Rédaction pour dépôt par un humain. Génère du contenu qu'un humain revoit et soumet. Exemple : rédiger une déclaration de soupçon à partir d'une alerte du système anti-fraude, d'un dossier KYC et d'une trace de transaction ; le responsable BSA (Bank Secrecy Act) lit, modifie si besoin, puis dépose. Le système de référence ne voit que la version approuvée par l'humain.
- Niveau 3 — Exécution délimitée. Appelle une API de production avec des limites déterministes et strictes imposées par l'enveloppe. Exemple : appel à l'API de blocage de carte avec
max-amount-at-risk: 5000 USDimposé par une politique de liste d'autorisations ; l'agent ne peut pas bloquer une carte rattachée à des soldes supérieurs à ce seuil sans une escalade de niveau 2. La limite vit dans la politique en tant que code, pas dans l'invite — les invites ne sont pas une frontière de sécurité. - Niveau 4 — Orchestration multi-outils avec points de contrôle obligatoires. Exécute une séquence à travers plusieurs systèmes ; chaque transition d'état est journalisée ; les points de contrôle exigent l'approbation humaine avant l'appel d'outil suivant. Exemple : flux de réparation de paiement — extraire un
pacs.008en échec de la file de messages morts → vérifier le bénéficiaire correct via le SWIFT KYC Registry → produire le message corrigé → écrire dans la file sortante → l'humain approuve le renvoi. Si une étape échoue au validateur de schéma, le flux s'arrête et crée un cas d'exception. - Niveau 5 — Auto-orchestration. L'agent planifie et exécute sans approbation aux points de contrôle. Aucun flux de travail bancaire en production ne devrait être au niveau 5 en 2026. Ce n'est pas un jugement de maturité ; c'est un jugement de fiabilité. OSWorld à 66,3 % se compose le long des chaînes d'appels API. Trois appels d'outils à 66 % chacun donnent 29 % de réussite de bout en bout. Cinq donnent 13 %. À éviter.
Le plan de contrôle des agents #
Le plan de contrôle est la couche d'ingénierie entre le LLM et vos systèmes de production. Cinq composants, tous en exécution, aucun écrit dans un document de politique.
1. Identité et permissions #
Chaque agent est rattaché à exactement un compte de service. Ce compte détient des jetons OAuth client_credentials à portée minimale sur la surface d'API nécessaire. Le jeton de l'agent de blocage de carte peut appeler POST /accounts/{id}/freeze avec amount-at-risk: 0..5000 usd. Il ne peut pas appeler GET /accounts/{id}/balance pour d'autres clients. Il ne peut rien appeler en conservation, trésorerie ou trading. Les secrets des comptes de service tournent chaque semaine ; les identifiants à longue durée de vie sont la défaillance de plan de contrôle la plus fréquente en production.
2. Garde-fous déterministes sur les appels d'outils #
Chaque appel d'outil du LLM transite par un routeur sémantique déterministe (NeMo Guardrails, LangChain Guardrails ou équivalent) avant d'atteindre l'API de production. Le routeur classe l'intention contre une liste d'autorisations finie ; les appels en dehors de la liste sont rejetés et journalisés. Ensuite, un validateur de schéma JSON contrôle la charge utile — champs obligatoires présents, montants dans les bornes, codes pays ISO valides, BIC bénéficiaire figurant sur la liste de contreparties préapprouvées de la banque. Le validateur doit être paranoïaque : un pacs.008 avec amount: 0 est une défaillance du modèle, pas une transaction légitime. Idem pour un virement vers un pays que votre filtre de sanctions n'a pas préapprouvé pour le segment client à l'origine de l'opération.
3. Politique en tant que code #
Open Policy Agent (ou équivalent) se place entre le validateur et l'API. Les politiques sont versionnées dans Git ; les décisions de rejet sont journalisées ; le même moteur de politiques qui filtre les appels microservice-à-microservice de votre plateforme existante filtre les appels d'outils des agents. Traiter les agents comme une catégorie à part avec un filtrage sur mesure conduit les banques à se retrouver avec un plan de contrôle fantôme que plus personne dans l'équipe plateforme ne comprend six mois plus tard.
4. Journalisation d'audit #
Stockage WORM (Write Once Read Many) immuable — S3 Object Lock, immuabilité Azure Blob ou base de données à grand livre. Chaque invocation capture : horodatage, identifiant d'agent, identifiant de compte de service, empreinte de l'invite système, contexte récupéré, fournisseur LLM ainsi que modèle et version, sortie brute du LLM, appel d'outil analysé, décision OPA, réponse de l'API, effet en aval et UID de l'approbateur le cas échéant. Les enregistrements sont signés cryptographiquement à l'écriture. C'est ce journal que demanderont les examinateurs SR 11-7 et SS1/23. Si vous ne pouvez pas produire une trace complète pour une décision donnée, vous n'avez pas un agent maîtrisé en risque modèle.
5. Coupure d'urgence #
Une API « bouton rouge » qui annule toutes les invocations d'agents en vol au sein d'une classe de permissions en moins de 60 secondes. Testée chaque trimestre lors d'un exercice sur table. La coupure d'urgence est la seule chose qui vous tire d'affaire face à une sortie de modèle d'un fournisseur qui régresse en silence, à un vecteur d'injection d'invite que vous n'aviez pas anticipé, ou à un événement de dérive qui pousse vos taux de faux positifs au-delà du seuil opérationnel. Les coupures d'urgence non testées ne fonctionnent pas ; budgétez le temps de l'exercice.
Gestion du risque modèle #
Les banques qui plaident « un LLM n'est pas un modèle au sens de SR 11-7 » ont déjà perdu. La Réserve fédérale a répété qu'un système d'entrées à sorties utilisé dans un flux de décision relève du périmètre. Le SS1/23 de la PRA est plus large encore. La bonne posture : traiter chaque agent en production comme un modèle SR 11-7 / SS1/23 dès le premier jour. Le coût de requalifier rétroactivement un agent déployé comme un modèle est un multiple du coût d'une conception cadrée dès le départ.
Trois lignes de défense, appliquées aux agents :
- Première ligne (propriétaire du modèle). Documente l'usage prévu de l'agent, la traçabilité des données d'entraînement et d'évaluation, le schéma de l'invite système, la liste d'autorisations des appels d'outils, les résultats de tests de la coupure d'urgence. Détient la surveillance de la dérive en production.
- Deuxième ligne (équipe MRM, Model Risk Management). Valide l'agent avant la mise en production. Le rapport de validation couvre les scores d'évaluation publiés par le fournisseur (MMLU, HumanEval, HellaSwag sont utiles mais insuffisants), les scores d'évaluation propres à la banque (votre jeu d'évaluation tenu à l'écart, construit à partir d'exemples opérationnels — c'est le travail que la plupart des banques sous-investissent), les résultats des exercices red team sur l'injection d'invite, l'analyse de biais et d'équité lorsque le flux a un impact client, et un énoncé chiffré du risque résiduel.
- Troisième ligne (audit interne). Teste les garde-fous du plan de contrôle et l'exhaustivité du journal d'audit sur un échantillon de décisions de production. Le cycle d'audit 2027 ressemblera très peu à celui de 2025 ; budgétez-le dès maintenant.
La surveillance continue compte plus que la validation ponctuelle. Des suites d'évaluation spécifiques à la banque rejouées chaque semaine attrapent les régressions liées aux mises à jour de modèles que les benchmarks fournisseurs ne feront pas remonter. La cadence de publication d'OpenAI, Anthropic et Google est plus rapide que votre cadence de validation ; soit l'écart se referme parce que vous exécutez des évaluations continues, soit il se referme via un constat d'examinateur.
Mesurer l'impact métier #
Les promesses de productivité génériques ne survivent pas à une conversation avec un CFO. Mesurer les agents comme on mesure d'autres changements opérationnels :
- Coût par décision finalisée, en intégrant le coût d'annulation et de réparation des décisions ratées. Un agent rédacteur de déclarations de soupçon qui réduit de 40 % le temps du responsable BSA mais génère 12 % de dépôts faux positifs a détruit de la valeur, pas créé.
- Interventions manuelles évitées, comptées net des nouvelles interventions générées par la supervision du plan de contrôle et le traitement des exceptions. L'objectif n'est pas de minimiser l'attention humaine ; c'est de la rediriger vers des décisions à plus fort effet de levier.
- Taux d'annulation — part des actions exécutées par un agent annulées sous 24 heures. Un taux supérieur à 2 % sur un flux de niveau 3 est un problème de fiabilité. Au-dessus de 5 %, c'est un problème de plan de contrôle.
- Exhaustivité de la trace d'audit — part des décisions dont la provenance complète est reconstructible à partir du journal WORM. Doit atteindre 100 % sur les flux de niveau 3 et 4. Tout résultat inférieur est une défaillance de politique qui ressortira en audit.
Si un flux devient plus rapide mais moins explicable, l'index doit le pénaliser. La manière la moins chère d'échouer à un examen réglementaire est d'optimiser le débit en perdant la trace.
Ce que cela implique selon le type de banque #
Banques mondiales d'importance systémique #
Le problème difficile est la gouvernance à l'échelle : des centaines d'agents répartis sur les lignes métier, chacun avec son propre propriétaire de modèle, chacun un constat d'audit potentiel. L'investissement n'est pas un pilote de plus. C'est le plan de contrôle central, l'infrastructure unifiée de journaux d'audit, et une équipe MRM capable de valider plus de 50 agents par trimestre. Sans cette capacité, les agents arrivent plus vite qu'ils ne peuvent être gouvernés et l'institution accumule silencieusement une exposition SR 11-7.
Banques de transaction et de financement aux entreprises #
Les flux à plus fort ROI sont la réparation de paiements, l'extraction de documents KYC, la déflexion FAQ des services de trésorerie et les écarts de rapprochement. Tous de niveau 2 ou de niveau 3 délimité. Le client entreprise se moque qu'un agent ait fait le travail ; ce qui compte, c'est que le SLA s'améliore et que le taux de litiges reste stable. Mettre les indicateurs en avant, pas la technologie.
Banques régionales #
Acheter, ne pas construire. Choisir un fournisseur dont la plateforme d'agents intègre déjà les primitives du plan de contrôle — portées OAuth, intégration OPA, journal d'audit WORM, coupure d'urgence testée — et valider cette plateforme contre votre cadre MRM. Construire un plan de contrôle sur mesure est un investissement pluriannuel qui ne différencie pas à l'échelle régionale. Affecter la capacité d'ingénierie à la conception des flux et à l'UX opérateur.
Fintechs, PSP et fournisseurs d'infrastructure #
La bonne question produit pour un fournisseur n'est pas « votre agent IA fait-il mieux que des humains ». C'est « votre plateforme produit-elle une trace d'audit conforme SR 11-7 dès l'installation ». Les fournisseurs capables de répondre oui décrocheront des contrats entreprise. Ceux qui ne le peuvent pas resteront englués dans des boucles de preuve de concept pendant que l'équipe MRM de la banque trouve des raisons d'échouer la validation.
Conclusion #
L'IA agentique dans les banques en 2026 est un problème d'ingénierie. Le travail intéressant se situe dans le plan de contrôle, pas dans le modèle. Le modèle est interchangeable ; les portées OAuth, le routeur sémantique déterministe, les garde-fous OPA, le journal d'audit immuable et la coupure d'urgence ne le sont pas.
Les institutions qui paraîtront crédibles aux régulateurs dans 18 mois sont celles qui traitent chaque agent en production comme un modèle SR 11-7 / SS1/23 dès le premier jour, avec des suites d'évaluation spécifiques à la banque exécutées en continu et un plan de contrôle conçu pour échouer en sécurité. Les autres découvriront si leur équipe MRM peut absorber plus de 50 constats de remédiation par trimestre.
Mesurer les agents comme on mesure toute évolution opérationnelle : coût, fiabilité, réversibilité, preuve. OSWorld à 66,3 % est votre plafond de fiabilité. Planifiez en conséquence.
Questions fréquentes #
Qu'est-ce que l'IA agentique en banque ?
Un flux de travail délimité qui combine un LLM avec des appels d'outils vers des systèmes de production, des garde-fous d'exécution et des points de contrôle humain dans la boucle (HITL). Le travail se déroule à l'intérieur du flux, pas à l'intérieur du modèle. Si le mot « chatbot » revient dans la discussion, vous êtes dans la mauvaise catégorie.
Par où les banques doivent-elles commencer ?
Les flux de niveaux 1 et 2 où la valeur est mesurable et le risque contenu : extraction de clauses ISDA, rédaction de déclarations de soupçon, triage de réparation de paiements, recherche de connaissances interne, assistance à la revue de code, classification de documents KYC. Évitez le niveau 3 tant que votre plan de contrôle ne gère pas les portées OAuth, le routage sémantique, le filtrage OPA, la journalisation WORM et une coupure d'urgence testée.
Quel est le plus grand risque ?
Laisser les agents s'exécuter contre les API de production sans garde-fous déterministes entre la sortie du LLM et l'API. Le chiffre de 66,3 % d'OSWorld est l'avertissement. Des appels d'outils non encapsulés à ce taux d'échec contre un MT103 SWIFT ou une API qui touche aux fonds clients écrivent la une catastrophique du prochain cycle réglementaire.
SR 11-7 s'applique-t-il aux agents fondés sur des LLM ?
Oui. La Réserve fédérale a précisé que tout système d'entrées à sorties utilisé dans un flux de décision relève de SR 11-7. Le SS1/23 de la PRA couvre le même terrain au Royaume-Uni. La classification « haut risque » de l'EU AI Act couvre la plupart des cas d'usage des services financiers. Le débat « est-ce un modèle » est clos ; agissez en conséquence.
Comment rendre compte de l'IA agentique au conseil ?
Quatre chiffres par flux : niveau d'autonomie, exhaustivité de la trace d'audit, taux d'annulation, coût net par décision. Plus une liste des cinq principaux risques résiduels. Laissez de côté le théâtre des fiches modèles.
Références #
- Stanford HAI, (2026). Le rapport AI Index 2026 ⧉.
- Stanford HAI, (2026). Chapitre Performance technique ⧉.
- Cambridge Centre for Alternative Finance, (2026). Rapport 2026 Global AI in Financial Services ⧉.
- Réserve fédérale, (2011). SR 11-7 : guide sur la gestion du risque modèle ⧉.
- Prudential Regulation Authority, (2023). Supervisory Statement SS1/23 : principes de gestion du risque modèle pour les banques ⧉.
- Commission européenne, (2024). Règlement (UE) 2024/1689 — règlement sur l'IA ⧉.
- NVIDIA, (2024). Cadre NeMo Guardrails ⧉.
- Cloud Native Computing Foundation, (2018). Open Policy Agent (OPA) ⧉.
Dernière révision .
Dernière révision .
