L'indice de l'IA agentique pour les banques en 2026 : mesurer l'autonomie

TL;DR. Un indice à six dimensions notant la préparation à l'IA agentique des banques : niveaux d'autonomie, gouvernance, preuves réglementaires, économie, préparation et alignement mondial.

Points clés

Pourquoi cet indice existe. L'Evident AI Index classe 50 banques mondiales selon le talent, l'innovation, le leadership et la transparence, à partir de millions de données publiques.
Le paysage de la maturité de l'IA agentique en 2026. Le rapport 2026 du Cambridge CCAF — la plus vaste étude mondiale sur l'IA dans les services financiers, portant sur 628 organisations dans 151 juridictions, en partenariat avec la BRI, le FMI, le WEF et la Banque…
L'architecture de l'indice à six dimensions. Cet indice note la préparation à l'IA agentique selon six dimensions.
Le score d'indice composite. Les six scores dimensionnels se combinent en un indice composite selon la pondération suivante de matérialité réglementaire :.

Dans la banque, l'IA agentique est passée de l'expérimentation à l'infrastructure opérationnelle. En 2026, la question n'est plus de savoir s'il faut la déployer — 52 % des institutions financières l'ont déjà fait — mais de savoir si le secteur peut mesurer ce qu'il a bâti avec la rigueur qu'il applique aux fonds propres, au crédit et à la liquidité. Cet indice est ce cadre de mesure (Cambridge CCAF, 2026).

Synthèse / Points clés

L'autonomie est la nouvelle adéquation des fonds propres. De même que Bâle a fixé des normes mesurables de résilience financière, le secteur a désormais besoin d'une norme mesurable pour la décision autonome. Cet indice est le premier cadre transversal à noter la préparation à l'IA agentique en réunissant gouvernance, architecture technique, preuves réglementaires, rendement économique et maturité organisationnelle dans un seul modèle opérationnel.

Un taux d'adoption de 52 % masque un taux de transformation de 14 %. L'enquête 2026 du Cambridge CCAF, portant sur 628 organisations dans 151 juridictions, révèle que si quatre institutions financières sur cinq déploient l'IA, 14 % seulement la décrivent comme transformant leur position concurrentielle. L'écart relève de la gouvernance, pas de la technologie.

OSWorld à 66.3 % est le plafond de fiabilité, pas le plancher. Le référentiel 2026 de Stanford HAI montre que les agents d'IA accomplissent 66.3 % des tâches structurées en entreprise (Stanford HAI, 2026). Trois appels d'outil enchaînés à ce taux se composent en un taux de réussite de bout en bout de 29 %. Une exécution non supervisée sur des systèmes de paiement en production n'est pas défendable à ce niveau de fiabilité.

Le FSB s'est prononcé. Le 10 juin 2026, le Conseil de stabilité financière (FSB) a publié son premier cadre opérationnel pour gouverner l'IA agentique dans les services financiers (FSB, 2026) — 12 pratiques saines couvrant la responsabilité du conseil d'administration, la gestion du cycle de vie et les architectures d'IA surveillant l'IA. Les commentaires se clôturent le 22 juillet 2026.

L'horloge d'application de l'EU AI Act tourne. Les obligations relatives aux systèmes d'IA à haut risque au titre de l'Annexe III prennent effet le 2 août 2026 (orientations EU AI Act, 2026). Les institutions financières exploitant une IA agentique dans l'UE sans identité par agent dans le journal d'audit, sans procédures de révocation documentées et sans preuves au niveau du conseil sont en retard.

JP Morgan a nommé une échéance. Derek Waldron, chief analytics officer, a confirmé à CNBC le 9 juin 2026 que la banque déploierait des agents autonomes à long terme (CNBC, 2026) — capables de fonctionner de façon indépendante pendant une à deux heures — dès 2026. Cette annonce modifie le cadre concurrentiel de toute institution qui se compare à elle.

L'indice note six dimensions. Niveau d'autonomie, architecture de gouvernance, preuves réglementaires, responsabilité économique, préparation organisationnelle et alignement réglementaire mondial. Ensemble, elles transforment un programme d'IA, d'un portefeuille d'initiatives en une capacité mesurable.

Pourquoi cet indice existe

L'Evident AI Index classe 50 banques mondiales selon le talent, l'innovation, le leadership et la transparence, à partir de millions de données publiques. C'est le référentiel externe le plus fiable de la maturité en IA dans les services financiers. Ce qu'il ne fait pas — délibérément — c'est noter l'architecture d'ingénierie et de gouvernance spécifique qui rend l'IA agentique sûre à déployer face à des API bancaires en production. Le Stanford AI Index suit la production de recherche, la performance technique et l'impact sociétal. Ce qu'il ne fait pas, c'est traduire les pourcentages d'achèvement de tâches OSWorld en jeu d'instructions opérationnelles pour un trésorier, un directeur des risques ou une équipe de validation des modèles.

Cet indice comble ce manque. Il reprend la discipline de mesurabilité du cadre de Stanford, le contexte concurrentiel de l'Evident Index et la spécificité réglementaire de SR 11-7, SS1/23, de l'EU AI Act, des pratiques saines du FSB et du Model AI Governance Framework for Agentic AI de l'IMDA de Singapour — pour les convertir en un modèle de notation à six dimensions sur lequel un conseil d'administration peut agir.

Le déclencheur concret est que l'IA agentique est passée d'une conversation de planification à une question d'audit. Quand le chief analytics officer de JP Morgan annonce le déploiement la même année d'agents autonomes à long terme, quand DBS intègre des plans de contrôle d'agents à la préparation des mémos de crédit et au service client, quand le FSB prescrit que les agents exécutant des transactions financières exigent « une approbation humaine ou une double autorisation au-delà d'une valeur seuil, un accès restreint des agents aux systèmes de paiement et des pistes d'audit de chaque transaction d'agent » — l'institution qui ne sait pas noter sa propre posture verra un régulateur la noter à sa place.

Le paysage de la maturité de l'IA agentique en 2026

Ce que montrent les données

Le rapport 2026 du Cambridge CCAF — la plus vaste étude mondiale sur l'IA dans les services financiers, portant sur 628 organisations dans 151 juridictions, en partenariat avec la BRI, le FMI, le WEF et la Banque mondiale — fournit le socle statistique de cet indice.

Signal	Constat	Source
Adoption active de l'IA	81 % des entreprises financières déploient l'IA à un certain niveau	Cambridge CCAF
Adoption de l'IA agentique	52 % pilotent ou déploient déjà des systèmes agentiques capables d'une action autonome soutenue en plusieurs étapes	Cambridge CCAF
Taux de transformation	14 % seulement décrivent l'IA comme redéfinissant leur avantage concurrentiel	Cambridge CCAF
Difficulté de mesure	55 % du secteur et 63 % des régulateurs peinent à mesurer la valeur du déploiement de l'IA ; 76 % spécifiquement chez les grandes institutions financières	Cambridge CCAF
Rentabilité	40 % seulement font état d'une rentabilité accrue grâce à l'IA ; 43 % ne constatent aucun changement	Cambridge CCAF
Perte de supervision humaine	51 % citent la perte de supervision humaine parmi les principaux risques	Cambridge CCAF
Cas d'usage agentiques	31 % des nouveaux cas d'usage bancaires de l'IA au T1 2026 étaient des applications agentiques — le plus haut niveau enregistré, contre 15 % au T4 2025	Evident Insights
Écart de gouvernance	77 % de 2 000 responsables technologiques affirment que l'adoption de l'IA dépasse les capacités de gouvernance ; en moyenne 54 incidents d'agents d'IA par entreprise en 2025	IBM
Prolifération des agents	Les entreprises prévoient de déployer en moyenne 1 661 agents d'IA d'ici 2027 ; 11 % seulement se disent pleinement préparées	IBM
Risque sur les bénéfices selon McKinsey	L'IA agentique pourrait réduire de 20 % les coûts opérationnels des banques mais menace d'éroder jusqu'à 170 milliards de dollars de bénéfices mondiaux d'ici 2030 si les modèles économiques ne s'adaptent pas	McKinsey

Ces chiffres cernent précisément le problème : l'adoption devance la gouvernance, les gains de productivité sont visibles, la transformation est rare, et l'écart de mesure est le plus large là où les enjeux réglementaires sont les plus élevés — chez les grandes institutions financières.

Où les concurrents tracent les lignes

L'Evident AI Index 2025 a placé JP Morgan Chase en tête (score : 79), suivi de Capital One (78.1), RBC (58.4), CommBank Australia (53.9) et Morgan Stanley (52.2). L'indice mesure quatre piliers de capacité — talent, innovation, leadership, transparence — et non l'architecture opérationnelle des agents. Cela crée un écart structurel : une banque peut obtenir un score élevé sur la communication en matière d'innovation tout en déployant des agents sans coupure d'urgence, sans journal d'audit WORM et sans barrière de politique OPA. Cet indice est conçu pour rendre cet écart visible.

Le rapport Tech Trends 2026 de Deloitte indique que 11 % seulement des organisations ont de l'IA agentique en production. McKinsey constate qu'environ un tiers seulement des organisations atteignent un niveau de maturité de gouvernance de trois ou plus dans les contrôles de l'IA agentique, alors même que les capacités techniques progressent rapidement. Les données d'enquête de CCG Catalyst montrent que 93 % des dépenses liées à l'IA vont à l'infrastructure technologique et 7 % seulement aux personnes, au talent, à la formation, à la conduite du changement et à la gouvernance — un ratio qui rend le passage à l'échelle structurellement impossible.

L'Evident Venture Tracker du T1 2026 identifie Anthropic comme le fournisseur le plus cité, avec une longue traîne d'acteurs spécialisés représentant 68 % de tous les déploiements, ciblant largement des cas d'usage propres à des flux de travail dans le crédit, la lutte contre le blanchiment et la trésorerie. L'offre est mature. La gouvernance ne l'est pas.

L'architecture de l'indice à six dimensions

Cet indice note la préparation à l'IA agentique selon six dimensions. Chaque dimension comporte une échelle de maturité à quatre niveaux. Le score d'indice d'une banque est le produit de ses scores dimensionnels pondérés par la matérialité réglementaire. Le cadre de pondération est calibré sur SR 11-7, SS1/23, les obligations de l'Annexe III de l'EU AI Act et les catégories de pratiques saines du FSB.

Dimension 1 : couverture des niveaux d'autonomie

Ce qu'elle mesure : si chaque flux de travail agentique en production est classé sur une échelle d'autonomie définie, sans qu'aucun flux n'opère au-dessus de son niveau autorisé sans exception documentée — et si cette affectation de niveau définit non seulement les limites de tâche, mais aussi les limites de responsabilité juridique.

L'échelle d'autonomie demeure la construction fondatrice. Les cinq niveaux — du niveau 0 (observation et lecture seule) au niveau 4 (orchestration multi-outils avec points de contrôle obligatoires) — définissent la limite de permission de l'agent, et non la sophistication du modèle. Le même LLM sous-jacent peut se situer à n'importe quel niveau ; c'est l'enveloppe qui diffère. Le niveau 5 — exécution auto-orchestrée sans points de contrôle — ne devrait pas exister dans la banque en production en 2026. OSWorld à 66.3 % d'achèvement de tâches se compose : trois appels enchaînés à 66 % chacun produisent un taux de réussite de bout en bout de 29 %. Cinq appels produisent 13 %.

Le Model AI Governance Framework for Agentic AI de l'IMDA de Singapour, publié à Davos le 22 janvier 2026 comme le premier cadre de gouvernance au monde traitant explicitement des agents autonomes (IMDA, 2026), définit quatre concepts équivalents : la hiérarchie des mandants (qui peut instruire l'agent), la limite de tâche (ce que l'agent est autorisé à faire), l'empreinte minimale (l'agent ne doit pas accumuler de permissions au-delà du besoin immédiat) et l'explicabilité (les chemins de raisonnement doivent être traçables). Ces quatre concepts correspondent directement au modèle des niveaux d'autonomie.

Le problème principal-agent et l'attribution juridique de l'intention. Le cadre de l'IMDA introduit une dimension que les seules spécifications d'ingénierie sous-estiment : lorsqu'un agent d'IA agit comme mandataire d'une entité juridique — exécuter un paiement, approuver un ajustement de limite de crédit, soumettre une déclaration réglementaire — il crée un problème juridique d'attribution de l'intention. Sous quelle autorité l'agent a-t-il agi ? Qui porte la responsabilité lorsque l'agent s'écarte des contraintes de son prompt ? À qui l'intention est-elle attribuée lorsque l'agent choisit entre deux interprétations valables mais divergentes d'une instruction ambiguë ?

Pour les flux de travail de niveau 3 et de niveau 4 — où l'agent exécute de façon autonome des actions à conséquences au sein de paramètres définis — la définition du niveau doit préciser non seulement la limite technique de tâche, mais aussi la limite de responsabilité juridique : un mandant humain nommément désigné ayant autorisé le flux, un instrument de délégation documenté (résolution du conseil, délégation de pouvoir ou mandat signé), les conditions dans lesquelles les actions de l'agent engagent l'institution, et les conditions dans lesquelles un écart aux contraintes du prompt déclenche une annulation automatique, une escalade et une journalisation de l'incident. Sans cela, la classification des niveaux d'autonomie est un artefact d'ingénierie qui ne survivra pas à une contestation juridique, à un examen réglementaire ni à un litige avec une contrepartie dont les fonds ont bougé parce qu'un agent a mal interprété une instruction conditionnelle.

Niveau de maturité	À quoi cela ressemble	Score d'indice
Niveau 1 — Non classé	Aucune taxonomie formelle ; agents décrits de façon informelle comme des « assistants » ou « copilotes » ; aucune documentation de niveau	0–24
Niveau 2 — Classé, non validé	Étiquettes de niveau appliquées ; aucune validation formelle que l'enveloppe applique le niveau déclaré ; des flux de niveau 5 peuvent exister sans détection	25–49
Niveau 3 — Classé et contrôlé	Tous les flux en production étiquetés niveau 0–4 ; niveau 5 contractuellement interdit ; artefacts d'audit de niveau trimestriels disponibles pour examen par la MRM	50–74
Niveau 4 — Classé, contrôlé et prêt pour la preuve	Registre de niveaux complet ; surveillance continue de la dérive ; toute reclassification de niveau déclenche une nouvelle validation MRM ; un auditeur peut reconstituer l'affectation de niveau de tout flux à la demande	75–100

Dimension 2 : architecture de gouvernance

Ce qu'elle mesure : si le plan de contrôle d'agent à cinq composants est entièrement conçu et opérationnel en production — et non décrit dans un document de politique.

La consultation du FSB de juin 2026 indique explicitement que les cadres de gouvernance existants n'ont pas été conçus pour des systèmes qui « planifient, exécutent des actions en plusieurs étapes et interagissent avec des systèmes externes sans supervision humaine pas à pas ». Le plan de contrôle à cinq composants traduit ce constat en une liste de vérification d'ingénierie :

Composant 1 : identité et permissions. Chaque agent correspond à exactement un compte de service avec des jetons OAuth client_credentials cadrés sur la surface d'API minimale. Le jeton de l'agent de blocage de carte peut appeler POST /accounts/{id}/freeze avec un plafond de montant ; il ne peut rien appeler en conservation, trésorerie ou trading. Les secrets des comptes de service tournent selon un cycle défini. Les identifiants à longue durée de vie sont la défaillance de plan de contrôle la plus courante dans les déploiements en production. Le FSB recommande explicitement « le moindre privilège pour les agents et leurs sous-agents, et une gestion dynamique des identités et des accès qui accorde, modifie ou révoque les permissions en temps réel selon le comportement et le contexte, plutôt que les profils statiques utilisés pour les utilisateurs humains ».

Composant 2 : garde-fous déterministes. Chaque appel d'outil du LLM passe par un routeur sémantique (NeMo Guardrails, LangChain Guardrails ou équivalent) avant d'atteindre l'API de production. Le routeur classe l'intention par rapport à une liste d'autorisation finie et rejette les appels hors de cette liste. Un validateur de schéma JSON vérifie ensuite la charge utile. Un pacs.008 avec amount: 0 est une défaillance du modèle, pas une transaction légitime. Il en va de même d'un virement vers un pays non pré-approuvé pour le segment de clientèle d'origine.

Composant 3 : politique en tant que code. Open Policy Agent (ou équivalent) s'intercale entre le validateur et l'API. Les politiques sont versionnées dans Git ; les décisions de rejet sont journalisées ; le même moteur de politiques qui contrôle les appels de microservice à microservice dans la plateforme existante contrôle les appels d'outil des agents. Les orientations de l'EU AI Office de mai 2026 sur la journalisation d'audit de l'Article 12 exigent que les entrées de journal des systèmes d'IA à haut risque attribuent les actions à une instance d'agent spécifique, et non simplement à un déploiement ou à un identifiant d'API. Les déploiements multi-agents partageant un identifiant échouent à ce test.

Composant 4 : exhaustivité de l'audit. Stockage WORM immuable — S3 Object Lock, immutabilité Azure Blob ou base de données à registre. Chaque invocation capture : l'horodatage, l'ID de l'agent, l'ID du compte de service, l'empreinte du prompt système, le contexte récupéré, le fournisseur du LLM ainsi que le modèle et la version, la sortie brute du LLM, l'appel d'outil analysé, la décision OPA, la réponse de l'API, l'effet en aval et l'UID de l'approbateur le cas échéant. Les enregistrements sont signés cryptographiquement au moment de l'écriture. La clarification de l'Article 12 de l'EU AI Act publiée en mai 2026 désigne l'identité par agent comme une lacune spécifique ; les institutions exploitant plusieurs instances d'agents partageant un identifiant sont explicitement hors conformité.

Composant 5 : coupure d'urgence et IA surveillant l'IA. Une API « bouton rouge » testée qui annule toutes les invocations d'agents en cours au sein d'une classe de permission en moins de 60 secondes. Le mot testée est déterminant. Une coupure d'urgence non testée est une aspiration de politique.

Au-delà de la coupure d'urgence, la dimension 2 au niveau de maturité le plus élevé doit imposer une architecture d'IA surveillant l'IA (AMI) — et la raison est arithmétique. Les données d'IBM portent la population moyenne d'agents en entreprise à 1 661 d'ici 2027 (IBM, 2026). Le FSB admet explicitement que la surveillance humaine continue des décisions d'agents individuels devient physiquement impossible à l'échelle, et recommande de compléter la supervision humaine par des systèmes d'IA qui alertent les humains lorsque des indicateurs de performance sont franchis ou que le comportement des agents dérive. Un responsable conformité humain ne peut pas surveiller 1 661 agents simultanés exécutant des décisions à la vitesse de la machine. Le modèle de contrôle qui suppose qu'il le peut échouera la première fois qu'une population d'agents subira un glissement comportemental corrélé — une mise à jour de modèle modifiant silencieusement les distributions de sortie de dizaines de flux de travail à la fois.

La couche AMI ne remplace pas la supervision humaine ; c'est le mécanisme de détection qui rend la supervision humaine actionnable à l'échelle. Ses trois fonctions obligatoires sont : la détection de dérive (surveillance statistique de la distribution de sortie des agents de même niveau et de même type, signalant les écarts au-delà d'un seuil sigma défini avant qu'un humain ne puisse les remarquer) ; l'alerte de corrélation inter-agents (identifier quand plusieurs agents commencent à s'exécuter selon un schéma cohérent en direction qui n'existait pas la veille — le signal précoce de la dynamique de mimétisme décrite à la dimension 6) ; et la pré-escalade d'anomalie (générer une alerte structurée, avec contexte et évaluation de réversibilité, à un décideur humain avant que la coupure d'urgence ne soit la seule option restante). Le FSB recommande explicitement les architectures AMI dans la pratique saine 9. Une institution qui atteint le niveau de maturité 4 à la dimension 2 sans couche AMI opérationnelle n'est pas au niveau 4.

Niveau de maturité	À quoi cela ressemble	Score d'indice
Niveau 1 — Ad hoc	Certains composants présents mais non documentés ; aucun propriétaire formel du plan de contrôle ; aucun relevé de test de coupure d'urgence	0–24
Niveau 2 — Documenté	Les cinq composants documentés ; des lacunes de mise en œuvre subsistent ; la coupure d'urgence existe mais n'est pas testée ; les journaux WORM sont incomplets	25–49
Niveau 3 — Opérationnel	Les cinq composants opérationnels en production ; coupure d'urgence testée trimestriellement ; journaux WORM complets pour les flux de niveau 3 et plus ; politiques OPA versionnées	50–74
Niveau 4 — Prêt pour la preuve	Le plan de contrôle génère des preuves continues, signées cryptographiquement ; l'identité par agent satisfait l'Article 12 de l'EU AI Act ; les résultats des tests de coupure d'urgence sont des artefacts d'audit ; la détection de dérive est automatisée	75–100

Dimension 3 : exhaustivité des preuves réglementaires

Ce qu'elle mesure : si l'institution peut produire à la demande un dossier de preuves réglementaires complet, par flux de travail, pour SR 11-7, SS1/23, l'EU AI Act, DORA, le FSB et les cadres nationaux applicables.

La Réserve fédérale a clarifié à plusieurs reprises que SR 11-7 s'applique à tout système de décision entrée-sortie, que l'institution classe ou non le LLM sous-jacent comme un modèle. La SS1/23 de la PRA est plus large encore. La classification à haut risque de l'Annexe III de l'EU AI Act couvre la plupart des cas d'usage de LLM dans les services financiers — notation de crédit, détection de fraude, adéquation client, tarification de l'assurance. La pleine conformité pour les systèmes relevant de l'UE est exigée au 2 août 2026, l'Allemagne, la France et les Pays-Bas étant confirmés pour des examens prudentiels au T3 2026. L'IOSCO Supervisory Toolkit for AI Use in Capital Markets, finalisé le 25 mai 2026, couvre l'ensemble du cycle de vie de l'IA, du ML traditionnel à la GenAI et à l'IA agentique — et identifie explicitement que les capacités de planification, la mémoire à long terme et l'accès à des outils externes créent des risques de comportement émergent et de défaillances en cascade au sein de systèmes interconnectés.

Le modèle des trois lignes de défense, appliqué aux agents :

Première ligne (propriétaire du modèle) : documente l'usage prévu, la traçabilité des données d'entraînement et d'évaluation, le schéma du prompt système, la liste d'autorisation des appels d'outil, les résultats des tests de coupure d'urgence. Détient la surveillance de la dérive en production. Détient le jeu d'évaluation réservé propre à la banque — le travail dans lequel la plupart des institutions sous-investissent.
Deuxième ligne (équipe MRM) : valide l'agent avant la production. Le rapport de validation couvre les scores d'évaluation du fournisseur (MMLU, HumanEval — utiles mais insuffisants), les scores d'évaluation propres à la banque, les résultats de red-team d'injection de prompt, l'analyse de biais et d'équité, et un énoncé quantifié du risque résiduel.
Troisième ligne (audit interne) : teste les barrières du plan de contrôle et l'exhaustivité du journal d'audit sur un échantillon de décisions en production. Le cycle d'audit 2027 sera sensiblement différent de celui de 2025 ; budgétez en conséquence.

Le Singapore Model AI Governance Framework for Agentic AI (MGF) exige des institutions financières qu'elles évaluent les agents selon quatre dimensions : délimiter l'autonomie et l'accès de l'agent, établir une responsabilité humaine à des points de contrôle définis, mettre en œuvre des contrôles techniques incluant des tests de référence, et permettre la responsabilité de l'utilisateur final par la transparence. L'AI Risk Management Toolkit de la MAS de mars 2026 — développé dans le cadre du Project MindForge avec 24 institutions — constitue les orientations de niveau national les plus détaillées sur le plan opérationnel.

Niveau de maturité	À quoi cela ressemble	Score d'indice
Niveau 1 — Sensibilisation à la conformité	Obligations réglementaires identifiées ; aucune preuve au niveau du flux produite ; fiches de modèle SR 11-7 absentes ou incomplètes	0–24
Niveau 2 — Validation ponctuelle	Validation pré-déploiement réalisée ; preuves existant à la date de déploiement ; aucune surveillance continue ; aucune cadence de preuves par flux	25–49
Niveau 3 — Preuves continues	Fiches de modèle tenues à jour par flux ; suites d'évaluation continues réexécutées chaque semaine ; journalisation par agent de l'Article 12 de l'EU AI Act opérationnelle ; catégories de pratiques saines du FSB associées aux contrôles internes	50–74
Niveau 4 — Prêt pour l'examinateur	Dossier de preuves réglementaires complet récupérable à la demande par flux ; relevés de validation des trois lignes de défense à jour ; suite d'évaluation propre à la banque détectant les régressions de mise à jour de modèle plus vite que les cycles de publication des fournisseurs ; correspondance aux quatre dimensions du MGF de la MAS effectuée	75–100

Dimension 4 : responsabilité économique

Ce qu'elle mesure : si l'institution mesure le rendement de l'IA agentique à l'aide de l'économie unitaire au niveau du flux de travail plutôt que d'affirmations de productivité au niveau du programme.

L'analyse de McKinsey établit que l'IA agentique pourrait réduire de 15 à 20 % les coûts opérationnels des banques (McKinsey, 2026) — l'équivalent de 9 à 15 % des bénéfices d'exploitation — mais que la majeure partie de ces gains sera dissipée par la concurrence. L'avantage concurrentiel le plus durable se trouve chez les institutions qui construisent l'infrastructure de mesure leur permettant d'agir plus vite que leurs concurrents lorsque des améliorations de modèle et de flux deviennent disponibles. Le constat du Cambridge CCAF selon lequel 76 % des grandes institutions financières ne peuvent mesurer la valeur du déploiement de l'IA n'est pas un problème de qualité des données. C'est un problème d'architecture de responsabilité : les programmes sont budgétés et rapportés au niveau du portefeuille, rendant impossible de tracer la valeur ou l'échec jusqu'aux flux individuels.

Les quatre métriques d'économie unitaire qui résistent à une conversation avec le directeur financier :

Le coût par décision aboutie, incluant le coût d'annulation et de réparation des décisions ratées. Un agent rédigeant des SAR qui réduit de 40 % le temps de l'agent BSA mais génère 12 % de déclarations faussement positives a détruit de la valeur, et non créé. C'est la métrique que le constat de Deloitte — selon lequel 93 % des dépenses d'IA vont à l'infrastructure et 7 % seulement aux personnes et à la gouvernance — rend non mesurable : les institutions ne peuvent calculer le coût d'annulation d'une défaillance de gouvernance qu'elles n'ont pas instrumentée pour la détecter.

Les interventions manuelles évitées, comptées net des nouvelles interventions créées par la supervision du plan de contrôle et le traitement des exceptions. Le but n'est pas de minimiser l'attention humaine ; c'est de la rediriger vers des décisions à plus fort effet de levier.

Le taux d'annulation — le pourcentage d'actions exécutées par l'agent annulées dans les 24 heures. Un flux de niveau 3 avec un taux d'annulation supérieur à 2 % pose un problème de fiabilité. Au-dessus de 5 %, c'est un problème de plan de contrôle. Ce nombre doit être suivi par flux, et non par programme. Une moyenne de portefeuille masque la valeur aberrante qui générera le prochain constat d'audit.

L'exhaustivité de la piste d'audit — le pourcentage de décisions dont la provenance complète est reconstituable à partir du journal WORM. Devrait être de 100 % sur les flux de niveau 3 et de niveau 4. Toute valeur inférieure est une défaillance de politique.

Le marché de l'IA agentique dans la banque croît à un rythme qui rend cette infrastructure de mesure urgente. Le rapport Banking Trends 2026 de Newgen prévoit une croissance du marché de l'IA agentique de 2,1 milliards à 81 milliards de dollars d'ici 2034. La modélisation de scénarios de McKinsey indique que le résultat le plus probable — un scénario à 30 % de probabilité — implique des agents d'IA atteignant un ratio agent/humain d'environ 20:1 et générant une réduction des coûts de 15 à 20 %. Les pionniers pourraient creuser un écart de 4 points de pourcentage de ROTE par rapport aux retardataires. Cette marge est réelle, mais elle n'est mesurable et défendable que si l'économie unitaire est suivie au niveau du flux de travail.

Niveau de maturité	À quoi cela ressemble	Score d'indice
Niveau 1 — Reporting au niveau budgétaire	Dépenses d'IA suivies ; aucune économie unitaire au niveau du flux ; affirmations de productivité non validées par rapport à des références opérationnelles	0–24
Niveau 2 — Métriques agrégées	Métriques de productivité et de coût disponibles au niveau du programme ; taux d'annulation non suivi par flux ; le reporting au directeur financier repose sur les effectifs évités	25–49
Niveau 3 — Suivi au niveau du flux	Coût par décision aboutie suivi par flux ; taux d'annulation surveillé ; interventions manuelles évitées calculées net de la charge du plan de contrôle	50–74
Niveau 4 — Responsabilité économique complète	Les quatre métriques d'économie unitaire suivies par flux ; les taux d'annulation supérieurs à 2 % déclenchent une revue automatique du flux ; l'exhaustivité de la piste d'audit est une métrique de tableau de bord rapportée trimestriellement au conseil	75–100

Dimension 5 : préparation organisationnelle

Ce qu'elle mesure : si l'institution dispose du talent, de la gouvernance transverse, du reporting au niveau du conseil et de la culture pour déployer et soutenir l'IA agentique à l'échelle — pas seulement pour la piloter.

Le constat du Cambridge CCAF est précis : la préparation de la main-d'œuvre est quatre fois plus prédictive de la rentabilité de l'IA que l'achat de technologie. Les entreprises dont la main-d'œuvre est très préparée font état d'une rentabilité de l'IA de 23 % ; celles où elle ne l'est pas, de 6 %. 10 % seulement de l'ensemble des entreprises décrivent leur main-d'œuvre comme prête. Les fintechs atteignent le stade transformateur trois fois plus souvent que les institutions financières traditionnelles — 19 % contre 6 % — bien que beaucoup dépensent moins de 10 000 dollars par an en IA. C'est l'architecture qui fait la différence, pas le budget.

McKinsey décrit trois postures stratégiques pour les banques face à l'IA agentique : attendre et voir, s'adapter en devenant fournisseur de produits derrière des interfaces d'agents, ou se battre pour détenir la relation client directe. La plupart des banques se rabattent par défaut sur la première posture tout en se présentant comme poursuivant la troisième. La conversation stratégique doit être explicite, et c'est au conseil qu'elle doit aboutir.

La pratique saine 1 du FSB traite directement de la responsabilité du conseil : les conseils portent la responsabilité ultime de la gouvernance de l'IA, fixent l'appétence au risque et veillent à la clarté des structures de responsabilité. L'application de l'Article 5 de l'EU AI Act et les dispositions de responsabilité du conseil de l'Article 5 de DORA traduisent ce principe en responsabilité personnelle. Le Supervisory Toolkit de l'IOSCO de mai 2026 affirme que « les systèmes d'IA ne sont plus des projets isolés. Ils constituent une infrastructure opérationnelle essentielle exigeant une validation continue, une gouvernance au niveau du conseil et des preuves prudentielles prêtes pour l'inspection ».

Le cadre de reporting au conseil pour l'IA agentique doit couvrir quatre chiffres par flux : niveau d'autonomie, exhaustivité de la piste d'audit, taux d'annulation et coût net par décision. Plus une liste des cinq principaux risques résiduels. Les diapositives de document de politique n'en sont pas un substitut.

Niveau de maturité	À quoi cela ressemble	Score d'indice
Niveau 1 — Sensibilisation	Conseil informé du programme d'IA ; aucune gouvernance propre aux agents ; rôle de Chief AI Officer absent ; comité de gouvernance transverse non constitué	0–24
Niveau 2 — Structure en formation	Fonction de gouvernance de l'IA dédiée établie ; structure de responsabilité définie ; énoncé d'appétence au risque pour l'IA rédigé ; programme de littératie en IA de la main-d'œuvre naissant	25–49
Niveau 3 — Gouvernance opérationnelle	Le conseil reçoit un tableau de bord trimestriel de l'IA agentique avec des métriques par flux ; un comité transverse de risque modèle couvre les agents ; la préparation de la main-d'œuvre est suivie par rapport à des références ; banc MRM dimensionné pour valider plus de 20 agents par trimestre	50–74
Niveau 4 — Gouvernance comme avantage concurrentiel	Le dossier de preuves du conseil satisfait les pratiques saines 1 à 4 du FSB et les exigences de responsabilité personnelle de l'Article 5 de DORA ; le banc MRM valide plus de 50 agents par trimestre ; une culture d'amélioration continue de la gouvernance est documentée dans le rapport annuel ; l'institution répond à la consultation du FSB	75–100

Dimension 6 : alignement réglementaire mondial

Ce qu'elle mesure : si le modèle opérationnel d'IA agentique de l'institution est aligné sur les quatre grands cadres réglementaires applicables dans ses principales juridictions d'exploitation — et si cet alignement est prouvé, et non affirmé.

Le cadre réglementaire de l'IA agentique s'est cristallisé au premier semestre 2026. Quatre cadres sont désormais matériels sur le plan opérationnel :

États-Unis (SR 11-7 / OCC Bulletin 2025-26). Les orientations de gestion du risque modèle de la Réserve fédérale s'appliquent à tout flux de décision fondé sur un LLM. L'OCC a publié des orientations spécifiques de gestion du risque modèle pour les banques de proximité, insistant sur la proportionnalité — « proportionné ne signifie pas absent ». Le modèle des trois lignes de défense s'applique pleinement.

Royaume-Uni (PRA SS1/23 / FCA). Les principes de gestion du risque modèle de la SS1/23 de la PRA sont assez larges pour englober tous les agents fondés sur un LLM. L'autorité prudentielle britannique élabore des attentes spécifiques à l'IA agentique. La FCA fait partie des autorités nationales émettant des orientations complémentaires sur la gouvernance de l'IA dans les services financiers.

Union européenne (EU AI Act / DORA). Les obligations relatives aux systèmes d'IA à haut risque de l'Annexe III sont en vigueur à compter du 2 août 2026. Les exigences incluent une gestion structurée des risques (Article 9), la gouvernance des données (Article 10), la transparence (Article 13), la supervision humaine (Article 14) et la journalisation d'audit par agent (Article 12). Les dispositions de responsabilité du conseil de l'Article 5 de DORA s'appliquent à la résilience opérationnelle, y compris l'IA agentique. Les orientations de l'EU AI Office de mai 2026 imposent une identité cryptographique par agent dans les journaux d'audit. La non-conformité entraîne des amendes pouvant atteindre 35 millions d'euros ou 7 % du chiffre d'affaires mondial.

Asie-Pacifique (MAS / IMDA / régulateurs régionaux). L'IMDA de Singapour a publié le premier Model AI Governance Framework for Agentic AI au monde à Davos le 22 janvier 2026. La MAS a publié son AI Risk Management Toolkit en mars 2026 dans le cadre du Project MindForge, développé avec 24 institutions financières. Le cadre couvre le périmètre et la supervision de l'IA, la gestion des risques de l'IA, la gestion du cycle de vie de l'IA et les catalyseurs organisationnels. Les Guidelines on AI Risk Management formelles proposées par la MAS devraient être finalisées en 2026, passant des principes FEAT volontaires à des attentes prudentielles aux implications de conformité. L'ASIC d'Australie a publié en mai 2026 une lettre ouverte exigeant un renforcement cyber en réponse aux menaces de l'IA de pointe.

FSB (mondial, transjuridictionnel). La consultation du FSB de juin 2026 — le premier cadre mondial à traiter l'IA agentique comme opérationnellement distincte — identifie six modèles de supervision pour les systèmes agentiques et recommande un humain aux commandes pour les flux à forte autonomie, une surveillance avec l'IA dans la boucle à mesure que les populations d'agents croissent, et une approbation humaine ou une double autorisation pour les agents exécutant des transactions financières au-delà de valeurs seuils. Les commentaires se clôturent le 22 juillet 2026 ; rapport final aux ministres des Finances du G20 en octobre 2026.

Niveau de maturité	À quoi cela ressemble	Score d'indice
Niveau 1 — Inventaire juridictionnel	Cadres applicables identifiés par juridiction ; aucune correspondance au niveau du flux ; « conformité par analogie » avec les cadres antérieurs à l'IA	0–24
Niveau 2 — Cartographie des cadres	Chaque flux agentique en production rattaché aux cadres applicables ; lacunes identifiées ; plans de remédiation rédigés	25–49
Niveau 3 — Conformité prouvée	Dossiers de preuves par flux produits par rapport aux cadres applicables ; journalisation par agent de l'Article 12 de l'EU AI Act complète ; pratiques saines 5 à 10 du FSB associées aux contrôles internes ; correspondance aux quatre dimensions du MGF de Singapour effectuée	50–74
Niveau 4 — Engagement réglementaire proactif	L'institution participe aux consultations du FSB, de l'IOSCO et des régulateurs nationaux ; la veille réglementaire est intégrée au cycle de vie de déploiement des agents ; les preuves prudentielles sont générées automatiquement par les pipelines opérationnels, et non assemblées a posteriori	75–100

Le score d'indice composite

Les six scores dimensionnels se combinent en un indice composite selon la pondération suivante de matérialité réglementaire :

Dimension	Poids	Justification
Architecture de gouvernance	25 %	Poids le plus élevé : le plan de contrôle est la seule chose qui échoue en sécurité quand le modèle échoue
Exhaustivité des preuves réglementaires	20 %	Essentielle pour l'échéance de l'EU AI Act du 2 août et la préparation prudentielle continue
Couverture des niveaux d'autonomie	15 %	Légèrement réduite pour refléter que la classification de niveau, bien que fondatrice, est désormais une attente seuil plutôt qu'un facteur de différenciation
Responsabilité économique	15 %	Critique pour l'alignement directeur financier/ROI face aux scénarios de bénéfices et d'écart de ROTE de McKinsey
Préparation organisationnelle	10 %	Rationalisée : la gouvernance structurelle est nécessaire mais de plus en plus un prérequis de base dans les institutions de premier rang
Alignement réglementaire mondial	15 %	Augmentée : doit tenir compte activement du risque de concentration ICT tiers de DORA, de l'exécution transfrontalière des agents et de la notation du risque systémique de mimétisme

Un score composite inférieur à 50 signifie que l'institution ne peut défendre sa posture actuelle en IA agentique devant un examinateur SR 11-7, une revue sur site de la PRA ou une évaluation prudentielle de l'EU AI Act. Un score de 50 à 74 signifie que des contrôles existent mais ne sont pas encore continus ni prêts pour la preuve. Un score de 75 à 100 signifie que la gouvernance est un atout concurrentiel, et non un coût de conformité.

Signaux à suivre actuellement

Signal	Ce que cela signifie pour les banques	Source
52 % d'adoption de l'IA agentique	La gouvernance est en retard ; les institutions aux stades de passage à l'échelle ou de transformation ont besoin d'un plan de contrôle, pas d'un nouveau pilote	Cambridge CCAF
66.3 % de réussite des tâches OSWorld	Un taux d'échec d'un sur trois sur l'usage structuré d'outils ; une exécution non supervisée sur des API de fonds clients est insoutenable	Stanford HAI
31 % des nouveaux cas d'usage bancaires de l'IA sont agentiques	La catégorie à la croissance la plus rapide au T1 2026 ; l'infrastructure de gouvernance prend de plus en plus de retard sur le déploiement	Evident Insights
Pratiques saines du FSB de juin 2026	Premier cadre mondial traitant l'IA agentique comme opérationnellement distincte ; non contraignant aujourd'hui, livrable au G20 en octobre 2026	FSB
Échéance de l'EU AI Act du 2 août 2026	Pleines obligations de l'Annexe III en vigueur ; examens prudentiels en Allemagne, France et aux Pays-Bas confirmés pour le T3 2026	EU AI Office
Agents à long terme de JP Morgan : 2026	Le déploiement la même année d'agents autonomes de 1 à 2 heures change la référence concurrentielle de toute G-SIB et banque régionale	CNBC
IBM : 1 661 agents d'ici 2027	La prolifération des agents en entreprise est le défi de gouvernance de 2027 si rien n'est fait en 2026 ; 11 % seulement se disent préparées	IBM
MGF de Singapour pour l'IA agentique : janvier 2026	Premier cadre de gouvernance au monde spécifique à l'IA agentique ; quatre concepts (hiérarchie des mandants, limite de tâche, empreinte minimale, explicabilité) d'application universelle	IMDA
Supervisory Toolkit de l'IOSCO : mai 2026	Couverture de l'ensemble du cycle de vie de l'IA, y compris l'IA agentique ; risques de comportement émergent et de défaillance en cascade nommés explicitement	IOSCO
McKinsey : écart de ROTE de 4 pp	Les pionniers de l'IA pourraient creuser un avantage de ROTE de 4 points de pourcentage sur les retardataires ; l'infrastructure de mesure pour capter cet écart est l'économie unitaire au niveau du flux	McKinsey

Ce que cela signifie par type d'institution

Banques d'importance systémique mondiale (G-SIB)

Les G-SIB font face au défi de gouvernance le plus ardu — non parce que la technologie est plus complexe, mais parce que l'échelle et la juridiction amplifient chaque lacune. Une G-SIB comptant 200 agents en production sur 30 lignes métiers dans 15 juridictions réglementaires présente 200 constats SR 11-7 potentiels, 200 défaillances potentielles de journal d'audit EU AI Act et 200 lacunes potentielles de pratiques saines du FSB — simultanément. La priorité d'investissement n'est pas un nouveau pilote. C'est le plan de contrôle central, l'infrastructure unifiée de journal d'audit et un banc MRM capable de valider plus de 50 agents par trimestre.

L'annonce par JP Morgan d'agents autonomes à long terme en 2026 — les plans de contrôle d'agents de DBS dans la préparation des mémos de crédit et le service client — BNP Paribas atteignant ses objectifs d'IA 2025 et amorçant un reporting trimestriel du ROI — voilà les points de comparaison concurrentiels par rapport auxquels tout conseil de G-SIB devrait s'évaluer. La question institutionnelle n'est pas de savoir s'il faut déployer ; c'est de savoir si le plan de contrôle peut croître au même rythme que la population d'agents.

Le FSB met explicitement en garde contre le risque de concentration lié à la dépendance à un petit nombre de fournisseurs de cloud, de matériel et de modèles de fondation — et note que des modèles et des données partagés pourraient pousser les institutions vers un comportement corrélé amplifiant le mimétisme et la procyclicité en période de repli. Les G-SIB qui s'approvisionnent à 80 % en infrastructure agentique auprès de deux fournisseurs de modèles de fondation construisent une corrélation systémique qu'elles devront expliquer tant à leurs propres équipes de risque qu'à leurs superviseurs.

Mimétisme systémique et procyclicité : le risque architectural qu'aucune banque ne peut résoudre seule. Le traqueur de cas d'usage Evident Insights du T1 2026 identifie que 68 % des déploiements agentiques bancaires utilisent désormais une longue traîne de fournisseurs spécialisés — dont la majorité reposent sur des modèles de pointe sous-jacents identiques, principalement Claude d'Anthropic. Cela crée une vulnérabilité structurelle de mimétisme matériellement différente des risques de concentration que les banques gèrent déjà dans l'infrastructure cloud ou les rails de paiement.

Le mécanisme est le suivant. L'agent de trading, l'agent de liquidité et l'agent de resserrement du crédit d'une banque sont bâtis sur des plateformes de fournisseurs différentes. Ils ont des prompts systèmes différents, des schémas d'appel d'outil différents, des barrières de politique OPA différentes. Mais ils partagent un modèle sous-jacent identique — les mêmes poids, la même distribution d'entraînement, les mêmes schémas comportementaux émergents sous stress distributionnel. Lorsqu'un événement de marché significatif survient — un événement de crédit souverain, une communication de la Fed s'écartant du consensus, la défaillance d'une grande banque — chaque agent bâti sur le même modèle sous-jacent traitera l'événement selon les mêmes pondérations implicites de caractéristiques. Si ces pondérations produisent un biais directionnel vers une aversion au risque, les agents de trading, de liquidité et de crédit de plusieurs banques peuvent exécuter simultanément des cessions corrélées, des cycles de resserrement du crédit ou des retraits de liquidité — non parce que l'agent d'une banque dysfonctionne, mais parce qu'ils fonctionnent tous correctement par-dessus le même modèle.

L'IOSCO a nommé explicitement cette dynamique dans le Supervisory Toolkit de mai 2026, avertissant que les capacités de planification, la mémoire à long terme et l'accès à des outils externes créent des risques de comportements émergents et de défaillances en cascade au sein de systèmes interconnectés. La consultation du FSB de juin 2026 traite directement de la procyclicité — notant que si les agents d'IA sont entraînés sur les mêmes données et utilisent des modèles similaires, leur comportement sera probablement corrélé, amplifiant potentiellement les mouvements de marché.

Noter la résilience au mimétisme systémique à la dimension 6 exige trois divulgations et un contrôle architectural. Les divulgations : quel est le modèle de fondation sous-jacent de chaque flux agentique en production ; quelle est la carte des dépendances aux fournisseurs sur l'ensemble du portefeuille d'agents ; et quelle est l'évaluation par l'institution de sa contribution au comportement corrélé inter-institutionnel dans un scénario de stress défini. Le contrôle architectural : au moins un des agents principaux dans les classes d'actifs à haut risque (trading, gestion de la liquidité, crédit) doit utiliser un modèle sous-jacent différent ou une variante affinée sensiblement différente, afin que la réponse distributionnelle d'un seul modèle à un événement de stress ne puisse produire un résultat pleinement corrélé sur l'ensemble des flux agentiques à la fois. C'est la diversité des modèles comme gestion du risque systémique — l'équivalent agentique de la diversification des contreparties.

Banques de transaction et banques d'entreprise

Les flux agentiques au plus fort ROI sont la réparation des paiements, l'extraction de documents KYC, les services de trésorerie, les écarts de rapprochement et la déflexion des FAQ des clients entreprise. Tous de niveau 2 ou de niveau 3 délimité sur l'échelle d'autonomie. Le client entreprise se moque qu'un agent ait exécuté la réparation du paiement ; ce qui lui importe, c'est que le SLA se soit amélioré et que le taux de litiges soit resté stable. Mettez en avant les quatre métriques d'économie unitaire, pas les affirmations de capacité technologique.

Le cadre de la trésorerie autonome — observer → détecter → prévoir → préparer → demander l'approbation humaine → soumettre la charge utile signée — est la bonne architecture pour les agents de trésorerie d'entreprise en 2026. La charge utile pain.001 préparée par l'agent transite par les mêmes moteurs de validation de schéma, de scoring de fraude et de sanctions qu'une soumission ERP d'entreprise. La couche de conditionnalité (seuil, éligibilité du collatéral, plancher de réserve) détermine si le pain.001 est envoyé, et non sa forme. Les plateformes de trésorerie qui inventent des charges utiles sur mesure pour exprimer des conditions sortiront du chemin consommable par la banque.

Banques régionales et banques de proximité

L'analyse de scénarios de McKinsey identifie trois positions viables : attendre et voir, s'adapter comme fournisseur de produits derrière des interfaces d'agents, ou se battre pour la relation client directe. Les banques régionales qui ne font pas ce choix explicitement glisseront par défaut vers la posture attentiste — et constateront que la dette de gouvernance accumulée durant ce glissement est l'obstacle principal lorsque la pression concurrentielle imposera d'agir.

Le principe de proportionnalité de l'OCC — « proportionné ne signifie pas absent » — est le cadre opérationnel de la gouvernance régionale. Une banque régionale n'a pas besoin de valider 50 agents par trimestre. Il lui faut un responsable du risque modèle qui comprend l'échelle d'autonomie, une mise en œuvre d'une plateforme d'agents de fournisseur livrée avec cadrage OAuth, intégration OPA et journalisation d'audit WORM prêts à l'emploi, et un modèle de reporting au conseil couvrant les quatre métriques d'économie unitaire. L'investissement porte sur la conception des flux et l'ergonomie de l'opérateur, pas sur une ingénierie de plan de contrôle sur mesure.

L'enquête Banking Priorities 2026 de CSI a révélé que 85 % des répondants de la banque de proximité estiment que l'adoption de l'IA procurera un avantage concurrentiel significatif et que 50 % l'ont citée comme la principale tendance technologique de 2026. C'est l'infrastructure de gouvernance qui sépare les 85 % de convaincus de la petite fraction qui captera la valeur.

Fintechs, PSP et fournisseurs d'infrastructure

La question produit pour les fournisseurs d'IA agentique en 2026 n'est pas « votre plateforme performe-t-elle mieux que les humains ? ». C'est « votre plateforme produit-elle une piste d'audit conforme à SR 11-7, un journal par agent conforme à l'Article 12 de l'EU AI Act et un modèle de supervision conforme à la pratique saine 10 du FSB — prêts à l'emploi ? ». Les fournisseurs qui peuvent y répondre par un oui documenté et testable concluront des contrats entreprise. Ceux qui ne le peuvent pas s'enliseront dans des boucles de preuve de concept tandis que les équipes MRM des banques trouveront des raisons de faire échouer la validation.

Oracle a lancé une plateforme d'IA agentique d'entreprise pour la banque en février 2026. FIS s'est associé à Mastercard et Visa pour permettre le commerce initié par agent. Microsoft a publié un plan directeur spécifique à la banque pour une expérience client agentique. Accenture a esquissé les implications pour la main-d'œuvre, au front office comme au back office. L'offre est prête. La différenciation réside dans la preuve réglementaire comme fonctionnalité produit, et non comme un ajout de conformité a posteriori.

La dynamique de longue traîne de fournisseurs identifiée par Evident — 68 % des déploiements d'IA agentique dans les banques utilisent désormais des fournisseurs spécialisés au-delà des hyperscalers — signifie que le risque lié aux fournisseurs d'IA tiers s'accélère plus vite que la plupart des cadres d'achat bancaires ne peuvent l'évaluer. DORA exige une diligence raisonnable documentée sur chaque fournisseur ICT tiers. L'EU AI Act ajoute des exigences supplémentaires pour les fournisseurs dont les systèmes sont utilisés dans des catégories à haut risque. Les banques qui externalisent leur gouvernance vers leur fournisseur externalisent leur responsabilité — et le dossier prudentiel en rendra compte.

Entreprises et PME (services financiers non bancaires)

La charge de gouvernance est proportionnée à la matérialité du risque de l'usage de l'IA agentique, mais le cadre de mesure s'applique universellement. Une entreprise déployant des agents en comptabilité fournisseurs, en optimisation du besoin en fonds de roulement ou en planification et analyse financières a besoin du même cadre de responsabilité d'économie unitaire — coût par décision aboutie, taux d'annulation, exhaustivité de la piste d'audit — même si les obligations réglementaires sont plus légères que celles pesant sur une banque d'importance systémique. Les pratiques saines du FSB sont formulées comme des orientations non contraignantes applicables aux institutions financières de tous types et tailles. Le constat d'IBM selon lequel les entreprises subissent en moyenne 54 incidents d'agents d'IA par an, y compris des violations de données et des défaillances système en cascade, vaut pour l'ensemble du tissu d'entreprises.

Pour les PME accédant aux services bancaires via des interfaces agentiques — le scénario que McKinsey décrit comme des consommateurs utilisant des agents d'IA comme nouveau canal bancaire — l'obligation de gouvernance remonte vers la banque ou le PSP fournissant la couche agentique. Mais l'intégrité des données et des opérations de la PME elle-même dépend de la réalité de cette gouvernance. Comprendre le score d'indice des institutions qui gèrent vos flux financiers devient rapidement un critère de sélection de fournisseur.

Le tableau de bord au niveau du conseil

Un tableau de bord utile au conseil pour l'IA agentique devrait suivre six métriques — le jeu minimal qui distingue un programme gouverné d'un programme non gouverné :

Distribution des niveaux d'autonomie : le décompte des flux en production par niveau (niveau 0–4), mis à jour trimestriellement. Tout flux de niveau 5 est un constat à déclarer.
Exhaustivité du plan de contrôle : le pourcentage de flux en production dont les cinq composants du plan de contrôle sont opérationnels (identité, garde-fous, politique en tant que code, journalisation WORM, coupure d'urgence).
Exhaustivité de la piste d'audit : le pourcentage d'invocations de flux de niveau 3 et plus dont la provenance complète est reconstituable à partir du journal immuable. Cible : 100 %.
Taux d'annulation par flux : le pourcentage d'actions exécutées par l'agent annulées dans les 24 heures, suivi par flux. Seuil d'alerte : 2 %. Seuil d'escalade : 5 %.
Coût net par décision : coût unitaire au niveau du flux incluant les coûts d'annulation et de réparation, comparé à la référence manuelle. Suivi par rapport au dossier économique du programme.
Actualité des preuves réglementaires : la date de la mise à jour la plus récente des preuves réglementaires par flux pour les cadres applicables (SR 11-7, SS1/23, EU AI Act, MAS MGF). Tout flux en retard de plus de 90 jours sur la cadence de preuves est un constat de risque.

Ces six chiffres transforment l'IA agentique, d'un jeu de diapositives en modèle opérationnel. Ce sont aussi les chiffres qu'un examinateur SR 11-7, un réviseur sur site de la PRA ou une autorité prudentielle de l'UE demandera en premier.

Les manques que cet indice comble

Trois manques structurels distinguent cet indice des cadres existants :

Manque 1 : les indices existants mesurent la maturité de l'IA, pas la gouvernance spécifique à l'IA agentique. L'Evident AI Index mesure le talent, l'innovation, le leadership et la transparence de 50 banques à partir de données publiques. Il n'évalue pas — et n'est pas conçu pour évaluer — si les flux agentiques en production d'une banque disposent de coupures d'urgence opérationnelles, de journaux d'audit WORM par agent ou de barrières de politique OPA. Une banque peut figurer en tête de l'Evident Index tout en échouant à un audit de l'Article 12 de l'EU AI Act.

Manque 2 : les cadres réglementaires existants traitent de ce qui est exigé, pas de la manière de noter la préparation. SR 11-7, SS1/23, l'EU AI Act, les pratiques saines du FSB et le MGF de Singapour définissent chacun des obligations de gouvernance. Aucun ne fournit un cadre de notation transversal permettant à une institution de se comparer à ses pairs ou de mesurer son progrès dans le temps. Cet indice fournit ce cadre de notation, en utilisant les cadres réglementaires existants comme base de preuves.

Manque 3 : l'économie au niveau du programme masque l'échec au niveau du flux. La norme du secteur consistant à rapporter la valeur de l'IA au niveau du programme — « l'IA a économisé X heures de travail de conformité » — rend structurellement impossible de tracer une annulation, une déclaration SAR faussement positive ou une action d'agent inexpliquée jusqu'au flux qui l'a produite. La dimension d'économie unitaire de cet indice exige une responsabilité au niveau du flux. C'est l'architecture de mesure qui rend une conversation avec le directeur financier défendable et une conversation d'audit survivable.

Conclusion

En 2026, l'IA agentique dans les banques est un problème d'ingénierie habillé en conversation de stratégie. Le modèle est interchangeable. Le plan de contrôle — cadrage OAuth, routage sémantique déterministe, barrières de politique OPA, journaux d'audit WORM immuables et coupure d'urgence testée — ne l'est pas. L'architecture de gouvernance — validation par les trois lignes de défense, suites d'évaluation continues propres à la banque, reporting d'économie unitaire au niveau du conseil — ne l'est pas. Le dossier de preuves réglementaires — fiches de modèle SR 11-7 par flux, journaux par agent de l'Article 12 de l'EU AI Act, correspondances aux pratiques saines du FSB — ne l'est pas.

Les institutions qui seront crédibles devant les régulateurs en 2027 sont celles qui obtiennent aujourd'hui un score supérieur à 75 sur les six dimensions de l'indice : classer chaque agent en production sur l'échelle d'autonomie, concevoir le plan de contrôle complet à cinq composants, produire des preuves réglementaires continues, suivre l'économie unitaire au niveau du flux, investir dans la préparation organisationnelle, et s'engager de façon proactive dans les consultations du FSB, de l'IOSCO et des régulateurs nationaux qui façonnent les normes contraignantes de 2028.

OSWorld à 66.3 % est le plafond de fiabilité. Trois appels d'outil enchaînés à ce taux produisent un taux de réussite de bout en bout de 29 %. Planifiez en conséquence. Les institutions qui mesurent les agents comme elles mesurent tout autre risque opérationnel — par la preuve, et non par l'aspiration — constateront que la gouvernance n'est pas la contrainte de l'IA agentique. C'est la seule chose qui rend l'IA agentique compétitive.

Foire aux questions

Quelle est la différence entre cet indice et l'Evident AI Index ? L'Evident AI Index évalue la maturité de l'IA de 50 banques mondiales à partir de données publiques selon le talent, l'innovation, le leadership et la transparence. Cet indice note l'architecture d'ingénierie et de gouvernance spécifique — le plan de contrôle, le journal d'audit, la classification des niveaux d'autonomie, le dossier de preuves réglementaires — qui rend l'IA agentique sûre à déployer face à des API bancaires en production. Les deux indices sont complémentaires : Evident mesure la posture stratégique ; cet indice mesure la préparation opérationnelle.

Qui devrait utiliser cet indice ? Les directeurs des opérations, directeurs des risques, Chief AI Officers, responsables de la gestion du risque modèle et comités de risque des conseils, dans les banques mondiales, les banques régionales, les entités de banque d'entreprise et les institutions financières déployant l'IA agentique. Également pertinent pour les fintechs, les PSP et les fournisseurs d'infrastructure qui vendent dans des processus d'achat bancaires où la preuve réglementaire est un critère de sélection.

Quelle est la posture de gouvernance minimale viable pour 2026 ? Plan de contrôle complet à cinq composants opérationnel en production ; tous les flux en production classés niveau 0–4 ; flux de niveau 5 contractuellement interdits ; journaux d'audit WORM complets pour les flux de niveau 3 et plus ; journalisation par agent de l'Article 12 de l'EU AI Act en place avant le 2 août 2026 ; pratiques saines 1 à 4 du FSB associées aux structures de responsabilité du conseil ; suite d'évaluation propre à la banque fonctionnant en continu.

Que signifie l'annonce de JP Morgan pour mon institution ? Elle signifie que la référence concurrentielle du déploiement d'agents autonomes a une échéance nommée en 2026, émanant d'une banque d'importance systémique. Cela ne signifie pas que chaque institution devrait s'aligner sur ce calendrier. Cela signifie que chaque institution devrait connaître son score d'indice actuel, connaître l'écart entre ce score et la posture de déploiement décrite par JP Morgan, et disposer d'une vision validée par le conseil de l'investissement de gouvernance nécessaire pour combler cet écart en sécurité.

Comment le risque de l'IA agentique devrait-il être rapporté au conseil ? Six métriques par flux : niveau d'autonomie, exhaustivité du plan de contrôle, exhaustivité de la piste d'audit, taux d'annulation, coût net par décision et actualité des preuves réglementaires. Plus une liste des cinq principaux risques résiduels. Laissez de côté les diapositives de fiches de modèle et les résumés de productivité au niveau du programme.

La consultation du FSB crée-t-elle des obligations contraignantes dès maintenant ? Non. Le FSB indique explicitement que les 12 pratiques saines ne sont pas des normes contraignantes. Toutefois, la consultation se clôture le 22 juillet 2026 et le rapport final est transmis aux ministres des Finances du G20 en octobre 2026. Les régulateurs nationaux — la Fed, la PRA, la BaFin, la DNB, l'ACPR, la MAS — sont libres d'intégrer les pratiques saines dans des attentes prudentielles contraignantes selon leurs propres calendriers. Les institutions qui répondent à la consultation dès maintenant sont celles qui façonnent ce que sera le caractère contraignant.

Références

Dernière révision le 2026-06-30.

Dernière révision 2026-06-29.

Republier cet article

L'indice de l'IA agentique pour les banques en 2026 : mesurer l'autonomie — Sebastien Rousseau

Un indice à six dimensions notant la préparation à l'IA agentique des banques : niveaux d'autonomie, gouvernance, preuves réglementaires, économie, préparation et alignement mondial.

Cet article est sous licence Creative Commons Attribution 4.0 International. La republication nécessite l'attribution à l'URL canonique.

L'indice de l'IA agentique pour les banques en 2026 : mesurer l'autonomie — Sebastien Rousseau

Un indice à six dimensions notant la préparation à l'IA agentique des banques : niveaux d'autonomie, gouvernance, preuves réglementaires, économie, préparation et alignement mondial.

Originally published at https://sebastienrousseau.com/fr/2026-06-30-agentic-ai-index-banks-measuring-autonomy-2026/ by Sebastien Rousseau.
Licensed under CC-BY-4.0.

SEBASTIEN ROUSSEAU FONDATEUR · INGÉNIEUR