O índice de Agentic AI para bancos em 2026: medindo autonomia

TL;DR. Índice de seis dimensões que pontua a prontidão de agentic AI nos bancos: autonomia, governança, evidência regulatória, economia, prontidão e alinhamento global.

Points clés

Por Que Este Índice Existe. O Evident AI Index classifica 50 bancos globais em Talento, Inovação, Liderança e Transparência usando milhões de pontos de dados publicamente disponíveis.
O Cenário de Maturidade da IA Agêntica em 2026. O relatório do Cambridge CCAF de 2026 — o maior estudo global de IA em serviços financeiros, abrangendo 628 organizações em 151 jurisdições em parceria com BIS, FMI, WEF e o Banco Mundial — fornece a base estatística…
A Arquitetura do Índice de Seis Dimensões. Este índice pontua a prontidão da IA agêntica em seis dimensões.
A Pontuação Composta do Índice. As seis pontuações dimensionais se combinam em um índice composto usando a seguinte ponderação por materialidade regulatória:.

A IA agêntica no setor bancário cruzou da fase de experimento para a de infraestrutura operacional. A questão em 2026 já não é se implantá-la — 52% das instituições financeiras já o fizeram —, mas se o setor consegue medir o que construiu com o mesmo rigor que aplica a capital, crédito e liquidez. Este índice é esse arcabouço de medição (Cambridge CCAF, 2026).

Resumo Executivo / Principais Conclusões

A autonomia é a nova adequação de capital. Assim como Basileia estabeleceu padrões mensuráveis de resiliência financeira, o setor agora precisa de um padrão mensurável para a decisão autônoma. Este índice é o primeiro arcabouço multidimensional a pontuar a prontidão da IA agêntica em governança, arquitetura técnica, evidência regulatória, retorno econômico e maturidade organizacional como um único modelo operacional.

Os 52% de adoção mascaram uma taxa de transformação de 14%. A pesquisa de 2026 do Cambridge CCAF, com 628 organizações em 151 jurisdições, constata que, embora quatro em cada cinco instituições financeiras implantem IA, apenas 14% a descrevem como transformadora de sua posição competitiva. A lacuna é de governança, não de tecnologia.

O OSWorld em 66,3% é o teto de confiabilidade, não o piso. O benchmark de 2026 da Stanford HAI mostra agentes de IA concluindo 66,3% das tarefas corporativas estruturadas (Stanford HAI, 2026). Três chamadas de ferramenta encadeadas nessa taxa se acumulam em uma taxa de sucesso ponta a ponta de 29%. A execução não supervisionada contra sistemas de pagamento ao vivo é indefensável nesse nível de confiabilidade.

O FSB se pronunciou. Em 10 de junho de 2026, o Financial Stability Board (FSB, Conselho de Estabilidade Financeira) publicou seu primeiro arcabouço operacional para governar a IA agêntica em serviços financeiros (FSB, 2026) — 12 boas práticas que abrangem responsabilização do conselho, gestão do ciclo de vida e arquiteturas de IA monitorando IA. Os comentários encerram em 22 de julho de 2026.

O relógio de fiscalização do EU AI Act está correndo. As obrigações para sistemas de IA de alto risco sob o Anexo III entram em vigor em 2 de agosto de 2026 (orientação do EU AI Act, 2026). Instituições financeiras que operam IA agêntica na UE sem identidade por agente no log de auditoria, procedimentos documentados de revogação e evidência em nível de conselho estão em atraso.

O JP Morgan definiu um ano. Derek Waldron, diretor de análises, confirmou à CNBC em 9 de junho de 2026 que o banco implantará agentes autônomos de execução prolongada (CNBC, 2026) — capazes de operar de forma independente por uma a duas horas — ainda em 2026. Esse anúncio altera o referencial competitivo de toda instituição que se compara a ele.

O índice pontua seis dimensões. Nível de Autonomia, Arquitetura de Governança, Evidência Regulatória, Responsabilização Econômica, Prontidão Organizacional e Alinhamento Regulatório Global. Juntas, convertem um programa de IA de um portfólio de iniciativas em uma capacidade mensurável.

Por Que Este Índice Existe

O Evident AI Index classifica 50 bancos globais em Talento, Inovação, Liderança e Transparência usando milhões de pontos de dados publicamente disponíveis. É o referencial externo mais confiável de maturidade em IA em serviços financeiros. O que ele não faz — por concepção — é pontuar a arquitetura específica de engenharia e governança que torna a IA agêntica segura para ser implantada contra APIs bancárias ao vivo. O Stanford AI Index acompanha a produção de pesquisa, o desempenho técnico e o impacto social. O que ele não faz é traduzir os percentuais de conclusão de tarefas do OSWorld em um conjunto operacional de instruções para um tesoureiro, um diretor de risco ou uma equipe de validação de modelos.

Este índice preenche essa lacuna. Ele toma a disciplina de mensurabilidade do arcabouço de Stanford, o contexto competitivo do Evident Index e a especificidade regulatória de SR 11-7, SS1/23, o EU AI Act, as boas práticas do FSB e o Model AI Governance Framework for Agentic AI da IMDA de Singapura — e os converte em um modelo de pontuação em seis dimensões sobre o qual um conselho pode agir.

O gatilho prático é que a IA agêntica passou de uma conversa de planejamento para uma questão de auditoria. Quando o diretor de análises do JP Morgan anuncia a implantação no mesmo ano de agentes autônomos de execução prolongada, quando o DBS embute planos de controle de agentes na preparação de memorandos de crédito e no atendimento a clientes, quando o FSB determina que agentes que executam transações financeiras exigem "aprovação humana ou dupla autorização acima de um valor limite, acesso restrito de agentes a sistemas de pagamento e trilhas de auditoria de toda transação de agente" — a instituição que não consegue pontuar sua própria postura encontrará um regulador pontuando-a em seu lugar.

O Cenário de Maturidade da IA Agêntica em 2026

O Que os Dados Mostram

O relatório do Cambridge CCAF de 2026 — o maior estudo global de IA em serviços financeiros, abrangendo 628 organizações em 151 jurisdições em parceria com BIS, FMI, WEF e o Banco Mundial — fornece a base estatística deste índice.

Sinal	Constatação	Fonte
Adoção ativa de IA	81% das empresas financeiras implantam IA em algum nível	Cambridge CCAF
Adoção de IA agêntica	52% já estão pilotando ou implantando sistemas agênticos capazes de ação autônoma sustentada em múltiplas etapas	Cambridge CCAF
Taxa de transformação	Apenas 14% descrevem a IA como redefinindo sua vantagem competitiva	Cambridge CCAF
Dificuldade de medição	55% do setor e 63% dos reguladores têm dificuldade em medir o valor da implantação de IA; 76% das grandes instituições financeiras especificamente	Cambridge CCAF
Rentabilidade	Apenas 40% relatam aumento de rentabilidade com IA; 43% relatam nenhuma mudança	Cambridge CCAF
Perda de supervisão humana	51% citam a perda de supervisão humana como um dos principais riscos	Cambridge CCAF
Casos de uso agênticos	31% dos novos casos de uso de IA bancária no 1º tri de 2026 foram aplicações agênticas — o maior já registrado, ante 15% no 4º tri de 2025	Evident Insights
Lacuna de governança	77% de 2.000 líderes de tecnologia dizem que a adoção de IA está superando as capacidades de governança; média de 54 incidentes com agentes de IA por empresa em 2025	IBM
Proliferação de agentes	As empresas esperam implantar uma média de 1.661 agentes de IA até 2027; apenas 11% se dizem totalmente preparadas	IBM
Risco ao pool de lucros segundo a McKinsey	A IA agêntica poderia reduzir os custos operacionais dos bancos em 20%, mas ameaça corroer até US$ 170 bilhões em pools globais de lucros até 2030 se os modelos de negócio não se adaptarem	McKinsey

Esses números definem o problema com precisão: a adoção está à frente da governança, os ganhos de produtividade são visíveis, a transformação é rara e a lacuna de medição é mais ampla onde as apostas regulatórias são mais altas — nas grandes instituições financeiras.

Onde os Concorrentes Estão Traçando as Linhas

O Evident AI Index 2025 colocou o JP Morgan Chase em primeiro lugar (pontuação: 79), seguido por Capital One (78,1), RBC (58,4), CommBank Austrália (53,9) e Morgan Stanley (52,2). O índice mede quatro pilares de capacidade — Talento, Inovação, Liderança, Transparência —, não a arquitetura operacional de agentes. Isso cria uma lacuna estrutural: um banco pode pontuar alto em divulgação de Inovação enquanto implanta agentes sem interruptor de emergência, sem log de auditoria WORM e sem porteiro de política OPA. Este índice é concebido para tornar essa lacuna visível.

O relatório Tech Trends 2026 da Deloitte aponta que apenas 11% das organizações têm IA agêntica em produção. A McKinsey constata que apenas cerca de um terço das organizações atinge um nível de maturidade de governança igual ou superior a três em controles de IA agêntica, mesmo com o avanço rápido das capacidades técnicas. Os dados de pesquisa da CCG Catalyst mostram que 93% dos gastos relacionados a IA vão para infraestrutura de tecnologia e apenas 7% para pessoas, talento, treinamento, gestão de mudança e governança — uma proporção que torna o escalonamento estruturalmente impossível.

O Evident Venture Tracker do 1º tri de 2026 identifica a Anthropic como o fornecedor mais referenciado, com uma cauda longa de players especializados respondendo por 68% de todas as implantações, em grande parte voltadas a casos de uso específicos de fluxo de trabalho em crédito, prevenção à lavagem de dinheiro e tesouraria. O lado da oferta está maduro. O lado da governança, não.

A Arquitetura do Índice de Seis Dimensões

Este índice pontua a prontidão da IA agêntica em seis dimensões. Cada dimensão tem uma escala de maturidade de quatro níveis. A pontuação de índice de um banco é o produto de suas pontuações dimensionais ponderadas pela materialidade regulatória. O arcabouço de ponderação é calibrado para SR 11-7, SS1/23, as obrigações do Anexo III do EU AI Act e as categorias de Boas Práticas do FSB.

Dimensão 1: Cobertura de Níveis de Autonomia

O que ela mede: Se todo fluxo de trabalho agêntico em produção está classificado em uma escala de autonomia definida, sem nenhum fluxo operando acima do seu nível permitido sem exceção documentada — e se essa atribuição de nível define não apenas as fronteiras de tarefa, mas também as fronteiras de responsabilização legal.

A escala de autonomia permanece a construção fundamental. Os cinco níveis — do Nível 0 (observar e somente leitura) ao Nível 4 (orquestração multiferramenta com pontos de verificação obrigatórios) — definem a fronteira de permissão do agente, não a sofisticação do modelo. O mesmo LLM subjacente pode situar-se em qualquer nível; o que difere é o invólucro. O Nível 5 — execução autorquestrada sem pontos de verificação — não deveria existir em produção bancária em 2026. O OSWorld com 66,3% de conclusão de tarefas se acumula: três chamadas encadeadas a 66% cada uma produz uma taxa de sucesso ponta a ponta de 29%. Cinco elos produzem 13%.

O Model AI Governance Framework for Agentic AI da IMDA de Singapura, publicado em Davos em 22 de janeiro de 2026 como o primeiro arcabouço de governança do mundo a tratar explicitamente de agentes autônomos (IMDA, 2026), define quatro conceitos equivalentes: hierarquia de principal (quem pode instruir o agente), fronteira de tarefa (o que o agente está autorizado a fazer), pegada mínima (o agente não deve acumular permissões além da necessidade imediata) e explicabilidade (os caminhos de raciocínio devem ser rastreáveis). Esses quatro se mapeiam diretamente sobre o modelo de níveis de autonomia.

O Problema Principal-Agente e a Atribuição Legal de Intenção. O arcabouço da IMDA introduz uma dimensão que especificações puramente de engenharia subestimam: quando um agente de IA age como procurador de uma entidade corporativa — executando um pagamento, aprovando um ajuste de limite de crédito, protocolando uma declaração regulatória —, ele cria um problema legal de atribuição de intenção. Sob a autoridade de quem o agente agiu? Quem arca com a responsabilidade quando o agente se desvia das restrições de seu prompt? A intenção de quem é atribuída quando o agente escolhe entre duas interpretações válidas, porém distintas, de uma instrução ambígua?

Para fluxos de trabalho de Nível 3 e Nível 4 — em que o agente executa ações consequentes de forma autônoma dentro de parâmetros definidos —, a definição do nível deve especificar não apenas a fronteira técnica de tarefa, mas a fronteira de responsabilização legal: um principal humano nomeado que autorizou o fluxo de trabalho, um instrumento de delegação documentado (resolução do conselho, delegação de alçada ou mandato assinado), as condições sob as quais as ações do agente vinculam a instituição e as condições sob as quais um desvio das restrições do prompt aciona reversão automática, escalonamento e registro de incidente. Sem isso, a classificação de nível de autonomia é um artefato de engenharia que não sobreviverá a uma contestação judicial, a um exame regulatório ou a uma disputa com uma contraparte cujos fundos foram movimentados porque um agente interpretou mal uma instrução condicional.

Nível de Maturidade	Como Se Apresenta	Pontuação no Índice
Nível 1 — Não classificado	Sem taxonomia formal; agentes descritos informalmente como "assistentes" ou "copilotos"; sem documentação de níveis	0–24
Nível 2 — Classificado, não validado	Rótulos de nível aplicados; sem validação formal de que o invólucro impõe o nível declarado; fluxos de Nível 5 podem existir sem detecção	25–49
Nível 3 — Classificado e controlado	Todos os fluxos em produção marcados como Nível 0–4; Nível 5 contratualmente proibido; artefatos trimestrais de auditoria de níveis disponíveis para revisão de MRM	50–74
Nível 4 — Classificado, controlado e pronto para evidência	Registro completo de níveis; monitoramento contínuo de desvio; qualquer reclassificação de nível aciona nova validação de MRM; o auditor pode reconstruir a atribuição de nível de qualquer fluxo sob demanda	75–100

Dimensão 2: Arquitetura de Governança

O que ela mede: Se o plano de controle de agentes de cinco componentes está plenamente projetado e operacional em produção — não descrito em um documento de política.

A consulta do FSB de junho de 2026 afirma explicitamente que os arcabouços de governança existentes não foram concebidos para sistemas que "planejam, executam ações em múltiplas etapas e interagem com sistemas externos sem supervisão humana passo a passo". O plano de controle de cinco componentes traduz essa observação em uma lista de verificação de engenharia:

Componente 1: Identidade e Permissões. Cada agente mapeia para exatamente uma conta de serviço com tokens OAuth client_credentials com escopo restrito à superfície mínima de API. O token do agente de bloqueio de cartão pode chamar POST /accounts/{id}/freeze com um teto de valor; não pode chamar nada em custódia, tesouraria ou negociação. Os segredos da conta de serviço rotacionam em um ciclo definido. Credenciais de longa duração são a falha mais comum do plano de controle em implantações de produção. O FSB recomenda explicitamente "privilégio mínimo para agentes e seus subagentes e gestão dinâmica de identidade e acesso que concede, altera ou revoga permissões em tempo real com base em comportamento e contexto, em vez dos perfis estáticos usados para usuários humanos".

Componente 2: Guardrails Determinísticos. Toda chamada de ferramenta do LLM passa por um roteador semântico (NeMo Guardrails, LangChain Guardrails ou equivalente) antes de chegar à API de produção. O roteador classifica a intenção contra uma allow-list finita e rejeita chamadas fora dessa lista. Um validador de esquema JSON então verifica o payload. Um pacs.008 com amount: 0 é uma falha do modelo, não uma transação legítima. O mesmo vale para uma transferência a um país não pré-aprovado para o segmento de cliente de origem.

Componente 3: Política como Código. O Open Policy Agent (ou equivalente) fica entre o validador e a API. As políticas são versionadas no Git; as decisões de rejeição são registradas em log; o mesmo motor de política que controla as chamadas microsserviço a microsserviço na plataforma existente controla as chamadas de ferramenta dos agentes. A orientação de maio de 2026 do EU AI Office sobre o registro de auditoria do Artigo 12 exige que as entradas de log de sistemas de IA de alto risco atribuam ações a uma instância específica de agente, não apenas a uma implantação ou credencial de API. Implantações multiagente que compartilham uma credencial falham nesse teste.

Componente 4: Completude de Auditoria. Armazenamento WORM imutável — S3 Object Lock, imutabilidade do Azure Blob ou um banco de dados em livro-razão. Cada invocação captura: carimbo de tempo, ID do agente, ID da conta de serviço, hash do system prompt, contexto recuperado, provedor do LLM mais modelo mais versão, saída bruta do LLM, chamada de ferramenta interpretada, decisão do OPA, resposta da API, efeito a jusante e UID do aprovador quando aplicável. Os registros são assinados criptograficamente no momento da escrita. O esclarecimento do Artigo 12 do EU AI Act publicado em maio de 2026 aponta a identidade por agente como uma lacuna específica; instituições que executam múltiplas instâncias de agente compartilhando uma credencial estão explicitamente em desconformidade.

Componente 5: Interruptor de Emergência e IA Monitorando IA. Uma API de botão vermelho testada que cancela todas as invocações de agente em andamento dentro de uma classe de permissão em menos de 60 segundos. A palavra testada é determinante. Um interruptor de emergência não testado é uma aspiração de política.

Além do interruptor de emergência, a Dimensão 2 no nível mais alto de maturidade deve exigir a arquitetura de IA monitorando IA (AMI) — e a razão é aritmética. Os dados da IBM situam a população média de agentes corporativos em 1.661 até 2027 (IBM, 2026). O FSB aceita explicitamente que o monitoramento humano contínuo de decisões individuais de agentes se torna fisicamente impossível em escala e recomenda complementar a supervisão humana com sistemas de IA que alertem humanos quando métricas de desempenho são violadas ou o comportamento do agente sofre desvio. Um agente humano de compliance não pode monitorar 1.661 agentes concorrentes executando decisões em velocidade de máquina. O modelo de controle que pressupõe que pode falhará na primeira vez em que uma população de agentes sofrer uma mudança comportamental correlacionada — uma atualização de modelo alterando silenciosamente as distribuições de saída em dezenas de fluxos de trabalho simultaneamente.

A camada de AMI não substitui a supervisão humana; é o mecanismo de detecção que torna a supervisão humana acionável em escala. Suas três funções obrigatórias são: detecção de desvio (monitoramento estatístico da distribuição de saída entre agentes do mesmo nível e tipo, sinalizando desvios além de um limiar sigma definido antes que um humano pudesse notá-los); alerta de correlação entre agentes (identificando quando múltiplos agentes começam a executar em um padrão direcionalmente consistente que não existia ontem — o sinal precoce da dinâmica de manada descrita na Dimensão 6); e pré-escalonamento de anomalia (gerando um alerta estruturado, com contexto e avaliação de reversibilidade, a um decisor humano antes que o interruptor de emergência seja a única opção restante). O FSB recomenda explicitamente arquiteturas de AMI na Boa Prática 9. Uma instituição que alcança o Nível de Maturidade 4 na Dimensão 2 sem uma camada de AMI operacional não está no Nível 4.

Nível de Maturidade	Como Se Apresenta	Pontuação no Índice
Nível 1 — Ad hoc	Alguns componentes presentes, mas não documentados; sem responsável formal pelo plano de controle; sem registro de teste de interruptor de emergência	0–24
Nível 2 — Documentado	Todos os cinco componentes documentados; lacunas de implementação existem; interruptor de emergência existe, mas não foi testado; logs WORM incompletos	25–49
Nível 3 — Operacional	Todos os cinco componentes operacionais em produção; interruptor de emergência testado trimestralmente; logs WORM completos para fluxos de Nível 3+; políticas OPA versionadas	50–74
Nível 4 — Pronto para evidência	O plano de controle gera evidência contínua e assinada criptograficamente; a identidade por agente satisfaz o Artigo 12 do EU AI Act; os resultados de teste do interruptor de emergência são artefatos de auditoria; a detecção de desvio é automatizada	75–100

Dimensão 3: Completude da Evidência Regulatória

O que ela mede: Se a instituição consegue produzir, sob demanda, um pacote completo de evidência regulatória por fluxo de trabalho para SR 11-7, SS1/23, EU AI Act, DORA, FSB e arcabouços nacionais aplicáveis.

O Federal Reserve esclareceu repetidamente que o SR 11-7 se aplica a qualquer sistema de decisão de entrada para saída, independentemente de a instituição classificar o LLM subjacente como um modelo. O SS1/23 da PRA é ainda mais amplo. A classificação de alto risco do Anexo III do EU AI Act abrange a maioria dos casos de uso de LLM em serviços financeiros — escoragem de crédito, detecção de fraude, adequação ao cliente, precificação de seguros. A conformidade plena para sistemas de escopo da UE é exigida até 2 de agosto de 2026, com Alemanha, França e Países Baixos confirmados para revisões supervisórias no 3º tri de 2026. O IOSCO Supervisory Toolkit for AI Use in Capital Markets, finalizado em 25 de maio de 2026, abrange todo o ciclo de vida da IA, do ML tradicional à GenAI e à IA agêntica — e identifica explicitamente que capacidades de planejamento, memória de longo prazo e acesso a ferramentas externas criam riscos de comportamento emergente e falhas em cascata entre sistemas interconectados.

O modelo de três linhas de defesa, aplicado a agentes:

Primeira linha (proprietário do modelo): Documenta o uso pretendido, a linhagem dos dados de treinamento e avaliação, o esquema do system prompt, a allow-list de chamadas de ferramenta e os resultados de teste do interruptor de emergência. É dona do monitoramento de desvio em produção. É dona do conjunto de avaliação reservado específico do banco — o trabalho em que a maioria das instituições subinveste.
Segunda linha (equipe de MRM): Valida o agente antes da produção. O relatório de validação cobre as pontuações de avaliação do fornecedor (MMLU, HumanEval — úteis, mas não suficientes), pontuações de avaliação específicas do banco, resultados de red team de injeção de prompt, análise de viés e equidade e uma declaração quantificada de risco residual.
Terceira linha (auditoria interna): Testa os porteiros do plano de controle e a completude do log de auditoria contra uma amostra de decisões em produção. O ciclo de auditoria de 2027 será substancialmente diferente do de 2025; orce de acordo.

O Model AI Governance Framework for Agentic AI de Singapura (MGF) exige que as instituições financeiras avaliem os agentes em quatro dimensões: delimitar a autonomia e o acesso do agente, estabelecer responsabilização humana em pontos de verificação definidos, implementar controles técnicos incluindo testes de linha de base e viabilizar a responsabilidade do usuário final por meio da transparência. O AI Risk Management Toolkit da MAS de março de 2026 — desenvolvido sob o Project MindForge com 24 instituições — representa a orientação em nível nacional mais detalhada operacionalmente disponível.

Nível de Maturidade	Como Se Apresenta	Pontuação no Índice
Nível 1 — Consciência de conformidade	Obrigações regulatórias identificadas; nenhuma evidência em nível de fluxo produzida; cartões de modelo SR 11-7 ausentes ou incompletos	0–24
Nível 2 — Validação pontual	Validação pré-implantação concluída; evidência existe na data de implantação; sem monitoramento contínuo; sem cadência de evidência por fluxo	25–49
Nível 3 — Evidência contínua	Cartões de modelo mantidos por fluxo; conjuntos de avaliação contínua reexecutados semanalmente; registro por agente do Artigo 12 do EU AI Act operacional; categorias de Boas Práticas do FSB mapeadas para controles internos	50–74
Nível 4 — Pronto para o examinador	Pacote completo de evidência regulatória recuperável sob demanda por fluxo; registros de validação das três linhas de defesa atualizados; conjunto de avaliação específico do banco capta regressões de atualização de modelo mais rápido que os ciclos de lançamento do fornecedor; mapeamento das quatro dimensões do MGF da MAS concluído	75–100

Dimensão 4: Responsabilização Econômica

O que ela mede: Se a instituição mede o retorno da IA agêntica usando economia unitária em nível de fluxo de trabalho, em vez de alegações de produtividade em nível de programa.

A análise da McKinsey identifica que a IA agêntica poderia reduzir os custos operacionais dos bancos em 15–20% (McKinsey, 2026) — equivalente a 9–15% dos lucros operacionais —, mas que a maior parte desses ganhos será dissipada pela concorrência. A vantagem competitiva mais duradoura está nas instituições que constroem a infraestrutura de medição para agir mais rápido que os concorrentes quando melhorias de modelo e de fluxo de trabalho ficam disponíveis. A constatação do Cambridge CCAF de que 76% das grandes instituições financeiras não conseguem medir o valor da implantação de IA não é um problema de qualidade de dados. É um problema de arquitetura de responsabilização: os programas são orçados e reportados em nível de portfólio, tornando impossível rastrear valor ou falha até fluxos de trabalho individuais.

As quatro métricas de economia unitária que sobrevivem a uma conversa com o CFO:

Custo por decisão concluída, incluindo o custo de reversão e reparo de decisões falhas. Um agente de redação de SAR que reduz em 40% o tempo do oficial de BSA, mas gera 12% de protocolos falso-positivos, destruiu valor, não o criou. Esta é a métrica que a constatação da Deloitte — de que 93% dos gastos com IA vão para infraestrutura e apenas 7% para pessoas e governança — torna não mensurável: as instituições não conseguem calcular o custo de reversão de uma falha de governança que não instrumentaram para detectar.

Toques manuais evitados, contados líquidos dos novos toques criados pela supervisão do plano de controle e pelo tratamento de exceções. O objetivo não é minimizar a atenção humana; é redirecioná-la para decisões de maior alavancagem.

Taxa de reversão — o percentual de ações executadas pelo agente revertidas em até 24 horas. Um fluxo de Nível 3 com taxa de reversão acima de 2% é um problema de confiabilidade. Acima de 5% é um problema de plano de controle. Esse número deve ser acompanhado por fluxo, não por programa. Uma média de portfólio oculta o ponto fora da curva que gerará a próxima constatação de auditoria.

Completude da trilha de auditoria — o percentual de decisões com proveniência completa reconstruível a partir do log WORM. Deve ser 100% em fluxos de Nível 3 e Nível 4. Qualquer coisa menos é uma falha de política.

O mercado de IA agêntica no setor bancário cresce a um ritmo que torna urgente essa infraestrutura de medição. O relatório Banking Trends 2026 da Newgen projeta o mercado de IA agêntica crescendo de US$ 2,1 bilhões para US$ 81 bilhões até 2034. A modelagem de cenários da McKinsey indica que o resultado mais provável — um cenário de 30% de probabilidade — envolve agentes de IA atingindo uma proporção agente-humano de aproximadamente 20:1 e gerando 15–20% de redução de custos. Pioneiros poderiam abrir uma vantagem de 4 pontos percentuais de ROTE em relação aos retardatários. Essa margem é real, mas só é mensurável e defensável se a economia unitária for acompanhada em nível de fluxo de trabalho.

Nível de Maturidade	Como Se Apresenta	Pontuação no Índice
Nível 1 — Relato em nível orçamentário	Gasto com IA acompanhado; sem economia unitária por fluxo; alegações de produtividade não validadas contra linhas de base operacionais	0–24
Nível 2 — Métricas agregadas	Métricas de produtividade e custo em nível de programa disponíveis; taxa de reversão não acompanhada por fluxo; relato ao CFO baseado em quadro de pessoal evitado	25–49
Nível 3 — Acompanhamento em nível de fluxo	Custo por decisão concluída acompanhado por fluxo; taxa de reversão monitorada; toques manuais evitados calculados líquidos do overhead do plano de controle	50–74
Nível 4 — Responsabilização econômica plena	Todas as quatro métricas de economia unitária acompanhadas por fluxo; taxas de reversão acima de 2% acionam revisão automática do fluxo; a completude da trilha de auditoria é uma métrica de painel reportada ao conselho trimestralmente	75–100

Dimensão 5: Prontidão Organizacional

O que ela mede: Se a instituição tem o talento, a governança multifuncional, o relato em nível de conselho e a cultura para implantar e sustentar a IA agêntica em escala — não apenas pilotá-la.

A constatação do Cambridge CCAF é precisa: o preparo da força de trabalho é quatro vezes mais preditivo de rentabilidade de IA do que a aquisição de tecnologia. Empresas em que a força de trabalho está altamente preparada relatam 23% de rentabilidade de IA; aquelas em que não está relatam 6%. Apenas 10% de todas as empresas descrevem sua força de trabalho como pronta. As fintechs alcançam o estágio de transformação três vezes mais frequentemente que as instituições financeiras tradicionais — 19% contra 6% —, apesar de muitas gastarem menos de US$ 10.000 por ano em IA. A arquitetura é o diferencial, não o orçamento.

A McKinsey descreve três posturas estratégicas para os bancos diante da IA agêntica: esperar para ver, adaptar-se tornando-se um fornecedor de produtos por trás de interfaces de agente ou competir para deter o relacionamento direto com o cliente. A maioria dos bancos adota por padrão a primeira postura enquanto se apresenta como buscando a terceira. A conversa estratégica precisa ser explícita, e o conselho é onde ela deve aterrissar.

A Boa Prática 1 do FSB trata diretamente da responsabilização do conselho: os conselhos arcam com a responsabilidade última pela governança de IA, definindo o apetite a risco e assegurando que as estruturas de responsabilização sejam claras. A fiscalização do Artigo 5 do EU AI Act e as disposições de responsabilidade do conselho do Artigo 5 do DORA traduzem esse princípio em responsabilidade pessoal. O Supervisory Toolkit da IOSCO de maio de 2026 afirma que "os sistemas de IA já não são projetos isolados. São infraestrutura operacional central que exige validação contínua, governança em nível de conselho e evidência supervisória pronta para inspeção".

O arcabouço de relato ao conselho para IA agêntica deve cobrir quatro números por fluxo de trabalho: nível de autonomia, completude da trilha de auditoria, taxa de reversão e custo líquido por decisão. Mais uma lista dos cinco principais riscos residuais. Apresentações de slides de documento de política não são substituto.

Nível de Maturidade	Como Se Apresenta	Pontuação no Índice
Nível 1 — Consciência	Conselho ciente do programa de IA; sem governança específica de agentes; cargo de Chief AI Officer ausente; comitê de governança multifuncional não formado	0–24
Nível 2 — Estrutura em formação	Função dedicada de governança de IA estabelecida; estrutura de responsabilização definida; declaração de apetite a risco para IA esboçada; programa de letramento em IA da força de trabalho incipiente	25–49
Nível 3 — Governança operacional	O conselho recebe um painel trimestral de IA agêntica com métricas por fluxo; comitê multifuncional de risco de modelos cobre os agentes; preparo da força de trabalho acompanhado contra benchmarks; bancada de MRM dimensionada para validar 20+ agentes por trimestre	50–74
Nível 4 — Governança como vantagem competitiva	O pacote de evidência ao conselho satisfaz as Boas Práticas 1–4 do FSB e os requisitos de responsabilidade pessoal do Artigo 5 do DORA; a bancada de MRM valida 50+ agentes por trimestre; cultura de melhoria contínua de governança documentada no relatório anual; a instituição responde à consulta do FSB	75–100

Dimensão 6: Alinhamento Regulatório Global

O que ela mede: Se o modelo operacional de IA agêntica da instituição está alinhado aos quatro grandes arcabouços regulatórios que se aplicam em suas principais jurisdições de operação — e se esse alinhamento é evidenciado, não apenas afirmado.

O cenário regulatório da IA agêntica se cristalizou na primeira metade de 2026. Quatro arcabouços são agora operacionalmente materiais:

Estados Unidos (SR 11-7 / OCC Bulletin 2025-26). A orientação de gestão de risco de modelos do Federal Reserve se aplica a qualquer fluxo de decisão baseado em LLM. A OCC publicou orientação específica de gestão de risco de modelos para bancos comunitários enfatizando a proporcionalidade — "proporcional não significa ausente". O modelo de três linhas de defesa se aplica integralmente.

Reino Unido (PRA SS1/23 / FCA). Os princípios de gestão de risco de modelos do SS1/23 da PRA são amplos o suficiente para abranger todos os agentes baseados em LLM. A autoridade supervisória do Reino Unido está desenvolvendo expectativas específicas para IA agêntica. A FCA está entre as autoridades nacionais que emitem orientação suplementar sobre governança de IA em serviços financeiros.

União Europeia (EU AI Act / DORA). As obrigações para sistemas de IA de alto risco do Anexo III estão em vigor a partir de 2 de agosto de 2026. Os requisitos incluem gestão de risco estruturada (Artigo 9), governança de dados (Artigo 10), transparência (Artigo 13), supervisão humana (Artigo 14) e registro de auditoria por agente (Artigo 12). As disposições de responsabilidade do conselho do Artigo 5 do DORA aplicam-se à resiliência operacional, incluindo a IA agêntica. A orientação de maio de 2026 do EU AI Office determina identidade criptográfica por agente nos logs de auditoria. A desconformidade acarreta multas de até EUR 35 milhões ou 7% do faturamento global.

Ásia-Pacífico (MAS / IMDA / reguladores regionais). A IMDA de Singapura publicou o primeiro Model AI Governance Framework for Agentic AI do mundo em Davos em 22 de janeiro de 2026. A MAS publicou seu AI Risk Management Toolkit em março de 2026 sob o Project MindForge, desenvolvido com 24 instituições financeiras. O arcabouço cobre escopo e supervisão de IA, gestão de risco de IA, gestão do ciclo de vida de IA e habilitadores organizacionais. As Guidelines on AI Risk Management formais propostas pela MAS devem ser finalizadas em 2026, passando dos princípios voluntários FEAT a expectativas supervisórias com implicações de conformidade. A ASIC da Austrália emitiu uma carta aberta em maio de 2026 exigindo fortalecimento cibernético em resposta a ameaças de IA de fronteira.

FSB (Global, transjurisdicional). A consulta do FSB de junho de 2026 — o primeiro arcabouço global a tratar a IA agêntica como operacionalmente distinta — identifica seis modelos de supervisão para sistemas agênticos e recomenda comando humano para fluxos de alta autonomia, monitoramento com IA no laço à medida que as populações de agentes crescem e aprovação humana ou dupla autorização para agentes que executam transações financeiras acima de valores limite. Os comentários encerram em 22 de julho de 2026; o relatório final aos ministros de finanças do G20 sai em outubro de 2026.

Nível de Maturidade	Como Se Apresenta	Pontuação no Índice
Nível 1 — Inventário jurisdicional	Arcabouços aplicáveis identificados por jurisdição; sem mapeamento em nível de fluxo; "conformidade por analogia" a arcabouços pré-IA	0–24
Nível 2 — Mapeamento de arcabouços	Cada fluxo agêntico em produção mapeado para os arcabouços aplicáveis; lacunas identificadas; planos de remediação esboçados	25–49
Nível 3 — Conformidade evidenciada	Pacotes de evidência por fluxo produzidos contra os arcabouços aplicáveis; registro por agente do Artigo 12 do EU AI Act completo; Boas Práticas 5–10 do FSB mapeadas para controles internos; mapeamento das quatro dimensões do MGF de Singapura concluído	50–74
Nível 4 — Engajamento regulatório proativo	A instituição participa de consultas do FSB, da IOSCO e de reguladores nacionais; inteligência regulatória integrada ao ciclo de vida de implantação de agentes; evidência supervisória gerada automaticamente por pipelines operacionais, não montada a posteriori	75–100

A Pontuação Composta do Índice

As seis pontuações dimensionais se combinam em um índice composto usando a seguinte ponderação por materialidade regulatória:

Dimensão	Peso	Justificativa
Arquitetura de Governança	25%	Maior peso: o plano de controle é a única coisa que falha de forma segura quando o modelo falha
Completude da Evidência Regulatória	20%	Vital para o prazo do EU AI Act de 2 de agosto e para a prontidão supervisória contínua
Cobertura de Níveis de Autonomia	15%	Ligeiramente reduzido para refletir que a classificação de níveis, embora fundamental, é agora uma expectativa de patamar mínimo, e não um diferencial
Responsabilização Econômica	15%	Crítico para o alinhamento CFO/ROI frente aos cenários de pool de lucros e de lacuna de ROTE da McKinsey
Prontidão Organizacional	10%	Enxugado: a governança estrutural é necessária, mas cada vez mais um requisito básico nas instituições Tier 1
Alinhamento Regulatório Global	15%	Aumentado: deve contabilizar ativamente o risco de concentração de TIC de terceiros do DORA, a execução transfronteiriça de agentes e a pontuação de risco sistêmico de manada

Uma pontuação composta abaixo de 50 significa que a instituição não consegue defender sua postura atual de IA agêntica perante um examinador de SR 11-7, uma revisão in loco da PRA ou uma avaliação supervisória do EU AI Act. Uma pontuação de 50–74 significa que os controles existem, mas ainda não são contínuos nem prontos para evidência. Uma pontuação de 75–100 significa que a governança é um ativo competitivo, não um custo de conformidade.

Sinais Atuais a Acompanhar

Sinal	O Que Significa para os Bancos	Fonte
52% de adoção de IA agêntica	A governança está atrasada; instituições em estágios de escalonamento ou transformação precisam de um plano de controle, não de mais um piloto	Cambridge CCAF
66,3% de sucesso em tarefas do OSWorld	Taxa de falha de um em três no uso estruturado de ferramentas; a execução não supervisionada contra APIs de fundos de clientes é insustentável	Stanford HAI
31% dos novos casos de uso de IA bancária são agênticos	A categoria de crescimento mais rápido no 1º tri de 2026; a infraestrutura de governança fica cada vez mais atrás da implantação	Evident Insights
Boas práticas do FSB de junho de 2026	Primeiro arcabouço global a tratar a IA agêntica como operacionalmente distinta; não vinculante agora, entregável ao G20 em outubro de 2026	FSB
Prazo do EU AI Act de 2 de agosto de 2026	Obrigações plenas do Anexo III em vigor; revisões supervisórias de Alemanha, França e Países Baixos confirmadas para o 3º tri de 2026	EU AI Office
Agentes de execução prolongada do JP Morgan: 2026	A implantação no mesmo ano de agentes autônomos de 1–2 horas altera o referencial competitivo para todo G-SIB e banco regional	CNBC
IBM: 1.661 agentes até 2027	A proliferação corporativa de agentes é o desafio de governança de 2027 se não for tratada em 2026; apenas 11% se dizem preparados	IBM
MGF de IA agêntica de Singapura: janeiro de 2026	Primeiro arcabouço de governança específico de IA agêntica do mundo; quatro conceitos (hierarquia de principal, fronteira de tarefa, pegada mínima, explicabilidade) aplicam-se universalmente	IMDA
Supervisory Toolkit da IOSCO: maio de 2026	Cobertura de todo o ciclo de vida da IA, incluindo a IA agêntica; riscos de comportamento emergente e falha em cascata nomeados explicitamente	IOSCO
McKinsey: lacuna de 4 pp de ROTE	Pioneiros de IA poderiam abrir uma vantagem de 4 pontos percentuais de ROTE sobre os retardatários; a infraestrutura de medição para capturar essa lacuna é a economia unitária em nível de fluxo	McKinsey

O Que Isto Significa por Tipo de Instituição

Bancos de Importância Sistêmica Global (G-SIBs)

Os G-SIBs enfrentam o desafio de governança mais difícil — não porque a tecnologia seja mais complexa, mas porque escala e jurisdição agravam cada lacuna. Um G-SIB com 200 agentes em produção em 30 linhas de negócio em 15 jurisdições regulatórias tem 200 potenciais constatações de SR 11-7, 200 potenciais falhas de log de auditoria do EU AI Act e 200 potenciais lacunas de Boa Prática do FSB — simultaneamente. A prioridade de investimento não é mais um piloto. É o plano de controle central, a infraestrutura unificada de log de auditoria e uma bancada de MRM capaz de validar 50 ou mais agentes por trimestre.

O anúncio do JP Morgan de agentes autônomos de execução prolongada em 2026 — os planos de controle de agentes do DBS na preparação de memorandos de crédito e no atendimento a clientes — o BNP Paribas cumprindo suas metas de IA de 2025 e iniciando o relato trimestral de ROI — esses são os pontos de dados competitivos contra os quais todo conselho de G-SIB deveria se comparar. A pergunta institucional não é se implantar; é se o plano de controle consegue escalar no mesmo ritmo que a população de agentes.

O FSB adverte explicitamente contra o risco de concentração decorrente da dependência de poucos provedores de nuvem, hardware e modelos de fundação — e observa que modelos e dados compartilhados poderiam empurrar as instituições para comportamento correlacionado que amplifica a manada e a prociclicidade em uma retração. G-SIBs que adquirem 80% de sua infraestrutura agêntica de dois fornecedores de modelos de fundação estão construindo uma correlação sistêmica que terão de explicar tanto às suas próprias equipes de risco quanto aos seus supervisores.

Manada Sistêmica e Prociclicidade: O Risco Arquitetural Que Nenhum Banco Isolado Pode Resolver Sozinho. O rastreador de casos de uso da Evident Insights do 1º tri de 2026 identifica que 68% das implantações agênticas bancárias agora usam uma cauda longa de fornecedores especializados — a maioria dos quais construída sobre modelos de fronteira subjacentes idênticos, predominantemente o Claude da Anthropic. Isso cria uma vulnerabilidade estrutural de manada que é materialmente diferente dos riscos de concentração que os bancos já gerenciam em infraestrutura de nuvem ou trilhos de pagamento.

O mecanismo é o seguinte. O agente de negociação, o agente de liquidez e o agente de aperto de crédito de um banco são construídos sobre plataformas de fornecedores diferentes. Têm system prompts diferentes, esquemas de chamada de ferramenta diferentes, porteiros de política OPA diferentes. Mas compartilham um modelo subjacente idêntico — os mesmos pesos, a mesma distribuição de treinamento, os mesmos padrões comportamentais emergentes sob estresse distribucional. Quando ocorre um evento de mercado significativo — um evento de crédito soberano, uma comunicação do Fed que diverge do consenso, a falência de um grande banco —, cada agente construído sobre o mesmo modelo subjacente processará o evento por meio das mesmas ponderações implícitas de atributos. Se essas ponderações produzirem um viés direcional rumo ao comportamento de aversão ao risco, os agentes de negociação, liquidez e crédito de múltiplos bancos podem executar vendas correlacionadas, ciclos de aperto de crédito ou retiradas de liquidez simultaneamente — não porque o agente de qualquer banco individual esteja com defeito, mas porque todos estão funcionando corretamente sobre o mesmo modelo.

A IOSCO nomeou essa dinâmica explicitamente no Supervisory Toolkit de maio de 2026, alertando que capacidades de planejamento, memória de longo prazo e acesso a ferramentas externas criam riscos de comportamentos emergentes e falhas em cascata entre sistemas interconectados. A consulta do FSB de junho de 2026 trata da prociclicidade diretamente — observando que, se os agentes de IA são treinados com os mesmos dados e usam modelos similares, seu comportamento provavelmente será correlacionado, potencialmente amplificando os movimentos de mercado.

Pontuar a resiliência à manada sistêmica na Dimensão 6 exige três divulgações e um controle arquitetural. As divulgações: qual é o modelo de fundação subjacente de cada fluxo agêntico em produção; qual é o mapa de dependência de fornecedores em todo o portfólio de agentes; e qual é a avaliação da instituição sobre sua contribuição para o comportamento correlacionado interinstitucional sob um cenário de estresse definido. O controle arquitetural: ao menos um dos agentes primários em classes de ativos de alto risco (negociação, gestão de liquidez, crédito) deve usar um modelo subjacente diferente ou uma variante de ajuste fino significativamente diferente, de modo que a resposta distribucional de um único modelo a um evento de estresse não possa produzir um resultado plenamente correlacionado em todos os fluxos agênticos simultaneamente. Isto é diversidade de modelos como gestão de risco sistêmico — o equivalente agêntico da diversificação de contraparte.

Bancos de Transação e Corporativos

Os fluxos agênticos de maior ROI são reparo de pagamentos, extração de documentos de KYC, serviços de tesouraria, quebras de conciliação e desvio de perguntas frequentes de clientes corporativos. Todos de Nível 2 ou de Nível 3 delimitado na escala de autonomia. O cliente corporativo não se importa que um agente tenha executado o reparo de pagamento; importa-se que o SLA melhorou e a taxa de disputas se manteve estável. Lidere com as quatro métricas de economia unitária, não com alegações de capacidade tecnológica.

O arcabouço de Tesouraria Autônoma — observar → detectar → prever → preparar → solicitar aprovação humana → submeter payload assinado — é a arquitetura correta para agentes de tesouraria corporativa em 2026. O payload pain.001 preparado pelo agente passa pelos mesmos motores de validação de esquema, escoragem de fraude e sanções que uma submissão de ERP corporativo. A camada de condicionalidade (limite, elegibilidade de garantia, piso de buffer) controla se o pain.001 é enviado, não o formato que ele assume. Plataformas de tesouraria que inventam payloads sob medida para expressar condições cairão fora do caminho consumível pelo banco.

Bancos Regionais e Bancos Comunitários

A análise de cenários da McKinsey identifica três posições viáveis: esperar para ver, adaptar-se como fornecedor de produtos por trás de interfaces de agente ou competir pelo relacionamento direto com o cliente. Bancos regionais que não fizerem essa escolha de forma explícita derivarão por padrão para a postura de esperar para ver — e descobrirão que a dívida de governança acumulada durante essa deriva é o principal obstáculo quando a pressão competitiva forçar a ação.

O princípio de proporcionalidade da OCC — "proporcional não significa ausente" — é o referencial operacional para a governança regional. Um banco regional não precisa validar 50 agentes por trimestre. Precisa de um oficial de risco de modelos que entenda a escala de autonomia, de uma implementação de uma plataforma de agentes de fornecedor que venha com escopo de OAuth, integração com OPA e log de auditoria WORM prontos de fábrica, e de um modelo de relato ao conselho que cubra as quatro métricas de economia unitária. O investimento está no desenho do fluxo de trabalho e na UX do operador, não na engenharia sob medida do plano de controle.

A pesquisa Banking Priorities 2026 da CSI constatou que 85% dos respondentes de bancos comunitários acreditam que a adoção de IA proporcionará uma vantagem competitiva significativa e 50% a apontaram como a principal tendência tecnológica para 2026. A infraestrutura de governança é o que separa os 85% de crentes da pequena fração que capturará o valor.

Fintechs, PSPs e Provedores de Infraestrutura

A pergunta de produto para fornecedores de IA agêntica em 2026 não é "a sua plataforma tem desempenho melhor que humanos?". É "a sua plataforma produz uma trilha de auditoria em conformidade com SR 11-7, um log por agente em conformidade com o Artigo 12 do EU AI Act e um modelo de supervisão em conformidade com a Boa Prática 10 do FSB — prontos de fábrica?". Fornecedores que conseguirem responder a isso com um sim documentado e testável fecharão negócios corporativos. Os que não conseguirem ficarão presos em ciclos de prova de conceito enquanto as equipes de MRM dos bancos encontram razões para reprovar a validação.

A Oracle lançou uma plataforma corporativa de IA agêntica para o setor bancário em fevereiro de 2026. A FIS firmou parceria com Mastercard e Visa para viabilizar o comércio iniciado por agentes. A Microsoft publicou um plano específico para o setor bancário voltado à experiência do cliente agêntica. A Accenture delineou as implicações para a força de trabalho no front e no back office. O lado da oferta está pronto. A diferenciação está na evidência regulatória como funcionalidade de produto, não como um penduricalho de conformidade acrescentado a posteriori.

A dinâmica de cauda longa de fornecedores identificada pela Evident — 68% das implantações de IA agêntica em bancos agora usam fornecedores especializados além das hiperescaladoras — significa que o risco de fornecedores terceiros de IA acelera mais rápido do que a maioria dos arcabouços de aquisição dos bancos consegue avaliar. O DORA exige due diligence documentada de cada provedor terceiro de TIC. O EU AI Act sobrepõe requisitos adicionais para fornecedores cujos sistemas são usados em categorias de alto risco. Bancos que terceirizam a governança ao seu fornecedor estão terceirizando a responsabilização — e o registro supervisório refletirá isso.

Empresas e PMEs (Serviços Financeiros Não Bancários)

O ônus de governança é proporcional à materialidade de risco do uso de IA agêntica, mas o arcabouço de medição se aplica universalmente. Uma empresa que implanta agentes em contas a pagar, otimização de capital de giro ou planejamento e análise financeira precisa do mesmo arcabouço de responsabilização por economia unitária — custo por decisão concluída, taxa de reversão, completude da trilha de auditoria — mesmo que as obrigações regulatórias sejam mais leves do que as de um banco de importância sistêmica. As Boas Práticas do FSB são apresentadas como orientação não vinculante aplicável a instituições financeiras de todos os tipos e portes. A constatação da IBM de que as empresas têm em média 54 incidentes com agentes de IA por ano, incluindo vazamentos de dados e falhas de sistema em cascata, aplica-se a todo o cenário corporativo.

Para PMEs que acessam serviços bancários por meio de interfaces agênticas — o cenário que a McKinsey descreve como consumidores usando agentes de IA como um novo canal bancário —, a obrigação de governança recai a montante sobre o banco ou PSP que fornece a camada agêntica. Mas a integridade dos próprios dados e operações da PME depende de que essa governança seja real. Entender a pontuação de índice das instituições que gerenciam seus fluxos financeiros está se tornando rapidamente um critério de seleção de fornecedores.

O Scorecard em Nível de Conselho

Um scorecard útil de conselho para IA agêntica deve acompanhar seis métricas — o conjunto mínimo que distingue um programa governado de um não governado:

Distribuição de Níveis de Autonomia: A contagem de fluxos em produção por nível (Nível 0–4), atualizada trimestralmente. Qualquer fluxo de Nível 5 é uma constatação reportável.
Completude do Plano de Controle: O percentual de fluxos em produção com todos os cinco componentes do plano de controle operacionais (identidade, guardrails, política como código, log WORM, interruptor de emergência).
Completude da Trilha de Auditoria: O percentual de invocações de fluxos de Nível 3+ com proveniência completa reconstruível a partir do log imutável. Meta: 100%.
Taxa de Reversão por Fluxo: O percentual de ações executadas pelo agente revertidas em até 24 horas, acompanhado por fluxo. Limiar de alerta: 2%. Limiar de escalonamento: 5%.
Custo Líquido por Decisão: Custo unitário em nível de fluxo, incluindo custos de reversão e reparo, comparado à linha de base manual. Acompanhado contra o caso econômico do programa.
Atualidade da Evidência Regulatória: A data da atualização mais recente de evidência regulatória por fluxo nos arcabouços aplicáveis (SR 11-7, SS1/23, EU AI Act, MGF da MAS). Qualquer fluxo mais de 90 dias fora da cadência de evidência é uma constatação de risco.

Esses seis números convertem a IA agêntica de uma apresentação de slides em um modelo operacional. São também os números que um examinador de SR 11-7, um revisor in loco da PRA ou uma autoridade supervisória da UE pedirão primeiro.

As Lacunas Que Este Índice Aborda

Três lacunas estruturais distinguem este índice dos arcabouços existentes:

Lacuna 1: Os índices existentes medem a maturidade de IA, não a governança específica de IA agêntica. O Evident AI Index mede Talento, Inovação, Liderança e Transparência em 50 bancos usando dados publicamente disponíveis. Ele não — e não é concebido para — avaliar se os fluxos agênticos em produção de um banco têm interruptores de emergência operacionais, logs de auditoria WORM por agente ou porteiros de política OPA. Um banco pode ocupar o primeiro lugar no Evident Index enquanto reprova em uma auditoria do Artigo 12 do EU AI Act.

Lacuna 2: Os arcabouços regulatórios existentes tratam do que é exigido, não de como pontuar a prontidão. SR 11-7, SS1/23, o EU AI Act, as Boas Práticas do FSB e o MGF de Singapura definem, cada um, obrigações de governança. Nenhum fornece um arcabouço de pontuação multidimensional que permita a uma instituição comparar sua postura com a dos pares ou medir a melhoria ao longo do tempo. Este índice fornece esse arcabouço de pontuação, usando os arcabouços regulatórios existentes como base de evidência.

Lacuna 3: A economia em nível de programa mascara a falha em nível de fluxo. O padrão do setor de reportar o valor da IA em nível de programa — "a IA economizou X horas de trabalho de compliance" — torna estruturalmente impossível rastrear uma reversão, um protocolo de SAR falso-positivo ou uma ação de agente inexplicada até o fluxo de trabalho que o produziu. A dimensão de economia unitária deste índice exige responsabilização em nível de fluxo. Esta é a arquitetura de medição que torna uma conversa com o CFO defensável e uma conversa de auditoria sobrevivível.

Conclusão

A IA agêntica nos bancos em 2026 é um problema de engenharia vestido com as roupas de uma conversa de estratégia. O modelo é intercambiável. O plano de controle — escopo de OAuth, roteamento semântico determinístico, porteiros de política OPA, logs de auditoria WORM imutáveis e um interruptor de emergência testado — não é. A arquitetura de governança — validação das três linhas de defesa, conjuntos contínuos de avaliação específicos do banco, relato de economia unitária em nível de conselho — não é. O pacote de evidência regulatória — cartões de modelo SR 11-7 por fluxo, logs por agente do Artigo 12 do EU AI Act, mapeamentos de Boas Práticas do FSB — não é.

As instituições que serão críveis perante os reguladores em 2027 são as que hoje pontuam acima de 75 em todas as seis dimensões do índice: classificando cada agente em produção na escala de autonomia, projetando o plano de controle completo de cinco componentes, produzindo evidência regulatória contínua, acompanhando a economia unitária em nível de fluxo, investindo em prontidão organizacional e engajando-se proativamente com as consultas do FSB, da IOSCO e dos reguladores nacionais que estão moldando os padrões vinculantes de 2028.

O OSWorld em 66,3% é o teto de confiabilidade. Três chamadas de ferramenta encadeadas nessa taxa produzem uma taxa de sucesso ponta a ponta de 29%. Planeje de acordo. As instituições que medem os agentes do mesmo modo que medem qualquer outro risco operacional — por evidência, não por aspiração — descobrirão que a governança não é a restrição da IA agêntica. É a única coisa que torna a IA agêntica competitiva.

Perguntas Frequentes

Qual é a diferença entre este índice e o Evident AI Index? O Evident AI Index compara a maturidade de IA em 50 bancos globais usando dados publicamente disponíveis em Talento, Inovação, Liderança e Transparência. Este índice pontua a arquitetura específica de engenharia e governança — o plano de controle, o log de auditoria, a classificação de nível de autonomia, o pacote de evidência regulatória — que torna a IA agêntica segura para ser implantada contra APIs bancárias ao vivo. Os dois índices são complementares: o Evident mede a postura estratégica; este índice mede a prontidão operacional.

Quem deve usar este índice? Diretores de Operações, Diretores de Risco, Diretores de IA, chefes de gestão de risco de modelos e comitês de risco do conselho em bancos globais, bancos regionais, entidades de banco corporativo e instituições financeiras que implantam IA agêntica. Também é relevante para fintechs, PSPs e fornecedores de infraestrutura que vendem em processos de aquisição bancária nos quais a evidência regulatória é critério de seleção.

Qual é a postura mínima viável de governança para 2026? Plano de controle completo de cinco componentes operacional em produção; todos os fluxos em produção classificados como Nível 0–4; fluxos de Nível 5 contratualmente proibidos; logs de auditoria WORM completos para fluxos de Nível 3+; registro por agente do Artigo 12 do EU AI Act em vigor antes de 2 de agosto de 2026; Boas Práticas 1–4 do FSB mapeadas para estruturas de responsabilização do conselho; conjunto de avaliação específico do banco em execução contínua.

O que o anúncio do JP Morgan significa para a minha instituição? Significa que o referencial competitivo para a implantação de agentes autônomos tem um cronograma nomeado em 2026 por um banco de importância sistêmica. Não significa que toda instituição deva acompanhar esse cronograma. Significa que toda instituição deveria conhecer sua pontuação de índice atual, conhecer a lacuna entre essa pontuação e a postura de implantação que o JP Morgan está descrevendo e ter uma visão aprovada pelo conselho do investimento em governança necessário para fechar essa lacuna com segurança.

Como o risco de IA agêntica deve ser reportado ao conselho? Seis métricas por fluxo: nível de autonomia, completude do plano de controle, completude da trilha de auditoria, taxa de reversão, custo líquido por decisão e atualidade da evidência regulatória. Mais uma lista dos cinco principais riscos residuais. Dispense as apresentações de cartões de modelo e os resumos de produtividade em nível de programa.

A consulta do FSB cria obrigações vinculantes agora? Não. O FSB afirma explicitamente que as 12 Boas Práticas não são padrões vinculantes. No entanto, a consulta encerra em 22 de julho de 2026 e o relatório final vai aos ministros de finanças do G20 em outubro de 2026. Os reguladores nacionais — Fed, PRA, BaFin, DNB, ACPR, MAS — são livres para incorporar as Boas Práticas a expectativas supervisórias vinculantes em seus próprios cronogramas. As instituições que respondem à consulta agora são as que moldam o que o vinculante virá a ser.

Referências

Última revisão 2026-06-30.

Última revisão 2026-06-29.

Republish this article

O índice de Agentic AI para bancos em 2026: medindo autonomia — Sebastien Rousseau

Índice de seis dimensões que pontua a prontidão de agentic AI nos bancos: autonomia, governança, evidência regulatória, economia, prontidão e alinhamento global.

This article is licensed under Creative Commons Attribution 4.0 International. Republication requires attribution to the canonical URL.

O índice de Agentic AI para bancos em 2026: medindo autonomia — Sebastien Rousseau

Índice de seis dimensões que pontua a prontidão de agentic AI nos bancos: autonomia, governança, evidência regulatória, economia, prontidão e alinhamento global.

Originally published at https://sebastienrousseau.com/pt-br/2026-06-30-agentic-ai-index-banks-measuring-autonomy-2026/ by Sebastien Rousseau.
Licensed under CC-BY-4.0.

SEBASTIEN ROUSSEAU FOUNDER · ENGINEER