2026년 은행을 위한 Agentic AI 지수: Autonomy 측정

TL;DR. 은행의 agentic AI 준비도를 여섯 차원으로 평가하는 지수: autonomy 단계, governance, 규제 증거, 경제성, 준비도, 글로벌 정합성.

Points clés

이 인덱스가 존재하는 이유. Evident AI Index는 수백만 개의 공개 데이터 포인트를 활용하여 인재(Talent), 혁신(Innovation), 리더십(Leadership), 투명성(Transparency) 전반에 걸쳐 전 세계 50개 은행의 순위를 매깁니다.
2026년 에이전틱 AI 성숙도 지형. 2026년 Cambridge CCAF 보고서는 BIS, IMF, WEF, World Bank와 협력하여 151개 관할권의 628개 조직을 다룬, 금융 서비스 AI에 관한 최대 규모의 글로벌 연구로서 본 인덱스의 통계적 기반을 제공합니다.
6차원 인덱스 아키텍처. 본 인덱스는 6개 차원에 걸쳐 에이전틱 AI 준비도를 평가합니다.
종합 인덱스 점수. 여섯 개 차원 점수는 다음의 규제 중대성 가중치를 사용하여 종합 인덱스로 결합됩니다.

은행권의 에이전틱 AI는 실험 단계를 넘어 운영 인프라로 진입했습니다. 2026년의 질문은 더 이상 이를 배포할 것인가가 아니며—금융기관의 52%는 이미 배포했습니다—오히려 산업이 자본, 신용, 유동성에 적용하는 것과 동일한 엄밀성으로 자신이 구축한 것을 측정할 수 있는가입니다. 본 인덱스는 바로 그 측정 프레임워크입니다 (Cambridge CCAF, 2026).

경영진 요약 / 핵심 요점

자율성은 새로운 자기자본 적정성입니다. 바젤(Basel)이 금융 회복력에 대한 측정 가능한 기준을 세웠듯이, 이제 금융권에는 자율적 의사결정에 대한 측정 가능한 기준이 필요합니다. 본 인덱스는 거버넌스, 기술 아키텍처, 규제 증거, 경제적 수익, 조직 성숙도 전반에 걸쳐 에이전틱 AI 준비도를 단일 운영 모델로 평가하는 최초의 교차 차원 프레임워크입니다.

52%의 도입률은 14%의 변혁률을 가립니다. 151개 관할권 내 628개 조직을 대상으로 한 Cambridge CCAF의 2026년 조사에 따르면, 금융기관 다섯 곳 중 네 곳이 AI를 배포하고 있으나 이를 경쟁적 위상을 변혁하는 요소로 평가하는 곳은 14%에 그칩니다. 격차는 기술이 아니라 거버넌스에 있습니다.

OSWorld 66.3%는 신뢰성의 바닥이 아니라 천장입니다. Stanford HAI의 2026년 벤치마크는 AI 에이전트가 구조화된 기업 과제의 66.3%를 완수함을 보여줍니다 (Stanford HAI, 2026). 그 비율로 연결된 세 번의 도구 호출은 복합적으로 29%의 종단 간 성공률로 귀결됩니다. 이 신뢰성 수준에서 실제 결제 시스템을 대상으로 한 비감독 실행은 정당화될 수 없습니다.

FSB는 입장을 표명했습니다. 2026년 6월 10일, 금융안정위원회(Financial Stability Board)는 금융 서비스 내 에이전틱 AI 거버넌스를 위한 최초의 운영 프레임워크를 발표했습니다 (FSB, 2026). 이는 이사회 책무, 라이프사이클 관리, AI가 AI를 감시(AI-monitoring-AI)하는 아키텍처를 다루는 12개 건전 관행으로 구성됩니다. 의견 수렴은 2026년 7월 22일에 마감됩니다.

EU AI Act 집행 시계가 작동하고 있습니다. 부속서 III에 따른 고위험 AI 시스템 의무는 2026년 8월 2일에 발효됩니다 (EU AI Act 가이던스, 2026). 에이전트별 감사 로그 신원, 문서화된 권한 취소 절차, 이사회 수준의 증거 없이 EU 내 에이전틱 AI를 운영하는 금융기관은 이미 의무를 이행하지 못하고 있는 상태입니다.

JP Morgan은 시점을 명시했습니다. 최고분석책임자 Derek Waldron은 2026년 6월 9일 CNBC에 해당 은행이 장시간 작동하는 자율 에이전트를 배포할 것이라고 확인했습니다 (CNBC, 2026). 한두 시간 동안 독립적으로 작동할 수 있는 이 에이전트는 2026년 내에 배포될 예정입니다. 이 공개는 그것을 기준으로 삼는 모든 기관의 경쟁 구도를 바꿉니다.

본 인덱스는 6개 차원을 평가합니다. 자율성 등급, 거버넌스 아키텍처, 규제 증거, 경제적 책임성, 조직 준비도, 글로벌 규제 정합성입니다. 이들은 함께 AI 프로그램을 개별 이니셔티브의 포트폴리오에서 측정 가능한 역량으로 전환합니다.

이 인덱스가 존재하는 이유

Evident AI Index는 수백만 개의 공개 데이터 포인트를 활용하여 인재(Talent), 혁신(Innovation), 리더십(Leadership), 투명성(Transparency) 전반에 걸쳐 전 세계 50개 은행의 순위를 매깁니다. 이는 금융 서비스 AI 성숙도에 관한 가장 신뢰받는 외부 벤치마크입니다. 그러나 이 인덱스가 의도적으로 하지 않는 것은, 실제 은행 API를 대상으로 에이전틱 AI를 안전하게 배포하게 하는 구체적인 엔지니어링 및 거버넌스 아키텍처를 평가하는 일입니다. Stanford AI Index는 연구 산출물, 기술 성능, 사회적 영향을 추적합니다. 이 인덱스가 하지 않는 것은 OSWorld 과제 완수율을 트레저리 담당자, 최고리스크책임자, 또는 모델 검증 팀을 위한 운영 지침서로 번역하는 일입니다.

본 인덱스는 그 격차를 메웁니다. Stanford 프레임워크의 측정 가능성 원칙, Evident Index의 경쟁 맥락, 그리고 SR 11-7, SS1/23, EU AI Act, FSB 건전 관행, 싱가포르 IMDA의 에이전틱 AI 모델 거버넌스 프레임워크(Model AI Governance Framework for Agentic AI)의 규제적 구체성을 취하여, 이사회가 실행에 옮길 수 있는 6차원 평가 모델로 전환합니다.

실질적 촉발 요인은 에이전틱 AI가 기획 단계의 논의에서 감사(audit)의 사안으로 이동했다는 점입니다. JP Morgan의 최고분석책임자가 장시간 작동하는 자율 에이전트의 당해 연도 배포를 발표하고, DBS가 신용 메모 작성과 고객 응대에 에이전트 컨트롤 플레인을 구축하며, FSB가 금융 거래를 실행하는 에이전트에 대해 "임계 금액 초과 시 사람의 승인 또는 이중 인가, 결제 시스템에 대한 에이전트 접근 제한, 모든 에이전트 거래의 감사 추적"을 요구할 때, 자신의 태세를 스스로 평가하지 못하는 기관은 규제당국이 대신 평가하는 상황에 직면하게 됩니다.

2026년 에이전틱 AI 성숙도 지형

데이터가 보여주는 것

2026년 Cambridge CCAF 보고서는 BIS, IMF, WEF, World Bank와 협력하여 151개 관할권의 628개 조직을 다룬, 금융 서비스 AI에 관한 최대 규모의 글로벌 연구로서 본 인덱스의 통계적 기반을 제공합니다.

지표	발견	출처
적극적 AI 도입	금융 기업의 81%가 어떤 수준으로든 AI를 배포	Cambridge CCAF
에이전틱 AI 도입	52%가 이미 지속적 다단계 자율 행동이 가능한 에이전틱 시스템을 시범 운영 또는 배포 중	Cambridge CCAF
변혁률	14%만이 AI를 경쟁 우위를 재정의하는 요소로 평가	Cambridge CCAF
측정의 어려움	업계의 55%, 규제당국의 63%가 AI 배포의 가치 측정에 어려움을 겪으며, 대형 금융기관의 경우 특히 76%에 달함	Cambridge CCAF
수익성	40%만이 AI로 인한 수익성 증가를 보고하며, 43%는 변화 없음을 보고	Cambridge CCAF
사람의 감독 상실	51%가 사람의 감독 상실을 최상위 리스크로 지목	Cambridge CCAF
에이전틱 활용 사례	2026년 1분기 신규 은행 AI 활용 사례의 31%가 에이전틱 애플리케이션으로, 2025년 4분기 15%에서 상승한 역대 최고치	Evident Insights
거버넌스 격차	2,000명의 기술 리더 중 77%가 AI 도입이 거버넌스 역량을 앞지르고 있다고 응답하며, 2025년 기업당 평균 54건의 AI 에이전트 사고 발생	IBM
에이전트 난립	기업들은 2027년까지 평균 1,661개의 AI 에이전트 배포를 예상하나, 충분히 준비되었다고 답한 곳은 11%에 불과	IBM
McKinsey 이익 풀 리스크	에이전틱 AI는 은행 운영 비용을 20% 낮출 수 있으나, 비즈니스 모델이 적응하지 못할 경우 2030년까지 글로벌 이익 풀에서 최대 1,700억 달러를 잠식할 위협	McKinsey

이 수치들은 문제를 정확히 규정합니다. 도입은 거버넌스를 앞서고, 생산성 향상은 가시적이며, 변혁은 드물고, 측정 격차는 규제 부담이 가장 높은 곳—대형 금융기관—에서 가장 큽니다.

경쟁사들이 선을 긋는 지점

Evident AI Index 2025는 JP Morgan Chase를 1위(점수: 79)로, 이어 Capital One(78.1), RBC(58.4), CommBank Australia(53.9), Morgan Stanley(52.2)를 배치했습니다. 이 인덱스는 운영상의 에이전트 아키텍처가 아니라 인재, 혁신, 리더십, 투명성이라는 네 가지 역량 축을 측정합니다. 이는 구조적 격차를 낳습니다. 어느 은행은 킬 스위치도, WORM 감사 로그도, OPA 정책 게이트도 없는 에이전트를 배포하면서도 혁신 공시에서는 높은 점수를 받을 수 있습니다. 본 인덱스는 바로 그 격차를 가시화하도록 설계되었습니다.

Deloitte의 2026 Tech Trends는 조직의 11%만이 에이전틱 AI를 운영 단계에 두고 있다고 보고합니다. McKinsey는 기술 역량이 빠르게 발전하는 와중에도 에이전틱 AI 통제에서 거버넌스 성숙도 3단계 이상에 도달한 조직은 약 3분의 1에 불과함을 발견했습니다. CCG Catalyst의 조사 데이터는 AI 관련 지출의 93%가 기술 인프라에, 단 7%만이 인력, 인재, 교육, 변화 관리, 거버넌스에 투입됨을 보여주며, 이는 확장을 구조적으로 불가능하게 만드는 비율입니다.

2026년 1분기 Evident Venture Tracker는 Anthropic을 가장 많이 언급된 공급사로 지목하며, 전문화된 롱테일 사업자들이 전체 배포의 68%를 차지하고 이들이 주로 신용, 자금세탁방지, 트레저리 분야의 워크플로별 활용 사례를 겨냥하고 있다고 분석합니다. 공급 측면은 성숙해 있습니다. 거버넌스 측면은 그렇지 않습니다.

6차원 인덱스 아키텍처

본 인덱스는 6개 차원에 걸쳐 에이전틱 AI 준비도를 평가합니다. 각 차원은 4단계 성숙도 척도를 가집니다. 은행의 인덱스 점수는 규제 중대성으로 가중한 차원별 점수의 곱입니다. 가중치 프레임워크는 SR 11-7, SS1/23, EU AI Act 부속서 III 의무, FSB 건전 관행 범주에 맞추어 정렬되어 있습니다.

차원 1: 자율성 등급 적용 범위

측정 대상: 모든 운영 에이전틱 워크플로가 정의된 자율성 사다리(autonomy ladder)에 따라 분류되어 있으며, 문서화된 예외 없이 허용 등급을 초과하여 작동하는 워크플로가 없는지, 그리고 그 등급 지정이 과제 경계뿐 아니라 법적 책임 경계까지 정의하는지 여부입니다.

자율성 사다리는 여전히 근본적 구성 개념으로 남아 있습니다. 다섯 단계—Level 0(관찰 및 읽기 전용)에서 Level 4(필수 체크포인트를 동반한 다중 도구 오케스트레이션)까지—는 모델의 정교함이 아니라 에이전트의 권한 경계를 정의합니다. 동일한 기반 LLM이 어느 단계에든 위치할 수 있으며, 차이를 만드는 것은 래퍼(wrapper)입니다. Level 5—체크포인트 없는 자기 오케스트레이션 실행—는 2026년 운영 은행 업무에 존재해서는 안 됩니다. OSWorld의 66.3% 과제 완수율은 복합적으로 작용합니다. 각 66%인 연결된 세 번의 호출은 29%의 종단 간 성공률을 낳습니다. 다섯 번 연결되면 13%가 됩니다.

싱가포르 IMDA의 에이전틱 AI 모델 거버넌스 프레임워크는 자율 에이전트를 명시적으로 다룬 세계 최초의 거버넌스 프레임워크로서 2026년 1월 22일 다보스에서 발표되었으며 (IMDA, 2026), 네 가지 등가 개념을 정의합니다. 주체 위계(principal hierarchy, 누가 에이전트에 지시할 수 있는가), 과제 경계(task boundary, 에이전트가 무엇을 하도록 인가받았는가), 최소 발자국(minimal footprint, 에이전트는 즉각적 필요를 넘어서는 권한을 축적해서는 안 됨), 설명 가능성(explainability, 추론 경로는 추적 가능해야 함)입니다. 이 네 가지는 자율성 등급 모델에 직접 대응됩니다.

주인-대리인 문제와 의도의 법적 귀속. IMDA 프레임워크는 순수 엔지니어링 명세가 과소평가하는 차원을 도입합니다. AI 에이전트가 법인의 대리인으로 행동할 때—결제를 실행하고, 신용 한도 조정을 승인하며, 규제 신고서를 제출할 때—이는 법적 의도 귀속(attribution of intent) 문제를 야기합니다. 에이전트는 누구의 권한 아래 행동했는가? 에이전트가 프롬프트 제약을 벗어났을 때 책임은 누가 지는가? 에이전트가 모호한 지시에 대한 두 가지의 유효하지만 상이한 해석 사이에서 선택했을 때 누구의 의도가 귀속되는가?

Level 3 및 Level 4 워크플로—에이전트가 정의된 매개변수 내에서 중대한 행동을 자율적으로 실행하는 경우—에서는 등급 정의가 기술적 과제 경계뿐 아니라 법적 책임 경계를 명시해야 합니다. 즉, 워크플로를 인가한 지정된 사람 주체, 문서화된 위임 수단(이사회 결의, 권한 위임, 또는 서명된 위임장), 에이전트의 행동이 기관을 구속하는 조건, 그리고 프롬프트 제약으로부터의 일탈이 자동 되돌림, 에스컬레이션, 사고 로깅을 촉발하는 조건을 명시해야 합니다. 이것이 없다면 자율성 등급 분류는 법적 분쟁, 규제 검사, 또는 에이전트가 조건부 지시를 오해하여 자금이 이동한 거래상대방과의 분쟁에서 살아남지 못할 엔지니어링 산출물에 지나지 않습니다.

성숙도 단계	어떤 모습인가	인덱스 점수
Level 1 — 미분류	공식 분류 체계 부재. 에이전트가 "어시스턴트" 또는 "코파일럿"으로 비공식 기술됨. 등급 문서 없음	0–24
Level 2 — 분류됨, 미검증	등급 라벨이 부여되었으나 래퍼가 선언된 등급을 강제하는지에 대한 공식 검증 부재. Level 5 워크플로가 탐지되지 않은 채 존재할 수 있음	25–49
Level 3 — 분류 및 통제됨	모든 운영 워크플로가 Level 0–4로 태깅됨. Level 5는 계약상 금지됨. 분기별 등급 감사 산출물을 MRM 검토용으로 이용 가능	50–74
Level 4 — 분류, 통제, 증거 준비 완료	완전한 등급 등록부. 지속적 드리프트 모니터링. 등급 재분류 시 새로운 MRM 검증이 촉발됨. 감사자는 요청 시 어떤 워크플로에 대해서도 등급 지정을 재구성 가능	75–100

차원 2: 거버넌스 아키텍처

측정 대상: 5개 구성요소 에이전트 컨트롤 플레인이 정책 문서상에 기술된 것이 아니라, 운영 환경에서 완전히 엔지니어링되어 작동하고 있는지 여부입니다.

FSB 2026년 6월 협의서는 기존 거버넌스 프레임워크가 "단계별 사람의 감독 없이 계획하고, 다단계 행동을 취하며, 외부 시스템과 상호작용하는" 시스템을 위해 설계된 것이 아니라고 명시적으로 밝힙니다. 5개 구성요소 컨트롤 플레인은 그 관찰을 엔지니어링 체크리스트로 번역합니다.

구성요소 1: 신원과 권한. 모든 에이전트는 최소 API 표면으로 스코핑된 OAuth client_credentials 토큰을 가진 정확히 하나의 서비스 계정에 매핑됩니다. 카드 동결 에이전트의 토큰은 금액 상한과 함께 POST /accounts/{id}/freeze를 호출할 수 있으나, 수탁, 트레저리, 트레이딩 영역의 어떤 것도 호출할 수 없습니다. 서비스 계정 시크릿은 정의된 주기로 교체됩니다. 장기 유효 자격증명은 운영 배포에서 가장 흔한 컨트롤 플레인 실패 요인입니다. FSB는 "에이전트와 그 하위 에이전트에 대한 최소 권한, 그리고 사람 사용자에게 쓰이는 정적 프로필이 아니라 행동과 맥락에 기반하여 실시간으로 권한을 부여, 변경, 취소하는 동적 신원 및 접근 관리"를 명시적으로 권고합니다.

구성요소 2: 결정론적 가드레일. 모든 LLM 도구 호출은 운영 API에 도달하기 전에 시맨틱 라우터(NeMo Guardrails, LangChain Guardrails 또는 동급)를 거칩니다. 라우터는 유한한 허용 목록에 대해 의도를 분류하고 그 목록을 벗어난 호출을 거부합니다. 이어 JSON 스키마 검증기가 페이로드를 점검합니다. amount: 0인 pacs.008은 정당한 거래가 아니라 모델 실패입니다. 발신 고객 세그먼트에 대해 사전 승인되지 않은 국가로의 송금 또한 마찬가지입니다.

구성요소 3: 정책의 코드화(Policy-as-Code). Open Policy Agent(또는 동급)가 검증기와 API 사이에 위치합니다. 정책은 Git에서 버전 관리되고, 거부 결정은 로깅되며, 기존 플랫폼에서 마이크로서비스 간 호출을 통제하는 동일한 정책 엔진이 에이전트 도구 호출을 통제합니다. EU AI Office의 2026년 5월 제12조(Article 12) 감사 로깅 가이던스는 고위험 AI 시스템의 로그 항목이 단순히 배포나 API 자격증명이 아니라 특정 에이전트 인스턴스에 행동을 귀속시킬 것을 요구합니다. 하나의 자격증명을 공유하는 다중 에이전트 배포는 이 시험을 통과하지 못합니다.

구성요소 4: 감사 완전성. 불변 WORM 저장소—S3 Object Lock, Azure Blob 불변성, 또는 원장형 데이터베이스—를 사용합니다. 모든 호출은 다음을 기록합니다. 타임스탬프, 에이전트 ID, 서비스 계정 ID, 시스템 프롬프트 해시, 검색된 맥락, LLM 제공사와 모델 및 버전, 원시 LLM 출력, 파싱된 도구 호출, OPA 결정, API 응답, 다운스트림 효과, 그리고 해당하는 경우 승인자 UID입니다. 기록은 작성 시점에 암호학적으로 서명됩니다. 2026년 5월 발표된 EU AI Act 제12조 명확화는 에이전트별 신원을 구체적 격차로 지목하며, 하나의 자격증명을 공유하는 다중 에이전트 인스턴스를 운영하는 기관은 명시적으로 규정 위반 상태입니다.

구성요소 5: 킬 스위치와 AI가 AI를 감시. 검증된 레드버튼 API로서 특정 권한 클래스 내에서 진행 중인 모든 에이전트 호출을 60초 이내에 취소합니다. *검증된(tested)*이라는 단어가 핵심입니다. 검증되지 않은 킬 스위치는 정책상의 희망 사항에 불과합니다.

킬 스위치를 넘어, 최고 성숙도 단계의 차원 2는 AI가 AI를 감시하는(AI-monitoring-AI, AMI) 아키텍처를 의무화해야 하며, 그 이유는 산술에 있습니다. IBM의 데이터는 2027년까지 기업당 평균 에이전트 개체 수를 1,661개로 추산합니다 (IBM, 2026). FSB는 개별 에이전트 결정에 대한 지속적인 사람의 모니터링이 규모상 물리적으로 불가능해진다는 점을 명시적으로 인정하며, 성능 지표가 위반되거나 에이전트 행동이 드리프트할 때 사람에게 경고하는 AI 시스템으로 사람의 감독을 보완할 것을 권고합니다. 한 명의 사람 준법감시인이 기계 속도로 결정을 실행하는 1,661개의 동시 에이전트를 모니터링할 수는 없습니다. 그것이 가능하다고 전제하는 통제 모델은, 에이전트 개체군이 상관된 행동 변화를 겪는—모델 업데이트가 수십 개의 워크플로에 걸쳐 출력 분포를 조용히 바꾸는—첫 순간에 실패할 것입니다.

AMI 계층은 사람의 감독을 대체하는 것이 아니라, 사람의 감독을 규모에서 실행 가능하게 만드는 탐지 메커니즘입니다. 그 세 가지 필수 기능은 다음과 같습니다. 드리프트 탐지(동일 등급 및 유형 에이전트 전반의 출력 분포에 대한 통계적 모니터링으로, 사람이 알아차리기 전에 정의된 시그마 임계치를 넘는 편차를 표시), 에이전트 간 상관 경보(여러 에이전트가 어제까지는 없었던 방향적으로 일관된 패턴으로 실행하기 시작하는 시점을 식별—차원 6에서 설명하는 군집(herding) 동학의 조기 신호), 그리고 이상 사전 에스컬레이션(킬 스위치가 유일한 선택지가 되기 전에, 맥락과 가역성 평가를 담은 구조화된 경보를 사람 의사결정권자에게 생성). FSB는 건전 관행 9(Sound Practice 9)에서 AMI 아키텍처를 명시적으로 권고합니다. 작동하는 AMI 계층 없이 차원 2에서 성숙도 Level 4에 도달한 기관은 Level 4가 아닙니다.

성숙도 단계	어떤 모습인가	인덱스 점수
Level 1 — 임시방편	일부 구성요소는 존재하나 문서화되지 않음. 공식 컨트롤 플레인 책임자 부재. 킬 스위치 시험 기록 없음	0–24
Level 2 — 문서화됨	다섯 구성요소 모두 문서화됨. 구현 격차 존재. 킬 스위치는 존재하나 미검증. WORM 로그 불완전	25–49
Level 3 — 운영됨	다섯 구성요소 모두 운영 환경에서 작동. 킬 스위치는 분기별로 검증. Level 3 이상 워크플로에 대해 WORM 로그 완비. OPA 정책 버전 관리	50–74
Level 4 — 증거 준비 완료	컨트롤 플레인이 지속적이고 암호학적으로 서명된 증거를 생성. 에이전트별 신원이 EU AI Act 제12조를 충족. 킬 스위치 시험 결과가 감사 산출물로 존재. 드리프트 탐지 자동화	75–100

차원 3: 규제 증거 완전성

측정 대상: 기관이 SR 11-7, SS1/23, EU AI Act, DORA, FSB, 그리고 적용 가능한 국가 프레임워크에 대해 요청 시 완전한 워크플로별 규제 증거 패키지를 산출할 수 있는지 여부입니다.

연방준비제도(Federal Reserve)는 기관이 기반 LLM을 모델로 분류하는지 여부와 무관하게, SR 11-7이 입력에서 출력에 이르는 모든 의사결정 시스템에 적용된다는 점을 거듭 명확히 했습니다. PRA의 SS1/23은 그보다 더 광범위합니다. EU AI Act의 부속서 III 고위험 분류는 신용 평가, 사기 탐지, 고객 적합성, 보험 가격 책정 등 대부분의 금융 서비스 LLM 활용 사례를 포괄합니다. EU 적용 범위 시스템에 대한 완전한 준수는 2026년 8월 2일까지 요구되며, 독일, 프랑스, 네덜란드는 2026년 3분기 감독 검토가 확정되었습니다. 2026년 5월 25일 확정된 자본시장 내 AI 활용에 관한 IOSCO 감독 도구함(Supervisory Toolkit for AI Use in Capital Markets)은 전통적 ML에서 GenAI 및 에이전틱 AI에 이르는 전체 AI 라이프사이클을 다루며, 계획 역량, 장기 기억, 외부 도구 접근이 상호 연결된 시스템 전반에서 창발적 행동과 연쇄적 실패의 위험을 만들어낸다는 점을 명시적으로 지적합니다.

에이전트에 적용된 3선 방어(three-lines-of-defence) 모델:

1선(모델 소유자): 의도된 용도, 학습 및 평가 데이터 계보, 시스템 프롬프트 스키마, 도구 호출 허용 목록, 킬 스위치 시험 결과를 문서화합니다. 운영 환경의 드리프트 모니터링을 소유합니다. 대부분의 기관이 과소 투자하는 영역인, 은행 고유의 별도 보관(held-out) 평가 세트를 소유합니다.
2선(MRM 팀): 운영 전에 에이전트를 검증합니다. 검증 보고서는 공급사 평가 점수(MMLU, HumanEval—유용하나 충분하지 않음), 은행 고유 평가 점수, 프롬프트 인젝션 레드팀 결과, 편향 및 공정성 분석, 정량화된 잔여 리스크 진술을 다룹니다.
3선(내부 감사): 운영 결정 표본에 대해 컨트롤 플레인 게이트와 감사 로그 완전성을 시험합니다. 2027년 감사 주기는 2025년과 상당히 다를 것이므로, 그에 맞추어 예산을 편성해야 합니다.

싱가포르 에이전틱 AI 모델 거버넌스 프레임워크(MGF)는 금융기관에 네 가지 차원에서 에이전트를 평가할 것을 요구합니다. 에이전트의 자율성과 접근의 한정, 정의된 체크포인트에서의 사람 책무 확립, 기준선 시험을 포함한 기술적 통제의 구현, 그리고 투명성을 통한 최종 사용자 책임의 가능화입니다. 2026년 3월 MAS의 AI 리스크 관리 도구함(AI Risk Management Toolkit)은 Project MindForge 하에서 24개 기관과 함께 개발되었으며, 현존하는 국가 수준 가이던스 중 운영상 가장 상세한 것입니다.

성숙도 단계	어떤 모습인가	인덱스 점수
Level 1 — 규제 인식	규제 의무는 식별되었으나 워크플로 수준 증거는 산출되지 않음. SR 11-7 모델 카드 부재 또는 불완전	0–24
Level 2 — 시점별 검증	배포 전 검증 완료. 배포 시점에 증거 존재. 지속적 모니터링 없음. 워크플로별 증거 주기 없음	25–49
Level 3 — 지속적 증거	모델 카드가 워크플로별로 유지됨. 지속적 평가 스위트가 주간 단위로 재실행됨. EU AI Act 제12조 에이전트별 로깅 작동. FSB 건전 관행 범주가 내부 통제에 매핑됨	50–74
Level 4 — 검사관 대응 준비 완료	완전한 규제 증거 패키지를 워크플로별로 요청 시 인출 가능. 3선 방어 검증 기록 최신 상태. 은행 고유 평가 스위트가 공급사 릴리스 주기보다 빠르게 모델 업데이트 회귀를 포착. MAS MGF 4차원 매핑 완료	75–100

차원 4: 경제적 책임성

측정 대상: 기관이 프로그램 수준의 생산성 주장이 아니라 워크플로 수준의 단위 경제성(unit economics)으로 에이전틱 AI의 수익을 측정하는지 여부입니다.

McKinsey의 분석은 에이전틱 AI가 은행 운영 비용을 15~20% 낮출 수 있으며 (McKinsey, 2026) 이는 영업이익의 9~15%에 해당하나, 이러한 이득의 대부분은 경쟁을 통해 소진될 것이라고 지적합니다. 보다 지속적인 경쟁 우위는, 모델과 워크플로 개선이 가용해질 때 경쟁사보다 빠르게 행동할 수 있는 측정 인프라를 구축하는 기관에 있습니다. 대형 금융기관의 76%가 AI 배포의 가치를 측정하지 못한다는 Cambridge CCAF의 발견은 데이터 품질 문제가 아닙니다. 그것은 책임성 아키텍처의 문제입니다. 프로그램이 포트폴리오 수준에서 예산 편성되고 보고되어, 가치나 실패를 개별 워크플로로 추적하는 것이 불가능합니다.

CFO와의 대화에서 살아남는 네 가지 단위 경제 지표:

완료된 결정당 비용으로, 실패한 결정의 되돌림 및 복구 비용을 포함합니다. BSA 담당자의 시간을 40% 줄이면서도 12%의 위양성 신고를 생성하는 SAR 작성 에이전트는 가치를 창출한 것이 아니라 파괴한 것입니다. 이는 Deloitte의 발견—AI 지출의 93%가 인프라에, 단 7%만이 인력과 거버넌스에 투입된다는—이 측정 불가능하게 만드는 지표입니다. 기관은 탐지하도록 계측하지 않은 거버넌스 실패의 되돌림 비용을 계산할 수 없습니다.

회피된 수작업 처리 건수로, 컨트롤 플레인 감독과 예외 처리로 새로 발생한 처리 건수를 차감하여 집계합니다. 요점은 사람의 주의를 최소화하는 것이 아니라, 그것을 더 높은 레버리지의 결정으로 재배치하는 것입니다.

되돌림률(reversal rate)—24시간 이내에 롤백된 에이전트 실행 행동의 비율입니다. 되돌림률이 2%를 넘는 Level 3 워크플로는 신뢰성 문제입니다. 5%를 넘으면 컨트롤 플레인 문제입니다. 이 수치는 프로그램별이 아니라 워크플로별로 추적되어야 합니다. 포트폴리오 평균은 다음 감사 지적 사항을 만들어낼 이상치를 가립니다.

감사 추적 완전성—WORM 로그로부터 완전한 출처를 재구성할 수 있는 결정의 비율입니다. Level 3 및 Level 4 워크플로에서는 100%여야 합니다. 그에 못 미치는 것은 정책 실패입니다.

은행권의 에이전틱 AI 시장은 이 측정 인프라를 시급하게 만드는 속도로 성장하고 있습니다. Newgen의 2026 Banking Trends 보고서는 에이전틱 AI 시장이 2034년까지 21억 달러에서 810억 달러로 성장할 것으로 전망합니다. McKinsey의 시나리오 모델링은 가장 가능성 높은 결과—30% 확률 시나리오—가 AI 에이전트의 대 사람 비율이 약 20:1에 도달하고 15~20%의 비용 절감을 창출하는 것이라고 시사합니다. 선도자는 후발 주자 대비 ROTE에서 4%포인트의 격차를 벌릴 수 있습니다. 그 마진은 실재하지만, 단위 경제성이 워크플로 수준에서 추적될 때에만 측정 가능하고 방어 가능합니다.

성숙도 단계	어떤 모습인가	인덱스 점수
Level 1 — 예산 수준 보고	AI 지출은 추적되나 워크플로 수준 단위 경제성 없음. 생산성 주장이 운영 기준선에 대해 검증되지 않음	0–24
Level 2 — 집계 지표	프로그램 수준의 생산성 및 비용 지표는 가용. 되돌림률이 워크플로별로 추적되지 않음. CFO 보고가 회피 인력 수에 의존	25–49
Level 3 — 워크플로 수준 추적	완료된 결정당 비용이 워크플로별로 추적됨. 되돌림률 모니터링. 회피된 수작업 처리 건수가 컨트롤 플레인 오버헤드를 차감하여 산정됨	50–74
Level 4 — 완전한 경제적 책임성	네 가지 단위 경제 지표 모두 워크플로별로 추적. 2% 초과 되돌림률은 자동 워크플로 검토를 촉발. 감사 추적 완전성이 분기별로 이사회에 보고되는 대시보드 지표	75–100

차원 5: 조직 준비도

측정 대상: 기관이 에이전틱 AI를 시범 운영하는 데 그치지 않고 규모 있게 배포하고 지속하는 데 필요한 인재, 교차 기능 거버넌스, 이사회 수준 보고, 그리고 문화를 갖추고 있는지 여부입니다.

Cambridge CCAF의 발견은 정밀합니다. 인력 준비도는 기술 조달보다 AI 수익성을 네 배 더 잘 예측합니다. 인력이 고도로 준비된 기업은 23%의 AI 수익성을 보고하고, 그렇지 못한 기업은 6%를 보고합니다. 전체 기업의 10%만이 자사 인력을 준비되었다고 평가합니다. 핀테크는 전통 금융기관보다 세 배 더 자주 변혁 단계에 도달합니다—19% 대 6%—이는 다수가 연간 1만 달러 미만을 AI에 지출함에도 그러합니다. 차별화 요소는 예산이 아니라 아키텍처입니다.

McKinsey는 에이전틱 AI에 직면한 은행을 위한 세 가지 전략적 태세를 기술합니다. 관망하기, 에이전트 인터페이스 뒤의 제품 공급사가 되어 적응하기, 또는 직접적 고객 관계를 소유하기 위해 경쟁하기입니다. 대부분의 은행은 세 번째를 추구한다고 자처하면서도 기본적으로 첫 번째 태세로 흐릅니다. 전략적 논의는 명시적이어야 하며, 그것이 안착해야 할 곳은 이사회입니다.

FSB 건전 관행 1은 이사회 책무를 직접 다룹니다. 이사회는 AI 거버넌스, 리스크 선호도 설정, 그리고 책무 구조의 명확성 보장에 대한 궁극적 책임을 집니다. EU AI Act 제5조(Article 5) 집행과 DORA 제5조(Article 5) 이사회 책임 조항은 그 원칙을 개인 책임으로 번역합니다. IOSCO의 2026년 5월 감독 도구함은 "AI 시스템은 더 이상 고립된 프로젝트가 아니다. 그것은 지속적 검증, 이사회 수준 거버넌스, 그리고 검사 대비 감독 증거를 요구하는 핵심 운영 인프라이다"라고 명시합니다.

에이전틱 AI를 위한 이사회 보고 프레임워크는 워크플로별로 네 가지 수치를 다루어야 합니다. 자율성 등급, 감사 추적 완전성, 되돌림률, 결정당 순비용입니다. 여기에 상위 5개 잔여 리스크 목록을 더합니다. 정책 문서 슬라이드는 그 대체물이 될 수 없습니다.

성숙도 단계	어떤 모습인가	인덱스 점수
Level 1 — 인식	이사회가 AI 프로그램을 인지. 에이전트 특화 거버넌스 없음. 최고AI책임자(Chief AI Officer) 역할 부재. 교차 기능 거버넌스 위원회 미구성	0–24
Level 2 — 구조 형성 중	전담 AI 거버넌스 기능 수립. 책무 구조 정의. AI 리스크 선호도 진술 초안 작성. 인력 AI 리터러시 프로그램 초기 단계	25–49
Level 3 — 운영 거버넌스	이사회가 워크플로별 지표를 담은 분기별 에이전틱 AI 대시보드 수령. 교차 기능 모델 리스크 위원회가 에이전트를 포괄. 인력 준비도를 벤치마크 대비 추적. 분기당 20개 이상 에이전트를 검증할 수 있는 MRM 인력 확보	50–74
Level 4 — 경쟁 우위로서의 거버넌스	이사회 증거 패키지가 FSB 건전 관행 1–4와 DORA 제5조 개인 책임 요건을 충족. MRM 인력이 분기당 50개 이상 에이전트를 검증. 지속적 거버넌스 개선 문화가 연차 보고서에 문서화됨. 기관이 FSB 협의에 응답	75–100

차원 6: 글로벌 규제 정합성

측정 대상: 기관의 에이전틱 AI 운영 모델이 주된 운영 관할권에서 적용되는 4대 규제 프레임워크에 정렬되어 있는지, 그리고 그 정합성이 주장이 아니라 증거로 뒷받침되는지 여부입니다.

에이전틱 AI에 대한 규제 지형은 2026년 상반기에 결정화되었습니다. 이제 네 가지 프레임워크가 운영상 중대합니다.

미국(SR 11-7 / OCC Bulletin 2025-26). 연방준비제도의 모델 리스크 관리 가이던스는 모든 LLM 기반 의사결정 워크플로에 적용됩니다. OCC는 비례성을 강조하며 커뮤니티 은행을 위한 구체적 모델 리스크 관리 가이던스를 발표했습니다—"비례적이라는 것이 부재를 의미하지는 않는다". 3선 방어 모델이 전면 적용됩니다.

영국(PRA SS1/23 / FCA). PRA의 SS1/23 모델 리스크 관리 원칙은 모든 LLM 기반 에이전트를 포착할 만큼 광범위합니다. 영국 감독 당국은 구체적인 에이전틱 AI 기대치를 개발하고 있습니다. FCA는 금융 서비스 내 AI 거버넌스에 관한 보충 가이던스를 발표하는 국가 당국 중 하나입니다.

유럽연합(EU AI Act / DORA). 부속서 III 고위험 AI 시스템 의무는 2026년 8월 2일부터 발효됩니다. 요건에는 구조화된 리스크 관리(제9조), 데이터 거버넌스(제10조), 투명성(제13조), 사람의 감독(제14조), 그리고 에이전트별 감사 로깅(제12조)이 포함됩니다. DORA 제5조 이사회 책임 조항은 에이전틱 AI를 포함한 운영 회복력에 적용됩니다. EU AI Office의 2026년 5월 가이던스는 감사 로그에 에이전트별 암호학적 신원을 의무화합니다. 미준수 시 최대 3,500만 유로 또는 글로벌 매출의 7%에 달하는 과징금이 부과됩니다.

아시아·태평양(MAS / IMDA / 역내 규제당국). 싱가포르 IMDA는 2026년 1월 22일 다보스에서 세계 최초의 에이전틱 AI 모델 거버넌스 프레임워크를 발표했습니다. MAS는 2026년 3월 Project MindForge 하에서 24개 금융기관과 함께 개발한 AI 리스크 관리 도구함을 발표했습니다. 이 프레임워크는 범위와 AI 감독, AI 리스크 관리, AI 라이프사이클 관리, 그리고 조직적 조력자를 다룹니다. MAS가 제안한 공식 AI 리스크 관리 지침(Guidelines on AI Risk Management)은 2026년에 확정될 것으로 예상되며, 자발적 FEAT 원칙에서 준수 함의를 동반한 감독 기대치로 이동합니다. 호주 ASIC은 2026년 5월 프런티어 AI 위협에 대응하여 사이버 역량 강화를 요구하는 공개 서한을 발표했습니다.

FSB(글로벌, 관할권 횡단). FSB 2026년 6월 협의서—에이전틱 AI를 운영상 구별되는 것으로 취급한 최초의 글로벌 프레임워크—는 에이전틱 시스템을 위한 여섯 가지 감독 모델을 식별하고, 고자율성 워크플로에는 사람의 지휘(human-in-command)를, 에이전트 개체군 증가에 따라 AI를 루프에 둔(AI-in-the-loop) 모니터링을, 그리고 임계 금액을 초과하는 금융 거래를 실행하는 에이전트에는 사람의 승인 또는 이중 인가를 권고합니다. 의견 수렴은 2026년 7월 22일에 마감되며, G20 재무장관에게 제출되는 최종 보고서는 2026년 10월에 나옵니다.

성숙도 단계	어떤 모습인가	인덱스 점수
Level 1 — 관할권 목록화	관할권별로 적용 가능한 프레임워크가 식별됨. 워크플로 수준 매핑 없음. AI 이전 프레임워크에 대한 "유추에 의한 준수"	0–24
Level 2 — 프레임워크 매핑	각 운영 에이전틱 워크플로가 적용 가능한 프레임워크에 매핑됨. 격차 식별. 시정 계획 초안 작성	25–49
Level 3 — 증거 기반 준수	적용 가능한 프레임워크에 대한 워크플로별 증거 패키지 산출. EU AI Act 제12조 에이전트별 로깅 완비. FSB 건전 관행 5–10이 내부 통제에 매핑됨. 싱가포르 MGF 4차원 매핑 완료	50–74
Level 4 — 능동적 규제 참여	기관이 FSB, IOSCO, 국가 규제당국 협의에 참여. 규제 인텔리전스가 에이전트 배포 라이프사이클에 통합됨. 감독 증거가 사후에 취합되는 것이 아니라 운영 파이프라인에 의해 자동 생성됨	75–100

종합 인덱스 점수

여섯 개 차원 점수는 다음의 규제 중대성 가중치를 사용하여 종합 인덱스로 결합됩니다.

차원	가중치	근거
거버넌스 아키텍처	25%	최고 가중치: 컨트롤 플레인은 모델이 실패할 때 안전하게 실패하는 유일한 요소
규제 증거 완전성	20%	8월 2일 EU AI Act 기한과 지속적 감독 대비에 필수
자율성 등급 적용 범위	15%	등급 분류는 근본적이긴 하나 이제 차별화 요소가 아닌 기본 기대치가 되었음을 반영하여 소폭 하향
경제적 책임성	15%	McKinsey의 이익 풀 및 ROTE 격차 시나리오에 대한 CFO/ROI 정합성에 결정적
조직 준비도	10%	간소화: 구조적 거버넌스는 필요하나 Tier 1 기관에서는 점차 기본 요건이 됨
글로벌 규제 정합성	15%	상향: DORA 제3자 ICT 집중 리스크, 국경 간 에이전트 실행, 시스템적 군집 리스크 점수화를 능동적으로 고려해야 함

종합 점수가 50 미만이면 기관은 SR 11-7 검사관, PRA 현장 검토, 또는 EU AI Act 감독 평가에 대해 현재의 에이전틱 AI 태세를 방어할 수 없습니다. 50–74 점수는 통제가 존재하나 아직 지속적이지 않거나 증거 준비가 되지 않았음을 의미합니다. 75–100 점수는 거버넌스가 준수 비용이 아니라 경쟁 자산임을 의미합니다.

추적해야 할 현재 신호

신호	은행에 주는 의미	출처
52% 에이전틱 AI 도입	거버넌스가 이미 지체됨. 확장 또는 변혁 단계의 기관에는 또 다른 시범이 아니라 컨트롤 플레인이 필요	Cambridge CCAF
66.3% OSWorld 과제 성공	구조화된 도구 사용에서 세 건 중 한 건 실패율. 고객 자금 API를 대상으로 한 비감독 실행은 지지될 수 없음	Stanford HAI
신규 은행 AI 활용 사례의 31%가 에이전틱	2026년 1분기 가장 빠르게 성장하는 범주. 거버넌스 인프라가 배포에 더욱 뒤처지고 있음	Evident Insights
FSB 2026년 6월 건전 관행	에이전틱 AI를 운영상 구별되는 것으로 취급한 최초의 글로벌 프레임워크. 현재는 구속력 없음, 2026년 10월 G20 산출물	FSB
EU AI Act 2026년 8월 2일 기한	부속서 III 의무 전면 발효. 독일, 프랑스, 네덜란드 감독 검토 2026년 3분기 확정	EU AI Office
JP Morgan 장시간 에이전트: 2026년	1~2시간 자율 에이전트의 당해 연도 배포가 모든 G-SIB 및 지역 은행의 경쟁 벤치마크를 바꿈	CNBC
IBM: 2027년까지 1,661개 에이전트	2026년에 다루지 않으면 기업 에이전트 난립이 2027년의 거버넌스 과제. 준비되었다고 답한 곳은 11%뿐	IBM
싱가포르 MGF 에이전틱 AI: 2026년 1월	세계 최초의 에이전틱 AI 특화 거버넌스 프레임워크. 네 개념(주체 위계, 과제 경계, 최소 발자국, 설명 가능성)이 보편적으로 적용	IMDA
IOSCO 감독 도구함: 2026년 5월	에이전틱 AI를 포함한 전체 AI 라이프사이클 포괄. 창발적 행동과 연쇄 실패 리스크를 명시적으로 지목	IOSCO
McKinsey: 4%포인트 ROTE 격차	AI 선도자는 후발 주자 대비 4%포인트의 ROTE 우위를 벌릴 수 있음. 그 격차를 포착하는 측정 인프라는 워크플로 수준 단위 경제성	McKinsey

기관 유형별 함의

글로벌 시스템적 중요 은행(G-SIB)

G-SIB는 가장 어려운 거버넌스 과제에 직면합니다. 기술이 더 복잡해서가 아니라, 규모와 관할권이 모든 격차를 복합화하기 때문입니다. 15개 규제 관할권의 30개 사업 부문에 걸쳐 200개의 운영 에이전트를 둔 G-SIB는 200개의 잠재적 SR 11-7 지적 사항, 200개의 잠재적 EU AI Act 감사 로그 실패, 200개의 잠재적 FSB 건전 관행 격차를—동시에—안고 있습니다. 투자 우선순위는 또 다른 시범이 아닙니다. 그것은 중앙 컨트롤 플레인, 통합 감사 로그 인프라, 그리고 분기당 50개 이상의 에이전트를 검증할 수 있는 MRM 인력입니다.

JP Morgan의 2026년 장시간 자율 에이전트 배포 발표, DBS의 신용 메모 작성 및 고객 응대 에이전트 컨트롤 플레인, BNP Paribas의 2025년 AI 목표 달성 및 분기별 ROI 보고 개시—이들은 모든 G-SIB 이사회가 기준으로 삼아야 할 경쟁 데이터 포인트입니다. 기관의 질문은 배포할 것인가가 아니라, 컨트롤 플레인이 에이전트 개체군과 동일한 속도로 확장될 수 있는가입니다.

FSB는 소수의 클라우드, 하드웨어, 파운데이션 모델 제공사에 대한 의존에서 비롯되는 집중 리스크를 명시적으로 경고하며, 공유된 모델과 데이터가 경기 하강 시 군집과 경기순응성(procyclicality)을 증폭하는 상관된 행동으로 기관을 몰아갈 수 있다고 지적합니다. 에이전틱 인프라의 80%를 두 곳의 파운데이션 모델 공급사에서 조달하는 G-SIB는, 자사 리스크 팀과 감독당국 양쪽에 설명해야 할 시스템적 상관성을 구축하고 있는 셈입니다.

시스템적 군집과 경기순응성: 어떤 단일 은행도 홀로 해결할 수 없는 아키텍처 리스크. Evident Insights의 2026년 1분기 활용 사례 추적기는 은행 에이전틱 배포의 68%가 이제 전문화된 롱테일 공급사를 사용하며, 그 다수가 동일한 기반 프런티어 모델, 주로 Anthropic의 Claude 위에 구축되어 있음을 식별합니다. 이는 은행이 클라우드 인프라나 결제 레일에서 이미 관리하는 집중 리스크와는 실질적으로 다른 구조적 군집 취약성을 만들어냅니다.

메커니즘은 다음과 같습니다. 어느 은행의 트레이딩 에이전트, 유동성 에이전트, 신용 긴축 에이전트는 서로 다른 공급사 플랫폼 위에 구축됩니다. 이들은 서로 다른 시스템 프롬프트, 서로 다른 도구 호출 스키마, 서로 다른 OPA 정책 게이트를 가집니다. 그러나 이들은 동일한 기반 모델을—동일한 가중치, 동일한 학습 분포, 분포적 스트레스 하의 동일한 창발적 행동 패턴을—공유합니다. 중대한 시장 사건이 발생할 때—국가 신용 사건, 컨센서스와 다른 연준 커뮤니케이션, 대형 은행의 파산—동일한 기반 모델 위에 구축된 모든 에이전트는 동일한 암묵적 특징 가중치를 통해 그 사건을 처리합니다. 만약 그 가중치가 위험 회피(risk-off) 행동으로의 방향적 편향을 낳는다면, 여러 은행의 트레이딩, 유동성, 신용 에이전트가 상관된 매도, 신용 긴축 사이클, 또는 유동성 회수를 동시에 실행할 수 있습니다—어느 개별 은행의 에이전트가 오작동해서가 아니라, 모두가 동일한 모델 위에서 정상적으로 기능하고 있기 때문입니다.

IOSCO는 2026년 5월 감독 도구함에서 이 동학을 명시적으로 지목하며, 계획 역량, 장기 기억, 외부 도구 접근이 상호 연결된 시스템 전반에서 창발적 행동과 연쇄 실패의 위험을 만든다고 경고했습니다. FSB의 2026년 6월 협의서는 경기순응성을 직접 다루며, AI 에이전트가 동일한 데이터로 학습되고 유사한 모델을 사용한다면 그 행동이 상관될 가능성이 높아 시장 움직임을 잠재적으로 증폭할 수 있다고 지적합니다.

차원 6에서 시스템적 군집 회복력을 점수화하려면 세 가지 공개와 하나의 아키텍처 통제가 필요합니다. 공개 사항은 다음과 같습니다. 각 운영 에이전틱 워크플로의 기반 파운데이션 모델은 무엇인가, 에이전트 포트폴리오 전반의 공급사 의존성 지도는 무엇인가, 그리고 정의된 스트레스 시나리오 하에서 기관 간 상관된 행동에 대한 자사의 기여도를 기관은 어떻게 평가하는가입니다. 아키텍처 통제는 다음과 같습니다. 고위험 자산군(트레이딩, 유동성 관리, 신용)의 주요 에이전트 중 최소 하나는 서로 다른 기반 모델 또는 상당히 다른 파인튜닝 변형을 사용해야 하며, 그리하여 단일 모델의 스트레스 사건에 대한 분포적 반응이 모든 에이전틱 워크플로에 걸쳐 완전히 상관된 결과를 동시에 낳을 수 없도록 해야 합니다. 이것이 시스템 리스크 관리로서의 모델 다양성이며—거래상대방 분산의 에이전틱 등가물입니다.

트랜잭션 뱅킹 및 기업 금융

가장 높은 ROI의 에이전틱 워크플로는 결제 보정(payment repair), KYC 문서 추출, 트레저리 서비스, 정산 불일치(reconciliation breaks), 그리고 기업 고객 FAQ 응대입니다. 모두 자율성 사다리 상의 Level 2 또는 한정된 Level 3입니다. 기업 고객은 에이전트가 결제 보정을 실행했는지에 관심이 없으며, SLA가 개선되고 분쟁률이 평탄하게 유지되었는지에 관심이 있습니다. 기술 역량 주장이 아니라 네 가지 단위 경제 지표를 앞세우십시오.

자율 트레저리 프레임워크—관찰 → 탐지 → 예측 → 준비 → 사람의 승인 요청 → 서명된 페이로드 제출—는 2026년 기업 트레저리 에이전트를 위한 올바른 아키텍처입니다. 에이전트가 준비한 pain.001 페이로드는 기업 ERP 제출과 동일한 스키마 검증, 사기 점수화, 제재 엔진을 거칩니다. 조건성 계층(임계치, 담보 적격성, 버퍼 하한)은 pain.001이 어떤 형태를 취하는지가 아니라 전송되는지 여부를 통제합니다. 조건을 표현하기 위해 독자적 페이로드를 만들어내는 트레저리 플랫폼은 은행이 소비 가능한 경로에서 탈락하게 됩니다.

지역 은행 및 커뮤니티 은행

McKinsey의 시나리오 분석은 세 가지 실행 가능한 포지션을 식별합니다. 관망하기, 에이전트 인터페이스 뒤의 제품 공급사로 적응하기, 또는 직접적 고객 관계를 위해 경쟁하기입니다. 이 선택을 명시적으로 내리지 못하는 지역 은행은 기본적으로 관망 태세로 흘러가게 되며—그 표류 동안 누적된 거버넌스 부채가 경쟁 압력으로 행동이 강제될 때 가장 큰 장애물이 됨을 알게 될 것입니다.

OCC의 비례성 원칙—"비례적이라는 것이 부재를 의미하지는 않는다"—은 지역 은행 거버넌스의 운영적 틀입니다. 지역 은행이 분기당 50개의 에이전트를 검증할 필요는 없습니다. 필요한 것은 자율성 사다리를 이해하는 한 명의 모델 리스크 담당자, OAuth 스코핑, OPA 통합, WORM 감사 로깅을 기본 탑재한 공급사 에이전트 플랫폼의 한 가지 구현, 그리고 네 가지 단위 경제 지표를 다루는 한 가지 이사회 보고 템플릿입니다. 투자는 독자적 컨트롤 플레인 엔지니어링이 아니라 워크플로 설계와 운영자 UX에 있습니다.

CSI의 2026 Banking Priorities 조사는 커뮤니티 뱅킹 응답자의 85%가 AI 도입이 상당한 경쟁 우위를 제공할 것이라 믿으며 50%가 이를 2026년 최상위 기술 트렌드로 지목했음을 발견했습니다. 거버넌스 인프라는 85%의 신봉자와 가치를 실제로 포착할 소수를 가르는 요소입니다.

핀테크, PSP, 인프라 제공사

2026년 에이전틱 AI 공급사에 대한 제품 질문은 "당신의 플랫폼이 사람보다 더 나은 성능을 내는가?"가 아닙니다. 그것은 "당신의 플랫폼이 SR 11-7에 부합하는 감사 추적, EU AI Act 제12조에 부합하는 에이전트별 로그, 그리고 FSB 건전 관행 10에 부합하는 감독 모델을—기본 탑재로—산출하는가?"입니다. 이에 대해 문서화되고 시험 가능한 '예'로 답할 수 있는 공급사는 기업 거래를 성사시킬 것입니다. 그렇지 못한 공급사는 은행 MRM 팀이 검증을 탈락시킬 이유를 찾는 동안 개념 증명(PoC) 루프를 반복하게 될 것입니다.

Oracle은 2026년 2월 은행을 위한 기업용 에이전틱 AI 플랫폼을 출시했습니다. FIS는 Mastercard 및 Visa와 제휴하여 에이전트 개시 상거래(agent-initiated commerce)를 가능하게 했습니다. Microsoft는 에이전틱 고객 경험을 위한 은행 특화 청사진을 발표했습니다. Accenture는 프런트 및 백 오피스 전반의 인력 함의를 제시했습니다. 공급 측면은 준비되어 있습니다. 차별화는 사후 준수 부착물이 아니라 제품 기능으로서의 규제 증거에 있습니다.

Evident가 식별한 롱테일 공급사 동학—은행의 에이전틱 AI 배포 68%가 이제 하이퍼스케일러를 넘어선 전문 공급사를 사용한다는—은 제3자 AI 공급사 리스크가 대부분의 은행 조달 프레임워크가 이를 평가할 수 있는 속도보다 빠르게 가속화되고 있음을 의미합니다. DORA는 모든 ICT 제3자 제공사에 대한 문서화된 실사를 요구합니다. EU AI Act는 시스템이 고위험 범주에 사용되는 공급사에 추가 요건을 더합니다. 거버넌스를 공급사에 외주화하는 은행은 책무를 외주화하는 것이며—감독 기록은 이를 반영할 것입니다.

기업 및 중소기업(비은행 금융 서비스)

거버넌스 부담은 에이전틱 AI 활용의 리스크 중대성에 비례하나, 측정 프레임워크는 보편적으로 적용됩니다. 매입채무, 운전자본 최적화, 또는 재무 기획·분석에 에이전트를 배포하는 기업은, 규제 의무가 시스템적 중요 은행보다 가볍더라도 동일한 단위 경제 책임성 프레임워크—완료된 결정당 비용, 되돌림률, 감사 추적 완전성—를 필요로 합니다. FSB 건전 관행은 모든 유형과 규모의 금융기관에 적용 가능한 비구속적 가이던스로 설정되어 있습니다. 기업이 데이터 유출과 연쇄 시스템 실패를 포함하여 연평균 54건의 AI 에이전트 사고를 겪는다는 IBM의 발견은 기업 전반에 적용됩니다.

에이전틱 인터페이스를 통해 은행 서비스에 접근하는 중소기업의 경우—McKinsey가 소비자가 AI 에이전트를 새로운 은행 채널로 사용하는 것으로 묘사하는 시나리오—거버넌스 의무는 에이전틱 계층을 제공하는 은행 또는 PSP에 상류로 귀속됩니다. 그러나 중소기업 자신의 데이터와 운영 무결성은 그 거버넌스가 실재함에 달려 있습니다. 자신의 금융 워크플로를 관리하는 기관의 인덱스 점수를 이해하는 것이 빠르게 공급사 선정 기준이 되고 있습니다.

이사회 수준 스코어카드

에이전틱 AI를 위한 유용한 이사회 스코어카드는 여섯 가지 지표를 추적해야 하며—이는 거버넌스가 작동하는 프로그램과 그렇지 않은 프로그램을 구별하는 최소 집합입니다.

자율성 등급 분포: 등급별(Level 0–4) 운영 워크플로 수로, 분기별로 갱신합니다. Level 5 워크플로는 모두 보고 대상 지적 사항입니다.
컨트롤 플레인 완전성: 다섯 가지 컨트롤 플레인 구성요소(신원, 가드레일, 정책의 코드화, WORM 로깅, 킬 스위치)가 모두 작동하는 운영 워크플로의 비율입니다.
감사 추적 완전성: 불변 로그로부터 완전한 출처를 재구성할 수 있는 Level 3 이상 워크플로 호출의 비율입니다. 목표: 100%.
워크플로별 되돌림률: 24시간 이내에 롤백된 에이전트 실행 행동의 비율로, 워크플로별로 추적합니다. 경보 임계치: 2%. 에스컬레이션 임계치: 5%.
결정당 순비용: 되돌림 및 복구 비용을 포함한 워크플로 수준 단위 비용으로, 수작업 기준선과 비교합니다. 프로그램 경제성 사례 대비 추적합니다.
규제 증거 최신성: 적용 가능한 프레임워크(SR 11-7, SS1/23, EU AI Act, MAS MGF) 전반에 걸친 가장 최근의 워크플로별 규제 증거 갱신 일자입니다. 증거 주기에서 90일을 넘긴 워크플로는 모두 리스크 지적 사항입니다.

이 여섯 가지 수치는 에이전틱 AI를 슬라이드 자료에서 운영 모델로 전환합니다. 이들은 또한 SR 11-7 검사관, PRA 현장 검토자, 또는 EU 감독당국이 가장 먼저 요청할 수치이기도 합니다.

이 인덱스가 메우는 격차

세 가지 구조적 격차가 본 인덱스를 기존 프레임워크와 구별합니다.

격차 1: 기존 인덱스는 AI 성숙도를 측정할 뿐, 에이전틱 AI 특화 거버넌스를 측정하지 않습니다. Evident AI Index는 공개 데이터를 활용하여 50개 은행 전반의 인재, 혁신, 리더십, 투명성을 측정합니다. 이는 은행의 운영 에이전틱 워크플로가 작동하는 킬 스위치, 에이전트별 WORM 감사 로그, 또는 OPA 정책 게이트를 갖추고 있는지 평가하지 않으며—그러도록 설계되지도 않았습니다. 어느 은행은 Evident Index에서 1위를 차지하면서도 EU AI Act 제12조 감사를 통과하지 못할 수 있습니다.

격차 2: 기존 규제 프레임워크는 무엇이 요구되는지를 다룰 뿐, 준비도를 어떻게 점수화하는지를 다루지 않습니다. SR 11-7, SS1/23, EU AI Act, FSB 건전 관행, 싱가포르 MGF는 각각 거버넌스 의무를 정의합니다. 그러나 어느 것도 기관이 동종 업계 대비 자신의 태세를 벤치마킹하거나 시간에 따른 개선을 측정하게 하는 교차 차원 점수화 프레임워크를 제공하지 않습니다. 본 인덱스는 기존 규제 프레임워크를 증거 기반으로 활용하여 그 점수화 프레임워크를 제공합니다.

격차 3: 프로그램 수준 경제성은 워크플로 수준 실패를 가립니다. AI 가치를 프로그램 수준에서 보고하는 업계 표준—"AI가 준법 업무 시간을 X시간 절감했다"—은 되돌림, 위양성 SAR 신고, 또는 설명되지 않은 에이전트 행동을 그것을 만들어낸 워크플로로 추적하는 것을 구조적으로 불가능하게 만듭니다. 본 인덱스의 단위 경제 차원은 워크플로 수준의 책임성을 요구합니다. 이것이 CFO와의 대화를 방어 가능하게 하고 감사와의 대화를 견뎌낼 수 있게 하는 측정 아키텍처입니다.

결론

2026년 은행권의 에이전틱 AI는 전략적 논의의 옷을 입은 엔지니어링 문제입니다. 모델은 교체 가능합니다. 컨트롤 플레인—OAuth 스코핑, 결정론적 시맨틱 라우팅, OPA 정책 게이트, 불변 WORM 감사 로그, 그리고 검증된 킬 스위치—은 그렇지 않습니다. 거버넌스 아키텍처—3선 방어 검증, 지속적인 은행 고유 평가 스위트, 이사회 수준의 단위 경제성 보고—도 그렇지 않습니다. 규제 증거 패키지—워크플로별 SR 11-7 모델 카드, EU AI Act 제12조 에이전트별 로그, FSB 건전 관행 매핑—도 그렇지 않습니다.

2027년 규제당국에 신뢰받을 기관은 오늘 여섯 개 인덱스 차원 전반에서 75를 넘는 점수를 내는 곳입니다. 즉, 모든 운영 에이전트를 자율성 사다리에 따라 분류하고, 완전한 5개 구성요소 컨트롤 플레인을 엔지니어링하며, 지속적 규제 증거를 산출하고, 워크플로 수준 단위 경제성을 추적하며, 조직 준비도에 투자하고, 2028년의 구속력 있는 기준을 형성하고 있는 FSB, IOSCO, 국가 규제당국 협의에 능동적으로 참여하는 기관입니다.

OSWorld 66.3%는 신뢰성의 천장입니다. 그 비율로 연결된 세 번의 도구 호출은 29%의 종단 간 성공률을 낳습니다. 그에 맞추어 계획하십시오. 다른 어떤 운영 리스크를 측정하듯—희망이 아니라 증거로—에이전트를 측정하는 기관은, 거버넌스가 에이전틱 AI의 제약이 아님을 알게 될 것입니다. 그것은 에이전틱 AI를 경쟁력 있게 만드는 유일한 요소입니다.

자주 묻는 질문

이 인덱스와 Evident AI Index의 차이는 무엇입니까? Evident AI Index는 공개 데이터를 활용하여 인재, 혁신, 리더십, 투명성 전반에 걸쳐 전 세계 50개 은행의 AI 성숙도를 벤치마킹합니다. 본 인덱스는 실제 은행 API를 대상으로 에이전틱 AI를 안전하게 배포하게 하는 구체적 엔지니어링 및 거버넌스 아키텍처—컨트롤 플레인, 감사 로그, 자율성 등급 분류, 규제 증거 패키지—를 점수화합니다. 두 인덱스는 상호 보완적입니다. Evident는 전략적 태세를 측정하고, 본 인덱스는 운영 준비도를 측정합니다.

이 인덱스는 누가 사용해야 합니까? 글로벌 은행, 지역 은행, 기업 금융 주체, 그리고 에이전틱 AI를 배포하는 금융기관의 최고운영책임자(COO), 최고리스크책임자(CRO), 최고AI책임자(CAIO), 모델 리스크 관리 책임자, 이사회 리스크 위원회입니다. 규제 증거가 선정 기준인 은행 조달 절차에 판매하는 핀테크, PSP, 인프라 공급사에도 해당됩니다.

2026년 최소 실행 가능 거버넌스 태세는 무엇입니까? 운영 환경에서 작동하는 완전한 5개 구성요소 컨트롤 플레인, Level 0–4로 분류된 모든 운영 워크플로, 계약상 금지된 Level 5 워크플로, Level 3 이상 워크플로에 대한 완비된 WORM 감사 로그, 2026년 8월 2일 이전에 마련된 EU AI Act 제12조 에이전트별 로깅, 이사회 책무 구조에 매핑된 FSB 건전 관행 1–4, 그리고 지속적으로 실행되는 은행 고유 평가 스위트입니다.

JP Morgan의 발표는 우리 기관에 무엇을 의미합니까? 이는 자율 에이전트 배포의 경쟁 벤치마크가 시스템적 중요 은행으로부터 2026년이라는 명시된 시점을 갖게 되었음을 의미합니다. 모든 기관이 그 시점을 맞춰야 한다는 뜻은 아닙니다. 모든 기관이 자신의 현재 인덱스 점수를 알고, 그 점수와 JP Morgan이 묘사하는 배포 태세 사이의 격차를 알며, 그 격차를 안전하게 메우는 데 필요한 거버넌스 투자에 대한 이사회 승인 견해를 가져야 한다는 뜻입니다.

에이전틱 AI 리스크는 이사회에 어떻게 보고해야 합니까? 워크플로별로 여섯 가지 지표입니다. 자율성 등급, 컨트롤 플레인 완전성, 감사 추적 완전성, 되돌림률, 결정당 순비용, 규제 증거 최신성입니다. 여기에 상위 5개 잔여 리스크 목록을 더합니다. 모델 카드 슬라이드와 프로그램 수준 생산성 요약은 생략하십시오.

FSB 협의는 지금 구속력 있는 의무를 창출합니까? 아닙니다. FSB는 12개 건전 관행이 구속력 있는 기준이 아님을 명시적으로 밝힙니다. 그러나 협의는 2026년 7월 22일에 마감되고 최종 보고서는 2026년 10월 G20 재무장관에게 제출됩니다. 국가 규제당국—연준, PRA, BaFin, DNB, ACPR, MAS—은 각자의 시점에 따라 건전 관행을 구속력 있는 감독 기대치로 편입할 수 있습니다. 지금 협의에 응답하는 기관이 바로 구속력의 모습을 형성하는 기관입니다.

참고문헌

최종 검토 2026-06-30.

최종 검토 2026-06-29.

이 기사 재게시

2026년 은행을 위한 Agentic AI 지수: Autonomy 측정 — Sebastien Rousseau

은행의 agentic AI 준비도를 여섯 차원으로 평가하는 지수: autonomy 단계, governance, 규제 증거, 경제성, 준비도, 글로벌 정합성.

이 기사의 라이선스는 Creative Commons Attribution 4.0 International. 재게시 시 정규 URL 출처 표시가 필요합니다.

2026년 은행을 위한 Agentic AI 지수: Autonomy 측정 — Sebastien Rousseau

은행의 agentic AI 준비도를 여섯 차원으로 평가하는 지수: autonomy 단계, governance, 규제 증거, 경제성, 준비도, 글로벌 정합성.

Originally published at https://sebastienrousseau.com/ko/2026-06-30-agentic-ai-index-banks-measuring-autonomy-2026/ by Sebastien Rousseau.
Licensed under CC-BY-4.0.

SEBASTIEN ROUSSEAU FOUNDER · ENGINEER