Indeks Agentic AI untuk Bank pada 2026: Mengukur Autonomy

TL;DR. Indeks enam dimensi untuk menilai kesiapan agentic AI di bank: autonomy, governance, bukti regulasi, ekonomi, kesiapan, dan keselarasan global.

Points clés

Mengapa Indeks Ini Ada. Evident AI Index memeringkat 50 bank global di seluruh Talenta, Inovasi, Kepemimpinan, dan Transparansi menggunakan jutaan titik data yang tersedia publik.
Lanskap Kematangan Agentic AI 2026. Laporan Cambridge CCAF 2026 — studi global terbesar tentang AI dalam jasa keuangan, mencakup 628 organisasi di 151 yurisdiksi dalam kemitraan dengan BIS, IMF, WEF, dan Bank Dunia — menyediakan fondasi statistik untuk…
Arsitektur Indeks Enam Dimensi. Indeks ini menilai kesiapan agentic AI di seluruh enam dimensi.
Skor Indeks Komposit. Keenam skor dimensional digabungkan menjadi indeks komposit menggunakan pembobotan materialitas-regulasi berikut:.

Agentic AI di perbankan telah beralih dari eksperimen menjadi infrastruktur operasional. Pertanyaan pada 2026 bukan lagi apakah harus menerapkannya — 52% lembaga keuangan sudah melakukannya — melainkan apakah industri dapat mengukur apa yang telah dibangunnya dengan kecermatan yang sama seperti yang diterapkan pada modal, kredit, dan likuiditas. Indeks ini adalah kerangka pengukuran tersebut (Cambridge CCAF, 2026).

Ringkasan Eksekutif / Poin-poin Utama

Otonomi adalah kecukupan modal yang baru. Sebagaimana Basel menetapkan standar terukur untuk ketahanan keuangan, sektor ini kini membutuhkan standar terukur untuk pengambilan keputusan otonom. Indeks ini adalah kerangka lintas-dimensi pertama yang menilai kesiapan agentic AI di seluruh tata kelola, arsitektur teknis, bukti regulasi, imbal hasil ekonomi, dan kematangan organisasi sebagai satu model operasi tunggal.

Adopsi 52% menutupi tingkat transformasi 14%. Survei Cambridge CCAF 2026 terhadap 628 organisasi di 151 yurisdiksi menemukan bahwa meskipun empat dari lima lembaga keuangan menerapkan AI, hanya 14% yang menyebutnya mengubah posisi kompetitif mereka. Kesenjangannya adalah tata kelola, bukan teknologi.

OSWorld pada 66,3% adalah batas atas keandalan, bukan batas bawah. Tolok ukur Stanford HAI 2026 menunjukkan agen AI menyelesaikan 66,3% tugas perusahaan terstruktur (Stanford HAI, 2026). Tiga panggilan alat berantai pada tingkat itu berlipat menjadi tingkat keberhasilan ujung-ke-ujung 29%. Eksekusi tanpa pengawasan terhadap sistem pembayaran langsung tidak dapat dipertahankan pada tingkat keandalan ini.

FSB telah bersuara. Pada 10 Juni 2026, Financial Stability Board (FSB) menerbitkan kerangka operasional pertamanya untuk mengatur agentic AI dalam jasa keuangan (FSB, 2026) — 12 praktik baik yang mencakup akuntabilitas dewan, manajemen siklus hidup, dan arsitektur AI-mengawasi-AI. Komentar ditutup 22 Juli 2026.

Jam penegakan EU AI Act terus berjalan. Kewajiban sistem AI berisiko tinggi di bawah Annex III berlaku pada 2 Agustus 2026 (panduan EU AI Act, 2026). Lembaga keuangan yang mengoperasikan agentic AI di Uni Eropa tanpa identitas log audit per-agen, prosedur pencabutan terdokumentasi, dan bukti tingkat dewan berada dalam tunggakan.

JP Morgan telah menyebut tahun. Derek Waldron, chief analytics officer, mengonfirmasi kepada CNBC pada 9 Juni 2026 bahwa bank tersebut akan menerapkan agen otonom berdurasi panjang (CNBC, 2026) — yang mampu beroperasi secara mandiri selama satu hingga dua jam — pada 2026. Pengungkapan tersebut mengubah kerangka kompetitif bagi setiap lembaga yang membandingkan diri terhadapnya.

Indeks menilai enam dimensi. Tingkat Otonomi, Arsitektur Tata Kelola, Bukti Regulasi, Akuntabilitas Ekonomi, Kesiapan Organisasi, dan Keselarasan Regulasi Global. Bersama-sama mereka mengubah program AI dari portofolio inisiatif menjadi kapabilitas yang terukur.

Mengapa Indeks Ini Ada

Evident AI Index memeringkat 50 bank global di seluruh Talenta, Inovasi, Kepemimpinan, dan Transparansi menggunakan jutaan titik data yang tersedia publik. Indeks itu adalah tolok ukur eksternal paling tepercaya untuk kematangan AI dalam jasa keuangan. Yang tidak dilakukannya — secara sengaja — adalah menilai arsitektur rekayasa dan tata kelola spesifik yang membuat agentic AI aman untuk diterapkan terhadap API perbankan langsung. Stanford AI Index melacak keluaran riset, kinerja teknis, dan dampak sosial. Yang tidak dilakukannya adalah menerjemahkan persentase penyelesaian tugas OSWorld menjadi seperangkat instruksi operasional bagi seorang treasurer, chief risk officer, atau tim validasi model.

Indeks ini mengisi kesenjangan tersebut. Indeks ini mengambil disiplin keterukuran dari kerangka Stanford, konteks kompetitif Evident Index, dan spesifisitas regulasi dari SR 11-7, SS1/23, EU AI Act, praktik baik FSB, serta Model AI Governance Framework for Agentic AI dari IMDA Singapura — dan mengubahnya menjadi model penilaian enam dimensi yang dapat ditindaklanjuti oleh dewan.

Pemicu praktisnya adalah bahwa agentic AI telah bergeser dari percakapan perencanaan menjadi pertanyaan audit. Ketika chief analytics officer JP Morgan mengumumkan penerapan agen otonom berdurasi panjang pada tahun yang sama, ketika DBS membangun bidang kontrol agen ke dalam penyusunan memo kredit dan layanan nasabah, ketika FSB menginstruksikan bahwa agen yang mengeksekusi transaksi keuangan memerlukan "persetujuan manusia atau otorisasi ganda di atas nilai ambang, akses agen yang dibatasi ke sistem pembayaran, dan jejak audit setiap transaksi agen" — lembaga yang tidak dapat menilai posturnya sendiri akan mendapati regulator yang menilainya.

Lanskap Kematangan Agentic AI 2026

Apa yang Ditunjukkan Data

Laporan Cambridge CCAF 2026 — studi global terbesar tentang AI dalam jasa keuangan, mencakup 628 organisasi di 151 yurisdiksi dalam kemitraan dengan BIS, IMF, WEF, dan Bank Dunia — menyediakan fondasi statistik untuk indeks ini.

Sinyal	Temuan	Sumber
Adopsi AI aktif	81% perusahaan keuangan menerapkan AI pada suatu tingkat	Cambridge CCAF
Adopsi agentic AI	52% sudah merintis atau menerapkan sistem agentic yang mampu melakukan tindakan otonom multi-langkah berkelanjutan	Cambridge CCAF
Tingkat transformasi	Hanya 14% yang menyebut AI mendefinisikan ulang keunggulan kompetitif mereka	Cambridge CCAF
Kesulitan pengukuran	55% industri dan 63% regulator kesulitan mengukur nilai penerapan AI; secara khusus 76% lembaga keuangan besar	Cambridge CCAF
Profitabilitas	Hanya 40% melaporkan peningkatan profitabilitas dari AI; 43% melaporkan tidak ada perubahan	Cambridge CCAF
Hilangnya pengawasan manusia	51% menyebut hilangnya pengawasan manusia sebagai risiko utama	Cambridge CCAF
Kasus penggunaan agentic	31% kasus penggunaan AI bank baru pada Q1 2026 merupakan aplikasi agentic — tertinggi yang pernah tercatat, naik dari 15% pada Q4 2025	Evident Insights
Kesenjangan tata kelola	77% dari 2.000 pemimpin teknologi mengatakan adopsi AI melampaui kemampuan tata kelola; rata-rata 54 insiden agen AI per perusahaan pada 2025	IBM
Pembengkakan agen (agent sprawl)	Perusahaan memperkirakan akan menerapkan rata-rata 1.661 agen AI pada 2027; hanya 11% yang mengatakan benar-benar siap	IBM
Risiko kumpulan laba menurut McKinsey	Agentic AI dapat menurunkan biaya operasional bank sebesar 20% tetapi berpotensi mengikis hingga $170 miliar kumpulan laba global pada 2030 jika model bisnis tidak beradaptasi	McKinsey

Angka-angka ini mendefinisikan masalah secara tepat: adopsi mendahului tata kelola, perolehan produktivitas terlihat, transformasi langka, dan kesenjangan pengukuran paling lebar di tempat risiko regulasinya paling tinggi — lembaga keuangan besar.

Di Mana Pesaing Menarik Garis

Evident AI Index 2025 menempatkan JP Morgan Chase di peringkat pertama (skor: 79), diikuti Capital One (78,1), RBC (58,4), CommBank Australia (53,9), dan Morgan Stanley (52,2). Indeks ini mengukur empat pilar kapabilitas — Talenta, Inovasi, Kepemimpinan, Transparansi — bukan arsitektur agen operasional. Hal itu menciptakan kesenjangan struktural: sebuah bank dapat memperoleh skor tinggi pada pengungkapan Inovasi sembari menerapkan agen tanpa sakelar darurat, tanpa log audit WORM, dan tanpa gerbang kebijakan OPA. Indeks ini dirancang untuk membuat kesenjangan tersebut terlihat.

Deloitte's 2026 Tech Trends melaporkan bahwa hanya 11% organisasi memiliki agentic AI dalam produksi. McKinsey menemukan bahwa hanya kira-kira sepertiga organisasi mencapai tingkat kematangan tata kelola tiga atau lebih tinggi dalam kendali agentic AI bahkan ketika kemampuan teknis maju dengan pesat. Data survei CCG Catalyst menunjukkan 93% belanja terkait AI mengalir ke infrastruktur teknologi dan hanya 7% ke manusia, talenta, pelatihan, manajemen perubahan, dan tata kelola — rasio yang membuat penskalaan secara struktural mustahil.

Evident Venture Tracker untuk Q1 2026 mengidentifikasi Anthropic sebagai vendor yang paling banyak dirujuk, dengan ekor panjang (long-tail) pemain khusus yang menyumbang 68% dari seluruh penerapan, sebagian besar menyasar kasus penggunaan spesifik-alur-kerja di kredit, anti pencucian uang, dan treasury. Sisi pasokan sudah matang. Sisi tata kelola belum.

Arsitektur Indeks Enam Dimensi

Indeks ini menilai kesiapan agentic AI di seluruh enam dimensi. Setiap dimensi memiliki skala kematangan empat tingkat. Skor indeks sebuah bank adalah hasil kali dari skor-skor dimensionalnya yang dibobot berdasarkan materialitas regulasi. Kerangka pembobotan dikalibrasi terhadap SR 11-7, SS1/23, kewajiban Annex III EU AI Act, dan kategori Sound Practice FSB.

Dimensi 1: Cakupan Tingkat Otonomi

Apa yang diukurnya: Apakah setiap alur kerja agentic produksi diklasifikasikan pada tangga otonomi yang terdefinisi, tanpa alur kerja yang beroperasi di atas tingkat yang diizinkannya tanpa pengecualian terdokumentasi — dan apakah penetapan tingkat tersebut mendefinisikan tidak hanya batas tugas tetapi juga batas akuntabilitas hukum.

Tangga otonomi tetap menjadi konstruksi fundamental. Kelima tingkat — dari Level 0 (mengamati dan hanya-baca) hingga Level 4 (orkestrasi multi-alat dengan pos pemeriksaan wajib) — mendefinisikan batas izin agen, bukan kecanggihan model. LLM yang sama dapat berada pada tingkat mana pun; pembungkus (wrapper)-nyalah yang berbeda. Level 5 — eksekusi mengorkestrasi-diri tanpa pos pemeriksaan — seharusnya tidak ada dalam perbankan produksi pada 2026. OSWorld pada 66,3% penyelesaian tugas berlipat: tiga panggilan berantai pada masing-masing 66% menghasilkan tingkat keberhasilan ujung-ke-ujung 29%. Lima rantai menghasilkan 13%.

Model AI Governance Framework for Agentic AI dari IMDA Singapura, diterbitkan di Davos pada 22 Januari 2026 sebagai kerangka tata kelola pertama di dunia yang secara eksplisit menangani agen otonom (IMDA, 2026), mendefinisikan empat konsep setara: hierarki prinsipal (siapa yang boleh menginstruksikan agen), batas tugas (apa yang diotorisasikan untuk dilakukan agen), jejak minimal (agen tidak boleh menumpuk izin melampaui kebutuhan langsung), dan keterjelasan (jalur penalaran harus dapat dilacak). Keempatnya memetakan langsung ke model tingkat otonomi.

Masalah Prinsipal-Agen dan Atribusi Hukum atas Niat. Kerangka IMDA memperkenalkan satu dimensi yang spesifikasi rekayasa murni cenderung mengecilkannya: ketika sebuah agen AI bertindak sebagai proksi dari sebuah entitas korporat — mengeksekusi pembayaran, menyetujui penyesuaian batas kredit, mengajukan pelaporan regulasi — ia menciptakan masalah atribusi niat secara hukum. Di bawah otoritas siapa agen tersebut bertindak? Siapa yang menanggung tanggung gugat ketika agen menyimpang dari batasan prompt-nya? Niat siapa yang diatribusikan ketika agen memilih di antara dua interpretasi yang sama-sama sah namun berbeda atas instruksi yang ambigu?

Untuk alur kerja Level 3 dan Level 4 — di mana agen mengeksekusi tindakan konsekuensial secara otonom dalam parameter yang terdefinisi — definisi tingkat harus menetapkan tidak hanya batas tugas teknis tetapi juga batas akuntabilitas hukum: seorang prinsipal manusia bernama yang mengotorisasi alur kerja, instrumen pendelegasian terdokumentasi (resolusi dewan, pendelegasian wewenang, atau mandat bertanda tangan), kondisi-kondisi yang menjadikan tindakan agen mengikat lembaga, dan kondisi-kondisi yang menjadikan penyimpangan dari batasan prompt memicu pembalikan otomatis, eskalasi, dan pencatatan insiden. Tanpa ini, klasifikasi tingkat otonomi adalah artefak rekayasa yang tidak akan bertahan menghadapi gugatan hukum, pemeriksaan regulasi, atau sengketa dengan pihak lawan yang dananya berpindah karena agen salah menafsirkan instruksi bersyarat.

Tingkat Kematangan	Seperti Apa Wujudnya	Skor Indeks
Level 1 — Tak terklasifikasi	Tidak ada taksonomi formal; agen digambarkan secara informal sebagai "asisten" atau "co-pilot"; tidak ada dokumentasi tingkat	0–24
Level 2 — Terklasifikasi, tak tervalidasi	Label tingkat diterapkan; tidak ada validasi formal bahwa pembungkus menegakkan tingkat yang dideklarasikan; alur kerja Level 5 mungkin ada tanpa terdeteksi	25–49
Level 3 — Terklasifikasi dan terkendali	Semua alur kerja produksi ditandai Level 0–4; Level 5 dilarang secara kontraktual; artefak audit-tingkat triwulanan tersedia untuk peninjauan MRM	50–74
Level 4 — Terklasifikasi, terkendali, dan siap-bukti	Register tingkat lengkap; pemantauan penyimpangan (drift) berkelanjutan; setiap pengubahan klasifikasi tingkat memicu validasi MRM baru; auditor dapat merekonstruksi penetapan tingkat untuk alur kerja mana pun sesuai permintaan	75–100

Dimensi 2: Arsitektur Tata Kelola

Apa yang diukurnya: Apakah bidang kontrol agen lima-komponen telah direkayasa sepenuhnya dan operasional dalam produksi — bukan dijelaskan dalam sebuah dokumen kebijakan.

Konsultasi FSB Juni 2026 secara eksplisit menyatakan bahwa kerangka tata kelola yang ada tidak dirancang untuk sistem yang "merencanakan, mengambil tindakan multi-langkah, dan berinteraksi dengan sistem eksternal tanpa pengawasan manusia langkah-demi-langkah". Bidang kontrol lima-komponen menerjemahkan pengamatan itu menjadi daftar periksa rekayasa:

Komponen 1: Identitas dan Izin. Setiap agen dipetakan ke tepat satu akun layanan dengan token OAuth client_credentials yang dilingkupi ke permukaan API minimum. Token agen pembekuan kartu dapat memanggil POST /accounts/{id}/freeze dengan plafon jumlah; ia tidak dapat memanggil apa pun di kustodian, treasury, atau perdagangan. Rahasia akun layanan dirotasi pada siklus yang terdefinisi. Kredensial berumur panjang adalah kegagalan bidang kontrol yang paling umum dalam penerapan produksi. FSB secara eksplisit merekomendasikan "hak istimewa terkecil (least privilege) bagi agen dan sub-agennya, serta manajemen identitas dan akses dinamis yang memberikan, mengubah, atau mencabut izin secara waktu nyata berdasarkan perilaku dan konteks, alih-alih profil statis yang digunakan untuk pengguna manusia".

Komponen 2: Batas Pengaman Deterministik. Setiap panggilan alat LLM melewati perute semantik (NeMo Guardrails, LangChain Guardrails, atau yang setara) sebelum mencapai API produksi. Perute mengklasifikasikan niat terhadap daftar-izin (allow-list) yang terbatas dan menolak panggilan di luar daftar tersebut. Sebuah validator skema JSON kemudian memeriksa muatan (payload). Sebuah pacs.008 dengan amount: 0 adalah kegagalan model, bukan transaksi sah. Demikian pula transfer kawat ke negara yang tidak disetujui sebelumnya untuk segmen nasabah pengirim.

Komponen 3: Kebijakan-sebagai-Kode. Open Policy Agent (OPA) (atau yang setara) berada di antara validator dan API. Kebijakan diberi versi di Git; keputusan penolakan dicatat; mesin kebijakan yang sama yang menggerbang panggilan antar-mikroservis pada platform yang ada juga menggerbang panggilan alat agen. Panduan EU AI Office Mei 2026 tentang pencatatan audit Article 12 mensyaratkan bahwa entri log untuk sistem AI berisiko tinggi mengatribusikan tindakan ke instans agen tertentu, bukan sekadar suatu penerapan atau kredensial API. Penerapan multi-agen yang berbagi satu kredensial gagal pada uji ini.

Komponen 4: Kelengkapan Audit. Penyimpanan WORM yang tak-dapat-diubah — S3 Object Lock, imutabilitas Azure Blob, atau basis data berbuku besar (ledgered). Setiap invokasi menangkap: stempel waktu, ID agen, ID akun layanan, hash prompt-sistem, konteks yang diambil, penyedia LLM ditambah model ditambah versi, keluaran LLM mentah, panggilan alat terurai, keputusan OPA, respons API, efek hilir, dan UID penyetuju jika berlaku. Rekaman ditandatangani secara kriptografis pada saat penulisan. Klarifikasi EU AI Act Article 12 yang diterbitkan Mei 2026 menyebut identitas per-agen sebagai kesenjangan spesifik; lembaga yang menjalankan banyak instans agen yang berbagi satu kredensial secara eksplisit tidak patuh.

Komponen 5: Sakelar Darurat dan AI-Mengawasi-AI. Sebuah API tombol-merah teruji yang membatalkan seluruh invokasi agen yang sedang berjalan dalam suatu kelas izin dalam waktu di bawah 60 detik. Kata teruji bersifat menentukan (load-bearing). Sakelar darurat yang tak teruji adalah aspirasi kebijakan belaka.

Melampaui sakelar darurat, Dimensi 2 pada tingkat kematangan tertinggi harus mewajibkan arsitektur AI-mengawasi-AI (AI-monitoring-AI/AMI) — dan alasannya bersifat aritmetika. Data IBM menempatkan populasi agen perusahaan rata-rata pada 1.661 menjelang 2027 (IBM, 2026). FSB secara eksplisit menerima bahwa pemantauan manusia berkelanjutan atas keputusan agen individual menjadi mustahil secara fisik pada skala besar, dan merekomendasikan untuk melengkapi pengawasan manusia dengan sistem AI yang memperingatkan manusia ketika metrik kinerja dilanggar atau perilaku agen menyimpang. Seorang petugas kepatuhan manusia tidak dapat memantau 1.661 agen serentak yang mengeksekusi keputusan pada kecepatan mesin. Model kontrol yang mengasumsikan mereka bisa akan gagal pada pertama kali sebuah populasi agen mengalami pergeseran perilaku yang berkorelasi — pembaruan model yang diam-diam mengubah distribusi keluaran di lusinan alur kerja secara serentak.

Lapisan AMI bukanlah pengganti pengawasan manusia; ia adalah mekanisme deteksi yang membuat pengawasan manusia dapat ditindaklanjuti pada skala besar. Tiga fungsi wajibnya adalah: deteksi penyimpangan (pemantauan statistik distribusi keluaran di seluruh agen dengan tingkat dan tipe yang sama, menandai deviasi melampaui ambang sigma yang terdefinisi sebelum seorang manusia dapat menyadarinya); pemberitahuan korelasi lintas-agen (mengidentifikasi ketika banyak agen mulai mengeksekusi dalam pola yang konsisten secara arah yang tidak ada kemarin — sinyal dini dari dinamika penggiringan (herding) yang dijelaskan dalam Dimensi 6); dan pra-eskalasi anomali (menghasilkan peringatan terstruktur, dengan konteks dan penilaian keterbalikan, kepada pengambil keputusan manusia sebelum sakelar darurat menjadi satu-satunya opsi yang tersisa). FSB secara eksplisit merekomendasikan arsitektur AMI dalam Sound Practice 9. Sebuah lembaga yang mencapai Tingkat Kematangan 4 pada Dimensi 2 tanpa lapisan AMI operasional sesungguhnya tidak berada pada Level 4.

Tingkat Kematangan	Seperti Apa Wujudnya	Skor Indeks
Level 1 — Ad hoc	Beberapa komponen ada tetapi tak terdokumentasi; tidak ada pemilik bidang kontrol formal; tidak ada catatan uji sakelar darurat	0–24
Level 2 — Terdokumentasi	Kelima komponen terdokumentasi; terdapat kesenjangan implementasi; sakelar darurat ada tetapi tak teruji; log WORM tidak lengkap	25–49
Level 3 — Operasional	Kelima komponen operasional dalam produksi; sakelar darurat diuji triwulanan; log WORM lengkap untuk alur kerja Level-3+; kebijakan OPA berkendali-versi	50–74
Level 4 — Siap-bukti	Bidang kontrol menghasilkan bukti yang berkelanjutan dan ditandatangani secara kriptografis; identitas per-agen memenuhi EU AI Act Article 12; hasil uji sakelar darurat menjadi artefak audit; deteksi penyimpangan terotomasi	75–100

Dimensi 3: Kelengkapan Bukti Regulasi

Apa yang diukurnya: Apakah lembaga dapat menghasilkan paket bukti regulasi yang lengkap, per-alur-kerja, sesuai permintaan untuk SR 11-7, SS1/23, EU AI Act, DORA, FSB, dan kerangka nasional yang berlaku.

Federal Reserve telah berulang kali mengklarifikasi bahwa SR 11-7 berlaku untuk setiap sistem pengambilan keputusan masukan-ke-keluaran, terlepas dari apakah lembaga mengklasifikasikan LLM yang mendasarinya sebagai model. SS1/23 dari PRA bahkan lebih luas lagi. Klasifikasi berisiko tinggi Annex III EU AI Act mencakup sebagian besar kasus penggunaan LLM jasa keuangan — penilaian kredit, deteksi penipuan, kesesuaian nasabah, penetapan harga asuransi. Kepatuhan penuh untuk sistem berlingkup Uni Eropa diwajibkan paling lambat 2 Agustus 2026, dengan Jerman, Prancis, dan Belanda dipastikan untuk peninjauan pengawasan Q3 2026. IOSCO Supervisory Toolkit for AI Use in Capital Markets, yang difinalisasi 25 Mei 2026, mencakup keseluruhan siklus hidup AI dari ML tradisional hingga GenAI dan agentic AI — dan secara eksplisit mengidentifikasi bahwa kemampuan perencanaan, memori jangka panjang, dan akses alat eksternal menciptakan risiko perilaku yang muncul (emergent) dan kegagalan berantai di seluruh sistem yang saling terhubung.

Model tiga-lini-pertahanan, diterapkan pada agen:

Lini pertama (pemilik model): Mendokumentasikan tujuan penggunaan, silsilah (lineage) data pelatihan dan evaluasi, skema prompt-sistem, daftar-izin panggilan alat, hasil uji sakelar darurat. Memiliki pemantauan penyimpangan dalam produksi. Memiliki himpunan evaluasi tersisih (held-out) khusus-bank — pekerjaan yang paling sering kurang diinvestasikan oleh lembaga.
Lini kedua (tim MRM): Memvalidasi agen sebelum produksi. Laporan validasi mencakup skor evaluasi vendor (MMLU, HumanEval — berguna tetapi tidak memadai), skor evaluasi khusus-bank, hasil red-team injeksi-prompt, analisis bias dan keadilan, serta pernyataan risiko-residual yang terkuantifikasi.
Lini ketiga (audit internal): Menguji gerbang bidang kontrol dan kelengkapan log audit terhadap sampel keputusan produksi. Siklus audit 2027 akan tampak jauh berbeda dari 2025; anggarkan sesuai dengan itu.

Model AI Governance Framework for Agentic AI (MGF) Singapura mensyaratkan lembaga keuangan menilai agen di seluruh empat dimensi: membatasi otonomi dan akses agen, menetapkan akuntabilitas manusia pada pos pemeriksaan yang terdefinisi, menerapkan kendali teknis termasuk pengujian dasar, dan memungkinkan tanggung jawab pengguna akhir melalui transparansi. AI Risk Management Toolkit MAS Maret 2026 — yang dikembangkan di bawah Project MindForge dengan 24 lembaga — mewakili panduan tingkat-nasional yang paling rinci secara operasional yang tersedia.

Tingkat Kematangan	Seperti Apa Wujudnya	Skor Indeks
Level 1 — Kesadaran kepatuhan	Kewajiban regulasi teridentifikasi; tidak ada bukti tingkat-alur-kerja yang dihasilkan; kartu model SR 11-7 tidak ada atau tidak lengkap	0–24
Level 2 — Validasi titik-waktu	Validasi pra-penerapan selesai; bukti ada pada tanggal penerapan; tidak ada pemantauan berkelanjutan; tidak ada irama bukti per-alur-kerja	25–49
Level 3 — Bukti berkelanjutan	Kartu model dipelihara per alur kerja; rangkaian evaluasi berkelanjutan dijalankan ulang mingguan; pencatatan per-agen EU AI Act Article 12 operasional; kategori Sound Practice FSB dipetakan ke kendali internal	50–74
Level 4 — Siap-pemeriksa	Paket bukti regulasi lengkap dapat diambil sesuai permintaan per alur kerja; catatan validasi tiga-lini-pertahanan terkini; rangkaian evaluasi khusus-bank menangkap regresi pembaruan-model lebih cepat daripada siklus rilis vendor; pemetaan empat-dimensi MAS MGF selesai	75–100

Dimensi 4: Akuntabilitas Ekonomi

Apa yang diukurnya: Apakah lembaga mengukur imbal hasil agentic AI menggunakan ekonomi satuan tingkat-alur-kerja alih-alih klaim produktivitas tingkat-program.

Analisis McKinsey mengidentifikasi bahwa agentic AI dapat menurunkan biaya operasional bank sebesar 15–20% (McKinsey, 2026) — setara dengan 9–15% dari laba operasi — tetapi sebagian besar perolehan ini akan terkikis oleh persaingan. Keunggulan kompetitif yang lebih tahan lama ada pada lembaga yang membangun infrastruktur pengukuran untuk bertindak lebih cepat daripada pesaing ketika perbaikan model dan alur kerja tersedia. Temuan Cambridge CCAF bahwa 76% lembaga keuangan besar tidak dapat mengukur nilai penerapan AI bukanlah masalah kualitas data. Itu adalah masalah arsitektur-akuntabilitas: program dianggarkan dan dilaporkan pada tingkat portofolio, sehingga mustahil menelusuri nilai atau kegagalan ke alur kerja individual.

Empat metrik ekonomi-satuan yang bertahan dalam percakapan dengan CFO:

Biaya per keputusan yang selesai, termasuk biaya pembalikan dan perbaikan dari keputusan yang gagal. Agen penyusun SAR yang memangkas waktu petugas BSA sebesar 40% tetapi menghasilkan 12% pelaporan positif-palsu telah menghancurkan nilai, bukan menciptakannya. Inilah metrik yang dibuat tak-terukur oleh temuan Deloitte — bahwa 93% belanja AI mengalir ke infrastruktur dan hanya 7% ke manusia dan tata kelola: lembaga tidak dapat menghitung biaya pembalikan dari kegagalan tata kelola yang belum mereka instrumentasi untuk dideteksi.

Sentuhan manual yang dihindari, dihitung neto terhadap sentuhan baru yang tercipta oleh pengawasan bidang kontrol dan penanganan pengecualian. Tujuannya bukan meminimalkan perhatian manusia; melainkan mengarahkannya kembali ke keputusan yang berdaya ungkit lebih tinggi.

Tingkat pembalikan — persentase tindakan yang dieksekusi agen yang dibatalkan dalam 24 jam. Alur kerja Level-3 dengan tingkat pembalikan di atas 2% adalah masalah keandalan. Di atas 5% adalah masalah bidang kontrol. Angka ini harus dilacak per alur kerja, bukan per program. Rata-rata portofolio menyembunyikan pencilan yang akan menghasilkan temuan audit berikutnya.

Kelengkapan jejak audit — persentase keputusan yang asal-usulnya dapat direkonstruksi sepenuhnya dari log WORM. Seharusnya 100% pada alur kerja Level-3 dan Level-4. Apa pun yang kurang dari itu adalah kegagalan kebijakan.

Pasar agentic AI di perbankan tumbuh pada laju yang membuat infrastruktur pengukuran ini mendesak. Laporan Newgen's 2026 Banking Trends memproyeksikan pasar agentic AI tumbuh dari $2,1 miliar menjadi $81 miliar menjelang 2034. Pemodelan skenario McKinsey mengindikasikan bahwa hasil yang paling mungkin — skenario berprobabilitas 30% — melibatkan agen AI mencapai rasio agen-ke-manusia sekitar 20:1 dan menghasilkan pengurangan biaya 15–20%. Para perintis dapat membuka jarak sebesar 4 poin persentase ROTE relatif terhadap yang bergerak lambat. Margin itu nyata, tetapi hanya dapat diukur dan dipertahankan jika ekonomi satuan dilacak pada tingkat alur kerja.

Tingkat Kematangan	Seperti Apa Wujudnya	Skor Indeks
Level 1 — Pelaporan tingkat-anggaran	Belanja AI dilacak; tidak ada ekonomi satuan tingkat-alur-kerja; klaim produktivitas tidak divalidasi terhadap garis dasar operasional	0–24
Level 2 — Metrik agregat	Metrik produktivitas dan biaya tingkat-program tersedia; tingkat pembalikan tidak dilacak per alur kerja; pelaporan CFO bergantung pada headcount yang dihindari	25–49
Level 3 — Pelacakan tingkat-alur-kerja	Biaya per keputusan yang selesai dilacak per alur kerja; tingkat pembalikan dipantau; sentuhan manual yang dihindari dihitung neto terhadap beban tambahan bidang kontrol	50–74
Level 4 — Akuntabilitas ekonomi penuh	Keempat metrik ekonomi-satuan dilacak per alur kerja; tingkat pembalikan di atas 2% memicu peninjauan alur kerja otomatis; kelengkapan jejak audit menjadi metrik dasbor yang dilaporkan ke dewan secara triwulanan	75–100

Dimensi 5: Kesiapan Organisasi

Apa yang diukurnya: Apakah lembaga memiliki talenta, tata kelola lintas-fungsi, pelaporan tingkat-dewan, dan budaya untuk menerapkan dan mempertahankan agentic AI pada skala besar — bukan sekadar merintisnya.

Temuan Cambridge CCAF bersifat tepat: kesiapan tenaga kerja empat kali lebih prediktif terhadap profitabilitas AI daripada pengadaan teknologi. Perusahaan yang tenaga kerjanya sangat siap melaporkan profitabilitas AI 23%; yang tidak melaporkan 6%. Hanya 10% dari seluruh perusahaan yang menyebut tenaga kerjanya siap. Fintech mencapai tahap transformasi tiga kali lebih sering daripada lembaga keuangan tradisional — 19% berbanding 6% — meskipun banyak yang membelanjakan kurang dari $10.000 per tahun untuk AI. Arsitekturlah pembedanya, bukan anggaran.

McKinsey menggambarkan tiga postur strategis bagi bank yang menghadapi agentic AI: menunggu-dan-melihat, beradaptasi dengan menjadi pemasok produk di balik antarmuka agen, atau bersaing untuk memiliki hubungan nasabah langsung. Sebagian besar bank secara baku mengambil postur pertama sembari menggambarkan diri mereka mengejar yang ketiga. Percakapan strategis harus eksplisit, dan dewan adalah tempat percakapan itu harus berlabuh.

FSB Sound Practice 1 secara langsung menangani akuntabilitas dewan: dewan memikul tanggung jawab utama atas tata kelola AI, menetapkan selera risiko, dan memastikan struktur akuntabilitas jelas. Penegakan EU AI Act Article 5 dan ketentuan tanggung gugat dewan DORA Article 5 menerjemahkan prinsip itu menjadi tanggung gugat pribadi. IOSCO Supervisory Toolkit Mei 2026 menyatakan bahwa "sistem AI bukan lagi proyek yang terisolasi. Mereka adalah infrastruktur operasional inti yang memerlukan validasi berkelanjutan, tata kelola tingkat-dewan, dan bukti pengawasan yang siap untuk inspeksi".

Kerangka pelaporan dewan untuk agentic AI seharusnya mencakup empat angka per alur kerja: tingkat otonomi, kelengkapan jejak audit, tingkat pembalikan, dan biaya neto per keputusan. Ditambah daftar lima-teratas risiko-residual. Slideware dokumen kebijakan bukanlah pengganti.

Tingkat Kematangan	Seperti Apa Wujudnya	Skor Indeks
Level 1 — Kesadaran	Dewan menyadari program AI; tidak ada tata kelola spesifik-agen; peran Chief AI Officer tidak ada; komite tata kelola lintas-fungsi belum terbentuk	0–24
Level 2 — Struktur terbentuk	Fungsi tata kelola AI khusus dibentuk; struktur akuntabilitas terdefinisi; pernyataan selera risiko untuk AI disusun; program literasi AI tenaga kerja masih embrional	25–49
Level 3 — Tata kelola operasional	Dewan menerima dasbor agentic AI triwulanan dengan metrik per-alur-kerja; komite risiko model lintas-fungsi mencakup agen; kesiapan tenaga kerja dilacak terhadap tolok ukur; bangku MRM diskalakan untuk memvalidasi 20+ agen per triwulan	50–74
Level 4 — Tata kelola sebagai keunggulan kompetitif	Paket bukti dewan memenuhi FSB Sound Practices 1–4 dan persyaratan tanggung-gugat-pribadi DORA Article 5; bangku MRM memvalidasi 50+ agen per triwulan; budaya perbaikan tata kelola berkelanjutan terdokumentasi dalam laporan tahunan; lembaga menanggapi konsultasi FSB	75–100

Dimensi 6: Keselarasan Regulasi Global

Apa yang diukurnya: Apakah model operasi agentic AI lembaga selaras dengan empat kerangka regulasi utama yang berlaku di yurisdiksi operasi utamanya — dan apakah keselarasan tersebut dibuktikan, bukan sekadar diklaim.

Lanskap regulasi untuk agentic AI telah mengkristal pada paruh pertama 2026. Empat kerangka kini secara operasional material:

Amerika Serikat (SR 11-7 / OCC Bulletin 2025-26). Panduan manajemen risiko model Federal Reserve berlaku untuk setiap alur kerja pengambilan keputusan berbasis LLM. OCC telah menerbitkan panduan manajemen risiko model spesifik untuk bank komunitas yang menekankan proporsionalitas — "proporsional tidak berarti tiada". Model tiga-lini-pertahanan berlaku sepenuhnya.

Britania Raya (PRA SS1/23 / FCA). Prinsip-prinsip manajemen-risiko-model SS1/23 dari PRA cukup luas untuk menangkap seluruh agen berbasis LLM. Otoritas pengawasan Britania Raya sedang mengembangkan ekspektasi spesifik untuk agentic AI. FCA termasuk di antara otoritas nasional yang menerbitkan panduan tambahan tentang tata kelola AI dalam jasa keuangan.

Uni Eropa (EU AI Act / DORA). Kewajiban sistem AI berisiko tinggi Annex III berlaku sejak 2 Agustus 2026. Persyaratan mencakup manajemen risiko terstruktur (Article 9), tata kelola data (Article 10), transparansi (Article 13), pengawasan manusia (Article 14), dan pencatatan audit per-agen (Article 12). Ketentuan tanggung-gugat-dewan DORA Article 5 berlaku untuk ketahanan operasional termasuk agentic AI. Panduan EU AI Office Mei 2026 mewajibkan identitas kriptografis per-agen dalam log audit. Ketidakpatuhan membawa denda hingga EUR 35 juta atau 7% dari omzet global.

Asia-Pasifik (MAS / IMDA / regulator regional). IMDA Singapura menerbitkan Model AI Governance Framework for Agentic AI pertama di dunia di Davos pada 22 Januari 2026. MAS menerbitkan AI Risk Management Toolkit-nya pada Maret 2026 di bawah Project MindForge, yang dikembangkan bersama 24 lembaga keuangan. Kerangka tersebut mencakup lingkup dan pengawasan AI, manajemen risiko AI, manajemen siklus hidup AI, dan pemungkin organisasi. Guidelines on AI Risk Management formal yang diusulkan MAS diperkirakan akan difinalisasi pada 2026, beralih dari prinsip FEAT sukarela menjadi ekspektasi pengawasan dengan implikasi kepatuhan. ASIC Australia menerbitkan surat terbuka pada Mei 2026 yang menuntut peningkatan keamanan siber sebagai respons terhadap ancaman AI mutakhir (frontier).

FSB (Global, lintas-yurisdiksi). Konsultasi FSB Juni 2026 — kerangka global pertama yang memperlakukan agentic AI sebagai berbeda secara operasional — mengidentifikasi enam model pengawasan untuk sistem agentic dan merekomendasikan human-in-command untuk alur kerja otonomi-tinggi, pemantauan AI-in-the-loop seiring populasi agen bertumbuh, dan persetujuan manusia atau otorisasi ganda untuk agen yang mengeksekusi transaksi keuangan di atas nilai ambang. Komentar ditutup 22 Juli 2026; laporan akhir kepada para menteri keuangan G20 pada Oktober 2026.

Tingkat Kematangan	Seperti Apa Wujudnya	Skor Indeks
Level 1 — Inventaris yurisdiksi	Kerangka yang berlaku teridentifikasi per yurisdiksi; tidak ada pemetaan tingkat-alur-kerja; "kepatuhan dengan analogi" ke kerangka pra-AI	0–24
Level 2 — Pemetaan kerangka	Setiap alur kerja agentic produksi dipetakan ke kerangka yang berlaku; kesenjangan teridentifikasi; rencana remediasi disusun	25–49
Level 3 — Kepatuhan terbukti	Paket bukti per-alur-kerja dihasilkan terhadap kerangka yang berlaku; pencatatan per-agen EU AI Act Article 12 lengkap; FSB Sound Practices 5–10 dipetakan ke kendali internal; pemetaan empat-dimensi MGF Singapura selesai	50–74
Level 4 — Keterlibatan regulasi proaktif	Lembaga berpartisipasi dalam konsultasi FSB, IOSCO, dan regulator nasional; intelijen regulasi terintegrasi ke dalam siklus hidup penerapan agen; bukti pengawasan dihasilkan secara otomatis oleh saluran operasional, bukan dirakit pasca-fakta	75–100

Skor Indeks Komposit

Keenam skor dimensional digabungkan menjadi indeks komposit menggunakan pembobotan materialitas-regulasi berikut:

Dimensi	Bobot	Alasan
Arsitektur Tata Kelola	25%	Bobot tertinggi: bidang kontrol adalah satu-satunya hal yang gagal secara aman ketika model gagal
Kelengkapan Bukti Regulasi	20%	Vital untuk tenggat EU AI Act 2 Agustus dan kesiapan pengawasan berkelanjutan
Cakupan Tingkat Otonomi	15%	Sedikit dikurangi untuk mencerminkan bahwa klasifikasi tingkat, meskipun fundamental, kini merupakan ekspektasi ambang alih-alih pembeda
Akuntabilitas Ekonomi	15%	Kritis untuk keselarasan CFO/ROI terhadap skenario kumpulan-laba dan jarak-ROTE McKinsey
Kesiapan Organisasi	10%	Disederhanakan: tata kelola struktural diperlukan tetapi makin menjadi taruhan dasar pada lembaga Tier 1
Keselarasan Regulasi Global	15%	Ditingkatkan: harus secara aktif memperhitungkan risiko konsentrasi ICT pihak ketiga DORA, eksekusi agen lintas-batas, dan penilaian risiko penggiringan (herding) sistemik

Skor komposit di bawah 50 berarti lembaga tidak dapat mempertahankan postur agentic AI-nya saat ini di hadapan pemeriksa SR 11-7, peninjauan di-tempat PRA, atau penilaian pengawasan EU AI Act. Skor 50–74 berarti kendali ada tetapi belum berkelanjutan atau siap-bukti. Skor 75–100 berarti tata kelola adalah aset kompetitif, bukan beban kepatuhan.

Sinyal Terkini untuk Dipantau

Sinyal	Apa Artinya bagi Bank	Sumber
Adopsi agentic AI 52%	Tata kelola sudah terlambat; lembaga pada tahap penskalaan atau transformasi membutuhkan bidang kontrol, bukan rintisan lain	Cambridge CCAF
Keberhasilan tugas OSWorld 66,3%	Tingkat kegagalan satu-dari-tiga pada penggunaan alat terstruktur; eksekusi tanpa pengawasan terhadap API dana-nasabah tidak dapat dipertahankan	Stanford HAI
31% kasus penggunaan AI bank baru bersifat agentic	Kategori dengan pertumbuhan tercepat pada Q1 2026; infrastruktur tata kelola makin tertinggal di belakang penerapan	Evident Insights
Praktik baik FSB Juni 2026	Kerangka global pertama yang memperlakukan agentic AI sebagai berbeda secara operasional; belum mengikat saat ini, capaian G20 Oktober 2026	FSB
Tenggat EU AI Act 2 Agustus 2026	Kewajiban Annex III penuh berlaku; peninjauan pengawasan Jerman, Prancis, Belanda dipastikan untuk Q3 2026	EU AI Office
Agen berdurasi panjang JP Morgan: 2026	Penerapan agen otonom 1–2 jam pada tahun yang sama mengubah tolok ukur kompetitif bagi setiap G-SIB dan bank regional	CNBC
IBM: 1.661 agen menjelang 2027	Pembengkakan agen perusahaan adalah tantangan tata kelola 2027 jika tak ditangani pada 2026; hanya 11% yang mengatakan siap	IBM
MGF agentic AI Singapura: Januari 2026	Kerangka tata kelola spesifik-agentic-AI pertama di dunia; empat konsep (hierarki prinsipal, batas tugas, jejak minimal, keterjelasan) berlaku universal	IMDA
IOSCO Supervisory Toolkit: Mei 2026	Cakupan keseluruhan siklus hidup AI termasuk agentic AI; risiko perilaku yang muncul dan kegagalan berantai disebut secara eksplisit	IOSCO
McKinsey: jarak ROTE 4pp	Para perintis AI dapat membuka keunggulan ROTE 4 poin persentase atas yang tertinggal; infrastruktur pengukuran untuk menangkap jarak itu adalah ekonomi satuan tingkat-alur-kerja	McKinsey

Apa Artinya Berdasarkan Tipe Lembaga

Bank yang Penting Secara Sistemik Global (G-SIB)

G-SIB menghadapi tantangan tata kelola yang paling sulit — bukan karena teknologinya lebih kompleks, melainkan karena skala dan yurisdiksi melipatkan setiap kesenjangan. Sebuah G-SIB dengan 200 agen produksi di 30 lini bisnis di 15 yurisdiksi regulasi memiliki 200 potensi temuan SR 11-7, 200 potensi kegagalan log audit EU AI Act, dan 200 potensi kesenjangan FSB Sound Practice — secara serentak. Prioritas investasi bukanlah rintisan lain. Melainkan bidang kontrol terpusat, infrastruktur log audit terpadu, dan bangku MRM yang mampu memvalidasi 50-lebih agen per triwulan.

Pengumuman JP Morgan tentang agen otonom berdurasi panjang pada 2026 — bidang kontrol agen DBS dalam penyusunan memo kredit dan layanan nasabah — BNP Paribas yang memenuhi target AI 2025-nya dan mulai melaporkan ROI triwulanan — inilah titik-titik data kompetitif yang seharusnya menjadi pembanding bagi setiap dewan G-SIB. Pertanyaan kelembagaannya bukanlah apakah harus menerapkan; melainkan apakah bidang kontrol dapat berskala pada laju yang sama dengan populasi agen.

FSB secara eksplisit memperingatkan terhadap risiko konsentrasi dari ketergantungan pada segelintir penyedia cloud, perangkat keras, dan model-fondasi — dan mencatat bahwa model dan data yang dibagikan dapat mendorong lembaga ke arah perilaku berkorelasi yang memperkuat penggiringan (herding) dan prosiklikalitas dalam penurunan ekonomi. G-SIB yang memperoleh 80% infrastruktur agentic-nya dari dua vendor model-fondasi sedang membangun korelasi sistemik yang harus mereka jelaskan baik kepada tim risiko mereka sendiri maupun kepada pengawas mereka.

Penggiringan Sistemik dan Prosiklikalitas: Risiko Arsitektural yang Tak Dapat Diselesaikan Sendiri oleh Bank Mana Pun. Pelacak kasus-penggunaan Evident Insights Q1 2026 mengidentifikasi bahwa 68% penerapan agentic bank kini menggunakan ekor panjang vendor khusus — yang sebagian besar dibangun di atas model mutakhir (frontier) yang mendasari yang identik, didominasi oleh Claude dari Anthropic. Hal ini menciptakan kerentanan penggiringan struktural yang secara material berbeda dari risiko konsentrasi yang sudah dikelola bank dalam infrastruktur cloud atau rel pembayaran.

Mekanismenya adalah sebagai berikut. Agen perdagangan, agen likuiditas, dan agen pengetatan-kredit suatu bank dibangun di atas platform vendor yang berbeda. Mereka memiliki prompt sistem yang berbeda, skema panggilan alat yang berbeda, gerbang kebijakan OPA yang berbeda. Tetapi mereka berbagi model yang mendasari yang identik — bobot yang sama, distribusi pelatihan yang sama, pola perilaku yang muncul (emergent) yang sama di bawah tekanan distribusional. Ketika sebuah peristiwa pasar signifikan terjadi — peristiwa kredit berdaulat, komunikasi Fed yang berbeda dari konsensus, kegagalan bank besar — setiap agen yang dibangun di atas model yang mendasari yang sama akan memproses peristiwa tersebut melalui pembobotan fitur implisit yang sama. Jika pembobotan tersebut menghasilkan bias arah menuju perilaku menghindari-risiko (risk-off), agen perdagangan, likuiditas, dan kredit dari banyak bank dapat mengeksekusi aksi jual berkorelasi, siklus pengetatan-kredit, atau penarikan likuiditas secara serentak — bukan karena agen suatu bank tertentu mengalami malfungsi, melainkan karena semuanya berfungsi dengan benar di atas model yang sama.

IOSCO menyebut dinamika ini secara eksplisit dalam Supervisory Toolkit Mei 2026, memperingatkan bahwa kemampuan perencanaan, memori jangka panjang, dan akses alat eksternal menciptakan risiko perilaku yang muncul dan kegagalan berantai di seluruh sistem yang saling terhubung. Konsultasi FSB Juni 2026 menangani prosiklikalitas secara langsung — mencatat bahwa jika agen AI dilatih pada data yang sama dan menggunakan model yang serupa, perilaku mereka kemungkinan berkorelasi, yang berpotensi memperkuat pergerakan pasar.

Menilai ketahanan terhadap penggiringan sistemik dalam Dimensi 6 memerlukan tiga pengungkapan dan satu kendali arsitektural. Pengungkapannya: apa model fondasi yang mendasari setiap alur kerja agentic produksi; seperti apa peta ketergantungan vendor di seluruh portofolio agen; dan bagaimana penilaian lembaga atas kontribusinya terhadap perilaku berkorelasi lintas-lembaga di bawah skenario tekanan yang terdefinisi. Kendali arsitekturalnya: setidaknya satu dari agen utama dalam kelas aset berisiko tinggi (perdagangan, manajemen likuiditas, kredit) harus menggunakan model yang mendasari yang berbeda atau varian penyetelan-halus (fine-tuned) yang berbeda secara signifikan, sehingga respons distribusional satu model terhadap peristiwa tekanan tidak dapat menghasilkan hasil yang sepenuhnya berkorelasi di seluruh alur kerja agentic secara serentak. Inilah keberagaman model sebagai manajemen risiko-sistemik — padanan agentic dari diversifikasi pihak lawan.

Bank Transaksi dan Korporat

Alur kerja agentic ber-ROI tertinggi adalah perbaikan pembayaran (payment repair), ekstraksi dokumen KYC, layanan treasury, selisih rekonsiliasi, dan pengalihan FAQ nasabah korporat. Semuanya Level-2 atau Level-3 yang terbatas di bawah tangga otonomi. Nasabah korporat tidak peduli bahwa sebuah agen mengeksekusi perbaikan pembayaran; mereka peduli bahwa SLA membaik dan tingkat sengketa tetap datar. Pimpin dengan empat metrik ekonomi-satuan, bukan dengan klaim kemampuan teknologi.

Kerangka Treasury Otonom — amati → deteksi → ramalkan → siapkan → minta persetujuan manusia → kirim muatan bertanda tangan — adalah arsitektur yang tepat untuk agen treasury korporat pada 2026. Muatan pain.001 yang disiapkan agen dirutekan melalui validasi skema, penilaian penipuan, dan mesin sanksi yang sama seperti pengajuan ERP korporat. Lapisan kondisionalitas (ambang, kelayakan agunan, dasar penyangga) menggerbang apakah pain.001 dikirim, bukan bentuk apa yang dimilikinya. Platform treasury yang menciptakan muatan khusus untuk mengekspresikan kondisi akan tersingkir dari jalur yang dapat-dikonsumsi-bank.

Bank Regional dan Bank Komunitas

Analisis skenario McKinsey mengidentifikasi tiga posisi yang layak: menunggu-dan-melihat, beradaptasi sebagai pemasok produk di balik antarmuka agen, atau bersaing untuk hubungan nasabah langsung. Bank regional yang gagal membuat pilihan ini secara eksplisit akan secara baku hanyut ke postur menunggu-dan-melihat — dan mendapati bahwa utang tata kelola yang terakumulasi selama keterhanyutan itu menjadi hambatan utama ketika tekanan kompetitif memaksa tindakan.

Prinsip proporsionalitas OCC — "proporsional tidak berarti tiada" — adalah kerangka operasional untuk tata kelola regional. Bank regional tidak perlu memvalidasi 50 agen per triwulan. Yang dibutuhkannya adalah satu petugas risiko model yang memahami tangga otonomi, satu implementasi platform agen vendor yang hadir dengan pelingkupan OAuth, integrasi OPA, dan pencatatan audit WORM secara siap-pakai, serta satu templat pelaporan dewan yang mencakup empat metrik ekonomi-satuan. Investasinya ada pada desain alur kerja dan UX operator, bukan rekayasa bidang kontrol khusus.

Survei CSI's 2026 Banking Priorities menemukan bahwa 85% responden perbankan komunitas meyakini adopsi AI akan memberikan keunggulan kompetitif yang signifikan dan 50% menyebutnya sebagai tren teknologi teratas untuk 2026. Infrastruktur tata kelolalah yang memisahkan 85% yang meyakini dari fraksi kecil yang akan menangkap nilainya.

Fintech, PSP, dan Penyedia Infrastruktur

Pertanyaan produk bagi vendor agentic AI pada 2026 bukanlah "apakah platform Anda berkinerja lebih baik daripada manusia?" Melainkan "apakah platform Anda menghasilkan jejak audit yang patuh SR 11-7, log per-agen yang patuh EU AI Act Article 12, dan model pengawasan yang patuh FSB Sound Practice 10 — secara siap-pakai?" Vendor yang dapat menjawabnya dengan "ya" yang terdokumentasi dan dapat-diuji akan menutup kesepakatan perusahaan. Vendor yang tidak dapat akan berputar-putar dalam loop bukti-konsep sementara tim MRM bank menemukan alasan untuk menggagalkan validasi.

Oracle meluncurkan platform agentic AI perusahaan untuk perbankan pada Februari 2026. FIS bermitra dengan Mastercard dan Visa untuk memungkinkan perdagangan yang diprakarsai-agen. Microsoft menerbitkan cetak biru spesifik-perbankan untuk pengalaman nasabah agentic. Accenture telah menguraikan implikasi tenaga kerja di seluruh kantor depan dan belakang. Sisi pasokan sudah siap. Pembedanya ada pada bukti regulasi sebagai fitur produk, bukan tambahan kepatuhan pasca-fakta.

Dinamika vendor ekor-panjang yang diidentifikasi Evident — 68% penerapan agentic AI di bank kini menggunakan vendor khusus di luar para hyperscaler — berarti risiko vendor AI pihak ketiga berakselerasi lebih cepat daripada yang dapat dinilai oleh sebagian besar kerangka pengadaan bank. DORA mensyaratkan uji tuntas terdokumentasi atas setiap penyedia ICT pihak ketiga. EU AI Act menambahkan persyaratan tambahan untuk vendor yang sistemnya digunakan dalam kategori berisiko tinggi. Bank yang mengalihdayakan tata kelola ke vendornya sedang mengalihdayakan akuntabilitas — dan catatan pengawasan akan mencerminkan hal itu.

Bisnis Perusahaan dan UKM (Jasa Keuangan Non-Bank)

Beban tata kelola proporsional terhadap materialitas risiko penggunaan agentic AI, tetapi kerangka pengukuran berlaku universal. Sebuah perusahaan yang menerapkan agen dalam utang usaha, optimasi modal kerja, atau perencanaan dan analisis keuangan membutuhkan kerangka akuntabilitas ekonomi-satuan yang sama — biaya per keputusan yang selesai, tingkat pembalikan, kelengkapan jejak audit — bahkan jika kewajiban regulasinya lebih ringan daripada yang dibebankan pada bank yang penting secara sistemik. FSB Sound Practices dirumuskan sebagai panduan tidak-mengikat yang berlaku untuk lembaga keuangan dari segala jenis dan ukuran. Temuan IBM bahwa perusahaan rata-rata mengalami 54 insiden agen AI per tahun, termasuk pelanggaran data dan kegagalan sistem berantai, berlaku di seluruh lanskap perusahaan.

Bagi UKM yang mengakses layanan perbankan melalui antarmuka agentic — skenario yang McKinsey gambarkan sebagai konsumen yang menggunakan agen AI sebagai kanal perbankan baru — kewajiban tata kelola jatuh di hulu pada bank atau PSP yang menyediakan lapisan agentic. Tetapi data dan integritas operasional UKM itu sendiri bergantung pada nyatanya tata kelola tersebut. Memahami skor indeks dari lembaga yang mengelola alur kerja keuangan Anda dengan cepat menjadi kriteria pemilihan-vendor.

Kartu Skor Tingkat-Dewan

Kartu skor dewan yang berguna untuk agentic AI seharusnya melacak enam metrik — himpunan minimum yang membedakan program yang tertata-kelola dari yang tidak:

Distribusi Tingkat Otonomi: Jumlah alur kerja produksi berdasarkan tingkat (Level 0–4), diperbarui triwulanan. Setiap alur kerja Level-5 adalah temuan yang wajib dilaporkan.
Kelengkapan Bidang Kontrol: Persentase alur kerja produksi dengan kelima komponen bidang kontrol operasional (identitas, batas pengaman, kebijakan-sebagai-kode, pencatatan WORM, sakelar darurat).
Kelengkapan Jejak Audit: Persentase invokasi alur kerja Level-3+ yang asal-usulnya dapat direkonstruksi sepenuhnya dari log yang tak-dapat-diubah. Target: 100%.
Tingkat Pembalikan per Alur Kerja: Persentase tindakan yang dieksekusi agen yang dibatalkan dalam 24 jam, dilacak per alur kerja. Ambang peringatan: 2%. Ambang eskalasi: 5%.
Biaya Neto per Keputusan: Biaya satuan tingkat-alur-kerja termasuk biaya pembalikan dan perbaikan, dibandingkan dengan garis dasar manual. Dilacak terhadap kasus ekonomi program.
Kekinian Bukti Regulasi: Tanggal pembaruan bukti regulasi per-alur-kerja terbaru di seluruh kerangka yang berlaku (SR 11-7, SS1/23, EU AI Act, MAS MGF). Setiap alur kerja yang lebih dari 90 hari di luar irama bukti adalah temuan risiko.

Keenam angka ini mengubah agentic AI dari sebuah dek slide menjadi sebuah model operasi. Inilah juga angka-angka yang pertama kali akan ditanyakan oleh pemeriksa SR 11-7, peninjau di-tempat PRA, atau otoritas pengawasan Uni Eropa.

Kesenjangan yang Ditangani Indeks Ini

Tiga kesenjangan struktural membedakan indeks ini dari kerangka yang ada:

Kesenjangan 1: Indeks yang ada mengukur kematangan AI, bukan tata kelola spesifik-agentic-AI. Evident AI Index mengukur Talenta, Inovasi, Kepemimpinan, dan Transparansi di 50 bank menggunakan data yang tersedia publik. Indeks itu tidak — dan tidak dirancang untuk — menilai apakah alur kerja agentic produksi sebuah bank memiliki sakelar darurat operasional, log audit WORM per-agen, atau gerbang kebijakan OPA. Sebuah bank dapat menempati peringkat pertama pada Evident Index sembari gagal dalam audit EU AI Act Article 12.

Kesenjangan 2: Kerangka regulasi yang ada menangani apa yang diwajibkan, bukan bagaimana menilai kesiapan. SR 11-7, SS1/23, EU AI Act, FSB Sound Practices, dan MGF Singapura masing-masing mendefinisikan kewajiban tata kelola. Tidak ada yang menyediakan kerangka penilaian lintas-dimensi yang memungkinkan sebuah lembaga membandingkan posturnya terhadap rekan sejawat atau mengukur perbaikan dari waktu ke waktu. Indeks ini menyediakan kerangka penilaian tersebut, menggunakan kerangka regulasi yang ada sebagai basis bukti.

Kesenjangan 3: Ekonomi tingkat-program menutupi kegagalan tingkat-alur-kerja. Standar industri pelaporan nilai AI pada tingkat program — "AI menghemat X jam pekerjaan kepatuhan" — membuat secara struktural mustahil menelusuri suatu pembalikan, pelaporan SAR positif-palsu, atau tindakan agen yang tak terjelaskan ke alur kerja yang menghasilkannya. Dimensi ekonomi-satuan dari indeks ini mensyaratkan akuntabilitas tingkat-alur-kerja. Inilah arsitektur pengukuran yang membuat percakapan dengan CFO dapat dipertahankan dan percakapan audit dapat dilalui.

Kesimpulan

Agentic AI di bank pada 2026 adalah masalah rekayasa yang mengenakan pakaian percakapan strategi. Model dapat dipertukarkan. Bidang kontrol — pelingkupan OAuth, perutean semantik deterministik, gerbang kebijakan OPA, log audit WORM yang tak-dapat-diubah, dan sakelar darurat yang teruji — tidak. Arsitektur tata kelola — validasi tiga-lini-pertahanan, rangkaian evaluasi khusus-bank yang berkelanjutan, pelaporan ekonomi satuan tingkat-dewan — tidak. Paket bukti regulasi — kartu model SR 11-7 per-alur-kerja, log per-agen EU AI Act Article 12, pemetaan FSB Sound Practice — tidak.

Lembaga yang akan kredibel di mata regulator pada 2027 adalah yang hari ini memperoleh skor di atas 75 di seluruh enam dimensi indeks: mengklasifikasikan setiap agen produksi pada tangga otonomi, merekayasa bidang kontrol lima-komponen yang utuh, menghasilkan bukti regulasi berkelanjutan, melacak ekonomi satuan tingkat-alur-kerja, berinvestasi dalam kesiapan organisasi, dan terlibat secara proaktif dengan konsultasi FSB, IOSCO, dan regulator nasional yang sedang membentuk standar mengikat 2028.

OSWorld pada 66,3% adalah batas atas keandalan. Tiga panggilan alat berantai pada tingkat itu menghasilkan tingkat keberhasilan ujung-ke-ujung 29%. Rencanakan sesuai dengan itu. Lembaga yang mengukur agen sebagaimana mereka mengukur risiko operasional lainnya — dengan bukti, bukan aspirasi — akan mendapati bahwa tata kelola bukanlah kendala bagi agentic AI. Tata kelola adalah satu-satunya hal yang membuat agentic AI kompetitif.

Pertanyaan yang Sering Diajukan

Apa perbedaan antara indeks ini dan Evident AI Index? Evident AI Index membandingkan kematangan AI di 50 bank global menggunakan data yang tersedia publik di seluruh Talenta, Inovasi, Kepemimpinan, dan Transparansi. Indeks ini menilai arsitektur rekayasa dan tata kelola spesifik — bidang kontrol, log audit, klasifikasi tingkat otonomi, paket bukti regulasi — yang membuat agentic AI aman untuk diterapkan terhadap API perbankan langsung. Kedua indeks bersifat saling melengkapi: Evident mengukur postur strategis; indeks ini mengukur kesiapan operasional.

Siapa yang seharusnya menggunakan indeks ini? Chief Operating Officer, Chief Risk Officer, Chief AI Officer, kepala manajemen risiko model, dan komite risiko dewan di bank global, bank regional, entitas perbankan korporat, dan lembaga keuangan yang menerapkan agentic AI. Juga relevan bagi fintech, PSP, dan vendor infrastruktur yang menjual ke dalam proses pengadaan bank di mana bukti regulasi merupakan kriteria pemilihan.

Apa postur tata kelola minimum yang layak untuk 2026? Bidang kontrol lima-komponen penuh operasional dalam produksi; semua alur kerja produksi diklasifikasikan Level 0–4; alur kerja Level-5 dilarang secara kontraktual; log audit WORM lengkap untuk alur kerja Level-3+; pencatatan per-agen EU AI Act Article 12 terpasang sebelum 2 Agustus 2026; FSB Sound Practices 1–4 dipetakan ke struktur akuntabilitas dewan; rangkaian evaluasi khusus-bank berjalan secara berkelanjutan.

Apa arti pengumuman JP Morgan bagi lembaga saya? Itu berarti tolok ukur kompetitif untuk penerapan agen otonom kini memiliki garis waktu bernama pada 2026 dari sebuah bank yang penting secara sistemik. Itu tidak berarti setiap lembaga harus menyamai garis waktu tersebut. Itu berarti setiap lembaga seharusnya mengetahui skor indeksnya saat ini, mengetahui kesenjangan antara skor itu dan postur penerapan yang digambarkan JP Morgan, dan memiliki pandangan yang disetujui-dewan tentang investasi tata kelola yang dibutuhkan untuk menutup kesenjangan itu secara aman.

Bagaimana risiko agentic AI seharusnya dilaporkan ke dewan? Enam metrik per alur kerja: tingkat otonomi, kelengkapan bidang kontrol, kelengkapan jejak audit, tingkat pembalikan, biaya neto per keputusan, dan kekinian bukti regulasi. Ditambah daftar lima-teratas risiko-residual. Lewati slideware kartu-model dan ringkasan produktivitas tingkat-program.

Apakah konsultasi FSB menciptakan kewajiban mengikat saat ini? Tidak. FSB secara eksplisit menyatakan ke-12 Sound Practices bukanlah standar yang mengikat. Namun, konsultasi ditutup 22 Juli 2026 dan laporan akhir disampaikan kepada para menteri keuangan G20 pada Oktober 2026. Regulator nasional — Fed, PRA, BaFin, DNB, ACPR, MAS — bebas memasukkan Sound Practices ke dalam ekspektasi pengawasan yang mengikat menurut garis waktu mereka sendiri. Lembaga yang menanggapi konsultasi sekarang adalah yang sedang membentuk seperti apa wujud yang mengikat itu nantinya.

Referensi

Terakhir ditinjau 2026-06-30.

Terakhir ditinjau 2026-06-29.

Terbitkan ulang artikel ini

Indeks Agentic AI untuk Bank pada 2026: Mengukur Autonomy — Sebastien Rousseau

Indeks enam dimensi untuk menilai kesiapan agentic AI di bank: autonomy, governance, bukti regulasi, ekonomi, kesiapan, dan keselarasan global.

Artikel ini berlisensi Creative Commons Attribution 4.0 International. Penerbitan ulang memerlukan atribusi ke URL kanonis.

Indeks Agentic AI untuk Bank pada 2026: Mengukur Autonomy — Sebastien Rousseau

Indeks enam dimensi untuk menilai kesiapan agentic AI di bank: autonomy, governance, bukti regulasi, ekonomi, kesiapan, dan keselarasan global.

Originally published at https://sebastienrousseau.com/id/2026-06-30-agentic-ai-index-banks-measuring-autonomy-2026/ by Sebastien Rousseau.
Licensed under CC-BY-4.0.

SEBASTIEN ROUSSEAU FOUNDER · ENGINEER