Sebastien Rousseau

Bankalar için 2026 Ajansal Yapay Zekâ İndeksi: Özerklik, Yönetişim, Denetlenebilirlik ve İş Etkisinin Ölçülmesi

Bankacılıkta ajansal yapay zekâ, yapay zekâ problemi kılığına bürünmüş bir mühendislik problemidir. Model değiştirilebilir; OAuth kapsamlı servis hesapları, deterministik anlamsal yönlendirici, Open Policy Agent kapıları, WORM denetim günlüğü ve test edilmiş acil durdurma düğmesi ise değildir.

12 dk okuma
Banner for: Bankalar için 2026 Ajansal Yapay Zekâ İndeksi: Özerklik, Yönetişim, Denetlenebilirlik ve İş Etkisinin Ölçülmesi

Bankacılıkta ajansal yapay zekâ artık, yapay zekâ problemi kılığına bürünmüş bir mühendislik problemidir. Model değiştirilebilir; kontrol düzlemi değildir. 2026'nın zorluğu benimseme değildir — Cambridge CCAF bunu zaten %52 olarak ölçüyor — bankanızın bugün çalıştırdığı özerk sistemlerin önümüzdeki çeyrekte bir SR 11-7 incelemesini geçip geçemeyeceğidir. Çoğu geçemez.


Yönetici Özeti / Kilit Çıkarımlar

  • Onlara artık sohbet botu demeyin. Üretim birimi, sıkı araç çağrısı izinleri olan sınırlı bir iş akışıdır. İş, LLM'in içinde değil, iş akışının içinde gerçekleşir.
  • OSWorld'ün %66,3 değeri dayanıklılığın tavanıdır. Stanford HAI'nin kurumsal araç kullanımına en yakın kıyaslaması yapılandırılmış görevlerin üçte birinde hâlâ başarısız oluyor. Bu rakam agresif döngüde insan dağıtımını gerekçelendirir; müşteri parasına dokunan hiçbir şeyde denetimsiz çalıştırmayı gerekçelendirmez.
  • Zekâya göre değil, izinlere göre sınıflandırın. Özerklik Merdiveni Seviye 0'dan (yalnızca okuma yapılan ISDA madde çıkarımı) Seviye 4'e (zorunlu kontrol noktalarıyla çok araçlı ödeme onarımı) uzanır. Seviye 5 — kontrol noktası olmadan kendi kendine orkestre edilen çalıştırma — 2026'da üretim bankacılığında bulunmamalıdır.
  • Ajan Kontrol Düzlemi bir politika belgesi değil, beş mühendis ürünü bileşendir. OAuth kapsamlı servis hesapları, deterministik anlamsal yönlendirme, Open Policy Agent kapıları, WORM denetim günlüğü ve test edilmiş acil durdurma düğmesi. Eksik olan her şey bir bulgudur.
  • SR 11-7 ve PRA SS1/23 zaten geçerlidir. Fed, girdi-çıktı karar verme sistemlerinin tamamının kapsama dahil olduğunu defalarca açıkladı. Bir LLM'in model olmadığını savunan bankalar, düzenleyici tartışmayı henüz başlamadan kaybetmiştir.

2026 Neden Bu İndeksin Önemli Olduğu Yıldır #

Bankalar için ajansal yapay zekâda bu yıl önem taşıyan tek şey, sohbetten sınırlı iş akışlarına geçiştir. Müşteri e-postası taslağı yazan bir sohbet botu incelenebilir. Üretim kart platformunuza karşı POST /accounts/{id}/freeze çağrısı yapan bir ajan ise denetlenebilir kanıttır. Üretim, çerçeveye yetişti: Cambridge CCAF'in 2026 anketi %52 aktif ajansal benimseme ve %23 ölçeklenme veya dönüşüm olgunluğunu raporluyor (Cambridge CCAF ⧉). "İzole pilot" eşiği 2025 sonlarında bir noktada aşıldı.

Benimsemenin yanı sıra iki şey değişti.

İlki, düzenleyiciler LLM'leri bir yenilik olarak görmeyi bıraktı. Federal Reserve, SR 11-7 ⧉ düzenlemesinin, LLM'in dahili olarak model olarak sınıflandırılıp sınıflandırılmadığına bakılmaksızın LLM tabanlı karar vermeye uygulandığını netleştirdi. PRA'nın SS1/23 ⧉ düzenlemesi de bunları kapsayacak kadar geniş kapsamlıydı. AB Yapay Zekâ Yasası'nın yüksek riskli sınıflandırması, finansal hizmetlerdeki LLM kullanımlarının çoğunu kapsıyor. Geriye "bunun sayılıp sayılmadığından emin değiliz" argümanı kalmadı.

İkincisi, kıyaslama gerçeği yetişti. Stanford HAI'nin 2026 Yapay Zekâ İndeksi, OSWorld'ü — gerçek kurumsal araç kullanımına en yakın mevcut kıyaslama — %66,3 doğrulukta raporluyor (Stanford HAI ⧉). Yapılandırılmış görevlerin üçte biri hâlâ başarısız oluyor. Bu rakam, 2026'da özerklik için teknik tavanı belirliyor. HITL denetimi altında sınırlı Seviye-3 dağıtımlarını gerekçelendirecek kadar yüksek; müşteri fonlarına dokunan herhangi bir API'ye karşı denetimsiz çalıştırmayı gerekçelendirecek kadar yüksek değil.

Bankalar için Ajansal Yapay Zekâ İndeksi, LLM tabanlı karar verme için Basel çerçevesinin sermaye için yaptığını yapmalıdır: "kontrollerimiz var" iddialarını iş akışı başına ölçülebilir, denetlenebilir kanıta dönüştürmelidir.

2026 İndeks Mimarisi #

İndeks Katmanı "Hazır" Nasıl Görünür Hazırlık Metriği Hata Modu
Özerklik kademesi Her üretim iş akışı Seviye 0–4 etiketli; üretimde Seviye 5 yok Kademeye göre iş akışı yüzdesi; Seviye 3+ payı Üretim ajanı, statik bir izin listesi SWIFTNet'ten önce yükü kapı altına almadığı için halüsinasyon kaynaklı bir alıcı BIC'sine pacs.008 gönderir
API izinlendirmesi Her ajan, en az ayrıcalık OAuth kapsamına sahip tek bir servis hesabına eşlenir (örn. card-freeze:write:lt-5000usd); eski çekirdeğe MTLS En az ayrıcalıkta ajan yüzdesi; yetim izin sayısı Ajan aşırı kapsamlı bir servis hesabını yeniden kullanır; okuması gerekmeyen hesaplarda dolaşır; 72 saat içinde GDPR Madde 33 kapsamında olay bildirilir
Deterministik güvenlik bariyerleri Her araç çağrısı API'den önce bir anlamsal yönlendiriciden (NeMo Guardrails / LangChain Guardrails) ve bir JSON-şema doğrulayıcısından geçirilir Yakalanan araç çağrısı yüzdesi; kategori bazında ret oranı LLM amount: 0 ile bir transfer çağrısı yapar; alt-akış API'si doğrulamaz; defter mutabakatı uyarısı 18 saat sonra farklı bir saat diliminde patlar
Döngüde insan kapsamı Her Seviye-3 çalıştırması, sert zaman aşımına sahip bir onay arayüzü gösterir; otomatik onay politikayla devre dışıdır Onay verimi; lastik damga oranı (2 saniyenin altında onaylanan) Operatör 4 dakikada 200 uyarıda "onayla" tıklar; meşru bir müşteriye karşı SAR dosyalanır; hafta içinde düzenleyici şikâyeti gelir
Denetim tamlığı Değiştirilemez WORM günlüğü sistem istemini + getirilen bağlamı + LLM çıktısını + araç çağrısını + araç sonucunu + onaylayan UID'sini yakalar; yazma anında kriptografik olarak imzalanır Tam izi olan çağrı yüzdesi SR 11-7 müfettişi #4421 ajanının neden 4,8 M$'lık bir havaleyi onayladığını sorar; bankada havale makbuzu ve model kartı vardır; istem düzeyinde kanıt yoktur; bulgu açılır
Birim ekonomisi Tamamlanan karar başına maliyet, geri alma ve onarım maliyeti dahil takip edilir; manuel baz çizgisine göre pozitif Karar başına net maliyet; geri alma oranı Uç durum ajanları için token başı harcama, yerine geçtikleri manuel araştırmacı maliyetini aşar; CFO programı Q3'te kapatır

Takip Edilecek Güncel Sinyaller #

Sinyal Bankalar için Anlamı Kaynak
%52 aktif benimseme Ajansal yapay zekâ pilot aşamasını geçti; kurum çapında yönetişim gecikmiştir Cambridge CCAF ⧉
%23 ölçeklenme veya dönüşüm Anlamlı bir azınlık kavram kanıtı tiyatrosunun ötesine geçti Cambridge CCAF ⧉
OSWorld %66,3 düzeyinde Yapılandırılmış araç kullanımında üçte bir hata oranı. Müşteri fonlarına dokunan API'lere karşı denetimsiz çalıştırma bu dayanıklılık seviyesinde savunulamaz Stanford HAI ⧉
%55, insan denetiminin kaybedilmesini başlıca risk olarak gösteriyor Kontrol tasarımı, alt-akış uyum konusu değil, birincil mühendislik kaygısıdır Cambridge CCAF ⧉
Büyük FK'lerin %76'sı değeri ölçmekte zorlanıyor Genel verimlilik iddiaları CFO görüşmesini geçemez. Program başına değil, iş akışı başına ölçün Cambridge CCAF ⧉

Özerklik Merdiveni #

Ajanları altta yatan modelin ne kadar zeki olduğuna göre değil, ne yapmalarına izin verildiğine göre sınıflandırın. Aynı GPT-5 / Claude 4 / Gemini 3 örneği her kademede oturabilir; farklı olan sarmalayıcıdır.

Ajan Kontrol Düzlemi #

Kontrol düzlemi, LLM ile üretim sistemleriniz arasındaki mühendislik katmanıdır. Beş bileşen, hepsi çalışma zamanında, hiçbiri bir politika belgesinde yazılı değil.

1. Kimlik ve İzinler #

Her ajan tam olarak bir servis hesabına eşlenir. O hesap, ihtiyaç duyulan minimum API yüzeyine kapsamlanmış OAuth client_credentials tokenlarını tutar. Kart dondurma ajanının tokeni amount-at-risk: 0..5000 usd ile POST /accounts/{id}/freeze çağrısı yapabilir. Diğer müşteriler için GET /accounts/{id}/balance çağrısı yapamaz. Saklama, hazine veya alım-satım alanında hiçbir şey çağıramaz. Servis hesabı sırları haftalık olarak rotasyona girer; uzun ömürlü kimlik bilgileri üretim dağıtımlarında en yaygın kontrol düzlemi hatasıdır.

2. Araç Çağrılarında Deterministik Güvenlik Bariyerleri #

Her LLM araç çağrısı, üretim API'sine ulaşmadan önce deterministik bir anlamsal yönlendiriciden (NeMo Guardrails, LangChain Guardrails veya muadili) geçer. Yönlendirici niyeti sonlu bir izin listesine göre sınıflandırır; listedeki dışındaki çağrılar reddedilir ve günlüğe alınır. Ardından bir JSON-şema doğrulayıcı yükü kontrol eder — zorunlu alanlar mevcut, dolar tutarları sınırlar içinde, ISO ülke kodları geçerli, alıcı BIC'i bankanın önceden onaylı karşı taraf listesinde. Doğrulayıcı paranoyak olmalıdır: amount: 0 içeren bir pacs.008 meşru bir işlem değil, bir model hatasıdır. Yaptırım filtrenizin başlatan müşteri segmenti için önceden onaylamadığı bir ülkeye yapılan havale de öyledir.

3. Kod olarak Politika #

Doğrulayıcı ile API arasında Open Policy Agent (veya muadili) oturur. Politikalar Git'te sürümlenir; ret kararları günlüklenir; mevcut platformunuzda mikroservis-mikroservis çağrılarını kapı altına alan aynı politika motoru ajan araç çağrılarını da kapı altına alır. Ajanları özel kapı altına alma gerektiren özel bir sınıf olarak ele almak, bankaların platform ekibinden kimsenin altı ay sonra anlamadığı gölge kontrol düzlemleriyle sonuçlanmasının yoludur.

4. Denetim Günlüğü #

Değiştirilemez WORM depolama — S3 Object Lock, Azure Blob değiştirilemezliği veya defterli bir veritabanı. Her çağrı şunları yakalar: zaman damgası, ajan kimliği, servis hesabı kimliği, sistem-istem hash'i, getirilen bağlam, LLM sağlayıcı artı model artı sürüm, ham LLM çıktısı, ayrıştırılmış araç çağrısı, OPA kararı, API yanıtı, alt-akış etkisi ve geçerli yerlerde onaylayan UID. Kayıtlar yazma anında kriptografik olarak imzalanır. Bu günlük, SR 11-7 ve SS1/23 müfettişlerinin isteyeceği şeydir. Herhangi bir karar için tam iz üretemiyorsanız, model-risk yönetimi altında bir ajanınız yoktur.

5. Acil Durdurma Düğmesi #

Bir izin sınıfı içindeki tüm uçuş halindeki ajan çağrılarını 60 saniyenin altında iptal eden kırmızı düğmeli bir API. Üç ayda bir masaüstü tatbikatıyla test edilir. Acil durdurma düğmesi sizi sessizce gerileyen bir tedarikçi modeli sürümünden, öngörmediğiniz bir istem-enjeksiyonu vektöründen veya yanlış-pozitif oranlarını operasyonel eşiğinizin üzerine iten bir sapma olayından kurtaracak tek şeydir. Test edilmemiş acil durdurma düğmeleri çalışmaz; tatbikat süresini bütçeleyin.

Model Risk Yönetimi #

"SR 11-7 kapsamında LLM model değildir" diye savunan bankalar zaten kaybetmiştir. Federal Reserve, bir karar verme iş akışında kullanılan herhangi bir girdi-çıktı sisteminin kapsama dahil olduğunu defalarca açıklamıştır. PRA'nın SS1/23'ü daha da geniştir. Doğru duruş: her üretim ajanını ilk günden itibaren SR 11-7 / SS1/23 modeli olarak değerlendirin. Dağıtılmış bir ajanı geriye dönük olarak model olarak çerçevelemenin maliyeti, baştan model olarak tasarlamanın maliyetinin katlarıdır.

Ajanlara uygulanan üç savunma hattı:

Sürekli izleme, belirli bir andaki doğrulamadan daha önemlidir. Haftalık yeniden çalıştırılan bankaya özgü değerlendirme paketleri, tedarikçi kıyaslamalarının yüzeye çıkarmayacağı model-güncelleme gerilemelerini yakalar. OpenAI, Anthropic ve Google'ın sürüm temposu sizin doğrulama temponuzdan hızlıdır; ya açığı sürekli değerlendirmeler çalıştırarak siz kapatırsınız, ya da bir müfettiş bulgusuyla sizin için kapatılır.

İş Etkisinin Ölçülmesi #

Genel verimlilik iddiaları CFO görüşmesini geçemez. Ajanları diğer operasyonel değişiklikleri ölçtüğünüz gibi ölçün:

Bir iş akışı daha hızlı ama daha az açıklanabilir hale gelirse, indeks bunu cezalandırmalıdır. Bir düzenleyici sınavda başarısız olmanın en ucuz yolu, verim için optimizasyon yapıp izi kaybetmektir.

Bunun Banka Türüne Göre Anlamı #

Küresel Sistemik Öneme Sahip Bankalar #

Zor problem ölçekte yönetişimdir: iş kolları boyunca yüzlerce ajan, her birinin kendi model sahibi var, her biri potansiyel bir denetim bulgusu. Yatırım bir pilot daha değildir. Merkezi kontrol düzlemi, birleşik denetim-günlüğü altyapısı ve çeyrek başına 50+ ajanı doğrulayabilen bir MRM tezgâhıdır. Bu kapasite olmadan ajanlar yönetilebileceklerinden hızlı iniş yapar ve kurum sessizce SR 11-7 maruziyeti biriktirir.

İşlem ve Kurumsal Bankalar #

En yüksek-ROI iş akışları ödeme onarımı, KYC belge çıkarımı, hazine-hizmetleri SSS yönlendirmesi ve mutabakat kırılmalarıdır. Tümü Seviye-2 veya sınırlı Seviye-3. Kurumsal müşteri işi bir ajanın yaptığını umursamaz; SLA'nın iyileştiğini ve uyuşmazlık oranının düz kaldığını umursar. Teknolojiyle değil, metriklerle yola çıkın.

Bölgesel Bankalar #

Satın alın, inşa etmeyin. Ajan platformu kontrol-düzlemi ilkellerini — OAuth kapsamlama, OPA entegrasyonu, WORM denetim günlüğü, test edilmiş acil durdurma düğmesi — zaten içeren bir tedarikçi seçin ve o platformu MRM çerçevenize karşı doğrulayın. Özel bir kontrol düzlemi inşa etmek, bölgesel ölçekte farklılık yaratmayan çok yıllı bir yatırımdır. Mühendislik kapasitesini bunun yerine iş akışı tasarımına ve operatör UX'ine harcayın.

Fintech'ler, ÖHS'ler ve Altyapı Sağlayıcılar #

Tedarikçiler için ürün sorusu "yapay zekâ ajanınız insanlardan daha iyi performans gösteriyor mu" değildir. "Platformunuz kutudan SR 11-7-uyumlu bir denetim izi üretiyor mu" sorusudur. Buna evet diyebilen tedarikçiler kurumsal anlaşmaları kapatacak. Diyemeyenler, bankanın MRM ekibi doğrulamayı başarısız kılma nedenleri bulurken kavram-kanıtı döngülerinde takılı kalacak.

Sonuç #

2026'da bankalarda ajansal yapay zekâ bir mühendislik problemidir. İlginç iş modelde değil, kontrol düzlemindedir. Model değiştirilebilir; OAuth kapsamlama, deterministik anlamsal yönlendirici, OPA politika kapıları, değiştirilemez denetim günlüğü ve acil durdurma düğmesi değildir.

18 ay sonra düzenleyicilere güvenilir görünecek kurumlar, her üretim ajanını ilk günden itibaren SR 11-7 / SS1/23 modeli olarak değerlendiren, bankaya özgü değerlendirme paketlerini sürekli çalıştıran ve güvenli şekilde başarısız olmak üzere mühendislik yapılmış bir kontrol düzlemine sahip olanlardır. Yapmayan kurumlar, MRM tezgâhlarının çeyrek başına 50+ iyileştirme bulgusunu kaldıracak şekilde ölçeklenip ölçeklenemeyeceğini keşfedecek.

Ajanları herhangi bir operasyonel değişikliği ölçtüğünüz gibi ölçün: maliyet, dayanıklılık, geri alınabilirlik, kanıt. OSWorld'ün %66,3 değeri dayanıklılık tavanınızdır. Buna göre planlayın.

Sıkça Sorulan Sorular #

Bankacılıkta ajansal yapay zekâ nedir?

Bir LLM'i üretim sistemlerine yapılan araç çağrılarıyla, çalışma zamanı güvenlik bariyerleriyle ve döngüde insan kontrol noktalarıyla birleştiren sınırlı bir iş akışıdır. İş, modelin içinde değil, iş akışının içinde gerçekleşir. "Sohbet botu" sözcüğünü duyduysanız, yanlış kategoridesiniz.

Bankalar nereden başlamalı?

Değerin ölçülebilir ve aşağı yönlü etkinin kontrol altında tutulabilir olduğu Seviye 1 ve Seviye 2 iş akışları: ISDA madde çıkarımı, SAR taslaklama, ödeme-onarımı triyajı, dahili bilgi çağrımı, kod inceleme yardımı, KYC belge sınıflandırması. Kontrol düzleminiz OAuth kapsamlama, anlamsal yönlendirme, OPA kapıları, WORM günlüğü ve test edilmiş bir acil durdurma düğmesi yönetene kadar Seviye 3'ü atlayın.

En büyük risk nedir?

Ajanların LLM çıktısı ile API arasında deterministik güvenlik bariyerleri olmadan üretim API'lerine karşı çalıştırılmasına izin vermek. OSWorld %66,3 rakamı uyarıdır. Bir SWIFT MT103 veya müşteri fonları API'sine karşı bu hata oranındaki sarılmamış araç çağrıları, bir sonraki düzenleyici döngünün en kötü-durum manşetini yazar.

SR 11-7 LLM tabanlı ajanlara uygulanır mı?

Evet. Federal Reserve, karar verme iş akışlarında kullanılan herhangi bir girdi-çıktı sisteminin SR 11-7 kapsamına girdiğini netleştirmiştir. PRA'nın SS1/23'ü Birleşik Krallık'ta aynı zemini kapsar. AB Yapay Zekâ Yasası'nın yüksek riskli sınıflandırması, finansal hizmetlerin çoğu kullanım durumunu kapsar. "Bu bir model mi" tartışması bitti; buna göre hareket edin.

Ajansal yapay zekâ yönetim kurullarına nasıl raporlanmalıdır?

İş akışı başına dört sayı: özerklik kademesi, denetim-izi tamlığı, geri alma oranı, karar başına net maliyet. Artı en üst beş kalıntı-risk listesi. Model-kartı slayt gösterilerini atlayın.

Referanslar #

Son inceleme .

Son inceleme .