Bankacılıkta ajansal yapay zekâ artık, yapay zekâ problemi kılığına bürünmüş bir mühendislik problemidir. Model değiştirilebilir; kontrol düzlemi değildir. 2026'nın zorluğu benimseme değildir — Cambridge CCAF bunu zaten %52 olarak ölçüyor — bankanızın bugün çalıştırdığı özerk sistemlerin önümüzdeki çeyrekte bir SR 11-7 incelemesini geçip geçemeyeceğidir. Çoğu geçemez.
Yönetici Özeti / Kilit Çıkarımlar
- Onlara artık sohbet botu demeyin. Üretim birimi, sıkı araç çağrısı izinleri olan sınırlı bir iş akışıdır. İş, LLM'in içinde değil, iş akışının içinde gerçekleşir.
- OSWorld'ün %66,3 değeri dayanıklılığın tavanıdır. Stanford HAI'nin kurumsal araç kullanımına en yakın kıyaslaması yapılandırılmış görevlerin üçte birinde hâlâ başarısız oluyor. Bu rakam agresif döngüde insan dağıtımını gerekçelendirir; müşteri parasına dokunan hiçbir şeyde denetimsiz çalıştırmayı gerekçelendirmez.
- Zekâya göre değil, izinlere göre sınıflandırın. Özerklik Merdiveni Seviye 0'dan (yalnızca okuma yapılan ISDA madde çıkarımı) Seviye 4'e (zorunlu kontrol noktalarıyla çok araçlı ödeme onarımı) uzanır. Seviye 5 — kontrol noktası olmadan kendi kendine orkestre edilen çalıştırma — 2026'da üretim bankacılığında bulunmamalıdır.
- Ajan Kontrol Düzlemi bir politika belgesi değil, beş mühendis ürünü bileşendir. OAuth kapsamlı servis hesapları, deterministik anlamsal yönlendirme, Open Policy Agent kapıları, WORM denetim günlüğü ve test edilmiş acil durdurma düğmesi. Eksik olan her şey bir bulgudur.
- SR 11-7 ve PRA SS1/23 zaten geçerlidir. Fed, girdi-çıktı karar verme sistemlerinin tamamının kapsama dahil olduğunu defalarca açıkladı. Bir LLM'in model olmadığını savunan bankalar, düzenleyici tartışmayı henüz başlamadan kaybetmiştir.
2026 Neden Bu İndeksin Önemli Olduğu Yıldır #
Bankalar için ajansal yapay zekâda bu yıl önem taşıyan tek şey, sohbetten sınırlı iş akışlarına geçiştir. Müşteri e-postası taslağı yazan bir sohbet botu incelenebilir. Üretim kart platformunuza karşı POST /accounts/{id}/freeze çağrısı yapan bir ajan ise denetlenebilir kanıttır. Üretim, çerçeveye yetişti: Cambridge CCAF'in 2026 anketi %52 aktif ajansal benimseme ve %23 ölçeklenme veya dönüşüm olgunluğunu raporluyor (Cambridge CCAF ⧉). "İzole pilot" eşiği 2025 sonlarında bir noktada aşıldı.
Benimsemenin yanı sıra iki şey değişti.
İlki, düzenleyiciler LLM'leri bir yenilik olarak görmeyi bıraktı. Federal Reserve, SR 11-7 ⧉ düzenlemesinin, LLM'in dahili olarak model olarak sınıflandırılıp sınıflandırılmadığına bakılmaksızın LLM tabanlı karar vermeye uygulandığını netleştirdi. PRA'nın SS1/23 ⧉ düzenlemesi de bunları kapsayacak kadar geniş kapsamlıydı. AB Yapay Zekâ Yasası'nın yüksek riskli sınıflandırması, finansal hizmetlerdeki LLM kullanımlarının çoğunu kapsıyor. Geriye "bunun sayılıp sayılmadığından emin değiliz" argümanı kalmadı.
İkincisi, kıyaslama gerçeği yetişti. Stanford HAI'nin 2026 Yapay Zekâ İndeksi, OSWorld'ü — gerçek kurumsal araç kullanımına en yakın mevcut kıyaslama — %66,3 doğrulukta raporluyor (Stanford HAI ⧉). Yapılandırılmış görevlerin üçte biri hâlâ başarısız oluyor. Bu rakam, 2026'da özerklik için teknik tavanı belirliyor. HITL denetimi altında sınırlı Seviye-3 dağıtımlarını gerekçelendirecek kadar yüksek; müşteri fonlarına dokunan herhangi bir API'ye karşı denetimsiz çalıştırmayı gerekçelendirecek kadar yüksek değil.
Bankalar için Ajansal Yapay Zekâ İndeksi, LLM tabanlı karar verme için Basel çerçevesinin sermaye için yaptığını yapmalıdır: "kontrollerimiz var" iddialarını iş akışı başına ölçülebilir, denetlenebilir kanıta dönüştürmelidir.
2026 İndeks Mimarisi #
| İndeks Katmanı | "Hazır" Nasıl Görünür | Hazırlık Metriği | Hata Modu |
|---|---|---|---|
| Özerklik kademesi | Her üretim iş akışı Seviye 0–4 etiketli; üretimde Seviye 5 yok | Kademeye göre iş akışı yüzdesi; Seviye 3+ payı | Üretim ajanı, statik bir izin listesi SWIFTNet'ten önce yükü kapı altına almadığı için halüsinasyon kaynaklı bir alıcı BIC'sine pacs.008 gönderir |
| API izinlendirmesi | Her ajan, en az ayrıcalık OAuth kapsamına sahip tek bir servis hesabına eşlenir (örn. card-freeze:write:lt-5000usd); eski çekirdeğe MTLS |
En az ayrıcalıkta ajan yüzdesi; yetim izin sayısı | Ajan aşırı kapsamlı bir servis hesabını yeniden kullanır; okuması gerekmeyen hesaplarda dolaşır; 72 saat içinde GDPR Madde 33 kapsamında olay bildirilir |
| Deterministik güvenlik bariyerleri | Her araç çağrısı API'den önce bir anlamsal yönlendiriciden (NeMo Guardrails / LangChain Guardrails) ve bir JSON-şema doğrulayıcısından geçirilir | Yakalanan araç çağrısı yüzdesi; kategori bazında ret oranı | LLM amount: 0 ile bir transfer çağrısı yapar; alt-akış API'si doğrulamaz; defter mutabakatı uyarısı 18 saat sonra farklı bir saat diliminde patlar |
| Döngüde insan kapsamı | Her Seviye-3 çalıştırması, sert zaman aşımına sahip bir onay arayüzü gösterir; otomatik onay politikayla devre dışıdır | Onay verimi; lastik damga oranı (2 saniyenin altında onaylanan) | Operatör 4 dakikada 200 uyarıda "onayla" tıklar; meşru bir müşteriye karşı SAR dosyalanır; hafta içinde düzenleyici şikâyeti gelir |
| Denetim tamlığı | Değiştirilemez WORM günlüğü sistem istemini + getirilen bağlamı + LLM çıktısını + araç çağrısını + araç sonucunu + onaylayan UID'sini yakalar; yazma anında kriptografik olarak imzalanır | Tam izi olan çağrı yüzdesi | SR 11-7 müfettişi #4421 ajanının neden 4,8 M$'lık bir havaleyi onayladığını sorar; bankada havale makbuzu ve model kartı vardır; istem düzeyinde kanıt yoktur; bulgu açılır |
| Birim ekonomisi | Tamamlanan karar başına maliyet, geri alma ve onarım maliyeti dahil takip edilir; manuel baz çizgisine göre pozitif | Karar başına net maliyet; geri alma oranı | Uç durum ajanları için token başı harcama, yerine geçtikleri manuel araştırmacı maliyetini aşar; CFO programı Q3'te kapatır |
Takip Edilecek Güncel Sinyaller #
| Sinyal | Bankalar için Anlamı | Kaynak |
|---|---|---|
| %52 aktif benimseme | Ajansal yapay zekâ pilot aşamasını geçti; kurum çapında yönetişim gecikmiştir | Cambridge CCAF ⧉ |
| %23 ölçeklenme veya dönüşüm | Anlamlı bir azınlık kavram kanıtı tiyatrosunun ötesine geçti | Cambridge CCAF ⧉ |
| OSWorld %66,3 düzeyinde | Yapılandırılmış araç kullanımında üçte bir hata oranı. Müşteri fonlarına dokunan API'lere karşı denetimsiz çalıştırma bu dayanıklılık seviyesinde savunulamaz | Stanford HAI ⧉ |
| %55, insan denetiminin kaybedilmesini başlıca risk olarak gösteriyor | Kontrol tasarımı, alt-akış uyum konusu değil, birincil mühendislik kaygısıdır | Cambridge CCAF ⧉ |
| Büyük FK'lerin %76'sı değeri ölçmekte zorlanıyor | Genel verimlilik iddiaları CFO görüşmesini geçemez. Program başına değil, iş akışı başına ölçün | Cambridge CCAF ⧉ |
Özerklik Merdiveni #
Ajanları altta yatan modelin ne kadar zeki olduğuna göre değil, ne yapmalarına izin verildiğine göre sınıflandırın. Aynı GPT-5 / Claude 4 / Gemini 3 örneği her kademede oturabilir; farklı olan sarmalayıcıdır.
- Seviye 0 — Gözlem. Günlüklere, izlere veya işlemlere yalnızca okuma erişimi. Ajan örüntüleri veya anormallikleri yüzeye çıkarır; hiçbir yere yazma yoktur. Örnek: koridor bazında
pacs.008ret oranlarındaki sapmayı tespit etmek ve operasyon ekibini uyarmak. - Seviye 1 — Yalnızca okuma çağrımı. Operasyonel sistemlerden okur; insan tüketimi için yapılandırılmış çıktı üretir. Örnek: bir karşı tarafın ISDA Master Sözleşmesi'nden CSA madde varyasyonlarını çıkarmak ve bankanın standart şablonundan sapmaları işaretlemek. Ajan asla sözleşme deposuna geri yazma yapmaz.
- Seviye 2 — İnsan dosyalaması için taslak. Bir insanın gözden geçirip gönderdiği içerik üretir. Örnek: bir dolandırıcılık sistemi uyarısı, KYC kaydı ve işlem izinden Şüpheli Faaliyet Raporu taslağı hazırlamak; BSA görevlisi okur, gerekirse düzenler ve dosyalar. Kayıt sistemi yalnızca insan tarafından onaylanmış sürümü görür.
- Seviye 3 — Sınırlı çalıştırma. Sarmalayıcı tarafından dayatılan sert, deterministik limitlerle üretim API'si çağırır. Örnek: bir izin listesi politikasıyla dayatılan
max-amount-at-risk: 5000 USDile kart dondurma API çağrısı; ajan, Seviye-2 yükseltme olmadan bu eşiğin üzerindeki bakiyelere bağlı bir kartı donduramaz. Limit, kod olarak politika içinde yaşar, istemde değil — istemler bir güvenlik sınırı değildir. - Seviye 4 — Zorunlu kontrol noktalarıyla çok araçlı orkestrasyon. Sistemler arası bir dizi çalıştırma yapar; her durum geçişi günlüklenir; bir sonraki araç çağrısından önce kontrol noktaları insan onayı gerektirir. Örnek: ödeme onarımı iş akışı — başarısız
pacs.008mesajını ölü-mektup kuyruğundan çıkar → SWIFT KYC Registry üzerinden doğru alıcıyı ara → düzeltilmiş mesajı oluştur → giden kuyruğa yaz → insan yeniden gönderimi onaylar. Herhangi bir adım şema doğrulayıcıda başarısız olursa, iş akışı durur ve bir istisna vakası oluşturur. - Seviye 5 — Kendi kendine orkestrasyon. Ajan kontrol noktası onayı olmaksızın planlar ve çalıştırır. 2026'da hiçbir üretim bankacılığı iş akışı Seviye 5'te olmamalıdır. Bu bir olgunluk değil, dayanıklılık ifadesidir. OSWorld'ün %66,3'ü bağlı API çağrılarında bileşik hale gelir. Her biri %66 olan üç araç çağrısı uçtan uca %29 başarı demektir. Beşi %13'tür. Yapmayın.
Ajan Kontrol Düzlemi #
Kontrol düzlemi, LLM ile üretim sistemleriniz arasındaki mühendislik katmanıdır. Beş bileşen, hepsi çalışma zamanında, hiçbiri bir politika belgesinde yazılı değil.
1. Kimlik ve İzinler #
Her ajan tam olarak bir servis hesabına eşlenir. O hesap, ihtiyaç duyulan minimum API yüzeyine kapsamlanmış OAuth client_credentials tokenlarını tutar. Kart dondurma ajanının tokeni amount-at-risk: 0..5000 usd ile POST /accounts/{id}/freeze çağrısı yapabilir. Diğer müşteriler için GET /accounts/{id}/balance çağrısı yapamaz. Saklama, hazine veya alım-satım alanında hiçbir şey çağıramaz. Servis hesabı sırları haftalık olarak rotasyona girer; uzun ömürlü kimlik bilgileri üretim dağıtımlarında en yaygın kontrol düzlemi hatasıdır.
2. Araç Çağrılarında Deterministik Güvenlik Bariyerleri #
Her LLM araç çağrısı, üretim API'sine ulaşmadan önce deterministik bir anlamsal yönlendiriciden (NeMo Guardrails, LangChain Guardrails veya muadili) geçer. Yönlendirici niyeti sonlu bir izin listesine göre sınıflandırır; listedeki dışındaki çağrılar reddedilir ve günlüğe alınır. Ardından bir JSON-şema doğrulayıcı yükü kontrol eder — zorunlu alanlar mevcut, dolar tutarları sınırlar içinde, ISO ülke kodları geçerli, alıcı BIC'i bankanın önceden onaylı karşı taraf listesinde. Doğrulayıcı paranoyak olmalıdır: amount: 0 içeren bir pacs.008 meşru bir işlem değil, bir model hatasıdır. Yaptırım filtrenizin başlatan müşteri segmenti için önceden onaylamadığı bir ülkeye yapılan havale de öyledir.
3. Kod olarak Politika #
Doğrulayıcı ile API arasında Open Policy Agent (veya muadili) oturur. Politikalar Git'te sürümlenir; ret kararları günlüklenir; mevcut platformunuzda mikroservis-mikroservis çağrılarını kapı altına alan aynı politika motoru ajan araç çağrılarını da kapı altına alır. Ajanları özel kapı altına alma gerektiren özel bir sınıf olarak ele almak, bankaların platform ekibinden kimsenin altı ay sonra anlamadığı gölge kontrol düzlemleriyle sonuçlanmasının yoludur.
4. Denetim Günlüğü #
Değiştirilemez WORM depolama — S3 Object Lock, Azure Blob değiştirilemezliği veya defterli bir veritabanı. Her çağrı şunları yakalar: zaman damgası, ajan kimliği, servis hesabı kimliği, sistem-istem hash'i, getirilen bağlam, LLM sağlayıcı artı model artı sürüm, ham LLM çıktısı, ayrıştırılmış araç çağrısı, OPA kararı, API yanıtı, alt-akış etkisi ve geçerli yerlerde onaylayan UID. Kayıtlar yazma anında kriptografik olarak imzalanır. Bu günlük, SR 11-7 ve SS1/23 müfettişlerinin isteyeceği şeydir. Herhangi bir karar için tam iz üretemiyorsanız, model-risk yönetimi altında bir ajanınız yoktur.
5. Acil Durdurma Düğmesi #
Bir izin sınıfı içindeki tüm uçuş halindeki ajan çağrılarını 60 saniyenin altında iptal eden kırmızı düğmeli bir API. Üç ayda bir masaüstü tatbikatıyla test edilir. Acil durdurma düğmesi sizi sessizce gerileyen bir tedarikçi modeli sürümünden, öngörmediğiniz bir istem-enjeksiyonu vektöründen veya yanlış-pozitif oranlarını operasyonel eşiğinizin üzerine iten bir sapma olayından kurtaracak tek şeydir. Test edilmemiş acil durdurma düğmeleri çalışmaz; tatbikat süresini bütçeleyin.
Model Risk Yönetimi #
"SR 11-7 kapsamında LLM model değildir" diye savunan bankalar zaten kaybetmiştir. Federal Reserve, bir karar verme iş akışında kullanılan herhangi bir girdi-çıktı sisteminin kapsama dahil olduğunu defalarca açıklamıştır. PRA'nın SS1/23'ü daha da geniştir. Doğru duruş: her üretim ajanını ilk günden itibaren SR 11-7 / SS1/23 modeli olarak değerlendirin. Dağıtılmış bir ajanı geriye dönük olarak model olarak çerçevelemenin maliyeti, baştan model olarak tasarlamanın maliyetinin katlarıdır.
Ajanlara uygulanan üç savunma hattı:
- Birinci hat (model sahibi). Ajanın amaçlanan kullanımını, eğitim ve değerlendirme veri köklenmesini, sistem-istem şemasını, araç çağrısı izin listesini ve acil durdurma düğmesi test sonuçlarını belgeler. Üretimde sapma izlemenin sahibidir.
- İkinci hat (MRM ekibi). Ajanı üretim öncesi doğrular. Doğrulama raporu tedarikçi tarafından yayınlanan değerlendirme puanlarını (MMLU, HumanEval, HellaSwag yararlıdır ama yeterli değildir), bankaya özgü değerlendirme puanlarını (operasyonel örneklerden inşa edilmiş kendi ayrı tutulan değerlendirme kümeniz — çoğu bankanın yetersiz yatırım yaptığı iş budur), istem-enjeksiyonu kırmızı-takım sonuçlarını, iş akışının müşteri üzerinde etkisi olduğu yerlerde önyargı ve adillik analizini ve nicelenmiş bir kalıntı-risk beyanını kapsar.
- Üçüncü hat (iç denetim). Kontrol düzlemi kapılarını ve denetim-günlüğü tamlığını üretim kararlarından bir örneğe karşı test eder. 2027 denetim döngüsü 2025'tekinden çok farklı görünecek; şimdiden bütçeleyin.
Sürekli izleme, belirli bir andaki doğrulamadan daha önemlidir. Haftalık yeniden çalıştırılan bankaya özgü değerlendirme paketleri, tedarikçi kıyaslamalarının yüzeye çıkarmayacağı model-güncelleme gerilemelerini yakalar. OpenAI, Anthropic ve Google'ın sürüm temposu sizin doğrulama temponuzdan hızlıdır; ya açığı sürekli değerlendirmeler çalıştırarak siz kapatırsınız, ya da bir müfettiş bulgusuyla sizin için kapatılır.
İş Etkisinin Ölçülmesi #
Genel verimlilik iddiaları CFO görüşmesini geçemez. Ajanları diğer operasyonel değişiklikleri ölçtüğünüz gibi ölçün:
- Tamamlanan karar başına maliyet, başarısız kararların geri alma ve onarım maliyeti dahil. BSA görevlisi süresini %40 azaltan ama %12 yanlış-pozitif dosyalama üreten bir SAR-taslaklama ajanı değer yaratmadı, değer yok etti.
- Kaçınılan manuel temaslar, kontrol düzlemi denetimi ve istisna yönetimi tarafından oluşturulan yeni temasların netine göre sayılır. Amaç insan dikkatini en aza indirmek değil, onu daha yüksek kaldıraçlı kararlara yönlendirmektir.
- Geri alma oranı — ajan tarafından çalıştırılan eylemlerin 24 saat içinde geri alınma yüzdesi. Bir Seviye-3 iş akışında %2'nin üzerindeki geri alma oranı bir dayanıklılık sorunudur. %5'in üzeri bir kontrol düzlemi sorunudur.
- Denetim-izi tamlığı — kararların WORM günlüğünden tam köklenme ile yeniden inşa edilebilir yüzdesi. Seviye-3 ve Seviye-4 iş akışlarında %100 olmalıdır. Daha azı denetimde yüzeye çıkacak bir politika hatasıdır.
Bir iş akışı daha hızlı ama daha az açıklanabilir hale gelirse, indeks bunu cezalandırmalıdır. Bir düzenleyici sınavda başarısız olmanın en ucuz yolu, verim için optimizasyon yapıp izi kaybetmektir.
Bunun Banka Türüne Göre Anlamı #
Küresel Sistemik Öneme Sahip Bankalar #
Zor problem ölçekte yönetişimdir: iş kolları boyunca yüzlerce ajan, her birinin kendi model sahibi var, her biri potansiyel bir denetim bulgusu. Yatırım bir pilot daha değildir. Merkezi kontrol düzlemi, birleşik denetim-günlüğü altyapısı ve çeyrek başına 50+ ajanı doğrulayabilen bir MRM tezgâhıdır. Bu kapasite olmadan ajanlar yönetilebileceklerinden hızlı iniş yapar ve kurum sessizce SR 11-7 maruziyeti biriktirir.
İşlem ve Kurumsal Bankalar #
En yüksek-ROI iş akışları ödeme onarımı, KYC belge çıkarımı, hazine-hizmetleri SSS yönlendirmesi ve mutabakat kırılmalarıdır. Tümü Seviye-2 veya sınırlı Seviye-3. Kurumsal müşteri işi bir ajanın yaptığını umursamaz; SLA'nın iyileştiğini ve uyuşmazlık oranının düz kaldığını umursar. Teknolojiyle değil, metriklerle yola çıkın.
Bölgesel Bankalar #
Satın alın, inşa etmeyin. Ajan platformu kontrol-düzlemi ilkellerini — OAuth kapsamlama, OPA entegrasyonu, WORM denetim günlüğü, test edilmiş acil durdurma düğmesi — zaten içeren bir tedarikçi seçin ve o platformu MRM çerçevenize karşı doğrulayın. Özel bir kontrol düzlemi inşa etmek, bölgesel ölçekte farklılık yaratmayan çok yıllı bir yatırımdır. Mühendislik kapasitesini bunun yerine iş akışı tasarımına ve operatör UX'ine harcayın.
Fintech'ler, ÖHS'ler ve Altyapı Sağlayıcılar #
Tedarikçiler için ürün sorusu "yapay zekâ ajanınız insanlardan daha iyi performans gösteriyor mu" değildir. "Platformunuz kutudan SR 11-7-uyumlu bir denetim izi üretiyor mu" sorusudur. Buna evet diyebilen tedarikçiler kurumsal anlaşmaları kapatacak. Diyemeyenler, bankanın MRM ekibi doğrulamayı başarısız kılma nedenleri bulurken kavram-kanıtı döngülerinde takılı kalacak.
Sonuç #
2026'da bankalarda ajansal yapay zekâ bir mühendislik problemidir. İlginç iş modelde değil, kontrol düzlemindedir. Model değiştirilebilir; OAuth kapsamlama, deterministik anlamsal yönlendirici, OPA politika kapıları, değiştirilemez denetim günlüğü ve acil durdurma düğmesi değildir.
18 ay sonra düzenleyicilere güvenilir görünecek kurumlar, her üretim ajanını ilk günden itibaren SR 11-7 / SS1/23 modeli olarak değerlendiren, bankaya özgü değerlendirme paketlerini sürekli çalıştıran ve güvenli şekilde başarısız olmak üzere mühendislik yapılmış bir kontrol düzlemine sahip olanlardır. Yapmayan kurumlar, MRM tezgâhlarının çeyrek başına 50+ iyileştirme bulgusunu kaldıracak şekilde ölçeklenip ölçeklenemeyeceğini keşfedecek.
Ajanları herhangi bir operasyonel değişikliği ölçtüğünüz gibi ölçün: maliyet, dayanıklılık, geri alınabilirlik, kanıt. OSWorld'ün %66,3 değeri dayanıklılık tavanınızdır. Buna göre planlayın.
Sıkça Sorulan Sorular #
Bankacılıkta ajansal yapay zekâ nedir?
Bir LLM'i üretim sistemlerine yapılan araç çağrılarıyla, çalışma zamanı güvenlik bariyerleriyle ve döngüde insan kontrol noktalarıyla birleştiren sınırlı bir iş akışıdır. İş, modelin içinde değil, iş akışının içinde gerçekleşir. "Sohbet botu" sözcüğünü duyduysanız, yanlış kategoridesiniz.
Bankalar nereden başlamalı?
Değerin ölçülebilir ve aşağı yönlü etkinin kontrol altında tutulabilir olduğu Seviye 1 ve Seviye 2 iş akışları: ISDA madde çıkarımı, SAR taslaklama, ödeme-onarımı triyajı, dahili bilgi çağrımı, kod inceleme yardımı, KYC belge sınıflandırması. Kontrol düzleminiz OAuth kapsamlama, anlamsal yönlendirme, OPA kapıları, WORM günlüğü ve test edilmiş bir acil durdurma düğmesi yönetene kadar Seviye 3'ü atlayın.
En büyük risk nedir?
Ajanların LLM çıktısı ile API arasında deterministik güvenlik bariyerleri olmadan üretim API'lerine karşı çalıştırılmasına izin vermek. OSWorld %66,3 rakamı uyarıdır. Bir SWIFT MT103 veya müşteri fonları API'sine karşı bu hata oranındaki sarılmamış araç çağrıları, bir sonraki düzenleyici döngünün en kötü-durum manşetini yazar.
SR 11-7 LLM tabanlı ajanlara uygulanır mı?
Evet. Federal Reserve, karar verme iş akışlarında kullanılan herhangi bir girdi-çıktı sisteminin SR 11-7 kapsamına girdiğini netleştirmiştir. PRA'nın SS1/23'ü Birleşik Krallık'ta aynı zemini kapsar. AB Yapay Zekâ Yasası'nın yüksek riskli sınıflandırması, finansal hizmetlerin çoğu kullanım durumunu kapsar. "Bu bir model mi" tartışması bitti; buna göre hareket edin.
Ajansal yapay zekâ yönetim kurullarına nasıl raporlanmalıdır?
İş akışı başına dört sayı: özerklik kademesi, denetim-izi tamlığı, geri alma oranı, karar başına net maliyet. Artı en üst beş kalıntı-risk listesi. Model-kartı slayt gösterilerini atlayın.
Referanslar #
- Stanford HAI, (2026). 2026 Yapay Zekâ İndeks Raporu ⧉.
- Stanford HAI, (2026). Teknik Performans bölümü ⧉.
- Cambridge Alternatif Finans Merkezi, (2026). Finansal Hizmetlerde Yapay Zekâ 2026 Küresel Raporu ⧉.
- Federal Reserve, (2011). SR 11-7: Model Risk Yönetimi Rehberi ⧉.
- Prudential Regulation Authority, (2023). Denetim Bildirimi SS1/23: Bankalar için model risk yönetimi ilkeleri ⧉.
- Avrupa Komisyonu, (2024). Tüzük (AB) 2024/1689 — Yapay Zekâ Yasası ⧉.
- NVIDIA, (2024). NeMo Guardrails çerçevesi ⧉.
- Cloud Native Computing Foundation, (2018). Open Policy Agent (OPA) ⧉.
Son inceleme .
Son inceleme .
