Sebastien Rousseau

2026 में बैंकों के लिए एजेंटिक AI सूचकांक: स्वायत्तता, गवर्नेंस, ऑडिटेबिलिटी और व्यावसायिक प्रभाव मापना

बैंकिंग में एजेंटिक AI अब AI समस्या के रूप में सजी हुई एक इंजीनियरिंग समस्या है। मॉडल विनिमेय है; OAuth-स्कोप्ड सेवा खाते, डिटरमिनिस्टिक सिमेंटिक राउटर, Open Policy Agent गेट्स, WORM ऑडिट लॉग और परीक्षित आपातकालीन स्विच विनिमेय नहीं हैं।

16 मिनट का पठन
Banner for: 2026 में बैंकों के लिए एजेंटिक AI सूचकांक: स्वायत्तता, गवर्नेंस, ऑडिटेबिलिटी और व्यावसायिक प्रभाव मापना

बैंकिंग में एजेंटिक AI अब AI समस्या के रूप में सजी हुई एक इंजीनियरिंग समस्या है। मॉडल विनिमेय है; नियंत्रण विमान नहीं। 2026 की चुनौती अपनाने की नहीं — Cambridge CCAF इसे पहले से 52% पर रखता है — चुनौती यह है कि क्या आपका बैंक आज जो स्वायत्त प्रणालियाँ चला रहा है, वे अगली तिमाही में SR 11-7 परीक्षा पास कर सकती हैं। अधिकांश नहीं कर सकतीं।


कार्यकारी सारांश / मुख्य निष्कर्ष

  • इन्हें चैटबॉट कहना बंद कीजिए। उत्पादन इकाई एक सीमित वर्कफ़्लो है जिसमें सख़्त टूल कॉल अनुमतियाँ होती हैं। काम वर्कफ़्लो के अंदर होता है, LLM के अंदर नहीं।
  • 66.3% पर OSWorld विश्वसनीयता की छत है। एंटरप्राइज़ टूल-उपयोग के लिए Stanford HAI का सबसे नज़दीकी बेंचमार्क अब भी संरचित कार्यों में से एक-तिहाई में विफल रहता है। यह वह संख्या है जो आक्रामक ह्यूमन इन द लूप तैनाती को उचित ठहराती है; यह ग्राहक-धन से जुड़ी किसी भी चीज़ पर अनिरीक्षित निष्पादन को उचित नहीं ठहराती।
  • अनुमतियों से वर्गीकृत करें, बुद्धिमत्ता से नहीं। स्वायत्तता सीढ़ी स्तर 0 (केवल-पठन ISDA खंड निष्कर्षण) से स्तर 4 (अनिवार्य चेकपॉइंट्स के साथ बहु-टूल भुगतान मरम्मत) तक चलती है। स्तर 5 — चेकपॉइंट के बिना स्व-ऑर्केस्ट्रेटिंग निष्पादन — 2026 में उत्पादन बैंकिंग में नहीं होना चाहिए।
  • एजेंट नियंत्रण विमान पाँच इंजीनियर्ड घटक है, नीति दस्तावेज़ नहीं। OAuth-स्कोप्ड सेवा खाते, डिटरमिनिस्टिक सिमेंटिक राउटिंग, Open Policy Agent गेटिंग, WORM ऑडिट लॉगिंग और परीक्षित आपातकालीन स्विच। जो भी अनुपस्थित है वह एक निष्कर्ष है।
  • SR 11-7 और PRA SS1/23 पहले से लागू हैं। Fed ने बार-बार स्पष्ट किया है कि कोई भी इनपुट-से-आउटपुट निर्णयन प्रणाली दायरे में है। जो बैंक यह तर्क देते हैं कि LLM एक मॉडल नहीं है, उन्होंने अपना तर्क प्रस्तुत करने से पहले ही नियामक बहस हार दी है।

2026 वह वर्ष क्यों है जब यह सूचकांक मायने रखता है #

चैट से सीमित वर्कफ़्लो की ओर बदलाव — इस वर्ष बैंकों के लिए एजेंटिक AI में यही एकमात्र चीज़ है जो मायने रखती है। एक चैटबॉट जो ग्राहक ईमेल का मसौदा तैयार करता है, समीक्षा योग्य है। एक एजेंट जो आपके उत्पादन कार्ड प्लेटफ़ॉर्म के विरुद्ध POST /accounts/{id}/freeze कॉल करता है, वह ऑडिट-योग्य साक्ष्य है। उत्पादन इस ढाँचे के साथ तालमेल बिठा चुका है: Cambridge CCAF का 2026 सर्वेक्षण 52% सक्रिय एजेंटिक अपनाने और 23% को स्केलिंग या परिवर्तनकारी परिपक्वता पर रिपोर्ट करता है (Cambridge CCAF ⧉)। "पृथक पायलट" की दहलीज 2025 के अंत में कभी पार कर ली गई थी।

अपनाने के साथ-साथ दो चीज़ें बदलीं।

पहली, नियामकों ने LLM को एक नवीनता के रूप में देखना बंद कर दिया। Federal Reserve ने स्पष्ट किया है कि SR 11-7 ⧉ LLM-आधारित निर्णयन पर लागू होता है, चाहे LLM को आंतरिक रूप से एक मॉडल के रूप में वर्गीकृत किया गया हो या नहीं। PRA का SS1/23 ⧉ हमेशा इतना व्यापक रहा है कि उन्हें कवर कर सके। EU AI Act का उच्च-जोखिम वर्गीकरण अधिकांश वित्तीय-सेवा LLM उपयोग को कवर करता है। "हमें यकीन नहीं है कि यह गिनती में है या नहीं" का कोई तर्क शेष नहीं बचा।

दूसरी, बेंचमार्क वास्तविकता ने तालमेल बिठा लिया। Stanford HAI का 2026 AI सूचकांक OSWorld — वास्तविक एंटरप्राइज़ टूल-उपयोग के सबसे नज़दीकी उपलब्ध बेंचमार्क — को 66.3% सटीकता पर रिपोर्ट करता है (Stanford HAI ⧉)। तीन में से एक संरचित कार्य अब भी विफल होता है। यह संख्या 2026 में स्वायत्तता पर तकनीकी छत निर्धारित करती है। HITL निगरानी के तहत सीमित स्तर-3 तैनाती को उचित ठहराने के लिए पर्याप्त ऊँचा; ग्राहक निधि को छूने वाले किसी भी API के विरुद्ध अनिरीक्षित निष्पादन को उचित ठहराने के लिए पर्याप्त ऊँचा नहीं।

बैंकों के लिए एजेंटिक AI सूचकांक को LLM-आधारित निर्णयन के लिए वही करना होगा जो Basel ढाँचे ने पूँजी के लिए किया था: "हमारे पास नियंत्रण हैं" के दावों को प्रति वर्कफ़्लो मापनीय, ऑडिट-योग्य साक्ष्य में परिवर्तित करना।

2026 सूचकांक वास्तुकला #

सूचकांक परत "तैयार" कैसा दिखता है तत्परता मीट्रिक विफलता मोड
स्वायत्तता स्तर हर उत्पादन वर्कफ़्लो स्तर 0–4 के साथ टैग; उत्पादन में कोई स्तर 5 नहीं स्तर के अनुसार % वर्कफ़्लो; स्तर 3+ का हिस्सा उत्पादन एजेंट एक भ्रमित लाभार्थी BIC को pacs.008 भेजता है क्योंकि SWIFTNet से पहले पेलोड को कोई स्टैटिक अनुमति-सूची गेट नहीं करती
API अनुमति-व्यवस्था हर एजेंट न्यूनतम विशेषाधिकार OAuth स्कोप के साथ एक सेवा खाते से मैप करता है (जैसे, card-freeze:write:lt-5000usd); लीगेसी कोर के लिए MTLS % एजेंट न्यूनतम विशेषाधिकार पर; अनाथ-अनुमति गणना एजेंट एक अधिक-स्कोप वाले सेवा खाते का पुन: उपयोग करता है; उन खातों पर पुनरावृत्ति करता है जिन्हें पढ़ने का उसका कोई काम नहीं था; GDPR अनुच्छेद 33 घटना 72 घंटों के भीतर दर्ज की गई
डिटरमिनिस्टिक सुरक्षा बाधाएं API से पहले हर टूल कॉल को सिमेंटिक राउटर (NeMo Guardrails / LangChain Guardrails) और JSON-स्कीमा वैलिडेटर के माध्यम से रूट किया गया % टूल कॉल अवरोधित; श्रेणी के अनुसार अस्वीकृति दर LLM amount: 0 के साथ transfer कॉल भेजता है; डाउनस्ट्रीम API सत्यापन नहीं करता; लेजर मिलान अलर्ट 18 घंटे बाद एक भिन्न समय क्षेत्र में पहुँचता है
ह्यूमन इन द लूप कवरेज हर स्तर-3 निष्पादन हार्ड टाइमआउट के साथ एक अनुमोदन UI प्रस्तुत करता है; नीति द्वारा स्वतः अनुमोदन अक्षम अनुमोदन थ्रूपुट; रबर-स्टैम्प दर (2 सेकंड से कम में अनुमोदित) ऑपरेटर 4 मिनट में 200 अलर्ट पर "अनुमोदन" क्लिक करता है; एक वैध ग्राहक के विरुद्ध SAR दर्ज; एक सप्ताह के भीतर नियामक शिकायत
ऑडिट पूर्णता अपरिवर्तनीय WORM लॉग सिस्टम प्रॉम्प्ट + पुनः प्राप्त संदर्भ + LLM आउटपुट + टूल कॉल + टूल परिणाम + अनुमोदक UID कैप्चर करता है; लेखन समय पर क्रिप्टोग्राफ़िक रूप से हस्ताक्षरित पूर्ण ट्रेस के साथ % आह्वान SR 11-7 परीक्षक पूछता है कि एजेंट #4421 ने $4.8M वायर क्यों अनुमोदित किया; बैंक के पास वायर रसीद और मॉडल कार्ड है; कोई प्रॉम्प्ट-स्तरीय साक्ष्य नहीं; निष्कर्ष जारी
इकाई-स्तरीय अर्थशास्त्र प्रति पूर्ण निर्णय लागत ट्रैक की गई, जिसमें उलटाव और मरम्मत लागत शामिल है; मैन्युअल आधाररेखा बनाम सकारात्मक प्रति निर्णय शुद्ध लागत; उलटाव दर किनारे-मामले के एजेंटों पर प्रति-टोकन खर्च उन मैन्युअल अन्वेषक लागत से अधिक हो जाता है जिन्हें उन्होंने बदला था; CFO Q3 में कार्यक्रम बंद कर देते हैं

ट्रैक करने के लिए वर्तमान संकेत #

संकेत बैंकों के लिए इसका क्या अर्थ है स्रोत
52% सक्रिय अपनाव एजेंटिक AI पायलट चरण से आगे है; संस्था-व्यापी गवर्नेंस अतिदेय है Cambridge CCAF ⧉
23% स्केलिंग या परिवर्तनकारी एक सार्थक अल्पसंख्यक प्रूफ़-ऑफ़-कॉन्सेप्ट दिखावे से आगे बढ़ गया है Cambridge CCAF ⧉
66.3% पर OSWorld संरचित टूल-उपयोग पर तीन में से एक विफलता दर। इस विश्वसनीयता स्तर पर ग्राहक-निधि API के विरुद्ध अनिरीक्षित निष्पादन असमर्थनीय है Stanford HAI ⧉
55% मानव निगरानी के नुकसान को शीर्ष जोखिम बताते हैं नियंत्रण डिज़ाइन प्राथमिक इंजीनियरिंग चिंता है, डाउनस्ट्रीम अनुपालन चिंता नहीं Cambridge CCAF ⧉
76% बड़े FI मूल्य मापने में संघर्ष करते हैं सामान्य उत्पादकता दावे CFO बातचीत में नहीं टिकते। प्रति वर्कफ़्लो मापें, प्रति कार्यक्रम नहीं Cambridge CCAF ⧉

स्वायत्तता सीढ़ी #

एजेंटों को इस आधार पर वर्गीकृत करें कि उन्हें क्या करने की अनुमति है, न कि अंतर्निहित मॉडल कितना चतुर है। वही GPT-5 / Claude 4 / Gemini 3 इंस्टेंस हर स्तर पर बैठ सकता है; रैपर ही वह है जो भिन्न होता है।

एजेंट नियंत्रण विमान #

नियंत्रण विमान LLM और आपकी उत्पादन प्रणालियों के बीच की इंजीनियरिंग परत है। पाँच घटक, सभी रनटाइम, इनमें से कोई भी नीति दस्तावेज़ में नहीं लिखा गया।

1. पहचान और अनुमतियाँ #

हर एजेंट ठीक एक सेवा खाते से मैप होता है। उस खाते में आवश्यक न्यूनतम API सतह पर स्कोप किए गए OAuth client_credentials टोकन होते हैं। कार्ड-फ़्रीज़ एजेंट का टोकन POST /accounts/{id}/freeze को amount-at-risk: 0..5000 usd के साथ कॉल कर सकता है। यह अन्य ग्राहकों के लिए GET /accounts/{id}/balance कॉल नहीं कर सकता। यह कस्टडी, ट्रेज़री या ट्रेडिंग में कुछ भी कॉल नहीं कर सकता। सेवा-खाता रहस्य साप्ताहिक रूप से घूमते हैं; उत्पादन परिनियोजन में दीर्घजीवी क्रेडेंशियल सबसे सामान्य नियंत्रण-विमान विफलता है।

2. टूल कॉल्स पर डिटरमिनिस्टिक सुरक्षा बाधाएं #

हर LLM टूल कॉल उत्पादन API से टकराने से पहले एक डिटरमिनिस्टिक सिमेंटिक राउटर (NeMo Guardrails, LangChain Guardrails, या समकक्ष) से होकर गुज़रता है। राउटर एक सीमित अनुमति-सूची के विरुद्ध इरादे को वर्गीकृत करता है; सूची के बाहर की कॉल अस्वीकृत और लॉग की जाती हैं। फिर एक JSON-स्कीमा वैलिडेटर पेलोड की जाँच करता है — आवश्यक फ़ील्ड मौजूद, डॉलर राशियाँ सीमा के भीतर, ISO देश कोड वैध, बैंक की पूर्व-अनुमोदित प्रतिपक्ष सूची पर लाभार्थी BIC। वैलिडेटर को संशय रखना चाहिए: amount: 0 के साथ एक pacs.008 एक मॉडल विफलता है, वैध लेन-देन नहीं। ऐसा ही उस देश में एक वायर है जिसे आपके प्रतिबंध फ़िल्टर ने मूल ग्राहक खंड के लिए पूर्व-अनुमोदित नहीं किया है।

3. नीति कोड के रूप में #

Open Policy Agent (या समकक्ष) वैलिडेटर और API के बीच बैठता है। नीतियाँ Git में संस्करणित हैं; अस्वीकृति निर्णय लॉग किए जाते हैं; वही नीति इंजन जो आपके मौजूदा प्लेटफ़ॉर्म में माइक्रोसर्विस-से-माइक्रोसर्विस कॉल को गेट करता है, एजेंट टूल कॉल्स को गेट करता है। एजेंटों को बेस्पोक गेटिंग के साथ एक विशेष वर्ग के रूप में मानना — यही वह तरीका है जिसमें बैंक छह महीने बाद ऐसे शैडो नियंत्रण विमानों के साथ रह जाते हैं जिन्हें प्लेटफ़ॉर्म टीम पर कोई नहीं समझता।

4. ऑडिट लॉगिंग #

अपरिवर्तनीय WORM स्टोरेज — S3 Object Lock, Azure Blob अपरिवर्तनीयता, या एक लेजर्ड डेटाबेस। हर आह्वान कैप्चर करता है: टाइमस्टैम्प, एजेंट ID, सेवा-खाता ID, सिस्टम-प्रॉम्प्ट हैश, पुनः प्राप्त संदर्भ, LLM प्रदाता और मॉडल और संस्करण, कच्चा LLM आउटपुट, पार्स किया गया टूल कॉल, OPA निर्णय, API प्रतिक्रिया, डाउनस्ट्रीम प्रभाव, और जहाँ लागू हो वहाँ अनुमोदक UID। रिकॉर्ड लेखन समय पर क्रिप्टोग्राफ़िक रूप से हस्ताक्षरित होते हैं। यह लॉग वह है जो SR 11-7 और SS1/23 परीक्षक माँगेंगे। यदि आप किसी भी दिए गए निर्णय के लिए एक पूर्ण ट्रेस प्रस्तुत नहीं कर सकते, तो आपके पास एक मॉडल-रिस्क-प्रबंधित एजेंट नहीं है।

5. आपातकालीन स्विच #

एक रेड-बटन API जो 60 सेकंड से कम में एक अनुमति वर्ग के भीतर सभी इन-फ़्लाइट एजेंट आह्वानों को रद्द करता है। तिमाही में एक टेबलटॉप अभ्यास के साथ परीक्षण। आपातकालीन स्विच ही एकमात्र चीज़ है जो आपको एक वेंडर मॉडल रिलीज़ से पुनर्प्राप्त करती है जो चुपचाप पीछे हटता है, एक प्रॉम्प्ट-इंजेक्शन वेक्टर से जिसका आपने अनुमान नहीं लगाया, या एक बहाव घटना से जो आपकी परिचालन सीमा से परे झूठी-सकारात्मक दरों को धकेलती है। अपरीक्षित आपातकालीन स्विच काम नहीं करते; अभ्यास के समय का बजट रखें।

मॉडल रिस्क मैनेजमेंट #

जो बैंक यह तर्क देते हैं कि "SR 11-7 के तहत LLM एक मॉडल नहीं है", वे पहले ही हार चुके हैं। Federal Reserve ने बार-बार स्पष्ट किया है कि निर्णयन वर्कफ़्लो में उपयोग की जाने वाली कोई भी इनपुट-से-आउटपुट प्रणाली दायरे में है। PRA का SS1/23 और भी व्यापक है। सही मुद्रा: हर उत्पादन एजेंट को पहले दिन से ही SR 11-7 / SS1/23 मॉडल मानें। एक तैनात एजेंट को बाद में एक मॉडल के रूप में फिर से तैयार करने की लागत, उसे अग्रिम रूप से एक मॉडल के रूप में डिज़ाइन करने की लागत का कई गुना है।

एजेंटों पर लागू, बचाव की तीन पंक्तियाँ:

बिंदु-समय मान्यता से अधिक निरंतर निगरानी मायने रखती है। साप्ताहिक रूप से पुनः चलाए जाने वाले बैंक-विशिष्ट मूल्यांकन सूट उन मॉडल-अपडेट रिग्रेशन को पकड़ते हैं जिन्हें वेंडर बेंचमार्क सतह पर नहीं लाएँगे। OpenAI, Anthropic और Google की रिलीज़ ताल आपकी मान्यता ताल से तेज़ है; या तो अंतर आपके निरंतर मूल्यांकन चलाने से बंद होता है, या यह आपके लिए एक परीक्षक के निष्कर्ष से बंद होता है।

व्यावसायिक प्रभाव मापना #

सामान्य उत्पादकता दावे CFO बातचीत में नहीं टिकते। एजेंटों को उसी तरह मापें जैसे आप अन्य परिचालन परिवर्तनों को मापते हैं:

यदि कोई वर्कफ़्लो तेज़ लेकिन कम व्याख्या-योग्य हो जाता है, तो सूचकांक को इसे दंडित करने की आवश्यकता है। नियामक परीक्षा विफल करने का सबसे सस्ता तरीका थ्रूपुट के लिए अनुकूलन करना और ट्रेस खोना है।

बैंक प्रकार के अनुसार इसका क्या अर्थ है #

वैश्विक प्रणालीगत रूप से महत्वपूर्ण बैंक #

कठिन समस्या पैमाने पर गवर्नेंस है: व्यावसायिक लाइनों में सैकड़ों एजेंट, हर एक का अपना मॉडल स्वामी, हर एक एक संभावित ऑडिट निष्कर्ष। निवेश एक और पायलट नहीं है। यह केंद्रीय नियंत्रण विमान, एकीकृत ऑडिट-लॉग बुनियादी ढाँचा, और एक तिमाही में 50-प्लस एजेंटों को मान्य करने में सक्षम एक MRM बेंच है। उस क्षमता के बिना, एजेंट उतनी तेज़ी से उतरते हैं जितनी तेज़ी से उन्हें गवर्न किया जा सकता है और संस्था चुपचाप SR 11-7 जोखिम जमा करती जाती है।

लेन-देन और कॉर्पोरेट बैंक #

उच्चतम-ROI वर्कफ़्लो भुगतान मरम्मत, KYC दस्तावेज़ निष्कर्षण, ट्रेज़री-सेवा FAQ विक्षेपण और मिलान विराम हैं। सभी स्तर-2 या सीमित स्तर-3। कॉर्पोरेट ग्राहक की परवाह नहीं कि काम एक एजेंट ने किया; वे परवाह करते हैं कि SLA सुधरा और विवाद दर सपाट रही। मेट्रिक्स के साथ नेतृत्व करें, तकनीक के साथ नहीं।

क्षेत्रीय बैंक #

ख़रीदें, बनाएँ नहीं। ऐसा वेंडर चुनें जिसके एजेंट प्लेटफ़ॉर्म में पहले से नियंत्रण-विमान प्रिमिटिव हों — OAuth स्कोपिंग, OPA एकीकरण, WORM ऑडिट लॉगिंग, परीक्षित आपातकालीन स्विच — और उस प्लेटफ़ॉर्म को अपने MRM ढाँचे के विरुद्ध मान्य करें। एक बेस्पोक नियंत्रण विमान बनाना एक बहु-वर्षीय निवेश है जो क्षेत्रीय पैमाने पर अंतर नहीं करता। इसके बजाय इंजीनियरिंग क्षमता को वर्कफ़्लो डिज़ाइन और ऑपरेटर UX पर खर्च करें।

फ़िनटेक, PSP और बुनियादी ढाँचा प्रदाता #

वेंडरों के लिए उत्पाद प्रश्न यह नहीं है कि "क्या आपका AI एजेंट मनुष्यों से बेहतर प्रदर्शन करता है।" यह है "क्या आपका प्लेटफ़ॉर्म आउट-ऑफ़-द-बॉक्स एक SR 11-7-अनुपालक ऑडिट ट्रेस उत्पन्न करता है।" जो वेंडर इसका हाँ में उत्तर दे सकते हैं वे एंटरप्राइज़ सौदे बंद करेंगे। जो नहीं कर सकते वे प्रूफ़-ऑफ़-कॉन्सेप्ट लूप में फँस जाएँगे जबकि बैंक की MRM टीम मान्यता विफल करने के कारण ढूँढती है।

निष्कर्ष #

2026 में बैंकों में एजेंटिक AI एक इंजीनियरिंग समस्या है। दिलचस्प काम नियंत्रण विमान में है, मॉडल में नहीं। मॉडल विनिमेय है; OAuth स्कोपिंग, डिटरमिनिस्टिक सिमेंटिक राउटर, OPA नीति गेट्स, अपरिवर्तनीय ऑडिट लॉग और आपातकालीन स्विच विनिमेय नहीं हैं।

जो संस्थाएँ 18 महीनों में नियामकों को विश्वसनीय दिखेंगी, वे वही हैं जो हर उत्पादन एजेंट को पहले दिन से SR 11-7 / SS1/23 मॉडल मानती हैं, बैंक-विशिष्ट मूल्यांकन सूट निरंतर चलते हैं और एक नियंत्रण विमान सुरक्षित रूप से विफल होने के लिए इंजीनियर किया गया है। जो नहीं करतीं वे पता लगाएँगी कि क्या उनकी MRM बेंच प्रति तिमाही 50-प्लस उपचार निष्कर्षों को संभालने के लिए स्केल कर सकती है।

एजेंटों को उसी तरह मापें जैसे आप किसी भी परिचालन परिवर्तन को मापते हैं: लागत, विश्वसनीयता, प्रतिवर्तीयता, साक्ष्य। 66.3% पर OSWorld आपकी विश्वसनीयता छत है। उसी के अनुसार योजना बनाएँ।

अक्सर पूछे जाने वाले प्रश्न #

बैंकिंग में एजेंटिक AI क्या है?

एक सीमित वर्कफ़्लो जो एक LLM को उत्पादन प्रणालियों में टूल कॉल्स, रनटाइम सुरक्षा बाधाओं और ह्यूमन इन द लूप चेकपॉइंट्स के साथ जोड़ता है। काम वर्कफ़्लो के अंदर होता है, मॉडल के अंदर नहीं। यदि आपने "चैटबॉट" शब्द सुना है, तो आप ग़लत श्रेणी में हैं।

बैंकों को कहाँ शुरू करना चाहिए?

स्तर 1 और स्तर 2 वर्कफ़्लो जहाँ मूल्य मापनीय हो और नकारात्मक पक्ष नियंत्रणीय हो: ISDA खंड निष्कर्षण, SAR मसौदा, भुगतान-मरम्मत ट्राइएज, आंतरिक ज्ञान पुनर्प्राप्ति, कोड समीक्षा सहायता, KYC दस्तावेज़ वर्गीकरण। स्तर 3 को तब तक टालें जब तक आपका नियंत्रण विमान OAuth स्कोपिंग, सिमेंटिक राउटिंग, OPA गेटिंग, WORM लॉगिंग और एक परीक्षित आपातकालीन स्विच को संभाल न ले।

सबसे बड़ा जोखिम क्या है?

LLM आउटपुट और API के बीच डिटरमिनिस्टिक सुरक्षा बाधाओं के बिना एजेंटों को उत्पादन API के विरुद्ध निष्पादित करने देना। OSWorld 66.3% संख्या चेतावनी है। उस विफलता दर पर SWIFT MT103 या ग्राहक-निधि API के विरुद्ध बिना लपेटे टूल कॉल्स अगले नियामक चक्र की सबसे ख़राब-स्थिति शीर्षक लिखते हैं।

क्या SR 11-7 LLM-आधारित एजेंटों पर लागू होता है?

हाँ। Federal Reserve ने स्पष्ट किया है कि निर्णयन वर्कफ़्लो में उपयोग की जाने वाली कोई भी इनपुट-से-आउटपुट प्रणाली SR 11-7 के अधीन है। PRA का SS1/23 UK में वही ज़मीन कवर करता है। EU AI Act का उच्च-जोखिम वर्गीकरण अधिकांश वित्तीय-सेवा उपयोग मामलों को कवर करता है। "क्या यह एक मॉडल है" बहस ख़त्म हो गई; उसी के अनुसार कार्य करें।

एजेंटिक AI को बोर्डों को कैसे रिपोर्ट किया जाना चाहिए?

प्रति वर्कफ़्लो चार संख्याएँ: स्वायत्तता स्तर, ऑडिट-ट्रेस पूर्णता, उलटाव दर, प्रति निर्णय शुद्ध लागत। साथ ही एक शीर्ष-पाँच अवशिष्ट-जोखिम सूची। मॉडल-कार्ड स्लाइडवेयर छोड़ें।

संदर्भ #

अंतिम समीक्षा

अंतिम समीक्षा .