ব্যাংকিংয়ে এজেন্টিক AI এখন AI সমস্যার পোশাকে সজ্জিত একটি ইঞ্জিনিয়ারিং সমস্যা। মডেল বিনিময়যোগ্য; কন্ট্রোল প্লেন নয়। ২০২৬-এর চ্যালেঞ্জ গ্রহণযোগ্যতা নয় — Cambridge CCAF ইতিমধ্যে সেটিকে ৫২%-এ রেখেছে — চ্যালেঞ্জ হলো আপনার ব্যাংক আজ যে স্বায়ত্ত সিস্টেমগুলি চালাচ্ছে, সেগুলি পরবর্তী ত্রৈমাসিকে একটি SR 11-7 পরীক্ষায় উত্তীর্ণ হতে পারবে কি না। বেশিরভাগই পারবে না।
নির্বাহী সারসংক্ষেপ / মূল গ্রহণযোগ্যতা
- এদের আর চ্যাটবট বলবেন না। প্রোডাকশন একক হলো কঠোর টুল কল অনুমতিসহ একটি সীমাবদ্ধ কর্মপ্রবাহ। কাজটি হয় কর্মপ্রবাহের ভেতরে, LLM-এর ভেতরে নয়।
- OSWorld ৬৬.৩%-এ নির্ভরযোগ্যতার সর্বোচ্চ সীমা। এন্টারপ্রাইজ টুল-ব্যবহারের সর্বাধিক নিকটতম Stanford HAI বেঞ্চমার্কেও প্রতি তিনটি কাঠামোবদ্ধ কাজের একটি ব্যর্থ হয়। এই সংখ্যা আক্রমণাত্মক হিউম্যান-ইন-দা-লুপ স্থাপনাকে সমর্থন করে; কিন্তু গ্রাহকের অর্থ স্পর্শ করে এমন কোনো কিছুর বিরুদ্ধে তদারকিহীন কার্যকর সমর্থন করে না।
- বুদ্ধিমত্তা নয়, অনুমতি দিয়ে শ্রেণীবদ্ধ করুন। স্বায়ত্তশাসনের সিঁড়ি স্তর ০ (শুধুমাত্র-পঠনযোগ্য ISDA ক্লজ নিষ্কাশন) থেকে স্তর ৪ (বাধ্যতামূলক চেকপয়েন্টসহ মাল্টি-টুল পেমেন্ট মেরামত) পর্যন্ত প্রসারিত। স্তর ৫ — চেকপয়েন্ট ছাড়া স্ব-অর্কেস্ট্রেটিং কার্যকর — ২০২৬-এ প্রোডাকশন ব্যাংকিংয়ে থাকা উচিত নয়।
- এজেন্ট কন্ট্রোল প্লেন পাঁচটি ইঞ্জিনিয়ারড উপাদান, একটি নীতি নথি নয়। OAuth-স্কোপযুক্ত পরিষেবা অ্যাকাউন্ট, ডিটারমিনিস্টিক সিম্যান্টিক রাউটিং, Open Policy Agent গেটিং, WORM অডিট লগিং এবং একটি পরীক্ষিত জরুরি বন্ধ সুইচ। যা অনুপস্থিত তাই একটি ফাইন্ডিং।
- SR 11-7 এবং PRA SS1/23 ইতিমধ্যেই প্রযোজ্য। Fed বারবার স্পষ্ট করেছে যে কোনো ইনপুট-থেকে-আউটপুট সিদ্ধান্ত গ্রহণ সিস্টেম এর আওতাভুক্ত। যে ব্যাংকগুলি যুক্তি দেয় LLM মডেল নয়, তারা যুক্তি দেওয়ার আগেই নিয়ন্ত্রক বিতর্কে হেরে গেছে।
কেন ২০২৬ সেই বছর যখন এই সূচক গুরুত্বপূর্ণ #
চ্যাট থেকে সীমাবদ্ধ কর্মপ্রবাহে স্থানান্তর — এই বছর ব্যাংকের জন্য এজেন্টিক AI-তে এটিই একমাত্র গুরুত্বপূর্ণ বিষয়। যে চ্যাটবট একটি গ্রাহক ইমেইলের খসড়া তৈরি করে, সেটি পর্যালোচনাযোগ্য। যে এজেন্ট আপনার প্রোডাকশন কার্ড প্ল্যাটফর্মের বিরুদ্ধে POST /accounts/{id}/freeze কল করে, সেটি অডিটযোগ্য প্রমাণ। প্রোডাকশন এই অবস্থানে পৌঁছেছে: Cambridge CCAF-র ২০২৬ সমীক্ষা ৫২% সক্রিয় এজেন্টিক গ্রহণ এবং ২৩% স্কেলিং বা রূপান্তর পরিপক্বতার পরিসংখ্যান দিচ্ছে (Cambridge CCAF ⧉)। "বিচ্ছিন্ন পাইলট" সীমাটি ২০২৫-এর শেষের কোনো এক সময়ে অতিক্রান্ত হয়েছে।
গ্রহণযোগ্যতার পাশাপাশি দুটি বিষয় পরিবর্তিত হয়েছে।
প্রথমত, নিয়ন্ত্রকরা LLM-কে নতুনত্ব হিসেবে দেখা বন্ধ করেছেন। Federal Reserve স্পষ্ট করেছে যে SR 11-7 ⧉ LLM-ভিত্তিক সিদ্ধান্ত গ্রহণের ক্ষেত্রে প্রযোজ্য, LLM অভ্যন্তরীণভাবে মডেল হিসেবে শ্রেণীবদ্ধ কি না তা নির্বিশেষে। PRA-র SS1/23 ⧉ সর্বদাই এদের ধারণ করার মতো যথেষ্ট ব্যাপক ছিল। EU AI Act-এর উচ্চ-ঝুঁকি শ্রেণীবিভাগ অধিকাংশ আর্থিক-পরিষেবা LLM ব্যবহারকে আওতাভুক্ত করে। "আমরা নিশ্চিত নই এটি গণ্য হয় কি না" — এই যুক্তি আর অবশিষ্ট নেই।
দ্বিতীয়ত, বেঞ্চমার্কের বাস্তবতা এসে পৌঁছেছে। Stanford HAI-র ২০২৬ AI Index OSWorld-কে — বাস্তব এন্টারপ্রাইজ টুল-ব্যবহারের সর্বাধিক নিকটতম উপলভ্য বেঞ্চমার্ক — ৬৬.৩% নির্ভুলতায় উল্লেখ করেছে (Stanford HAI ⧉)। প্রতি তিনটি কাঠামোবদ্ধ কাজের একটি এখনো ব্যর্থ হয়। সেই সংখ্যাই ২০২৬-এ স্বায়ত্তশাসনের কারিগরি সর্বোচ্চ সীমা স্থির করে। HITL তত্ত্বাবধানের অধীনে সীমাবদ্ধ স্তর-৩ স্থাপনা ন্যায্যতার জন্য যথেষ্ট উঁচু; কিন্তু গ্রাহক-তহবিল স্পর্শ করে এমন কোনো API-র বিরুদ্ধে তদারকিহীন কার্যকর ন্যায্যতার জন্য যথেষ্ট উঁচু নয়।
ব্যাংকের জন্য এজেন্টিক AI সূচকের কাজ — LLM-ভিত্তিক সিদ্ধান্ত গ্রহণের জন্য তেমনই করা, যেমন Basel কাঠামো মূলধনের জন্য করেছিল: "আমাদের নিয়ন্ত্রণ আছে" দাবিগুলিকে কর্মপ্রবাহ-প্রতি পরিমাপযোগ্য, অডিটযোগ্য প্রমাণে রূপান্তরিত করা।
২০২৬ সূচক স্থাপত্য #
| সূচক স্তর | "প্রস্তুত" কেমন দেখায় | প্রস্তুতির মেট্রিক | ব্যর্থতার ধরন |
|---|---|---|---|
| স্বায়ত্তশাসন স্তর | প্রতিটি প্রোডাকশন কর্মপ্রবাহ স্তর ০–৪-এ ট্যাগ করা; প্রোডাকশনে কোনো স্তর ৫ নেই | স্তর অনুযায়ী % কর্মপ্রবাহ; স্তর ৩+-এ অংশ | প্রোডাকশন এজেন্ট একটি হ্যালুসিনেটেড বেনিফিশিয়ারি BIC-তে pacs.008 পাঠায় কারণ SWIFTNet-এর আগে কোনো স্ট্যাটিক অনুমতি-তালিকা পেলোডকে গেট করেনি |
| API অনুমতি | প্রতিটি এজেন্ট ন্যূনতম সুবিধার OAuth স্কোপসহ একটি পরিষেবা অ্যাকাউন্টে ম্যাপ করে (যেমন card-freeze:write:lt-5000usd); লিগ্যাসি কোরে MTLS |
ন্যূনতম সুবিধায় % এজেন্ট; অরফান-অনুমতি সংখ্যা | এজেন্ট একটি অতিরিক্ত-স্কোপযুক্ত পরিষেবা অ্যাকাউন্ট পুনঃব্যবহার করে; যেসব অ্যাকাউন্ট পড়ার অধিকার ছিল না সেগুলি ইটারেট করে; ৭২ ঘণ্টার মধ্যে GDPR অনুচ্ছেদ ৩৩ ঘটনা দাখিল |
| ডিটারমিনিস্টিক সুরক্ষা বেড়া | প্রতিটি টুল কল API-র আগে একটি সিম্যান্টিক রাউটার (NeMo Guardrails / LangChain Guardrails) এবং JSON-স্কিমা ভ্যালিডেটরের মাধ্যমে রুট হয় | আটক % টুল কল; বিভাগ অনুযায়ী প্রত্যাখ্যান হার | LLM amount: 0 সহ একটি transfer কল নির্গত করে; ডাউনস্ট্রিম API যাচাই করে না; ১৮ ঘণ্টা পরে ভিন্ন টাইমজোনে লেজার মিলানের সতর্কতা আসে |
| হিউম্যান-ইন-দা-লুপ পরিধি | প্রতিটি স্তর-৩ কার্যকর একটি অনুমোদন UI প্রদর্শন করে যেখানে কঠোর টাইমআউট থাকে; স্বয়ংক্রিয়-অনুমোদন নীতি অনুযায়ী নিষ্ক্রিয় | অনুমোদনের গতি; রাবার-স্ট্যাম্প হার (২ সেকেন্ডের কম সময়ে অনুমোদিত) | অপারেটর ৪ মিনিটে ২০০ সতর্কতায় "অনুমোদন" ক্লিক করেন; একজন বৈধ গ্রাহকের বিরুদ্ধে SAR দাখিল; সপ্তাহের মধ্যে নিয়ন্ত্রক অভিযোগ |
| অডিটের পূর্ণতা | অপরিবর্তনীয় WORM লগ ধারণ করে সিস্টেম প্রম্পট + পুনরুদ্ধৃত প্রসঙ্গ + LLM আউটপুট + টুল কল + টুল ফলাফল + অনুমোদনকারী UID; লেখার সময়ই ক্রিপ্টোগ্রাফিকভাবে স্বাক্ষরিত | পূর্ণ ট্রেস সহ % আহ্বান | SR 11-7 পরীক্ষক জিজ্ঞাসা করেন কেন এজেন্ট #৪৪২১ একটি $৪.৮M তারের অনুমোদন দিয়েছে; ব্যাংকের কাছে তারের রসিদ এবং মডেল কার্ড আছে; কিন্তু প্রম্পট-স্তরের প্রমাণ নেই; ফাইন্ডিং জারি |
| একক অর্থনীতি | প্রতি সম্পন্ন সিদ্ধান্তের ব্যয় ট্র্যাক করা হয়, যা বিপরীতকরণ ও মেরামতের খরচ অন্তর্ভুক্ত; ম্যানুয়াল বেসলাইনের তুলনায় ইতিবাচক | প্রতি সিদ্ধান্তে নিট ব্যয়; বিপরীতকরণ হার | এজ-কেস এজেন্টে প্রতি-টোকেন ব্যয় যে ম্যানুয়াল তদন্তকারী খরচ এদের প্রতিস্থাপন করেছে তা ছাড়িয়ে যায়; CFO Q3-এ প্রোগ্রামটি বন্ধ করেন |
ট্র্যাক করার মতো বর্তমান সংকেত #
| সংকেত | ব্যাংকের জন্য এর অর্থ কী | উৎস |
|---|---|---|
| ৫২% সক্রিয় গ্রহণ | এজেন্টিক AI পাইলট পর্যায় অতিক্রান্ত; প্রতিষ্ঠান-ব্যাপী গভর্নেন্স অনেক বিলম্বিত | Cambridge CCAF ⧉ |
| ২৩% স্কেলিং বা রূপান্তরে | একটি অর্থবহ সংখ্যালঘু প্রুফ-অফ-কনসেপ্ট নাটকের বাইরে গেছে | Cambridge CCAF ⧉ |
| OSWorld ৬৬.৩%-এ | কাঠামোবদ্ধ টুল-ব্যবহারে তিনের মধ্যে একটি ব্যর্থতার হার। এই নির্ভরযোগ্যতার স্তরে গ্রাহক-তহবিল API-র বিরুদ্ধে তদারকিহীন কার্যকর অসমর্থনীয় | Stanford HAI ⧉ |
| ৫৫% মানব তত্ত্বাবধান হারানোকে শীর্ষ ঝুঁকি হিসেবে উল্লেখ করেন | নিয়ন্ত্রণ ডিজাইন প্রধান ইঞ্জিনিয়ারিং উদ্বেগ, ডাউনস্ট্রিম কমপ্লায়েন্সের নয় | Cambridge CCAF ⧉ |
| ৭৬% বড় আর্থিক প্রতিষ্ঠান মূল্য পরিমাপে সংগ্রাম করেন | সাধারণ উৎপাদনশীলতার দাবি একটি CFO কথোপকথনে টিকে না। কর্মসূচি-প্রতি নয়, কর্মপ্রবাহ-প্রতি পরিমাপ করুন | Cambridge CCAF ⧉ |
স্বায়ত্তশাসনের সিঁড়ি #
অন্তর্নিহিত মডেল কতটা চতুর তা নয়, এজেন্টকে কী করার অনুমতি দেওয়া হয়েছে তা দিয়ে শ্রেণীবদ্ধ করুন। একই GPT-5 / Claude 4 / Gemini 3 ইনস্ট্যান্স প্রতিটি স্তরে বসতে পারে; পার্থক্য হলো র্যাপার।
- স্তর ০ — পর্যবেক্ষণ। লগ, ট্রেস বা লেনদেনে শুধুমাত্র-পঠনযোগ্য অ্যাক্সেস। এজেন্ট প্যাটার্ন বা অসঙ্গতি তুলে ধরে; কোথাও কিছু লেখে না। উদাহরণ: করিডর অনুসারে
pacs.008প্রত্যাখ্যান হারে ড্রিফট সনাক্ত করা এবং অপারেশন দলকে সতর্ক করা। - স্তর ১ — শুধুমাত্র-পঠনযোগ্য পুনরুদ্ধার। অপারেশনাল সিস্টেম থেকে পড়ে; মানব ব্যবহারের জন্য কাঠামোবদ্ধ আউটপুট নির্গত করে। উদাহরণ: একটি প্রতিপক্ষের ISDA Master Agreement থেকে CSA ক্লজ ভিন্নতা নিষ্কাশন এবং ব্যাংকের প্রমিত টেমপ্লেট থেকে বিচ্যুতি চিহ্নিত করা। এজেন্ট চুক্তি স্টোরে কখনো ফিরে লেখে না।
- স্তর ২ — মানবিক দাখিলের জন্য খসড়া। এমন বিষয়বস্তু তৈরি করে যা একজন মানুষ পর্যালোচনা ও দাখিল করে। উদাহরণ: জালিয়াতি-সিস্টেম সতর্কতা, KYC রেকর্ড এবং লেনদেন ট্রেস থেকে একটি Suspicious Activity Report-এর খসড়া; BSA কর্মকর্তা পড়েন, প্রয়োজনে সম্পাদনা করেন এবং দাখিল করেন। রেকর্ড সিস্টেম শুধু মানব-অনুমোদিত সংস্করণ দেখে।
- স্তর ৩ — সীমাবদ্ধ কার্যকর। র্যাপার দ্বারা প্রয়োগকৃত কঠোর, ডিটারমিনিস্টিক সীমাসহ একটি প্রোডাকশন API কল করে। উদাহরণ: একটি অনুমতি-তালিকা নীতি দ্বারা প্রয়োগকৃত
max-amount-at-risk: 5000 USDসহ কার্ড-ফ্রিজ API কল; এজেন্ট সেই থ্রেশহোল্ডের উপরে ব্যালেন্সযুক্ত কার্ড স্তর-২ এসকেলেশন ছাড়া হিমায়িত করতে পারে না। সীমাটি কোড হিসেবে নীতিতে থাকে, প্রম্পটে নয় — প্রম্পট কোনো নিরাপত্তা সীমানা নয়। - স্তর ৪ — বাধ্যতামূলক চেকপয়েন্টসহ মাল্টি-টুল অর্কেস্ট্রেশন। সিস্টেমজুড়ে একটি ক্রম চালায়; প্রতিটি অবস্থা পরিবর্তন লগ করা হয়; পরবর্তী টুল কলের আগে চেকপয়েন্টে মানব অনুমোদনের প্রয়োজন। উদাহরণ: পেমেন্ট-মেরামত কর্মপ্রবাহ — ডেড-লেটার সারি থেকে ব্যর্থ
pacs.008নিষ্কাশন → SWIFT KYC Registry-র মাধ্যমে সঠিক বেনিফিশিয়ারি দেখা → সংশোধিত বার্তা তৈরি → বহির্গামী সারিতে লেখা → মানুষ পুনঃপ্রেরণ অনুমোদন করে। কোনো ধাপ যদি স্কিমা ভ্যালিডেটরে ব্যর্থ হয়, কর্মপ্রবাহ থামে এবং একটি ব্যতিক্রম কেস তৈরি করে। - স্তর ৫ — স্ব-অর্কেস্ট্রেশন। এজেন্ট চেকপয়েন্ট অনুমোদন ছাড়াই পরিকল্পনা ও কার্যকর করে। ২০২৬-এ কোনো প্রোডাকশন ব্যাংকিং কর্মপ্রবাহ স্তর ৫-এ থাকা উচিত নয়। এটি পরিপক্বতার বিবৃতি নয়; এটি নির্ভরযোগ্যতার বিবৃতি। OSWorld ৬৬.৩% সংযুক্ত API কলে সম্মিলিতভাবে কাজ করে। প্রতিটি ৬৬%-এ তিনটি টুল কল মানে শেষ-থেকে-শেষ ২৯% সাফল্য। পাঁচটি মানে ১৩%। করবেন না।
এজেন্ট কন্ট্রোল প্লেন #
কন্ট্রোল প্লেন হলো LLM এবং আপনার প্রোডাকশন সিস্টেমের মধ্যে ইঞ্জিনিয়ারিং স্তর। পাঁচটি উপাদান, সব রানটাইম, কোনোটিই একটি নীতি নথিতে লেখা নয়।
১. পরিচয় এবং অনুমতি #
প্রতিটি এজেন্ট ঠিক একটি পরিষেবা অ্যাকাউন্টে ম্যাপ করে। সেই অ্যাকাউন্ট প্রয়োজনীয় ন্যূনতম API পৃষ্ঠে স্কোপ করা OAuth client_credentials টোকেন ধারণ করে। কার্ড-ফ্রিজ এজেন্টের টোকেন amount-at-risk: 0..5000 usd সহ POST /accounts/{id}/freeze কল করতে পারে। এটি অন্যান্য গ্রাহকদের জন্য GET /accounts/{id}/balance কল করতে পারে না। কাস্টডি, ট্রেজারি বা ট্রেডিংয়ে এটি কিছু কল করতে পারে না। পরিষেবা-অ্যাকাউন্ট গোপনীয়তা সাপ্তাহিক ঘোরে; দীর্ঘজীবী শংসাপত্র প্রোডাকশন স্থাপনায় সবচেয়ে সাধারণ কন্ট্রোল-প্লেন ব্যর্থতা।
২. টুল কলে ডিটারমিনিস্টিক সুরক্ষা বেড়া #
প্রতিটি LLM টুল কল প্রোডাকশন API-তে আঘাত হানার আগে একটি ডিটারমিনিস্টিক সিম্যান্টিক রাউটার (NeMo Guardrails, LangChain Guardrails বা সমতুল্য) দিয়ে যায়। রাউটার একটি সসীম অনুমতি-তালিকার বিরুদ্ধে অভিপ্রায় শ্রেণীবদ্ধ করে; তালিকার বাইরের কলগুলি প্রত্যাখ্যাত ও লগ করা হয়। তারপর একটি JSON-স্কিমা ভ্যালিডেটর পেলোড পরীক্ষা করে — প্রয়োজনীয় ক্ষেত্র উপস্থিত, ডলার পরিমাণ সীমার মধ্যে, ISO দেশের কোড বৈধ, ব্যাংকের পূর্ব-অনুমোদিত প্রতিপক্ষ তালিকায় বেনিফিশিয়ারি BIC। ভ্যালিডেটরকে সংশয়ী হতে হবে: amount: 0 সহ একটি pacs.008 একটি মডেল ব্যর্থতা, একটি বৈধ লেনদেন নয়। আপনার নিষেধাজ্ঞা ফিল্টার যে দেশ মূল গ্রাহক সেগমেন্টের জন্য পূর্ব-অনুমোদন করেনি, সেখানে একটি তারও তেমনই।
৩. কোড হিসেবে নীতি #
ভ্যালিডেটর এবং API-র মধ্যে Open Policy Agent (বা সমতুল্য) থাকে। নীতিগুলি Git-এ সংস্করণযুক্ত; প্রত্যাখ্যান সিদ্ধান্ত লগ করা হয়; আপনার বিদ্যমান প্ল্যাটফর্মে যে নীতি ইঞ্জিন মাইক্রোসার্ভিস-থেকে-মাইক্রোসার্ভিস কল গেট করে, সেটিই এজেন্ট টুল কল গেট করে। এজেন্টকে কাস্টম গেটিংসহ একটি বিশেষ শ্রেণী হিসেবে গণ্য করাই হলো ব্যাংক যেভাবে শ্যাডো কন্ট্রোল প্লেন তৈরি করে — যা ছয় মাস পর প্ল্যাটফর্ম দলের কেউই বুঝতে পারে না।
৪. অডিট লগিং #
অপরিবর্তনীয় WORM স্টোরেজ — S3 Object Lock, Azure Blob immutability বা একটি লেজারড ডাটাবেস। প্রতিটি আহ্বান ধারণ করে: টাইমস্ট্যাম্প, এজেন্ট ID, পরিষেবা-অ্যাকাউন্ট ID, সিস্টেম-প্রম্পট হ্যাশ, পুনরুদ্ধৃত প্রসঙ্গ, LLM প্রদানকারী + মডেল + সংস্করণ, কাঁচা LLM আউটপুট, পার্সড টুল কল, OPA সিদ্ধান্ত, API প্রতিক্রিয়া, ডাউনস্ট্রিম প্রভাব এবং প্রযোজ্য ক্ষেত্রে অনুমোদনকারী UID। রেকর্ড লেখার সময় ক্রিপ্টোগ্রাফিকভাবে স্বাক্ষরিত হয়। SR 11-7 এবং SS1/23 পরীক্ষকরা এই লগই চাইবেন। যদি আপনি যেকোনো প্রদত্ত সিদ্ধান্তের জন্য একটি সম্পূর্ণ ট্রেস তৈরি করতে না পারেন, তাহলে আপনার কাছে একটি মডেল-ঝুঁকি-পরিচালিত এজেন্ট নেই।
৫. জরুরি বন্ধ সুইচ #
একটি লাল-বোতাম API যা একটি অনুমতি শ্রেণীর মধ্যে সমস্ত চলমান এজেন্ট আহ্বান ৬০ সেকেন্ডের কম সময়ে বাতিল করে। ত্রৈমাসিক টেবিলটপ অনুশীলনের মাধ্যমে পরীক্ষিত। জরুরি বন্ধ সুইচই একমাত্র জিনিস যা আপনাকে এমন একটি ভেন্ডর মডেল রিলিজ থেকে পুনরুদ্ধার করে যা নীরবে রিগ্রেস হয়, এমন একটি প্রম্পট-ইনজেকশন ভেক্টর থেকে যা আপনি আশা করেননি, বা এমন একটি ড্রিফট ইভেন্ট থেকে যা মিথ্যা-পজিটিভ হার আপনার অপারেশনাল থ্রেশহোল্ডের বাইরে ঠেলে দেয়। অপরীক্ষিত জরুরি বন্ধ সুইচ কাজ করে না; অনুশীলনের সময়ের জন্য বাজেট রাখুন।
মডেল ঝুঁকি ব্যবস্থাপনা #
যে ব্যাংকগুলি যুক্তি দেয় "SR 11-7-এর অধীনে LLM একটি মডেল নয়," তারা ইতিমধ্যেই হেরে গেছে। Federal Reserve বারবার স্পষ্ট করেছে যে সিদ্ধান্ত গ্রহণ কর্মপ্রবাহে ব্যবহৃত যেকোনো ইনপুট-থেকে-আউটপুট সিস্টেম এর আওতাভুক্ত। PRA-র SS1/23 আরও ব্যাপক। সঠিক অবস্থান: প্রতিটি প্রোডাকশন এজেন্টকে প্রথম দিন থেকেই SR 11-7 / SS1/23 মডেল হিসেবে গণ্য করুন। একটি স্থাপিত এজেন্টকে পশ্চাদমুখীভাবে মডেল হিসেবে চিহ্নিত করার খরচ — প্রথম থেকেই এটিকে এক হিসেবে ডিজাইন করার খরচের অনেক গুণ।
এজেন্টে প্রয়োগ করা প্রতিরক্ষার তিনটি লাইন:
- প্রথম লাইন (মডেল মালিক)। এজেন্টের অভিপ্রেত ব্যবহার, প্রশিক্ষণ ও ইভাল ডেটা বংশানুক্রম, সিস্টেম প্রম্পট স্কিমা, টুল কল অনুমতি-তালিকা, জরুরি বন্ধ পরীক্ষার ফলাফল নথিভুক্ত করেন। প্রোডাকশনে ড্রিফট মনিটরিংয়ের মালিক।
- দ্বিতীয় লাইন (MRM দল)। প্রোডাকশনের আগে এজেন্ট যাচাই করে। যাচাইকরণ প্রতিবেদনে ভেন্ডর-প্রকাশিত ইভাল স্কোর (MMLU, HumanEval, HellaSwag উপযোগী কিন্তু পর্যাপ্ত নয়), ব্যাংক-নির্দিষ্ট ইভাল স্কোর (অপারেশনাল উদাহরণ থেকে তৈরি আপনার নিজস্ব হেল্ড-আউট মূল্যায়ন সেট — বেশিরভাগ ব্যাংক এই কাজে কম বিনিয়োগ করে), প্রম্পট-ইনজেকশন রেড-টিম ফলাফল, যেখানে কর্মপ্রবাহে গ্রাহক প্রভাব আছে সেখানে পক্ষপাত ও ন্যায্যতা বিশ্লেষণ এবং একটি পরিমাপকৃত অবশিষ্ট-ঝুঁকি বিবৃতি অন্তর্ভুক্ত।
- তৃতীয় লাইন (অভ্যন্তরীণ অডিট)। প্রোডাকশন সিদ্ধান্তের একটি নমুনার বিরুদ্ধে কন্ট্রোল-প্লেন গেট এবং অডিট-লগ পূর্ণতা পরীক্ষা করে। ২০২৭ অডিট চক্র ২০২৫-এর থেকে অনেক ভিন্ন দেখাবে; এখনই এর জন্য বাজেট করুন।
পয়েন্ট-ইন-টাইম যাচাইকরণের চেয়ে নিরন্তর মনিটরিং বেশি গুরুত্বপূর্ণ। সাপ্তাহিক পুনরায় চালিত ব্যাংক-নির্দিষ্ট ইভাল স্যুট সেই মডেল-আপডেট রিগ্রেশন ধরে ফেলে, যা ভেন্ডর বেঞ্চমার্ক উন্মোচিত করবে না। OpenAI, Anthropic এবং Google-এর রিলিজ ছন্দ আপনার যাচাইকরণ ছন্দের চেয়ে দ্রুত; হয় আপনি নিরন্তর ইভাল চালিয়ে ফাঁক বন্ধ করেন, নয়তো একজন পরীক্ষক ফাইন্ডিং দিয়ে আপনার জন্য সেটি বন্ধ করেন।
ব্যবসায়িক প্রভাব পরিমাপ #
সাধারণ উৎপাদনশীলতার দাবি একটি CFO কথোপকথনে টিকে না। আপনি যেভাবে অন্যান্য অপারেশনাল পরিবর্তন পরিমাপ করেন, সেভাবে এজেন্ট পরিমাপ করুন:
- প্রতি সম্পন্ন সিদ্ধান্তে ব্যয়, ব্যর্থ সিদ্ধান্তের বিপরীতকরণ ও মেরামত খরচ অন্তর্ভুক্ত। যে SAR-খসড়াকারী এজেন্ট BSA-কর্মকর্তার সময় ৪০% হ্রাস করে কিন্তু ১২% মিথ্যা-পজিটিভ ফাইলিং তৈরি করে, সে মূল্য সৃষ্টি করেনি, ধ্বংস করেছে।
- এড়ানো ম্যানুয়াল স্পর্শ, কন্ট্রোল-প্লেন তত্ত্বাবধান ও ব্যতিক্রম পরিচালনা দ্বারা সৃষ্ট নতুন স্পর্শের নিট হিসাবে গণনা করা। লক্ষ্য মানব মনোযোগ ন্যূনতম করা নয়; লক্ষ্য সেটিকে উচ্চ-সুবিধাপ্রাপ্ত সিদ্ধান্তে পুনঃনির্দেশিত করা।
- বিপরীতকরণ হার — ২৪ ঘণ্টার মধ্যে রোলব্যাক হওয়া এজেন্ট-নির্বাহিত কর্মের শতাংশ। একটি স্তর-৩ কর্মপ্রবাহে ২%-এর উপরে বিপরীতকরণ হার একটি নির্ভরযোগ্যতা সমস্যা। ৫%-এর উপরে এটি একটি কন্ট্রোল-প্লেন সমস্যা।
- অডিট-ট্রেস পূর্ণতা — সিদ্ধান্তের শতাংশ যেগুলির পূর্ণ উৎস WORM লগ থেকে পুনর্নির্মাণযোগ্য। স্তর-৩ ও স্তর-৪ কর্মপ্রবাহে ১০০% হওয়া উচিত। তার কম যেকোনো কিছু একটি নীতি ব্যর্থতা, যা অডিটে প্রকাশ পাবে।
যদি একটি কর্মপ্রবাহ দ্রুততর কিন্তু কম ব্যাখ্যাযোগ্য হয়, সূচকে সেটিকে শাস্তি দিতে হবে। নিয়ন্ত্রক পরীক্ষায় ব্যর্থ হওয়ার সবচেয়ে সস্তা উপায় হলো থ্রুপুটের জন্য অপ্টিমাইজ করা এবং ট্রেস হারানো।
ব্যাংক প্রকার অনুসারে এর অর্থ কী #
বৈশ্বিকভাবে সিস্টেমিকভাবে গুরুত্বপূর্ণ ব্যাংক #
কঠিন সমস্যা হলো স্কেলে গভর্নেন্স: ব্যবসা লাইনজুড়ে শত শত এজেন্ট, প্রত্যেকের নিজস্ব মডেল মালিক, প্রত্যেকটিই একটি সম্ভাব্য অডিট ফাইন্ডিং। বিনিয়োগ আরেকটি পাইলট নয়। এটি কেন্দ্রীয় কন্ট্রোল প্লেন, একীভূত অডিট-লগ অবকাঠামো এবং ত্রৈমাসিকে ৫০-এর বেশি এজেন্ট যাচাই করতে সক্ষম একটি MRM বেঞ্চ। সেই সক্ষমতা ছাড়া, এজেন্ট গভর্ন করার চেয়ে দ্রুত অবতরণ করে এবং প্রতিষ্ঠানটি নীরবে SR 11-7 এক্সপোজার জমা করে।
লেনদেন ও কর্পোরেট ব্যাংক #
সর্বোচ্চ-ROI কর্মপ্রবাহগুলি হলো পেমেন্ট মেরামত, KYC নথি নিষ্কাশন, ট্রেজারি-পরিষেবা FAQ ডিফ্লেকশন এবং মিলান ব্রেক। সবই স্তর-২ বা সীমাবদ্ধ স্তর-৩। কর্পোরেট ক্লায়েন্ট পরোয়া করেন না যে একজন এজেন্ট কাজটি করেছে; তারা পরোয়া করেন যে SLA উন্নত হয়েছে এবং বিরোধের হার সমতল রয়েছে। মেট্রিক দিয়ে নেতৃত্ব দিন, প্রযুক্তি দিয়ে নয়।
আঞ্চলিক ব্যাংক #
কিনুন, তৈরি করবেন না। এমন একটি ভেন্ডর বাছুন যার এজেন্ট প্ল্যাটফর্মে ইতিমধ্যেই কন্ট্রোল-প্লেন প্রিমিটিভ রয়েছে — OAuth স্কোপিং, OPA ইন্টিগ্রেশন, WORM অডিট লগিং, পরীক্ষিত জরুরি বন্ধ সুইচ — এবং আপনার MRM কাঠামোর বিরুদ্ধে সেই প্ল্যাটফর্মটি যাচাই করুন। একটি কাস্টম কন্ট্রোল প্লেন তৈরি করা একটি বহু-বছরের বিনিয়োগ, যা আঞ্চলিক স্কেলে পার্থক্য তৈরি করে না। ইঞ্জিনিয়ারিং সক্ষমতা পরিবর্তে কর্মপ্রবাহ ডিজাইন এবং অপারেটর UX-এ ব্যয় করুন।
ফিনটেক, PSP এবং অবকাঠামো প্রদানকারী #
ভেন্ডরদের জন্য পণ্য প্রশ্ন "আপনার AI এজেন্ট কি মানুষের চেয়ে ভালো পারফর্ম করে" নয়। প্রশ্নটি হলো "আপনার প্ল্যাটফর্ম কি বাক্সের বাইরে একটি SR 11-7-সম্মত অডিট ট্রেস তৈরি করে।" যে ভেন্ডররা সেটির উত্তর হ্যাঁ দিয়ে দিতে পারবেন, তারা এন্টারপ্রাইজ চুক্তি বন্ধ করবেন। যারা পারবেন না, তারা প্রুফ-অফ-কনসেপ্ট লুপে আটকে থাকবেন যখন ব্যাংকের MRM দল যাচাইকরণে ব্যর্থ হওয়ার কারণ খুঁজে পাবে।
উপসংহার #
২০২৬-এ ব্যাংকে এজেন্টিক AI একটি ইঞ্জিনিয়ারিং সমস্যা। আকর্ষণীয় কাজ কন্ট্রোল প্লেনে, মডেলে নয়। মডেল বিনিময়যোগ্য; OAuth স্কোপিং, ডিটারমিনিস্টিক সিম্যান্টিক রাউটার, OPA নীতি গেট, অপরিবর্তনীয় অডিট লগ এবং জরুরি বন্ধ সুইচ — নয়।
যে প্রতিষ্ঠানগুলি ১৮ মাস পর নিয়ন্ত্রকদের কাছে বিশ্বাসযোগ্য দেখাবে, তারা সেইসব — যারা প্রতিটি প্রোডাকশন এজেন্টকে প্রথম দিন থেকেই SR 11-7 / SS1/23 মডেল হিসেবে গণ্য করে, ব্যাংক-নির্দিষ্ট ইভাল স্যুট নিরন্তর চলে এবং একটি কন্ট্রোল প্লেন নিরাপদে ব্যর্থ হওয়ার জন্য ইঞ্জিনিয়ারড। যারা তা করবে না, তারা আবিষ্কার করবে তাদের MRM বেঞ্চ ত্রৈমাসিকে ৫০-এর বেশি প্রতিকার ফাইন্ডিং সামলাতে স্কেল করতে পারে কি না।
যেকোনো অপারেশনাল পরিবর্তন যেভাবে পরিমাপ করেন, সেভাবে এজেন্ট পরিমাপ করুন: খরচ, নির্ভরযোগ্যতা, বিপরীতকরণযোগ্যতা, প্রমাণ। OSWorld ৬৬.৩%-এ আপনার নির্ভরযোগ্যতার সর্বোচ্চ সীমা। সেই অনুযায়ী পরিকল্পনা করুন।
প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী #
ব্যাংকিংয়ে এজেন্টিক AI কী?
একটি সীমাবদ্ধ কর্মপ্রবাহ যা একটি LLM-কে প্রোডাকশন সিস্টেমে টুল কল, রানটাইম সুরক্ষা বেড়া এবং হিউম্যান-ইন-দা-লুপ চেকপয়েন্টের সঙ্গে একত্রিত করে। কাজটি হয় কর্মপ্রবাহের ভেতরে, মডেলের ভেতরে নয়। আপনি যদি "চ্যাটবট" শব্দটি শুনে থাকেন, আপনি ভুল বিভাগে আছেন।
ব্যাংকগুলির কোথায় শুরু করা উচিত?
স্তর ১ এবং স্তর ২ কর্মপ্রবাহে — যেখানে মূল্য পরিমাপযোগ্য এবং নেতিবাচক প্রভাব সীমাবদ্ধ রাখা যায়: ISDA ক্লজ নিষ্কাশন, SAR খসড়া, পেমেন্ট-মেরামত ট্রায়াজ, অভ্যন্তরীণ জ্ঞান পুনরুদ্ধার, কোড পর্যালোচনা সহায়তা, KYC নথি শ্রেণীবিভাগ। স্তর ৩ এড়িয়ে যান যতক্ষণ না আপনার কন্ট্রোল প্লেন OAuth স্কোপিং, সিম্যান্টিক রাউটিং, OPA গেটিং, WORM লগিং এবং একটি পরীক্ষিত জরুরি বন্ধ সুইচ পরিচালনা করে।
সবচেয়ে বড় ঝুঁকি কী?
LLM আউটপুট এবং API-র মধ্যে ডিটারমিনিস্টিক সুরক্ষা বেড়া ছাড়া এজেন্টকে প্রোডাকশন API-র বিরুদ্ধে চালাতে দেওয়া। OSWorld ৬৬.৩% সংখ্যাটি সতর্কবার্তা। সেই ব্যর্থতার হারে একটি SWIFT MT103 বা গ্রাহক-তহবিল API-র বিরুদ্ধে আনর্যাপড টুল কল পরবর্তী নিয়ন্ত্রক চক্রের সবচেয়ে খারাপ-পরিস্থিতির শিরোনাম লেখে।
SR 11-7 কি LLM-ভিত্তিক এজেন্টে প্রযোজ্য?
হ্যাঁ। Federal Reserve স্পষ্ট করেছে যে সিদ্ধান্ত গ্রহণ কর্মপ্রবাহে ব্যবহৃত যেকোনো ইনপুট-থেকে-আউটপুট সিস্টেম SR 11-7-এর আওতাভুক্ত। PRA-র SS1/23 যুক্তরাজ্যে একই ভূমি ঢেকে রাখে। EU AI Act-এর উচ্চ-ঝুঁকি শ্রেণীবিভাগ অধিকাংশ আর্থিক-পরিষেবা ব্যবহারের ক্ষেত্রকে আওতাভুক্ত করে। "এটি কি একটি মডেল" বিতর্ক শেষ; সেই অনুযায়ী কাজ করুন।
পরিচালনা পর্ষদে এজেন্টিক AI কীভাবে রিপোর্ট করা উচিত?
কর্মপ্রবাহ-প্রতি চারটি সংখ্যা: স্বায়ত্তশাসন স্তর, অডিট-ট্রেস পূর্ণতা, বিপরীতকরণ হার, প্রতি সিদ্ধান্তে নিট ব্যয়। প্লাস একটি শীর্ষ-পাঁচ অবশিষ্ট-ঝুঁকি তালিকা। মডেল-কার্ড স্লাইডওয়্যার এড়িয়ে যান।
তথ্যসূত্র #
- Stanford HAI, (২০২৬)। দ্য ২০২৬ AI ইনডেক্স রিপোর্ট ⧉।
- Stanford HAI, (২০২৬)। টেকনিক্যাল পারফরম্যান্স অধ্যায় ⧉।
- Cambridge Centre for Alternative Finance, (২০২৬)। ২০২৬ বৈশ্বিক আর্থিক পরিষেবায় AI প্রতিবেদন ⧉।
- Federal Reserve, (২০১১)। SR 11-7: মডেল ঝুঁকি ব্যবস্থাপনা নির্দেশিকা ⧉।
- Prudential Regulation Authority, (২০২৩)। সুপারভাইজরি স্টেটমেন্ট SS1/23: ব্যাংকের জন্য মডেল ঝুঁকি ব্যবস্থাপনা নীতি ⧉।
- European Commission, (২০২৪)। Regulation (EU) 2024/1689 — AI Act ⧉।
- NVIDIA, (২০২৪)। NeMo Guardrails ফ্রেমওয়ার্ক ⧉।
- Cloud Native Computing Foundation, (২০১৮)। Open Policy Agent (OPA) ⧉।
সর্বশেষ পর্যালোচনা ।
সর্বশেষ পর্যালোচনা .
