Sebastien Rousseau

Generative AI in 2023: How It Works, Where It Lands

ট্রান্সফর্মার মেকানিক্স, ২০২৩ সালের মডেল বেঞ্চমার্ক, আর্থিক পরিষেবার ব্যবহারের ক্ষেত্র এবং গভর্ন্যান্স প্রশ্নগুলো যা স্থগিত রাখা যায় না।

16 মিনিট পঠন
Banner for: Generative AI in 2023: How It Works, Where It Lands

AI প্রক্রিয়াকরণের প্রতিনিধিত্বকারী নীল এবং বেগুনি রঙে একটি বিমূর্ত নিউরাল নেটওয়ার্ক ভিজ্যুয়ালাইজেশন.class="img-fluid clearfix"

নির্বাহী সারসংক্ষেপ / মূল বিষয়াবলী

  • সেই আর্কিটেকচার যা সবকিছু বদলে দিয়েছে. ২০১৭ সালের transformer পেপার self-attention প্রবর্তন করেছে: ইনপুটে প্রতিটি টোকেন জোড়ার মধ্যে প্রাসঙ্গিকতা ওজন গণনা করার একটি প্রক্রিয়া, RNN-এর ক্রমিক প্রক্রিয়াকরণকে সমান্তরালীকরণযোগ্য ম্যাট্রিক্স অপারেশন দিয়ে প্রতিস্থাপন করে। ২০২৩ সালের প্রতিটি বড় ভাষা মডেল একটি transformer ভ্যারিয়েন্ট (Vaswani et al., 2017).
  • ২০২৩ বেঞ্চমার্ক হিসেবে GPT-4. মার্চ ২০২৩ এ প্রকাশিত, GPT-4 US Bar পরীক্ষায় ৯০তম পারসেন্টাইল, GRE Verbal-এ ৯৯তম পারসেন্টাইল স্কোর করেছে এবং দীর্ঘ নথি জুড়ে বহু-পদক্ষেপ যুক্তি প্রদর্শন করেছে। এটি সক্ষমতার বেঞ্চমার্ক স্থাপন করেছে যা পরবর্তী মডেলগুলি পূরণ করতে বা অতিক্রম করতে লক্ষ্য রেখেছিল (OpenAI, 2023).
  • উন্মুক্ত-ওজন মডেলগুলি প্রবেশাধিকার গণতান্ত্রিক করেছে. Meta-এর Llama 2 (জুলাই ২০২৩) এবং Mistral AI-এর Mistral 7B (সেপ্টেম্বর ২০২৩) দেখিয়েছে যে GPT-3.5 শ্রেণির সক্ষমতার সাথে প্রতিযোগিতামূলক মডেলগুলি প্রাইভেট ইনফ্রাস্ট্রাকচারে চলতে পারে — নিয়ন্ত্রিত শিল্পের ডেটা আবাস্তব প্রয়োজনীয়তা পূরণ করে।
  • ২০২৩ সালে আর্থিক সেবার পাইলট. ২০২৩ সালের শেষে ব্যাপক পরিনিয়োগে আইনি চুক্তি পর্যালোচনা (JPMorgan-এর DocLLM গবেষণা), নিয়ন্ত্রক পরিবর্তন পর্যবেক্ষণ এবং ডেভেলপার উৎপাদনশীলতা সরঞ্জাম অন্তর্ভুক্ত ছিল। Goldman Sachs ১০,০০০ ডেভেলপারের মধ্যে AI কোডিং সহকারীর অভ্যন্তরীণ ব্যবহারের রিপোর্ট করেছে।
  • হ্যালুসিনেশন একটি উৎপাদন বাধা. LLM বিভিন্ন হারে বিশ্বাসযোগ্য শোনাচ্ছে কিন্তু তথ্যগতভাবে ভুল আউটপুট উৎপন্ন করে। নিয়ন্ত্রিত ব্যবহারের ক্ষেত্রে — ক্রেডিট সিদ্ধান্ত, সম্মতি মতামত, গ্রাহক প্রকাশ — হ্যালুসিনেশন কোনো সাজসজ্জার ত্রুটি নয়; এটি একটি নিয়ন্ত্রক এবং দায়বদ্ধতার ঝুঁকি যার জন্য retrieval-augmented generation (RAG) এর মতো আর্কিটেকচারাল প্রশমনের প্রয়োজন।

Transformer আর্কিটেকচার কীভাবে কাজ করে #

২০২৩ সালে পরিনিয়োজিত প্রতিটি গুরুত্বপূর্ণ ভাষা মডেল — GPT-4, Claude 2, Llama 2, Mistral, Falcon — ২০১৭ সালের পেপার «Attention Is All You Need» এ প্রবর্তিত transformer আর্কিটেকচারের উপর নির্মিত। মূল প্রক্রিয়া বোঝা ব্যাখ্যা করে কেন এই মডেলগুলি কাজ করে এবং কোথায় ব্যর্থ হয়।

টোকেন এবং এম্বেডিং. মডেলটি ইনপুট টেক্সটকে উপ-শব্দ টোকেনে বিভক্ত করে শুরু করে (সাধারণত byte-pair encoding ব্যবহার করে)। প্রতিটি টোকেন একটি উচ্চ-মাত্রিক ভেক্টরে (এম্বেডিং) ম্যাপ করা হয় যা প্রি-ট্রেনিংয়ের সময় শেখা অন্যান্য টোকেনের সাথে এর সিমান্টিক সম্পর্ক এনকোড করে।

Self-attention. প্রতিটি টোকেনের জন্য, মডেল তিনটি ভেক্টর গণনা করে: একটি Query (এই টোকেন কী খুঁজছে), একটি Key (এই টোকেন কী অফার করে), এবং একটি Value (এই টোকেন কী অবদান রাখে)। অ্যাটেনশন স্কোর প্রতিটি Query-এর সমস্ত Key-এর বিরুদ্ধে ডট প্রোডাক্ট নিয়ে, ওজন তৈরি করতে softmax প্রয়োগ করে এবং সেই স্কোর দ্বারা ওজনযুক্ত Values যোগ করে গণনা করা হয়। এর মানে হল প্রতিটি টোকেন একযোগে প্রসঙ্গ উইন্ডোর প্রতিটি অন্য টোকেনে মনোযোগ দেয় — সেই প্রক্রিয়া যা transformers-কে দীর্ঘ-পরিসর নির্ভরতা পরিচালনার ক্ষমতা দেয়।

Multi-head attention. একাধিক অ্যাটেনশন হেড সমান্তরালে চলে, প্রতিটি বিভিন্ন ধরনের সম্পর্ক (বাক্যগত, সিমান্টিক, অবস্থানগত) শেখে। তাদের আউটপুট সংযোজিত এবং রৈখিকভাবে প্রক্ষেপিত হয়।

Feed-forward স্তর. অ্যাটেনশনের পরে, প্রতিটি অবস্থান একটি অরৈখিক সক্রিয়করণ সহ দুটি রৈখিক রূপান্তরের মধ্য দিয়ে যায়। এই স্তর স্থানীয় বৈশিষ্ট্য রূপান্তর ক্যাপচার করে স্বাধীনভাবে প্রতি-টোকেন গণনা সম্পাদন করে।

স্কেল. GPT-4 এক ট্রিলিয়নেরও বেশি পরামিতিতে অনুমানিত (OpenAI দ্বারা অপ্রমাণিত)। Llama 2 70B ৭০ বিলিয়ন ব্যবহার করে। Mistral 7B দক্ষতার জন্য grouped-query attention এবং sliding window attention সহ ৭ বিলিয়ন ব্যবহার করে। বড় মডেলগুলি সাধারণত আরও ভাল zero-shot এবং few-shot যুক্তি প্রদর্শন করে — সেই উদ্ভূত ক্ষমতাগুলি যা তাদের এমন কাজের জন্য দরকারী করে তোলে যার জন্য তাদের স্পষ্টভাবে প্রশিক্ষণ দেওয়া হয়নি।

২০২৩ মডেল পরিদৃশ্য #

২০২৩ সালে পূর্ববর্তী যেকোনো বছরের তুলনায় বেশি উল্লেখযোগ্য মডেল প্রকাশ হয়েছে:

GPT-4 (OpenAI, মার্চ ২০২৩). মাল্টিমোডাল (টেক্সট + ছবি ইনপুট), পরবর্তী GPT-4 Turbo ভ্যারিয়েন্টে ১২৮,০০০ টোকেন পর্যন্ত প্রসঙ্গ উইন্ডো, শক্তিশালী বহু-পদক্ষেপ যুক্তি। পেশাদার-ক্ষেত্র কাজের জন্য বেঞ্চমার্ক স্থাপন করেছে।

Claude 2 (Anthropic, জুলাই ২০২৩). ১,০০,০০০-টোকেন প্রসঙ্গ উইন্ডো (লঞ্চে সবচেয়ে দীর্ঘ), চুক্তি পর্যালোচনা এবং নিয়ন্ত্রক বিশ্লেষণের মতো দীর্ঘ-নথি কাজে শক্তিশালী কার্যক্ষমতা। ক্ষতিকর আউটপুট হ্রাস করতে Constitutional AI প্রশিক্ষণ।

Llama 2 (Meta, জুলাই ২০২৩). 7B, 13B, 34B এবং 70B পরামিতি ভ্যারিয়েন্টে উন্মুক্ত-ওজন প্রকাশ। বাণিজ্যিক ব্যবহার অনুমোদিত। নিয়ন্ত্রিত শিল্পের জন্য অন-প্রিমাইজ পরিনিয়োজন সক্ষম করেছে। শত শত fine-tuned ভ্যারিয়েন্ট (Code Llama, Vicuna, WizardLM) উৎপন্ন করেছে।

Mistral 7B (Mistral AI, সেপ্টেম্বর ২০২৩). ৭ বিলিয়ন পরামিতি বেশিরভাগ বেঞ্চমার্কে Llama 2 13B-কে ছাড়িয়ে যাচ্ছে। Grouped-query attention এবং sliding window attention অনুমান খরচ কমায়। GDPR এবং EU AI Act প্রেক্ষাপটে প্রাসঙ্গিক প্রথম গুরুত্বপূর্ণ ইউরোপীয় ফ্রন্টিয়ার মডেল।

Falcon 180B (TII, সেপ্টেম্বর ২০২৩). ৩.৫ ট্রিলিয়ন RefinedWeb ডেটা টোকেনে প্রশিক্ষিত ১৮০ বিলিয়ন পরামিতির উন্মুক্ত-ওজন মডেল। প্রদর্শন করেছে যে উন্মুক্ত-ওজন মডেলগুলি GPT-4 শ্রেণির স্কেলে পৌঁছাতে পারে।

জেনারেটিভ AI আর্থিক সেবায় প্রথমে কোথায় অবতরণ করেছিল #

২০২৩ সালের শেষের দিকে, আর্থিক প্রতিষ্ঠানগুলি বেশ কয়েকটি আলাদা ব্যবহারের ক্ষেত্রে অভ্যন্তরীণ পরীক্ষা থেকে কাঠামোগত পাইলট প্রোগ্রামে স্থানান্তরিত হয়েছিল:

ডেভেলপার উৎপাদনশীলতা. কোড উৎপাদন সরঞ্জাম (GitHub Copilot, Amazon CodeWhisperer, অভ্যন্তরীণভাবে fine-tuned মডেল) সবচেয়ে ব্যাপকভাবে পরিনিয়োজিত বিভাগ হয়ে ওঠে। Goldman Sachs রিপোর্ট করেছে যে ১০,০০০ ডেভেলপারের AI কোডিং সহায়তায় প্রবেশাধিকার ছিল। Morgan Stanley আর্থিক উপদেষ্টাদের ১,০০,০০০-নথির জ্ঞান ভিত্তি থেকে তথ্য পুনরুদ্ধারে সাহায্য করতে GPT-4 অভ্যন্তরীণভাবে পরিনিয়োজিত করেছে।

আইনি এবং নিয়ন্ত্রক নথি প্রক্রিয়াকরণ. চুক্তি ধারা নিষ্কাশন, নিয়ন্ত্রক পরিবর্তন পর্যবেক্ষণ এবং সম্মতি ম্যাপিং সর্বোচ্চ মূল্যের পাইলট ছিল। DocLLM-এর উপর JPMorgan-এর গবেষণা প্রদর্শন করেছে যে নথি-লেআউট-সচেতন ভাষা মডেলগুলি আর্থিক নথি বোঝার কাজে সাধারণ LLM-এর চেয়ে ভাল কার্যক্ষমতা দেখায়।

গ্রাহক সেবা সম্প্রসারণ. ব্যাংকগুলি নিয়ন্ত্রিত পরামর্শের জন্য মানবিক এস্কেলেশন সহ প্রথম-সারির গ্রাহক প্রশ্নের জন্য LLM-চালিত সহকারী পরিনিয়োজিত করেছে। মূল সীমাবদ্ধতা: মডেল নিয়ন্ত্রিত পরামর্শ দিতে পারে না, পণ্যের শর্ত হ্যালুসিনেট করা উচিত নয় এবং অডিটযোগ্য হতে হবে।

KYC এবং AML ন্যারেটিভ উৎপাদন. বিশ্লেষক পর্যালোচনার জন্য জটিল লেনদেনের ধরন এবং গ্রাহক প্রোফাইল সারসংক্ষেপ করা — যা আগে ম্যানুয়াল লেখার কাজ ছিল তা প্রতিস্থাপন করা — কম হ্যালুসিনেশন ঝুঁকি সহ একটি বিশ্বাসযোগ্য ব্যবহারের ক্ষেত্র হিসেবে উদ্ভূত হয়েছে কারণ মডেল নতুন দাবি উৎপন্ন করার পরিবর্তে প্রদত্ত ডেটা সারসংক্ষেপ করে।

উৎপাদন যে ঝুঁকিগুলি উন্মোচন করেছে #

আর্থিক সেবায় ডেমো থেকে উৎপাদনে যাওয়া আর্কিটেকচারাল প্রতিক্রিয়ার প্রয়োজনীয় ঝুঁকির একটি সেট উন্মোচন করেছে:

হ্যালুসিনেশন. LLM কাজের ধরন এবং মডেল অনুযায়ী পরিবর্তনশীল হারে বিশ্বস্তভাবে শোনাচ্ছে কিন্তু তথ্যগতভাবে ভুল আউটপুট উৎপন্ন করে। তথ্যগত স্মরণ কাজে, এমনকি GPT-4 এমন হারে হ্যালুসিনেট করে যা সম্মতি মতামত বা ক্রেডিট প্রকাশের জন্য অগ্রহণযোগ্য। প্রাথমিক প্রশমন হল retrieval-augmented generation (RAG): শুধুমাত্র পরামিতিক জ্ঞানের উপর নির্ভর করার পরিবর্তে পুনরুদ্ধারকৃত, যাচাইযোগ্য নথিতে মডেলের আউটপুট ভিত্তি করা।

প্রম্পট ইনজেকশন. নথি বা ব্যবহারকারীর বার্তায় এম্বেড করা প্রতিকূল ইনপুট মডেলের আচরণ পুনর্নির্দেশ করতে পারে। আর্থিক সেবায়, যেখানে LLM অবিশ্বস্ত নথি (চুক্তি, ইমেইল, গ্রাহক সাবমিশন) প্রক্রিয়া করে, প্রম্পট ইনজেকশন একটি তাত্ত্বিক নয়, একটি উৎপাদন নিরাপত্তা ঝুঁকি।

ডেটা লিকেজ. গোপনীয় ডেটায় fine-tuned বা প্রম্পটেড মডেলগুলি আউটপুটে সেই ডেটা পুনরুৎপাদন করতে পারে — PII, ট্রেডিং পজিশন এবং ক্লায়েন্ট তথ্যের জন্য একটি বস্তুগত ঝুঁকি। আর্কিটেকচারাল নিয়ন্ত্রণ (প্রাইভেট পরিনিয়োজন, ইন-কনটেক্সট ডেটা ব্যবস্থাপনা, আউটপুট ফিল্টারিং) ঐচ্ছিক নয়, প্রয়োজনীয়।

মডেল উৎস এবং অডিটযোগ্যতা. নিয়ন্ত্রকরা আর্থিক প্রতিষ্ঠানগুলি স্বয়ংক্রিয় সিদ্ধান্ত ব্যাখ্যা করার প্রত্যাশা করে। একটি অডিটযোগ্য যুক্তি ট্রেইল ছাড়া ক্রেডিট মূল্যায়ন উৎপন্নকারী একটি LLM GDPR অনুচ্ছেদ ২২ এর ব্যাখ্যাযোগ্যতার প্রয়োজনীয়তা, EU AI Act এর উচ্চ-ঝুঁকি AI বিধান এবং বিদ্যমান FCA মডেল ঝুঁকি নির্দেশিকা পূরণে ব্যর্থ হয়।

পুরনো জ্ঞান. LLM-এর প্রশিক্ষণ কাটঅফ আছে। ২০২৩ সালের শুরুর ডেটায় প্রশিক্ষিত একটি মডেল সেই তারিখের পরে নিয়ন্ত্রক পরিবর্তন, সুদের হার সিদ্ধান্ত বা বাজার ঘটনা সম্পর্কে জানে না — RAG বা রিয়েল-টাইম পুনরুদ্ধার ছাড়া রিয়েল-টাইম সম্মতি বা বাজার মন্তব্য ব্যবহারের ক্ষেত্রে একটি উল্লেখযোগ্য সীমাবদ্ধতা।

পরিনিয়োজনের আগে গভর্ন্যান্সের প্রয়োজনীয়তা #

২০২৩ সালে কাজ করা আর্থিক সেবার অনুশীলনকারীরা পরিনিয়োজনের আগে নিয়ন্ত্রক নিশ্চিততার জন্য অপেক্ষা করছিলেন না — কিন্তু শীর্ষস্থানীয় প্রতিষ্ঠানগুলি SR 11-7 এবং SS3/18 নির্দেশিকা থেকে অভিযোজিত মডেল ঝুঁকি ব্যবস্থাপনা (MRM) কাঠামো গ্রহণ করেছিল:

মডেল ইনভেন্টরি এবং ডকুমেন্টেশন. ব্যবসায়িক কার্যকলাপের জন্য পরিনিয়োজিত LLM-গুলিতে প্রশিক্ষণ ডেটা উৎস, fine-tuning পদ্ধতি, পরিচিত ব্যর্থতার মোড এবং ডোমেন-নির্দিষ্ট যাচাইকরণ সেটে কার্যক্ষমতার ডকুমেন্টেশন প্রয়োজন।

লুপে মানুষের সাথে চেকপয়েন্ট. নিয়ন্ত্রিত আউটপুটের জন্য (ক্রেডিট সিদ্ধান্ত, সম্মতি মতামত, গ্রাহক প্রকাশ), ২০২৩ সালে মানব পর্যালোচনা বাধ্যতামূলক ছিল। স্বয়ংক্রিয়করণ খসড়া এবং সারসংক্ষেপে প্রয়োগ করা হয়েছিল; চূড়ান্ত অনুমোদন মানব ছিল।

বিক্রেতা ঝুঁকি. তৃতীয় পক্ষের মডেল API (OpenAI, Anthropic, Google) ব্যবহার করলে বিক্রেতা ঘনত্বের ঝুঁকি, ডেটা আবাস্তব ঝুঁকি এবং মডেল পরিবর্তনের ঝুঁকি (প্রদানকারীরা নীরবে মডেল আপডেট করতে পারে) প্রবর্তিত হয়। এন্টারপ্রাইজ চুক্তি এবং প্রাইভেট পরিনিয়োজন আংশিকভাবে এগুলি প্রশমিত করে।

নিয়ন্ত্রক সম্পৃক্ততা. FCA, PRA, ECB এবং FINRA সবাই ২০২৩ সালে AI গভর্ন্যান্স সম্পর্কে পেপার বা বক্তৃতা প্রকাশ করেছে। সামঞ্জস্যপূর্ণ বার্তা: বিদ্যমান মডেল ঝুঁকি কাঠামো AI-এ প্রযোজ্য এবং সংস্থাগুলিকে আনুষ্ঠানিক নির্দেশিকার আগে তাদের গভর্ন্যান্স পদ্ধতির ডকুমেন্টেশনে সক্রিয় হওয়া উচিত।

প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী #

বড় ভাষা মডেল এবং foundation model-এর মধ্যে পার্থক্য কী?

একটি বড় ভাষা মডেল (LLM) হল ভাষা পূর্বাভাস এবং উৎপন্ন করার জন্য বড় পরিসরে টেক্সট ডেটায় প্রশিক্ষিত একটি মডেল। Foundation model হল যেকোনো বড় পূর্ব-প্রশিক্ষিত মডেলের জন্য একটি বিস্তৃত শব্দ যা একাধিক ডাউনস্ট্রিম কাজের জন্য অভিযোজিত (fine-tuned বা প্রম্পটেড) হতে পারে — LLM অন্তর্ভুক্ত করে কিন্তু ভিশন মডেল, কোড মডেল এবং মাল্টিমোডাল মডেলও। GPT-4 একটি LLM এবং একটি foundation model উভয়ই। DALL-E 3 একটি foundation model কিন্তু LLM নয়। ব্যবহারিকভাবে, টেক্সট-জেনারেশন সিস্টেম উল্লেখ করার সময় শব্দগুলি প্রায়ই বিনিময়যোগ্যভাবে ব্যবহার করা হয়।

Retrieval-augmented generation কী এবং আর্থিক সেবার জন্য এটি কেন গুরুত্বপূর্ণ?

RAG একটি ভাষা মডেলকে একটি পুনরুদ্ধার সিস্টেমের সাথে একত্রিত করে: শুধুমাত্র মডেলের পরামিতিক জ্ঞানের উপর নির্ভর না করে (প্রশিক্ষণের সময় যা শিখেছে), RAG অনুমান সময়ে প্রাসঙ্গিক নথি আনে এবং সেগুলি প্রসঙ্গ হিসেবে প্রদান করে। এটি তথ্যগত কাজে হ্যালুসিনেশন উল্লেখযোগ্যভাবে হ্রাস করে কারণ মডেল শেখা তথ্য স্মরণ করার পরিবর্তে প্রদত্ত টেক্সট সংশ্লেষণ করছে। আর্থিক সেবার জন্য, RAG নিয়ন্ত্রক পরিবর্তন পর্যবেক্ষণ (সর্বদা বর্তমান নিয়ম আনে) এবং চুক্তি পর্যালোচনা (মডেলকে প্রকৃত চুক্তি টেক্সটে ভিত্তি করে) এর মতো ব্যবহারের ক্ষেত্র সক্ষম করে যা বিশুদ্ধ জেনারেশন পদ্ধতির সাথে অত্যধিক হ্যালুসিনেশন-প্রবণ হবে।

আর্থিক প্রতিষ্ঠানগুলি ২০২৩ সালে জেনারেটিভ AI পরিনিয়োজনের ক্ষেত্রে EU AI Act কীভাবে পরিচালনা করবে?

EU AI Act ২০২৩ সালে এখনও আইনি প্রক্রিয়ায় ছিল (ইউরোপীয় পার্লামেন্ট মার্চ ২০২৪-এ পাস করেছে, আগস্ট ২০২৪-এ কার্যকর হয়েছে)। তবে EU অপারেশন বা EU গ্রাহকের প্রতিষ্ঠানগুলি ইতিমধ্যে তাদের পাইপলাইন মূল্যায়ন করছিল। ক্রেডিট স্কোরিং, কর্মসংস্থান সিদ্ধান্ত এবং গুরুত্বপূর্ণ অবকাঠামোতে উচ্চ-ঝুঁকি AI সিস্টেমের জন্য সম্মতি মূল্যায়ন, মানব তদারকি প্রক্রিয়া এবং অডিট লগিং প্রয়োজন। সাধারণ-উদ্দেশ্য AI (GPAI) মডেল — GPT-4 এর মতো foundation model অন্তর্ভুক্ত করে — স্বচ্ছতা এবং পদ্ধতিগত ঝুঁকি সম্পর্কিত প্রয়োজনীয়তার নিজস্ব স্তর রয়েছে। যে সংস্থাগুলি ২০২৩ সালে ডকুমেন্টেশন এবং গভর্ন্যান্স কাজ শুরু করেছিল তারা বাস্তবায়নের সময়সীমার জন্য আরও ভাল অবস্থানে ছিল।

এন্টারপ্রাইজ LLM পরিনিয়োজনের জন্য fine-tuning এবং প্রম্পট ইঞ্জিনিয়ারিংয়ের মধ্যে ব্যবহারিক পার্থক্য কী?

Fine-tuning ডোমেন-নির্দিষ্ট ডেটায় প্রশিক্ষণ চালিয়ে মডেলের ওজন পরিবর্তন করে — এটি মডেলকে নতুন জ্ঞান এবং আচরণগত নিদর্শন শেখায়। এটি লেবেলযুক্ত প্রশিক্ষণ ডেটা, গণনার বাজেট এবং বেস মডেল আপডেট হওয়ার সাথে সাথে চলমান রক্ষণাবেক্ষণ প্রয়োজন। প্রম্পট ইঞ্জিনিয়ারিং (few-shot উদাহরণ এবং সিস্টেম প্রম্পট সহ) ওজন পরিবর্তন না করে অনুমান সময়ে আচরণ আকার দেয় — দ্রুত বাস্তবায়ন এবং আপডেট করতে, কিন্তু বেস মডেল ইতিমধ্যে যা জানে তার দ্বারা সীমিত। ২০২৩ সালে বেশিরভাগ আর্থিক সেবা পরিনিয়োজনের জন্য, RAG প্লাস প্রম্পট ইঞ্জিনিয়ারিং পছন্দের শুরুর বিন্দু ছিল; fine-tuning সেই ক্ষেত্রে সংরক্ষিত ছিল যেখানে মডেলকে মালিকানা পরিভাষা শিখতে বা কঠোর আউটপুট ফর্ম্যাট গ্রহণ করতে হবে।

তথ্যসূত্র #

সর্বশেষ পর্যালোচনা .

Translation pending — read the English original while we localise.

Abstract neural network visualisation in blue and purple tones representing AI processing.class="img-fluid clearfix"

Executive Summary / Key Takeaways

  • The architecture that changed everything. The 2017 transformer paper introduced self-attention: a mechanism that computes relevance weights between every pair of tokens in the input, replacing the sequential processing of RNNs with parallelisable matrix operations. Every major language model in 2023 is a transformer variant (Vaswani et al., 2017).
  • GPT-4 as the 2023 benchmark. Released mars 2023, GPT-4 scored in the 90th percentile on the US Bar exam, 99th on GRE Verbal, and demonstrated multi-step reasoning across long documents. It set the capability benchmark that subsequent models aimed to meet or exceed (OpenAI, 2023).
  • Open-weight models democratised access. Meta's Llama 2 (July 2023) and Mistral AI's Mistral 7B (septembre 2023) showed that models competitive with GPT-3.5-class capability could run on private infrastructure — addressing the data residency requirements of regulated industries.
  • Financial services pilots in 2023. Broad deployments by late 2023 included legal contract review (JPMorgan's DocLLM research), regulatory change monitoring, and developer productivity tools. Goldman Sachs reported internal use of AI coding assistants across 10,000 developers.
  • Hallucination is a production blocker. LLMs generate plausible-sounding but factually incorrect outputs at non-trivial rates. In regulated use cases — credit decisions, compliance opinions, customer disclosures — hallucination is not a cosmetic flaw; it is a regulatory and liability risk requiring architectural mitigations such as retrieval-augmented generation (RAG).

How the Transformer Architecture Works #

Every significant language model deployed in 2023 — GPT-4, Claude 2, Llama 2, Mistral, Falcon — is built on the transformer architecture introduced in the 2017 paper "Attention Is All You Need." Understanding the core mechanism explains both why these models work and where they fail.

Tokens and embeddings. The model begins by splitting input text into sub-word tokens (typically using byte-pair encoding). Each token is mapped to a high-dimensional vector (an embedding) that encodes its semantic relationships with other tokens, learned during pre-training.

Self-attention. For each token, the model computes three vectors: a Query (what this token is looking for), a Key (what this token offers), and a Value (what this token contributes). Attention scores are computed by taking the dot product of each Query against all Keys, applying softmax to produce weights, and summing the Values weighted by those scores. This means every token attends to every other token in the context window simultaneously — the mechanism that gives transformers their ability to handle long-range dependencies.

Multi-head attention. Multiple attention heads run in parallel, each learning different types of relationships (syntactic, semantic, positional). Their outputs are concatenated and linearly projected.

Feed-forward layers. After attention, each position passes through two linear transformations with a non-linear activation. This layer performs per-token computation independently, capturing local feature transformations.

Scale. GPT-4 is estimated at over one trillion parameters (unconfirmed by OpenAI). Llama 2 70B uses 70 billion. Mistral 7B uses 7 billion, with grouped-query attention and sliding window attention for efficiency. Larger models generally exhibit better zero-shot and few-shot reasoning — the emergent capabilities that make them useful for tasks they were not explicitly trained on.

The 2023 Model Landscape #

2023 produced more significant model releases than any prior year:

GPT-4 (OpenAI, mars 2023). Multimodal (text + image input), context window up to 128,000 tokens in later GPT-4 Turbo variant, strong multi-step reasoning. Set the benchmark for professional-domain tasks.

Claude 2 (Anthropic, July 2023). 100,000-token context window (longest at launch), strong performance on long-document tasks such as contract review and regulatory analysis. Constitutional AI training for reduced harmful outputs.

Llama 2 (Meta, July 2023). Open-weight release at 7B, 13B, 34B, and 70B parameter variants. Commercial use permitted. Enabled on-premise deployment for regulated industries. Spawned hundreds of fine-tuned variants (Code Llama, Vicuna, WizardLM).

Mistral 7B (Mistral AI, septembre 2023). 7 billion parameters outperforming Llama 2 13B on most benchmarks. Grouped-query attention and sliding window attention reduce inference cost. The first significant European frontier model, relevant given GDPR and EU AI Act context.

Falcon 180B (TII, septembre 2023). 180 billion parameter open-weight model, trained on 3.5 trillion tokens of RefinedWeb data. Demonstrated that open-weight models could approach GPT-4-class scale.

Where Generative AI Landed First in Financial Services #

By late 2023, financial institutions had moved from internal experimentation to structured pilot programmes in several distinct use cases:

Developer productivity. Code generation tools (GitHub Copilot, Amazon CodeWhisperer, internally fine-tuned models) became the most broadly deployed category. Goldman Sachs reported that 10,000 developers had access to AI coding assistance. Morgan Stanley deployed GPT-4 internally to help financial advisers retrieve information from a 100,000-document knowledge base.

Legal and regulatory document processing. Contract clause extraction, regulatory change monitoring, and compliance mapping were the highest-value pilots. JPMorgan's research on DocLLM demonstrated that document-layout-aware language models outperformed generic LLMs on financial document understanding tasks.

Customer service augmentation. Banks deployed LLM-powered assistants for first-line customer queries, with human escalation for regulated advice. Key constraints: the model cannot give regulated advice, must not hallucinate product terms, and must be auditable.

KYC and AML narrative generation. Summarising complex transaction patterns and customer profiles for analyst review — replacing what had been manual write-up work — emerged as a credible use case with lower hallucination risk because the model summarises provided data rather than generating novel claims.

The Risks That Production Exposed #

Moving from demo to production in financial services surfaced a set of risks that required architectural responses:

Hallucination. LLMs generate confident-sounding incorrect outputs at rates that vary by task type and model. On factual recall tasks, even GPT-4 hallucinates at rates that are unacceptable for compliance opinions or credit disclosures. The primary mitigation is retrieval-augmented generation (RAG): ground the model's output in retrieved, verifiable documents rather than relying on parametric knowledge alone.

Prompt injection. Adversarial inputs embedded in documents or user messages can redirect model behaviour. In financial services, where LLMs process untrusted documents (contracts, emails, customer submissions), prompt injection is a production security risk, not a theoretical one.

Data leakage. Models fine-tuned or prompted on confidential data can reproduce that data in output — a material risk for PII, trading positions, and client information. Architectural controls (private deployment, data-in-context management, output filtering) are required, not optional.

Model provenance and auditability. Regulators expect financial institutions to explain automated decisions. An LLM that produces a credit assessment without an auditable reasoning trail fails the explainability requirements of GDPR Article 22, the EU AI Act's high-risk AI provisions, and existing FCA model risk guidance.

Stale knowledge. LLMs have training cutoffs. A model trained on data through early 2023 does not know about regulatory changes, rate decisions, or market events after that date — a significant limitation for real-time compliance or market commentary use cases without RAG or real-time retrieval.

Governance Requirements Before Deployment #

Financial services practitioners operating in 2023 were not waiting for regulatory certainty before deploying — but leading institutions adopted model risk management (MRM) frameworks adapted from SR 11-7 and SS3/18 guidance:

Model inventory and documentation. LLMs deployed for business functions require documentation of training data provenance, fine-tuning methodology, known failure modes, and performance on domain-specific validation sets.

Human-in-the-loop checkpoints. For regulated outputs (credit decisions, compliance opinions, customer disclosures), human review remained mandatory in 2023. Automation was applied to drafting and summarisation; final sign-off remained human.

Vendor risk. Using a third-party model API (OpenAI, Anthropic, Google) introduces vendor concentration risk, data residency risk, and model change risk (providers can update models silently). Enterprise agreements and private deployments partially mitigate these.

Regulatory engagement. The FCA, PRA, ECB, and FINRA all issued papers or speeches on AI governance in 2023. The consistent message: existing model risk frameworks apply to AI, and firms should be proactive in documenting their governance approach ahead of formal guidance.

Questions? Answers.

What is the difference between a large language model and a foundation model?

A large language model (LLM) is a model trained on text data at scale to predict and generate language. A foundation model is a broader term for any large pre-trained model that can be adapted (fine-tuned or prompted) for multiple downstream tasks — including LLMs but also vision models, code models, and multimodal models. GPT-4 is both an LLM and a foundation model. DALL-E 3 is a foundation model but not an LLM. In practice, the terms are often used interchangeably when referring to text-generation systems.

What is retrieval-augmented generation and why does it matter for financial services?

RAG combines a language model with a retrieval system: rather than relying solely on the model's parametric knowledge (what it learned during training), RAG fetches relevant documents at inference time and provides them as context. This significantly reduces hallucination on factual tasks because the model is synthesising provided text rather than recalling learned facts. For financial services, RAG enables use cases like regulatory change monitoring (always retrieves current rules) and contract review (grounds the model in the actual contract text) that would be too hallucination-prone with a pure generation approach.

How should financial institutions handle the EU AI Act in relation to generative AI deployments in 2023?

The EU AI Act was still in legislative process in 2023 (passed by the European Parliament in mars 2024, entered into force août 2024). However, institutions with EU operations or EU customers were already assessing their pipelines. High-risk AI systems in credit scoring, employment decisions, and critical infrastructure require conformity assessments, human oversight mechanisms, and audit logging. General-purpose AI (GPAI) models — which includes foundation models like GPT-4 — have their own tier of requirements around transparency and systemic risk. Firms that began documentation and governance work in 2023 were better positioned for the implementation deadlines.

What is the practical difference between fine-tuning and prompt engineering for enterprise LLM deployments?

Fine-tuning modifies the model's weights by continuing training on domain-specific data — it teaches the model new knowledge and behavioural patterns. It requires labelled training data, compute budget, and ongoing maintenance as base models are updated. Prompt engineering (including few-shot examples and system prompts) shapes behaviour at inference time without changing weights — faster to implement and update, but bounded by what the base model already knows. For most 2023 financial services deployments, RAG plus prompt engineering was the preferred starting point; fine-tuning was reserved for cases where the model needed to learn proprietary terminology or adopt strict output formats.

References #

সর্বশেষ পর্যালোচনা .

সর্বশেষ পর্যালোচনা .