.class="img-fluid clearfix"
الملخص التنفيذي / أبرز النقاط
- البنية التي غيّرت كل شيء. قدّمت ورقة transformer عام 2017 الانتباهَ الذاتي: آليةً تحسب أوزان الأهمية بين كل زوج من tokens في المدخل، لتحلّ بذلك محل المعالجة المتسلسلة في الشبكات العصبية المتكررة (RNNs) بعمليات مصفوفية قابلة للتوازي. كل نموذج لغوي رئيسي في 2023 هو متغيّر من transformer (Vaswani et al., 2017).
- GPT-4 كمعيار 2023. أثبت GPT-4 الصادر في مارس 2023 تحقيقه المئين التسعين في اختبار نقابة المحامين الأمريكية والمئين التاسع والتسعين في القسم اللفظي من GRE، مع قدرة استدلال متعدد الخطوات عبر وثائق طويلة. وضع معيار القدرة الذي سعت النماذج اللاحقة إلى مجاراته أو تجاوزه (OpenAI, 2023).
- نماذج الأوزان المفتوحة دمقرطت الوصول. أثبتت Llama 2 من Meta (يوليو 2023) وMistral 7B من Mistral AI (سبتمبر 2023) أن نماذج مماثلة في قدراتها لـ GPT-3.5 تستطيع العمل على بنية تحتية خاصة، مستوفيةً بذلك متطلبات الإقامة المحلية للبيانات في الصناعات الخاضعة للتنظيم.
- تجارب الخدمات المالية في 2023. شملت عمليات النشر الواسعة بنهاية 2023 مراجعة العقود القانونية (بحث JPMorgan على DocLLM) ورصد التغييرات التنظيمية وأدوات إنتاجية المطورين. أفادت Goldman Sachs بأن 10,000 مطوّر يستخدمون أدوات مساعدة الترميز بالذكاء الاصطناعي داخلياً.
- الهلوسة عائق أمام الإنتاج. تُنتج نماذج LLM مخرجات تبدو منطقية لكنها خاطئة واقعياً بمعدلات غير مهملة. في حالات الاستخدام الخاضعة للتنظيم—قرارات الائتمان والآراء الامتثالية وإفصاحات العملاء—لا تُعدّ الهلوسة عيباً شكلياً، بل هي مخاطرة تنظيمية وقانونية تستلزم إجراءات تخفيف معمارية كالتوليد المعزز بالاسترجاع (RAG).
كيف تعمل بنية transformer #
كل نموذج لغوي مهم نُشر في 2023—GPT-4 وClaude 2 وLlama 2 وMistral وFalcon—مبني على بنية transformer المُقدَّمة في ورقة "Attention Is All You Need" عام 2017. فهم الآلية الجوهرية يُفسّر كلاً من سبب نجاح هذه النماذج ومواطن إخفاقها.
الـ Tokens والتمثيلات المتجهة. يبدأ النموذج بتقسيم النص إلى tokens دون الكلمة (باستخدام ترميز أزواج البايتات عادةً). يُعيَّن لكل token متجهٌ عالي الأبعاد (تمثيل متجه) يُشفّر علاقاته الدلالية مع سائر tokens المُتعلَّمة أثناء التدريب المسبق.
الانتباه الذاتي. لكل token يحسب النموذج ثلاثة متجهات: Query (ما يبحث عنه هذا الـ token) وKey (ما يعرضه هذا الـ token) وValue (ما يُسهم به هذا الـ token). تُحسَب درجات الانتباه بأخذ حاصل ضرب كل Query مع كل Keys، ثم تطبيق softmax لإنتاج الأوزان، وتجميع Values المرجَّحة بتلك الدرجات. وهذا يعني أن كل token ينتبه إلى جميع tokens الأخرى في نافذة السياق في الوقت ذاته—وهي الآلية التي تمنح نماذج transformer قدرتها على التعامل مع الاعتماديات بعيدة المدى.
الانتباه متعدد الرؤوس. تعمل رؤوس انتباه متعددة بالتوازي، يتعلم كلٌّ منها أنواعاً مختلفة من العلاقات (نحوية ودلالية وموضعية). تُدمَج مخرجاتها ثم تُسقَط خطياً.
طبقات التغذية الأمامية. بعد الانتباه يمر كل موضع عبر تحويلين خطيين مع تنشيط غير خطي. تنفّذ هذه الطبقة عمليات حسابية مستقلة لكل token، مما يلتقط التحويلات المحلية للميزات.
الحجم. يُقدَّر حجم GPT-4 بأكثر من تريليون معامل (غير مؤكّد من OpenAI). تستخدم Llama 2 70B سبعين مليار معامل. أما Mistral 7B فتستخدم سبعة مليارات مع انتباه مجمَّع الاستعلامات وانتباه نافذة منزلقة لتحسين الكفاءة. تُظهر النماذج الأكبر عموماً استدلالاً أفضل بدون أمثلة (zero-shot) وبأمثلة قليلة (few-shot)—وهي القدرات الناشئة التي تجعلها مفيدة في مهام لم تُدرَّب عليها صراحةً.
مشهد النماذج في 2023 #
أفرز عام 2023 إصدارات نماذج أكثر أهمية من أي عام سابق:
GPT-4 (OpenAI، مارس 2023). متعدد الوسائط (نص + صورة كمدخل)، نافذة سياق تصل إلى 128,000 token في نسخة GPT-4 Turbo اللاحقة، استدلال متعدد الخطوات قوي. وضع المعيار للمهام في المجالات المتخصصة.
Claude 2 (Anthropic، يوليو 2023). نافذة سياق مؤلفة من 100,000 token (الأطول عند الإطلاق)، أداء قوي في مهام المستندات الطويلة كمراجعة العقود والتحليل التنظيمي. تدريب بالذكاء الاصطناعي الدستوري للحد من المخرجات الضارة.
Llama 2 (Meta، يوليو 2023). إصدار بأوزان مفتوحة بمتغيرات 7B و13B و34B و70B معامل. الاستخدام التجاري مسموح. أتاح النشر المحلي للصناعات الخاضعة للتنظيم. أسفر عن مئات المتغيرات المُضبَّطة دقيقاً (Code Llama وVicuna وWizardLM).
Mistral 7B (Mistral AI، سبتمبر 2023). سبعة مليارات معامل تتفوق على Llama 2 13B في معظم المعايير. يقلل الانتباه المجمَّع والنافذة المنزلقة تكاليف الاستدلال. النموذج الأوروبي الحدّي الأول ذو الأهمية، ذو صلة وثيقة في سياق GDPR وEU AI Act.
Falcon 180B (TII، سبتمبر 2023). نموذج بأوزان مفتوحة يبلغ 180 مليار معامل، مُدرَّب على 3.5 تريليون token من بيانات RefinedWeb. أثبت أن نماذج الأوزان المفتوحة قادرة على الاقتراب من حجم GPT-4.
أين حطّ الذكاء الاصطناعي التوليدي أولاً في الخدمات المالية #
بحلول أواخر 2023 انتقلت المؤسسات المالية من التجريب الداخلي إلى برامج تجريبية منظمة في عدة حالات استخدام مميزة:
إنتاجية المطورين. أصبحت أدوات توليد الأكواد (GitHub Copilot وAmazon CodeWhisperer والنماذج المُضبَّطة داخلياً) الفئة الأوسع انتشاراً. أفادت Goldman Sachs بأن 10,000 مطوّر يصلون إلى مساعدة الترميز بالذكاء الاصطناعي. نشرت Morgan Stanley GPT-4 داخلياً لمساعدة المستشارين الماليين على استرجاع المعلومات من قاعدة معارف تضم 100,000 وثيقة.
معالجة المستندات القانونية والتنظيمية. كانت استخراج بنود العقود ورصد التغييرات التنظيمية ورسم خرائط الامتثال أعلى التجارب قيمةً. أثبت بحث JPMorgan على DocLLM أن النماذج اللغوية المدركة لتخطيط المستندات تتفوق على نماذج LLM العامة في مهام فهم المستندات المالية.
تعزيز خدمة العملاء. نشرت البنوك مساعدين مدعومين بـ LLM للاستفسارات الأولية للعملاء مع تصعيد المشورة المنظَّمة إلى الإنسان. القيود الرئيسية: لا يمكن للنموذج تقديم مشورة خاضعة للتنظيم، ويجب ألا يهلوس في شروط المنتجات، ويجب أن يكون قابلاً للتدقيق.
توليد السرديات لـ KYC وAML. ظهر تلخيص أنماط المعاملات المعقدة وملفات العملاء لمراجعة المحللين—بديلاً عن عمل الكتابة اليدوية السابق—بوصفه حالة استخدام موثوقة ذات مخاطر هلوسة منخفضة لأن النموذج يُلخّص البيانات المقدَّمة بدلاً من توليد ادعاءات جديدة.
المخاطر التي كشفها الإنتاج #
كشف الانتقال من العروض التجريبية إلى بيئات الإنتاج في الخدمات المالية عن مجموعة من المخاطر التي تستلزم استجابات معمارية:
الهلوسة. تُنتج نماذج LLM مخرجات تبدو واثقة لكنها خاطئة بمعدلات تتفاوت تبعاً لنوع المهمة والنموذج. في مهام الاستدعاء الواقعي تُهلوِس GPT-4 بمعدلات غير مقبولة للآراء الامتثالية أو إفصاحات الائتمان. الإجراء التخفيفي الرئيسي هو التوليد المعزز بالاسترجاع (RAG): تأسيس مخرجات النموذج على وثائق مسترجعة قابلة للتحقق بدلاً من الاعتماد على المعرفة المُشفَّرة في المعاملات فحسب.
حقن الأوامر. يمكن للمدخلات العدائية المُضمَّنة في المستندات أو رسائل المستخدمين إعادة توجيه سلوك النموذج. في الخدمات المالية حيث تعالج نماذج LLM وثائق غير موثوقة (عقوداً ورسائل إلكترونية وتقديمات العملاء)، يُعدّ حقن الأوامر مخاطرة أمنية إنتاجية لا نظرية.
تسرب البيانات. يمكن للنماذج المُضبَّطة دقيقاً أو المُحثَّة على بيانات سرية أن تُعيد إنتاج تلك البيانات في المخرجات—مخاطرة جوهرية تتعلق بالمعلومات الشخصية والمراكز التجارية ومعلومات العملاء. الضوابط المعمارية (النشر الخاص وإدارة البيانات في السياق وفلترة المخرجات) ضرورة لا خيار.
مصدر النموذج وإمكانية التدقيق. تتوقع الجهات التنظيمية من المؤسسات المالية تفسير قراراتها الآلية. يُخفق نموذج LLM يُصدر تقييماً ائتمانياً دون مسار استدلال قابل للتدقيق في استيفاء متطلبات قابلية التفسير الواردة في المادة 22 من GDPR وأحكام الذكاء الاصطناعي عالي الخطورة في EU AI Act وتوجيهات مخاطر النماذج الصادرة عن FCA.
قِدَم المعرفة. تمتلك نماذج LLM تواريخ قطع التدريب. نموذج مُدرَّب على بيانات حتى مطلع 2023 لا يعلم بالتغييرات التنظيمية أو قرارات أسعار الفائدة أو الأحداث السوقية اللاحقة—قيد جوهري لحالات استخدام الامتثال الفوري أو التعليق على السوق دون RAG أو استرجاع آني.
متطلبات الحوكمة قبل النشر #
لم ينتظر الممارسون في الخدمات المالية عام 2023 اليقين التنظيمي قبل النشر—لكن المؤسسات الرائدة اعتمدت أطر إدارة مخاطر النماذج (MRM) المُكيَّفة من توجيهات SR 11-7 وSS3/18:
جرد النماذج وتوثيقها. تستلزم نماذج LLM المنشورة للوظائف التجارية توثيقاً لمصدر بيانات التدريب ومنهجية الضبط الدقيق وأوضاع الفشل المعروفة والأداء على مجموعات التحقق الخاصة بالمجال.
نقاط تفتيش المراجعة البشرية. بالنسبة للمخرجات الخاضعة للتنظيم (قرارات الائتمان والآراء الامتثالية وإفصاحات العملاء) ظلّ الاستعراض البشري إلزامياً في 2023. طُبّقت الأتمتة على الصياغة والتلخيص؛ وبقيت الموافقة النهائية بيد الإنسان.
مخاطر المورّد. يُفضي استخدام واجهة برمجية لنموذج طرف ثالث (OpenAI وAnthropic وGoogle) إلى مخاطر تركّز المورّد ومخاطر الإقامة المحلية للبيانات ومخاطر تغيير النموذج (إذ يمكن للموردين تحديث النماذج بصمت). تُخفّف الاتفاقيات المؤسسية والنشر الخاص هذه المخاطر جزئياً.
التواصل مع الجهات التنظيمية. أصدرت كلٌّ من FCA وPRA والبنك المركزي الأوروبي وFINRA أوراقاً أو خطاباً بشأن حوكمة الذكاء الاصطناعي في 2023. الرسالة المتسقة: أطر مخاطر النماذج القائمة تنطبق على الذكاء الاصطناعي، وينبغي للشركات توثيق نهجها في الحوكمة بصورة استباقية قبل صدور التوجيهات الرسمية.
الأسئلة الشائعة #
ما الفرق بين نموذج اللغة الكبير والنموذج التأسيسي؟
نموذج اللغة الكبير (LLM) هو نموذج مُدرَّب على بيانات نصية واسعة النطاق للتنبؤ بالغة وتوليدها. أما النموذج التأسيسي فهو مصطلح أشمل يشير إلى أي نموذج كبير مُدرَّب مسبقاً يمكن تكييفه (ضبط دقيق أو توجيه بالأوامر) لمهام متعددة في مراحل لاحقة—بما فيها نماذج LLM ونماذج الرؤية والكود والنماذج متعددة الوسائط. GPT-4 نموذج LLM ونموذج تأسيسي في آنٍ واحد. DALL-E 3 نموذج تأسيسي وليس نموذج LLM. ويُستخدم المصطلحان في الغالب بالتبادل للإشارة إلى أنظمة توليد النصوص.
ما التوليد المعزز بالاسترجاع ولماذا يهمّ الخدمات المالية؟
يجمع RAG نموذجاً لغوياً بنظام استرجاع: بدلاً من الاعتماد الحصري على المعرفة المُشفَّرة في معاملات النموذج، يجلب RAG وثائق ذات صلة في وقت الاستدلال ويُقدّمها كسياق. يُقلّل هذا تقليلاً كبيراً من الهلوسة في المهام الواقعية لأن النموذج يُصنّف النصوص المقدَّمة بدلاً من استدعاء الحقائق المُتعلَّمة. بالنسبة للخدمات المالية يتيح RAG حالات الاستخدام كرصد التغييرات التنظيمية (يسترجع دائماً القواعد الحالية) ومراجعة العقود (يُؤسّس النموذج على نص العقد الفعلي) التي قد تكون مفرطة الهلوسة مع أسلوب التوليد الخالص.
كيف ينبغي للمؤسسات المالية التعامل مع EU AI Act في ما يخص عمليات نشر الذكاء الاصطناعي التوليدي في 2023؟
كان EU AI Act لا يزال في طور التشريع عام 2023 (أقرّه البرلمان الأوروبي في مارس 2024، ودخل حيز التنفيذ في أغسطس 2024). غير أن المؤسسات ذات العمليات أو العملاء في الاتحاد الأوروبي كانت تُقيّم مسارات عملها بالفعل. تستلزم أنظمة الذكاء الاصطناعي عالية الخطورة في التقييم الائتماني وقرارات التوظيف والبنية التحتية الحيوية إجراء تقييمات مطابقة وآليات إشراف بشري وتسجيل تدقيق. للنماذج ذات الأغراض العامة (GPAI)—بما فيها النماذج التأسيسية كـ GPT-4—متطلبات خاصة تتعلق بالشفافية والمخاطر الجهازية. المؤسسات التي بدأت أعمال التوثيق والحوكمة في 2023 كانت في وضع أفضل لمواجهة مواعيد التنفيذ.
ما الفرق العملي بين الضبط الدقيق وهندسة الأوامر في عمليات نشر LLM المؤسسي؟
يُعدّل الضبط الدقيق (fine-tuning) أوزان النموذج بمواصلة تدريبه على بيانات خاصة بالمجال—يُعلّم النموذج معرفة جديدة وأنماط سلوكية. يتطلب بيانات تدريب مُوسَمة وميزانية حوسبة وصيانة مستمرة مع تحديث النماذج الأساسية. أما هندسة الأوامر (بما تشمله من أمثلة قليلة وأوامر نظام) فتُشكّل السلوك في وقت الاستدلال دون تغيير الأوزان—أسرع تطبيقاً وتحديثاً لكنها مقيّدة بما يعرفه النموذج الأساسي. بالنسبة لمعظم عمليات نشر الخدمات المالية في 2023 كان RAG مع هندسة الأوامر هو نقطة البداية المفضّلة؛ يُحفظ الضبط الدقيق للحالات التي يحتاج فيها النموذج لتعلّم مصطلحات خاصة أو اعتماد صيغ مخرجات صارمة.
المراجع #
- Vaswani, A., et al., (2017). Attention Is All You Need ⧉.
- OpenAI, (2023). GPT-4 Technical Report ⧉.
- Touvron, H., et al., Meta AI, (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models ⧉.
- Jiang, A., et al., Mistral AI, (2023). Mistral 7B ⧉.
آخر مراجعة .
.class="img-fluid clearfix"
Executive Summary / Key Takeaways
- The architecture that changed everything. The 2017 transformer paper introduced self-attention: a mechanism that computes relevance weights between every pair of tokens in the input, replacing the sequential processing of RNNs with parallelisable matrix operations. Every major language model in 2023 is a transformer variant (Vaswani et al., 2017).
- GPT-4 as the 2023 benchmark. Released mars 2023, GPT-4 scored in the 90th percentile on the US Bar exam, 99th on GRE Verbal, and demonstrated multi-step reasoning across long documents. It set the capability benchmark that subsequent models aimed to meet or exceed (OpenAI, 2023).
- Open-weight models democratised access. Meta's Llama 2 (July 2023) and Mistral AI's Mistral 7B (septembre 2023) showed that models competitive with GPT-3.5-class capability could run on private infrastructure — addressing the data residency requirements of regulated industries.
- Financial services pilots in 2023. Broad deployments by late 2023 included legal contract review (JPMorgan's DocLLM research), regulatory change monitoring, and developer productivity tools. Goldman Sachs reported internal use of AI coding assistants across 10,000 developers.
- Hallucination is a production blocker. LLMs generate plausible-sounding but factually incorrect outputs at non-trivial rates. In regulated use cases — credit decisions, compliance opinions, customer disclosures — hallucination is not a cosmetic flaw; it is a regulatory and liability risk requiring architectural mitigations such as retrieval-augmented generation (RAG).
How the Transformer Architecture Works #
Every significant language model deployed in 2023 — GPT-4, Claude 2, Llama 2, Mistral, Falcon — is built on the transformer architecture introduced in the 2017 paper "Attention Is All You Need." Understanding the core mechanism explains both why these models work and where they fail.
Tokens and embeddings. The model begins by splitting input text into sub-word tokens (typically using byte-pair encoding). Each token is mapped to a high-dimensional vector (an embedding) that encodes its semantic relationships with other tokens, learned during pre-training.
Self-attention. For each token, the model computes three vectors: a Query (what this token is looking for), a Key (what this token offers), and a Value (what this token contributes). Attention scores are computed by taking the dot product of each Query against all Keys, applying softmax to produce weights, and summing the Values weighted by those scores. This means every token attends to every other token in the context window simultaneously — the mechanism that gives transformers their ability to handle long-range dependencies.
Multi-head attention. Multiple attention heads run in parallel, each learning different types of relationships (syntactic, semantic, positional). Their outputs are concatenated and linearly projected.
Feed-forward layers. After attention, each position passes through two linear transformations with a non-linear activation. This layer performs per-token computation independently, capturing local feature transformations.
Scale. GPT-4 is estimated at over one trillion parameters (unconfirmed by OpenAI). Llama 2 70B uses 70 billion. Mistral 7B uses 7 billion, with grouped-query attention and sliding window attention for efficiency. Larger models generally exhibit better zero-shot and few-shot reasoning — the emergent capabilities that make them useful for tasks they were not explicitly trained on.
The 2023 Model Landscape #
2023 produced more significant model releases than any prior year:
GPT-4 (OpenAI, mars 2023). Multimodal (text + image input), context window up to 128,000 tokens in later GPT-4 Turbo variant, strong multi-step reasoning. Set the benchmark for professional-domain tasks.
Claude 2 (Anthropic, July 2023). 100,000-token context window (longest at launch), strong performance on long-document tasks such as contract review and regulatory analysis. Constitutional AI training for reduced harmful outputs.
Llama 2 (Meta, July 2023). Open-weight release at 7B, 13B, 34B, and 70B parameter variants. Commercial use permitted. Enabled on-premise deployment for regulated industries. Spawned hundreds of fine-tuned variants (Code Llama, Vicuna, WizardLM).
Mistral 7B (Mistral AI, septembre 2023). 7 billion parameters outperforming Llama 2 13B on most benchmarks. Grouped-query attention and sliding window attention reduce inference cost. The first significant European frontier model, relevant given GDPR and EU AI Act context.
Falcon 180B (TII, septembre 2023). 180 billion parameter open-weight model, trained on 3.5 trillion tokens of RefinedWeb data. Demonstrated that open-weight models could approach GPT-4-class scale.
Where Generative AI Landed First in Financial Services #
By late 2023, financial institutions had moved from internal experimentation to structured pilot programmes in several distinct use cases:
Developer productivity. Code generation tools (GitHub Copilot, Amazon CodeWhisperer, internally fine-tuned models) became the most broadly deployed category. Goldman Sachs reported that 10,000 developers had access to AI coding assistance. Morgan Stanley deployed GPT-4 internally to help financial advisers retrieve information from a 100,000-document knowledge base.
Legal and regulatory document processing. Contract clause extraction, regulatory change monitoring, and compliance mapping were the highest-value pilots. JPMorgan's research on DocLLM demonstrated that document-layout-aware language models outperformed generic LLMs on financial document understanding tasks.
Customer service augmentation. Banks deployed LLM-powered assistants for first-line customer queries, with human escalation for regulated advice. Key constraints: the model cannot give regulated advice, must not hallucinate product terms, and must be auditable.
KYC and AML narrative generation. Summarising complex transaction patterns and customer profiles for analyst review — replacing what had been manual write-up work — emerged as a credible use case with lower hallucination risk because the model summarises provided data rather than generating novel claims.
The Risks That Production Exposed #
Moving from demo to production in financial services surfaced a set of risks that required architectural responses:
Hallucination. LLMs generate confident-sounding incorrect outputs at rates that vary by task type and model. On factual recall tasks, even GPT-4 hallucinates at rates that are unacceptable for compliance opinions or credit disclosures. The primary mitigation is retrieval-augmented generation (RAG): ground the model's output in retrieved, verifiable documents rather than relying on parametric knowledge alone.
Prompt injection. Adversarial inputs embedded in documents or user messages can redirect model behaviour. In financial services, where LLMs process untrusted documents (contracts, emails, customer submissions), prompt injection is a production security risk, not a theoretical one.
Data leakage. Models fine-tuned or prompted on confidential data can reproduce that data in output — a material risk for PII, trading positions, and client information. Architectural controls (private deployment, data-in-context management, output filtering) are required, not optional.
Model provenance and auditability. Regulators expect financial institutions to explain automated decisions. An LLM that produces a credit assessment without an auditable reasoning trail fails the explainability requirements of GDPR Article 22, the EU AI Act's high-risk AI provisions, and existing FCA model risk guidance.
Stale knowledge. LLMs have training cutoffs. A model trained on data through early 2023 does not know about regulatory changes, rate decisions, or market events after that date — a significant limitation for real-time compliance or market commentary use cases without RAG or real-time retrieval.
Governance Requirements Before Deployment #
Financial services practitioners operating in 2023 were not waiting for regulatory certainty before deploying — but leading institutions adopted model risk management (MRM) frameworks adapted from SR 11-7 and SS3/18 guidance:
Model inventory and documentation. LLMs deployed for business functions require documentation of training data provenance, fine-tuning methodology, known failure modes, and performance on domain-specific validation sets.
Human-in-the-loop checkpoints. For regulated outputs (credit decisions, compliance opinions, customer disclosures), human review remained mandatory in 2023. Automation was applied to drafting and summarisation; final sign-off remained human.
Vendor risk. Using a third-party model API (OpenAI, Anthropic, Google) introduces vendor concentration risk, data residency risk, and model change risk (providers can update models silently). Enterprise agreements and private deployments partially mitigate these.
Regulatory engagement. The FCA, PRA, ECB, and FINRA all issued papers or speeches on AI governance in 2023. The consistent message: existing model risk frameworks apply to AI, and firms should be proactive in documenting their governance approach ahead of formal guidance.
Questions? Answers.
What is the difference between a large language model and a foundation model?
A large language model (LLM) is a model trained on text data at scale to predict and generate language. A foundation model is a broader term for any large pre-trained model that can be adapted (fine-tuned or prompted) for multiple downstream tasks — including LLMs but also vision models, code models, and multimodal models. GPT-4 is both an LLM and a foundation model. DALL-E 3 is a foundation model but not an LLM. In practice, the terms are often used interchangeably when referring to text-generation systems.
What is retrieval-augmented generation and why does it matter for financial services?
RAG combines a language model with a retrieval system: rather than relying solely on the model's parametric knowledge (what it learned during training), RAG fetches relevant documents at inference time and provides them as context. This significantly reduces hallucination on factual tasks because the model is synthesising provided text rather than recalling learned facts. For financial services, RAG enables use cases like regulatory change monitoring (always retrieves current rules) and contract review (grounds the model in the actual contract text) that would be too hallucination-prone with a pure generation approach.
How should financial institutions handle the EU AI Act in relation to generative AI deployments in 2023?
The EU AI Act was still in legislative process in 2023 (passed by the European Parliament in mars 2024, entered into force août 2024). However, institutions with EU operations or EU customers were already assessing their pipelines. High-risk AI systems in credit scoring, employment decisions, and critical infrastructure require conformity assessments, human oversight mechanisms, and audit logging. General-purpose AI (GPAI) models — which includes foundation models like GPT-4 — have their own tier of requirements around transparency and systemic risk. Firms that began documentation and governance work in 2023 were better positioned for the implementation deadlines.
What is the practical difference between fine-tuning and prompt engineering for enterprise LLM deployments?
Fine-tuning modifies the model's weights by continuing training on domain-specific data — it teaches the model new knowledge and behavioural patterns. It requires labelled training data, compute budget, and ongoing maintenance as base models are updated. Prompt engineering (including few-shot examples and system prompts) shapes behaviour at inference time without changing weights — faster to implement and update, but bounded by what the base model already knows. For most 2023 financial services deployments, RAG plus prompt engineering was the preferred starting point; fine-tuning was reserved for cases where the model needed to learn proprietary terminology or adopt strict output formats.
References #
- Vaswani, A., et al., (2017). Attention Is All You Need ⧉.
- OpenAI, (2023). GPT-4 Technical Report ⧉.
- Touvron, H., et al., Meta AI, (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models ⧉.
- Jiang, A., et al., Mistral AI, (2023). Mistral 7B ⧉.
آخر مراجعة .
آخر مراجعة .