Sebastien Rousseau

Generative AI in 2023: How It Works, Where It Lands

Mecanica transformer, benchmarkuri ale modelelor din 2023, cazuri de utilizare în servicii financiare și întrebările de guvernanță care nu pot fi amânate.

17 min de citit
Banner for: Generative AI in 2023: How It Works, Where It Lands

Vizualizare abstractă a rețelei neuronale în tonuri albastre și violete reprezentând procesarea AI.class="img-fluid clearfix"

Rezumat executiv / Concluzii cheie

  • Arhitectura care a schimbat totul. Lucrarea transformer din 2017 a introdus self-attention: un mecanism care calculează ponderi de relevanță între fiecare pereche de tokeni din input, înlocuind procesarea secvențială a RNN-urilor cu operații matriciale paralelizabile. Fiecare model lingvistic major din 2023 este o variantă transformer (Vaswani et al., 2017).
  • GPT-4 ca referință pentru 2023. Lansat în martie 2023, GPT-4 a obținut percentila 90 la examenul baroului din SUA, percentila 99 la GRE Verbal și a demonstrat raționament în mai mulți pași pe documente lungi. A stabilit referința de capacitate pe care modelele ulterioare au urmărit să o atingă sau să o depășească (OpenAI, 2023).
  • Modelele cu ponderi deschise au democratizat accesul. Llama 2 de la Meta (iulie 2023) și Mistral 7B de la Mistral AI (septembrie 2023) au arătat că modelele cu capacitate competitivă cu GPT-3.5 pot rula pe infrastructură privată — adresând cerințele de rezidență a datelor ale industriilor reglementate.
  • Piloți în serviciile financiare în 2023. Implementările largi de la sfârșitul anului 2023 au inclus revizuirea contractelor juridice (cercetarea DocLLM a JPMorgan), monitorizarea modificărilor de reglementare și instrumente de productivitate pentru dezvoltatori. Goldman Sachs a raportat utilizarea internă a asistenților de codare AI de către 10.000 de dezvoltatori.
  • Halucinația este o barieră de producție. LLM-urile generează rezultate care sună plauzibil, dar sunt incorect din punct de vedere factual, la rate non-triviale. În cazurile de utilizare reglementate — decizii de credit, opinii de conformitate, dezvăluiri față de clienți — halucinația nu este un defect cosmetic; este un risc de reglementare și de răspundere care necesită atenuări arhitecturale precum retrieval-augmented generation (RAG).

Cum funcționează arhitectura Transformer #

Fiecare model lingvistic semnificativ implementat în 2023 — GPT-4, Claude 2, Llama 2, Mistral, Falcon — este construit pe arhitectura transformer introdusă în lucrarea din 2017 „Attention Is All You Need". Înțelegerea mecanismului de bază explică atât de ce aceste modele funcționează, cât și unde eșuează.

Tokeni și embedding-uri. Modelul începe prin împărțirea textului de intrare în tokeni de sub-cuvinte (de obicei folosind byte-pair encoding). Fiecare token este mapat la un vector de înaltă dimensiune (un embedding) care codifică relațiile sale semantice cu alți tokeni, învățate în timpul pre-antrenării.

Self-attention. Pentru fiecare token, modelul calculează trei vectori: un Query (ce caută acest token), un Key (ce oferă acest token) și o Value (ce contribuie acest token). Scorurile de atenție sunt calculate prin luarea produsului intern al fiecărui Query față de toate Key-urile, aplicând softmax pentru a produce ponderi și sumând Values ponderate prin acele scoruri. Aceasta înseamnă că fiecare token acordă atenție simultan tuturor celorlalți tokeni din fereastra de context — mecanismul care oferă transformer-elor capacitatea de a gestiona dependențe pe termen lung.

Multi-head attention. Mai multe capete de atenție rulează în paralel, fiecare învățând diferite tipuri de relații (sintactice, semantice, poziționale). Ieșirile lor sunt concatenate și proiectate liniar.

Straturi feed-forward. După atenție, fiecare poziție trece prin două transformări liniare cu o activare neliniară. Acest strat efectuează calcule per token independent, capturând transformări de caracteristici locale.

Scala. GPT-4 este estimat la peste un trilion de parametri (neconfirmat de OpenAI). Llama 2 70B folosește 70 de miliarde. Mistral 7B folosește 7 miliarde, cu grouped-query attention și sliding window attention pentru eficiență. Modelele mai mari prezintă în general un raționament zero-shot și few-shot mai bun — capacitățile emergente care le fac utile pentru sarcini pe care nu au fost explicit antrenate.

Peisajul modelelor din 2023 #

2023 a produs mai multe lansări semnificative de modele decât orice an anterior:

GPT-4 (OpenAI, martie 2023). Multimodal (text + imagine la intrare), fereastră de context de până la 128.000 de tokeni în varianta ulterioară GPT-4 Turbo, raționament puternic în mai mulți pași. A stabilit referința pentru sarcinile din domeniile profesionale.

Claude 2 (Anthropic, iulie 2023). Fereastră de context de 100.000 de tokeni (cea mai lungă la lansare), performanță puternică la sarcini cu documente lungi, cum ar fi revizuirea contractelor și analiza de reglementare. Antrenare Constitutional AI pentru ieșiri mai puțin dăunătoare.

Llama 2 (Meta, iulie 2023). Lansare cu ponderi deschise în variante de 7B, 13B, 34B și 70B parametri. Utilizarea comercială este permisă. A permis implementarea on-premise pentru industriile reglementate. A generat sute de variante fine-tuned (Code Llama, Vicuna, WizardLM).

Mistral 7B (Mistral AI, septembrie 2023). 7 miliarde de parametri care depășesc Llama 2 13B pe majoritatea benchmark-urilor. Grouped-query attention și sliding window attention reduc costul de inferență. Primul model european semnificativ de frontieră, relevant în contextul GDPR și EU AI Act.

Falcon 180B (TII, septembrie 2023). Model cu ponderi deschise de 180 de miliarde de parametri, antrenat pe 3,5 trilioane de tokeni de date RefinedWeb. A demonstrat că modelele cu ponderi deschise pot aborda scala de clasă GPT-4.

Unde a Aterizat Prima Dată Inteligența Artificială Generativă în Serviciile Financiare #

Până la sfârșitul anului 2023, instituțiile financiare trecuseră de la experimentarea internă la programe pilot structurate în mai multe cazuri de utilizare distincte:

Productivitatea dezvoltatorilor. Instrumentele de generare a codului (GitHub Copilot, Amazon CodeWhisperer, modele fine-tuned intern) au devenit categoria cel mai larg implementată. Goldman Sachs a raportat că 10.000 de dezvoltatori aveau acces la asistență AI pentru codare. Morgan Stanley a implementat GPT-4 intern pentru a ajuta consultanții financiari să recupereze informații dintr-o bază de cunoștințe de 100.000 de documente.

Procesarea documentelor juridice și de reglementare. Extragerea clauzelor contractuale, monitorizarea modificărilor de reglementare și maparea conformității au fost piloții cu cea mai mare valoare. Cercetarea JPMorgan privind DocLLM a demonstrat că modelele lingvistice conștiente de aspectul documentului depășeau LLM-urile generice la sarcinile de înțelegere a documentelor financiare.

Augmentarea serviciului pentru clienți. Băncile au implementat asistenți alimentați de LLM pentru întrebările primare ale clienților, cu escaladare umană pentru sfaturi reglementate. Constrângeri cheie: modelul nu poate oferi sfaturi reglementate, nu trebuie să halucineze termenii produsului și trebuie să fie auditabil.

Generarea de narațiuni KYC și AML. Rezumarea modelelor complexe de tranzacții și a profilurilor clienților pentru revizuire de către analiști — înlocuind ceea ce fusese muncă manuală de redactare — a apărut ca un caz de utilizare credibil cu risc mai scăzut de halucinații, deoarece modelul rezumă datele furnizate mai degrabă decât să genereze afirmații noi.

Riscurile Expuse de Producție #

Trecerea de la demo la producție în serviciile financiare a scos la suprafață un set de riscuri care au necesitat răspunsuri arhitecturale:

Halucinația. LLM-urile generează ieșiri incorecte care sună convingător, la rate care variază în funcție de tipul sarcinii și model. La sarcinile de reamintire factuală, chiar și GPT-4 halucinează la rate inacceptabile pentru opinii de conformitate sau dezvăluiri de credit. Atenuarea principală este retrieval-augmented generation (RAG): ancorarea ieșirii modelului în documente recuperate, verificabile, mai degrabă decât să se bazeze exclusiv pe cunoștințele parametrice.

Injecția de prompturi. Intrările adversariale încorporate în documente sau mesajele utilizatorilor pot redirecționa comportamentul modelului. În serviciile financiare, unde LLM-urile procesează documente nesigure (contracte, e-mailuri, depuneri ale clienților), injecția de prompturi este un risc de securitate în producție, nu unul teoretic.

Scurgerea de date. Modelele fine-tuned sau solicitate pe date confidențiale pot reproduce acele date în ieșire — un risc material pentru PII, pozițiile de tranzacționare și informațiile despre clienți. Controalele arhitecturale (implementare privată, gestionarea datelor în context, filtrarea ieșirilor) sunt necesare, nu opționale.

Proveniența modelului și auditabilitatea. Autoritățile de reglementare se așteaptă ca instituțiile financiare să explice deciziile automatizate. Un LLM care produce o evaluare de credit fără un traseu de raționament auditabil nu îndeplinește cerințele de explicabilitate ale Articolului 22 din GDPR, prevederile EU AI Act privind AI de înaltă risc și orientările existente ale FCA privind managementul riscului modelelor.

Cunoștințele depășite. LLM-urile au date limitative de antrenare. Un model antrenat pe date până la începutul anului 2023 nu știe despre modificările de reglementare, deciziile privind ratele sau evenimentele de piață după acea dată — o limitare semnificativă pentru cazurile de utilizare de conformitate în timp real sau comentarii de piață fără RAG sau recuperare în timp real.

Cerințele de Guvernanță Înainte de Implementare #

Practicienii din serviciile financiare care activau în 2023 nu așteptau certitudinea de reglementare înainte de implementare — dar instituțiile de top au adoptat cadre de management al riscului modelelor (MRM) adaptate din orientările SR 11-7 și SS3/18:

Inventarul și documentația modelelor. LLM-urile implementate pentru funcții de afaceri necesită documentarea provenienței datelor de antrenare, metodologiei de fine-tuning, modurilor de eșec cunoscute și performanței pe seturi de validare specifice domeniului.

Puncte de control cu om în buclă. Pentru ieșirile reglementate (decizii de credit, opinii de conformitate, dezvăluiri față de clienți), revizuirea umană a rămas obligatorie în 2023. Automatizarea a fost aplicată redactării și rezumării; aprobarea finală a rămas umană.

Riscul furnizorului. Utilizarea unui API de model terț (OpenAI, Anthropic, Google) introduce risc de concentrare a furnizorului, risc de rezidență a datelor și risc de schimbare a modelului (furnizorii pot actualiza modelele în tăcere). Acordurile enterprise și implementările private atenuează parțial acestea.

Implicarea în reglementare. FCA, PRA, BCE și FINRA au publicat toate lucrări sau discursuri privind guvernanța AI în 2023. Mesajul consistent: cadrele existente de risc al modelelor se aplică AI, iar firmele ar trebui să fie proactive în documentarea abordării lor de guvernanță înaintea orientărilor formale.

Întrebări frecvente #

Care este diferența dintre un model lingvistic mare și un model fundament?

Un model lingvistic mare (LLM) este un model antrenat pe date de text la scară pentru a prezice și genera limbaj. Un model fundament este un termen mai larg pentru orice model mare pre-antrenat care poate fi adaptat (fine-tuned sau solicitat) pentru mai multe sarcini downstream — inclusiv LLM-uri, dar și modele de viziune, modele de cod și modele multimodale. GPT-4 este atât un LLM, cât și un model fundament. DALL-E 3 este un model fundament, dar nu un LLM. În practică, termenii sunt adesea folosiți interschimbabil când se referă la sistemele de generare de text.

Ce este retrieval-augmented generation și de ce contează pentru serviciile financiare?

RAG combină un model lingvistic cu un sistem de recuperare: în loc să se bazeze exclusiv pe cunoștințele parametrice ale modelului (ceea ce a învățat în timpul antrenării), RAG recuperează documente relevante la timpul de inferență și le furnizează ca context. Aceasta reduce semnificativ halucinația la sarcinile factuale, deoarece modelul sintetizează textul furnizat mai degrabă decât reamintind fapte învățate. Pentru serviciile financiare, RAG permite cazuri de utilizare precum monitorizarea modificărilor de reglementare (recuperează întotdeauna regulile actuale) și revizuirea contractelor (ancorează modelul în textul real al contractului) care ar fi prea predispuse la halucinații cu o abordare de generare pură.

Cum ar trebui instituțiile financiare să gestioneze EU AI Act în raport cu implementările de AI generativ în 2023?

EU AI Act era încă în proces legislativ în 2023 (adoptat de Parlamentul European în martie 2024, intrat în vigoare în august 2024). Cu toate acestea, instituțiile cu operațiuni în UE sau clienți în UE își evaluau deja fluxurile de lucru. Sistemele AI de înaltă risc în scoringul de credit, deciziile de angajare și infrastructura critică necesită evaluări de conformitate, mecanisme de supraveghere umană și înregistrarea auditului. Modelele AI de uz general (GPAI) — care include modele fundament precum GPT-4 — au propriul lor nivel de cerințe privind transparența și riscul sistemic. Firmele care au început documentarea și activitatea de guvernanță în 2023 au fost mai bine poziționate pentru termenele de implementare.

Care este diferența practică dintre fine-tuning și ingineria prompturilor pentru implementările enterprise LLM?

Fine-tuning-ul modifică ponderile modelului continuând antrenarea pe date specifice domeniului — îi predă modelului noi cunoștințe și tipare comportamentale. Necesită date de antrenare etichetate, buget de calcul și întreținere continuă pe măsură ce modelele de bază sunt actualizate. Ingineria prompturilor (inclusiv exemple few-shot și prompturi de sistem) modelează comportamentul la timpul de inferență fără a schimba ponderile — mai rapid de implementat și actualizat, dar limitat de ceea ce știe deja modelul de bază. Pentru majoritatea implementărilor de servicii financiare din 2023, RAG plus ingineria prompturilor a fost punctul de plecare preferat; fine-tuning-ul a fost rezervat pentru cazurile în care modelul trebuia să învețe terminologia proprietară sau să adopte formate stricte de ieșire.

Referințe #

Ultima revizuire .

Translation pending — read the English original while we localise.

Abstract neural network visualisation in blue and purple tones representing AI processing.class="img-fluid clearfix"

Executive Summary / Key Takeaways

  • The architecture that changed everything. The 2017 transformer paper introduced self-attention: a mechanism that computes relevance weights between every pair of tokens in the input, replacing the sequential processing of RNNs with parallelisable matrix operations. Every major language model in 2023 is a transformer variant (Vaswani et al., 2017).
  • GPT-4 as the 2023 benchmark. Released mars 2023, GPT-4 scored in the 90th percentile on the US Bar exam, 99th on GRE Verbal, and demonstrated multi-step reasoning across long documents. It set the capability benchmark that subsequent models aimed to meet or exceed (OpenAI, 2023).
  • Open-weight models democratised access. Meta's Llama 2 (July 2023) and Mistral AI's Mistral 7B (septembre 2023) showed that models competitive with GPT-3.5-class capability could run on private infrastructure — addressing the data residency requirements of regulated industries.
  • Financial services pilots in 2023. Broad deployments by late 2023 included legal contract review (JPMorgan's DocLLM research), regulatory change monitoring, and developer productivity tools. Goldman Sachs reported internal use of AI coding assistants across 10,000 developers.
  • Hallucination is a production blocker. LLMs generate plausible-sounding but factually incorrect outputs at non-trivial rates. In regulated use cases — credit decisions, compliance opinions, customer disclosures — hallucination is not a cosmetic flaw; it is a regulatory and liability risk requiring architectural mitigations such as retrieval-augmented generation (RAG).

How the Transformer Architecture Works #

Every significant language model deployed in 2023 — GPT-4, Claude 2, Llama 2, Mistral, Falcon — is built on the transformer architecture introduced in the 2017 paper "Attention Is All You Need." Understanding the core mechanism explains both why these models work and where they fail.

Tokens and embeddings. The model begins by splitting input text into sub-word tokens (typically using byte-pair encoding). Each token is mapped to a high-dimensional vector (an embedding) that encodes its semantic relationships with other tokens, learned during pre-training.

Self-attention. For each token, the model computes three vectors: a Query (what this token is looking for), a Key (what this token offers), and a Value (what this token contributes). Attention scores are computed by taking the dot product of each Query against all Keys, applying softmax to produce weights, and summing the Values weighted by those scores. This means every token attends to every other token in the context window simultaneously — the mechanism that gives transformers their ability to handle long-range dependencies.

Multi-head attention. Multiple attention heads run in parallel, each learning different types of relationships (syntactic, semantic, positional). Their outputs are concatenated and linearly projected.

Feed-forward layers. After attention, each position passes through two linear transformations with a non-linear activation. This layer performs per-token computation independently, capturing local feature transformations.

Scale. GPT-4 is estimated at over one trillion parameters (unconfirmed by OpenAI). Llama 2 70B uses 70 billion. Mistral 7B uses 7 billion, with grouped-query attention and sliding window attention for efficiency. Larger models generally exhibit better zero-shot and few-shot reasoning — the emergent capabilities that make them useful for tasks they were not explicitly trained on.

The 2023 Model Landscape #

2023 produced more significant model releases than any prior year:

GPT-4 (OpenAI, mars 2023). Multimodal (text + image input), context window up to 128,000 tokens in later GPT-4 Turbo variant, strong multi-step reasoning. Set the benchmark for professional-domain tasks.

Claude 2 (Anthropic, July 2023). 100,000-token context window (longest at launch), strong performance on long-document tasks such as contract review and regulatory analysis. Constitutional AI training for reduced harmful outputs.

Llama 2 (Meta, July 2023). Open-weight release at 7B, 13B, 34B, and 70B parameter variants. Commercial use permitted. Enabled on-premise deployment for regulated industries. Spawned hundreds of fine-tuned variants (Code Llama, Vicuna, WizardLM).

Mistral 7B (Mistral AI, septembre 2023). 7 billion parameters outperforming Llama 2 13B on most benchmarks. Grouped-query attention and sliding window attention reduce inference cost. The first significant European frontier model, relevant given GDPR and EU AI Act context.

Falcon 180B (TII, septembre 2023). 180 billion parameter open-weight model, trained on 3.5 trillion tokens of RefinedWeb data. Demonstrated that open-weight models could approach GPT-4-class scale.

Where Generative AI Landed First in Financial Services #

By late 2023, financial institutions had moved from internal experimentation to structured pilot programmes in several distinct use cases:

Developer productivity. Code generation tools (GitHub Copilot, Amazon CodeWhisperer, internally fine-tuned models) became the most broadly deployed category. Goldman Sachs reported that 10,000 developers had access to AI coding assistance. Morgan Stanley deployed GPT-4 internally to help financial advisers retrieve information from a 100,000-document knowledge base.

Legal and regulatory document processing. Contract clause extraction, regulatory change monitoring, and compliance mapping were the highest-value pilots. JPMorgan's research on DocLLM demonstrated that document-layout-aware language models outperformed generic LLMs on financial document understanding tasks.

Customer service augmentation. Banks deployed LLM-powered assistants for first-line customer queries, with human escalation for regulated advice. Key constraints: the model cannot give regulated advice, must not hallucinate product terms, and must be auditable.

KYC and AML narrative generation. Summarising complex transaction patterns and customer profiles for analyst review — replacing what had been manual write-up work — emerged as a credible use case with lower hallucination risk because the model summarises provided data rather than generating novel claims.

The Risks That Production Exposed #

Moving from demo to production in financial services surfaced a set of risks that required architectural responses:

Hallucination. LLMs generate confident-sounding incorrect outputs at rates that vary by task type and model. On factual recall tasks, even GPT-4 hallucinates at rates that are unacceptable for compliance opinions or credit disclosures. The primary mitigation is retrieval-augmented generation (RAG): ground the model's output in retrieved, verifiable documents rather than relying on parametric knowledge alone.

Prompt injection. Adversarial inputs embedded in documents or user messages can redirect model behaviour. In financial services, where LLMs process untrusted documents (contracts, emails, customer submissions), prompt injection is a production security risk, not a theoretical one.

Data leakage. Models fine-tuned or prompted on confidential data can reproduce that data in output — a material risk for PII, trading positions, and client information. Architectural controls (private deployment, data-in-context management, output filtering) are required, not optional.

Model provenance and auditability. Regulators expect financial institutions to explain automated decisions. An LLM that produces a credit assessment without an auditable reasoning trail fails the explainability requirements of GDPR Article 22, the EU AI Act's high-risk AI provisions, and existing FCA model risk guidance.

Stale knowledge. LLMs have training cutoffs. A model trained on data through early 2023 does not know about regulatory changes, rate decisions, or market events after that date — a significant limitation for real-time compliance or market commentary use cases without RAG or real-time retrieval.

Governance Requirements Before Deployment #

Financial services practitioners operating in 2023 were not waiting for regulatory certainty before deploying — but leading institutions adopted model risk management (MRM) frameworks adapted from SR 11-7 and SS3/18 guidance:

Model inventory and documentation. LLMs deployed for business functions require documentation of training data provenance, fine-tuning methodology, known failure modes, and performance on domain-specific validation sets.

Human-in-the-loop checkpoints. For regulated outputs (credit decisions, compliance opinions, customer disclosures), human review remained mandatory in 2023. Automation was applied to drafting and summarisation; final sign-off remained human.

Vendor risk. Using a third-party model API (OpenAI, Anthropic, Google) introduces vendor concentration risk, data residency risk, and model change risk (providers can update models silently). Enterprise agreements and private deployments partially mitigate these.

Regulatory engagement. The FCA, PRA, ECB, and FINRA all issued papers or speeches on AI governance in 2023. The consistent message: existing model risk frameworks apply to AI, and firms should be proactive in documenting their governance approach ahead of formal guidance.

Questions? Answers.

What is the difference between a large language model and a foundation model?

A large language model (LLM) is a model trained on text data at scale to predict and generate language. A foundation model is a broader term for any large pre-trained model that can be adapted (fine-tuned or prompted) for multiple downstream tasks — including LLMs but also vision models, code models, and multimodal models. GPT-4 is both an LLM and a foundation model. DALL-E 3 is a foundation model but not an LLM. In practice, the terms are often used interchangeably when referring to text-generation systems.

What is retrieval-augmented generation and why does it matter for financial services?

RAG combines a language model with a retrieval system: rather than relying solely on the model's parametric knowledge (what it learned during training), RAG fetches relevant documents at inference time and provides them as context. This significantly reduces hallucination on factual tasks because the model is synthesising provided text rather than recalling learned facts. For financial services, RAG enables use cases like regulatory change monitoring (always retrieves current rules) and contract review (grounds the model in the actual contract text) that would be too hallucination-prone with a pure generation approach.

How should financial institutions handle the EU AI Act in relation to generative AI deployments in 2023?

The EU AI Act was still in legislative process in 2023 (passed by the European Parliament in mars 2024, entered into force août 2024). However, institutions with EU operations or EU customers were already assessing their pipelines. High-risk AI systems in credit scoring, employment decisions, and critical infrastructure require conformity assessments, human oversight mechanisms, and audit logging. General-purpose AI (GPAI) models — which includes foundation models like GPT-4 — have their own tier of requirements around transparency and systemic risk. Firms that began documentation and governance work in 2023 were better positioned for the implementation deadlines.

What is the practical difference between fine-tuning and prompt engineering for enterprise LLM deployments?

Fine-tuning modifies the model's weights by continuing training on domain-specific data — it teaches the model new knowledge and behavioural patterns. It requires labelled training data, compute budget, and ongoing maintenance as base models are updated. Prompt engineering (including few-shot examples and system prompts) shapes behaviour at inference time without changing weights — faster to implement and update, but bounded by what the base model already knows. For most 2023 financial services deployments, RAG plus prompt engineering was the preferred starting point; fine-tuning was reserved for cases where the model needed to learn proprietary terminology or adopt strict output formats.

References #

Ultima revizuire .

Ultima revizuire .