IA generativă în 2023: cum funcționează și unde se aplică

TL;DR. Cum funcționează modelele transformer, care modele din 2023 au stabilit benchmarkurile, unde se poziționează IA generativă în serviciile financiare și ce întrebări de guvernanță trebuie rezolvate înainte de implementare.

Concluzii cheie

Cum funcționează arhitectura Transformer. Fiecare model lingvistic semnificativ implementat în 2023 — GPT-4, Claude 2, Llama 2, Mistral, Falcon — este construit pe arhitectura transformer introdusă în lucrarea din 2017 „Attention Is All You Need".
Peisajul modelelor din 2023. 2023 a produs mai multe lansări semnificative de modele decât orice an anterior:.
Unde a Aterizat Prima Dată Inteligența Artificială Generativă în Serviciile Financiare. Până la sfârșitul anului 2023, instituțiile financiare trecuseră de la experimentarea internă la programe pilot structurate în mai multe cazuri de utilizare distincte:.
Riscurile Expuse de Producție. Trecerea de la demo la producție în serviciile financiare a scos la suprafață un set de riscuri care au necesitat răspunsuri arhitecturale:.

Vizualizare abstractă a rețelei neuronale în tonuri albastre și violete reprezentând procesarea AI .class="img-fluid clearfix"

Rezumat executiv / Concluzii cheie

Arhitectura care a schimbat totul. Lucrarea transformer din 2017 a introdus self-attention: un mecanism care calculează ponderi de relevanță între fiecare pereche de tokeni din input, înlocuind procesarea secvențială a RNN-urilor cu operații matriciale paralelizabile. Fiecare model lingvistic major din 2023 este o variantă transformer (Vaswani et al., 2017).

GPT-4 ca referință pentru 2023. Lansat în martie 2023, GPT-4 a obținut percentila 90 la examenul baroului din SUA, percentila 99 la GRE Verbal și a demonstrat raționament în mai mulți pași pe documente lungi. A stabilit referința de capacitate pe care modelele ulterioare au urmărit să o atingă sau să o depășească (OpenAI, 2023).

Modelele cu ponderi deschise au democratizat accesul. Llama 2 de la Meta (iulie 2023) și Mistral 7B de la Mistral AI (septembrie 2023) au arătat că modelele cu capacitate competitivă cu GPT-3.5 pot rula pe infrastructură privată — adresând cerințele de rezidență a datelor ale industriilor reglementate.

Piloți în serviciile financiare în 2023. Implementările largi de la sfârșitul anului 2023 au inclus revizuirea contractelor juridice (cercetarea DocLLM a JPMorgan), monitorizarea modificărilor de reglementare și instrumente de productivitate pentru dezvoltatori. Goldman Sachs a raportat utilizarea internă a asistenților de codare AI de către 10.000 de dezvoltatori.

Halucinația este o barieră de producție. LLM-urile generează rezultate care sună plauzibil, dar sunt incorect din punct de vedere factual, la rate non-triviale. În cazurile de utilizare reglementate — decizii de credit, opinii de conformitate, dezvăluiri față de clienți — halucinația nu este un defect cosmetic; este un risc de reglementare și de răspundere care necesită atenuări arhitecturale precum retrieval-augmented generation (RAG).

Cum funcționează arhitectura Transformer

Fiecare model lingvistic semnificativ implementat în 2023 — GPT-4, Claude 2, Llama 2, Mistral, Falcon — este construit pe arhitectura transformer introdusă în lucrarea din 2017 „Attention Is All You Need". Înțelegerea mecanismului de bază explică atât de ce aceste modele funcționează, cât și unde eșuează.

Tokeni și embedding-uri. Modelul începe prin împărțirea textului de intrare în tokeni de sub-cuvinte (de obicei folosind byte-pair encoding). Fiecare token este mapat la un vector de înaltă dimensiune (un embedding) care codifică relațiile sale semantice cu alți tokeni, învățate în timpul pre-antrenării.

Self-attention. Pentru fiecare token, modelul calculează trei vectori: un Query (ce caută acest token), un Key (ce oferă acest token) și o Value (ce contribuie acest token). Scorurile de atenție sunt calculate prin luarea produsului intern al fiecărui Query față de toate Key-urile, aplicând softmax pentru a produce ponderi și sumând Values ponderate prin acele scoruri. Aceasta înseamnă că fiecare token acordă atenție simultan tuturor celorlalți tokeni din fereastra de context — mecanismul care oferă transformer-elor capacitatea de a gestiona dependențe pe termen lung.

Multi-head attention. Mai multe capete de atenție rulează în paralel, fiecare învățând diferite tipuri de relații (sintactice, semantice, poziționale). Ieșirile lor sunt concatenate și proiectate liniar.

Straturi feed-forward. După atenție, fiecare poziție trece prin două transformări liniare cu o activare neliniară. Acest strat efectuează calcule per token independent, capturând transformări de caracteristici locale.

Scala. GPT-4 este estimat la peste un trilion de parametri (neconfirmat de OpenAI). Llama 2 70B folosește 70 de miliarde. Mistral 7B folosește 7 miliarde, cu grouped-query attention și sliding window attention pentru eficiență. Modelele mai mari prezintă în general un raționament zero-shot și few-shot mai bun — capacitățile emergente care le fac utile pentru sarcini pe care nu au fost explicit antrenate.

Peisajul modelelor din 2023

2023 a produs mai multe lansări semnificative de modele decât orice an anterior:

GPT-4 (OpenAI, martie 2023). Multimodal (text + imagine la intrare), fereastră de context de până la 128.000 de tokeni în varianta ulterioară GPT-4 Turbo, raționament puternic în mai mulți pași. A stabilit referința pentru sarcinile din domeniile profesionale.

Claude 2 (Anthropic, iulie 2023). Fereastră de context de 100.000 de tokeni (cea mai lungă la lansare), performanță puternică la sarcini cu documente lungi, cum ar fi revizuirea contractelor și analiza de reglementare. Antrenare Constitutional AI pentru ieșiri mai puțin dăunătoare.

Llama 2 (Meta, iulie 2023). Lansare cu ponderi deschise în variante de 7B, 13B, 34B și 70B parametri. Utilizarea comercială este permisă. A permis implementarea on-premise pentru industriile reglementate. A generat sute de variante fine-tuned (Code Llama, Vicuna, WizardLM).

Mistral 7B (Mistral AI, septembrie 2023). 7 miliarde de parametri care depășesc Llama 2 13B pe majoritatea benchmark-urilor. Grouped-query attention și sliding window attention reduc costul de inferență. Primul model european semnificativ de frontieră, relevant în contextul GDPR și EU AI Act.

Falcon 180B (TII, septembrie 2023). Model cu ponderi deschise de 180 de miliarde de parametri, antrenat pe 3,5 trilioane de tokeni de date RefinedWeb. A demonstrat că modelele cu ponderi deschise pot aborda scala de clasă GPT-4.

Unde a Aterizat Prima Dată Inteligența Artificială Generativă în Serviciile Financiare

Până la sfârșitul anului 2023, instituțiile financiare trecuseră de la experimentarea internă la programe pilot structurate în mai multe cazuri de utilizare distincte:

Productivitatea dezvoltatorilor. Instrumentele de generare a codului (GitHub Copilot, Amazon CodeWhisperer, modele fine-tuned intern) au devenit categoria cel mai larg implementată. Goldman Sachs a raportat că 10.000 de dezvoltatori aveau acces la asistență AI pentru codare. Morgan Stanley a implementat GPT-4 intern pentru a ajuta consultanții financiari să recupereze informații dintr-o bază de cunoștințe de 100.000 de documente.

Procesarea documentelor juridice și de reglementare. Extragerea clauzelor contractuale, monitorizarea modificărilor de reglementare și maparea conformității au fost piloții cu cea mai mare valoare. Cercetarea JPMorgan privind DocLLM a demonstrat că modelele lingvistice conștiente de aspectul documentului depășeau LLM-urile generice la sarcinile de înțelegere a documentelor financiare.

Augmentarea serviciului pentru clienți. Băncile au implementat asistenți alimentați de LLM pentru întrebările primare ale clienților, cu escaladare umană pentru sfaturi reglementate. Constrângeri cheie: modelul nu poate oferi sfaturi reglementate, nu trebuie să halucineze termenii produsului și trebuie să fie auditabil.

Generarea de narațiuni KYC și AML. Rezumarea modelelor complexe de tranzacții și a profilurilor clienților pentru revizuire de către analiști — înlocuind ceea ce fusese muncă manuală de redactare — a apărut ca un caz de utilizare credibil cu risc mai scăzut de halucinații, deoarece modelul rezumă datele furnizate mai degrabă decât să genereze afirmații noi.

Riscurile Expuse de Producție

Trecerea de la demo la producție în serviciile financiare a scos la suprafață un set de riscuri care au necesitat răspunsuri arhitecturale:

Halucinația. LLM-urile generează ieșiri incorecte care sună convingător, la rate care variază în funcție de tipul sarcinii și model. La sarcinile de reamintire factuală, chiar și GPT-4 halucinează la rate inacceptabile pentru opinii de conformitate sau dezvăluiri de credit. Atenuarea principală este retrieval-augmented generation (RAG): ancorarea ieșirii modelului în documente recuperate, verificabile, mai degrabă decât să se bazeze exclusiv pe cunoștințele parametrice.

Injecția de prompturi. Intrările adversariale încorporate în documente sau mesajele utilizatorilor pot redirecționa comportamentul modelului. În serviciile financiare, unde LLM-urile procesează documente nesigure (contracte, e-mailuri, depuneri ale clienților), injecția de prompturi este un risc de securitate în producție, nu unul teoretic.

Scurgerea de date. Modelele fine-tuned sau solicitate pe date confidențiale pot reproduce acele date în ieșire — un risc material pentru PII, pozițiile de tranzacționare și informațiile despre clienți. Controalele arhitecturale (implementare privată, gestionarea datelor în context, filtrarea ieșirilor) sunt necesare, nu opționale.

Proveniența modelului și auditabilitatea. Autoritățile de reglementare se așteaptă ca instituțiile financiare să explice deciziile automatizate. Un LLM care produce o evaluare de credit fără un traseu de raționament auditabil nu îndeplinește cerințele de explicabilitate ale Articolului 22 din GDPR, prevederile EU AI Act privind AI de înaltă risc și orientările existente ale FCA privind managementul riscului modelelor.

Cunoștințele depășite. LLM-urile au date limitative de antrenare. Un model antrenat pe date până la începutul anului 2023 nu știe despre modificările de reglementare, deciziile privind ratele sau evenimentele de piață după acea dată — o limitare semnificativă pentru cazurile de utilizare de conformitate în timp real sau comentarii de piață fără RAG sau recuperare în timp real.

Cerințele de Guvernanță Înainte de Implementare

Practicienii din serviciile financiare care activau în 2023 nu așteptau certitudinea de reglementare înainte de implementare — dar instituțiile de top au adoptat cadre de management al riscului modelelor (MRM) adaptate din orientările SR 11-7 și SS3/18:

Inventarul și documentația modelelor. LLM-urile implementate pentru funcții de afaceri necesită documentarea provenienței datelor de antrenare, metodologiei de fine-tuning, modurilor de eșec cunoscute și performanței pe seturi de validare specifice domeniului.

Puncte de control cu om în buclă. Pentru ieșirile reglementate (decizii de credit, opinii de conformitate, dezvăluiri față de clienți), revizuirea umană a rămas obligatorie în 2023. Automatizarea a fost aplicată redactării și rezumării; aprobarea finală a rămas umană.

Riscul furnizorului. Utilizarea unui API de model terț (OpenAI, Anthropic, Google) introduce risc de concentrare a furnizorului, risc de rezidență a datelor și risc de schimbare a modelului (furnizorii pot actualiza modelele în tăcere). Acordurile enterprise și implementările private atenuează parțial acestea.

Implicarea în reglementare. FCA, PRA, BCE și FINRA au publicat toate lucrări sau discursuri privind guvernanța AI în 2023. Mesajul consistent: cadrele existente de risc al modelelor se aplică AI, iar firmele ar trebui să fie proactive în documentarea abordării lor de guvernanță înaintea orientărilor formale.

Întrebări frecvente

Care este diferența dintre un model lingvistic mare și un model fundament?

Un model lingvistic mare (LLM) este un model antrenat pe date de text la scară pentru a prezice și genera limbaj. Un model fundament este un termen mai larg pentru orice model mare pre-antrenat care poate fi adaptat (fine-tuned sau solicitat) pentru mai multe sarcini downstream — inclusiv LLM-uri, dar și modele de viziune, modele de cod și modele multimodale. GPT-4 este atât un LLM, cât și un model fundament. DALL-E 3 este un model fundament, dar nu un LLM. În practică, termenii sunt adesea folosiți interschimbabil când se referă la sistemele de generare de text.

Ce este retrieval-augmented generation și de ce contează pentru serviciile financiare?

RAG combină un model lingvistic cu un sistem de recuperare: în loc să se bazeze exclusiv pe cunoștințele parametrice ale modelului (ceea ce a învățat în timpul antrenării), RAG recuperează documente relevante la timpul de inferență și le furnizează ca context. Aceasta reduce semnificativ halucinația la sarcinile factuale, deoarece modelul sintetizează textul furnizat mai degrabă decât reamintind fapte învățate. Pentru serviciile financiare, RAG permite cazuri de utilizare precum monitorizarea modificărilor de reglementare (recuperează întotdeauna regulile actuale) și revizuirea contractelor (ancorează modelul în textul real al contractului) care ar fi prea predispuse la halucinații cu o abordare de generare pură.

Cum ar trebui instituțiile financiare să gestioneze EU AI Act în raport cu implementările de AI generativ în 2023?

EU AI Act era încă în proces legislativ în 2023 (adoptat de Parlamentul European în martie 2024, intrat în vigoare în august 2024). Cu toate acestea, instituțiile cu operațiuni în UE sau clienți în UE își evaluau deja fluxurile de lucru. Sistemele AI de înaltă risc în scoringul de credit, deciziile de angajare și infrastructura critică necesită evaluări de conformitate, mecanisme de supraveghere umană și înregistrarea auditului. Modelele AI de uz general (GPAI) — care include modele fundament precum GPT-4 — au propriul lor nivel de cerințe privind transparența și riscul sistemic. Firmele care au început documentarea și activitatea de guvernanță în 2023 au fost mai bine poziționate pentru termenele de implementare.

Care este diferența practică dintre fine-tuning și ingineria prompturilor pentru implementările enterprise LLM?

Fine-tuning-ul modifică ponderile modelului continuând antrenarea pe date specifice domeniului — îi predă modelului noi cunoștințe și tipare comportamentale. Necesită date de antrenare etichetate, buget de calcul și întreținere continuă pe măsură ce modelele de bază sunt actualizate. Ingineria prompturilor (inclusiv exemple few-shot și prompturi de sistem) modelează comportamentul la timpul de inferență fără a schimba ponderile — mai rapid de implementat și actualizat, dar limitat de ceea ce știe deja modelul de bază. Pentru majoritatea implementărilor de servicii financiare din 2023, RAG plus ingineria prompturilor a fost punctul de plecare preferat; fine-tuning-ul a fost rezervat pentru cazurile în care modelul trebuia să învețe terminologia proprietară sau să adopte formate stricte de ieșire.

Referințe

Vaswani, A., et al., (2017). Attention Is All You Need ⧉.
OpenAI, (2023). GPT-4 Technical Report ⧉.
Touvron, H., et al., Meta AI, (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models ⧉.
Jiang, A., et al., Mistral AI, (2023). Mistral 7B ⧉.

Ultima revizuire 2026-05-24.

Ultima revizuire 2026-07-25.

Republică acest articol

IA generativă în 2023: cum funcționează și unde se aplică — Sebastien Rousseau

Cum funcționează modelele transformer, care modele din 2023 au stabilit benchmarkurile, unde se poziționează IA generativă în serviciile financiare și ce întrebări de guvernanță trebuie rezolvate înainte de implementare.

Acest articol este licențiat sub Creative Commons Attribution 4.0 International. Republicarea necesită atribuirea la URL-ul canonic.

IA generativă în 2023: cum funcționează și unde se aplică — Sebastien Rousseau

Cum funcționează modelele transformer, care modele din 2023 au stabilit benchmarkurile, unde se poziționează IA generativă în serviciile financiare și ce întrebări de guvernanță trebuie rezolvate înainte de implementare.

Originally published at https://sebastienrousseau.com/ro/2023-11-12-exploring-generative-ai/ by Sebastien Rousseau.
Licensed under CC-BY-4.0.

SEBASTIEN ROUSSEAU FOUNDER · ENGINEER