.class="img-fluid clearfix"
Buod ng Ehekutibo / Mga Pangunahing Aral
- Ang arkitekturang nagbago ng lahat. Ang papel ng transformer noong 2017 ay nagpakilala ng self-attention: isang mekanismo na nagkakalkula ng mga timbang ng kaugnayan sa pagitan ng bawat pares ng token sa input, pinapalitan ang sunud-sunod na pagpoproseso ng mga RNN ng mga operasyong matrix na maaaring i-parallelize. Bawat pangunahing modelo ng wika noong 2023 ay isang variant ng transformer (Vaswani et al., 2017).
- GPT-4 bilang benchmark ng 2023. Inilabas noong Marso 2023, nakamit ng GPT-4 ang ika-90 percentile sa US Bar exam, ika-99 sa GRE Verbal, at nagpakita ng multi-step na pangangatuwiran sa mga mahabang dokumento. Itinakda nito ang benchmark ng kakayahan na sinisikap ng mga susunod na modelo na matugunan o malampasan (OpenAI, 2023).
- Demokratinasyon ng access ng mga open-weight na modelo. Ipinakita ng Llama 2 ng Meta (Hulyo 2023) at Mistral 7B ng Mistral AI (Setyembre 2023) na ang mga modelong mapagkumpitensya sa kakayahan ng klase ng GPT-3.5 ay maaaring tumakbo sa pribadong imprastraktura — tinutugunan ang mga kinakailangan sa residency ng datos ng mga industriyang regulado.
- Mga pilot sa serbisyong pinansyal noong 2023. Ang malawak na mga pagpapatupad sa huling bahagi ng 2023 ay kinabibilangan ng pagsusuri ng legal na kontrata (pananaliksik ng DocLLM ng JPMorgan), pagsubaybay ng pagbabago sa regulasyon, at mga tool sa produktibidad ng developer. Iniulat ng Goldman Sachs ang panloob na paggamit ng mga AI coding assistant sa 10,000 developer.
- Ang Hallucination ay isang hadlang sa produksyon. Ang mga LLM ay naglilikha ng mga output na mukhang kapani-paniwala ngunit hindi totoong tama sa hindi maliit na antas. Sa mga kaso ng reguladong paggamit — mga desisyon sa kredito, mga opinyon sa pagsunod, mga pagsisiwalat sa customer — ang hallucination ay hindi isang pangkalinisan na depekto; ito ay isang panganib sa regulasyon at pananagutan na nangangailangan ng mga architectural na pagpapagaan tulad ng retrieval-augmented generation (RAG).
Paano Gumagana ang Arkitektura ng Transformer #
Bawat makabuluhang modelo ng wika na na-deploy noong 2023 — GPT-4, Claude 2, Llama 2, Mistral, Falcon — ay itinayo sa arkitektura ng transformer na ipinakilala sa papel ng 2017 na "Attention Is All You Need." Ang pag-unawa sa pangunahing mekanismo ay nagpapaliwanag kung bakit gumagana ang mga modelong ito at kung saan sila nabibigo.
Mga token at embedding. Nagsisimula ang modelo sa pamamagitan ng paghahati ng input na teksto sa mga sub-word token (karaniwang gumagamit ng byte-pair encoding). Ang bawat token ay inilalagay sa isang mataas na dimensional na vector (isang embedding) na nag-encode ng mga semantic na relasyon nito sa ibang mga token, na natututo sa panahon ng pre-training.
Self-attention. Para sa bawat token, ang modelo ay nagkakalkula ng tatlong vector: isang Query (ano ang hinahanap ng token na ito), isang Key (ano ang inaalok ng token na ito), at isang Value (ano ang kontribusyon ng token na ito). Ang mga marka ng attention ay kinakalkula sa pamamagitan ng pagkuha ng dot product ng bawat Query laban sa lahat ng Key, pag-apply ng softmax para makagawa ng mga timbang, at pagbubuod ng mga Value na may timbang ayon sa mga markang iyon. Nangangahulugan ito na ang bawat token ay nagbibigay-pansin sa bawat iba pang token sa window ng konteksto nang sabay-sabay — ang mekanismo na nagbibigay sa mga transformer ng kakayahan nilang harapin ang mga dependency na may mahabang hanay.
Multi-head attention. Maraming attention head ang tumatakbo nang magkakatuwang, ang bawat isa ay natututo ng iba't ibang uri ng relasyon (syntactic, semantic, positional). Ang kanilang mga output ay pinagsama at linearly projected.
Mga feed-forward na layer. Pagkatapos ng attention, ang bawat posisyon ay dumadaan sa dalawang linear na transformation na may hindi linear na activation. Ang layer na ito ay nagsasagawa ng per-token na pag-compute nang nagsasarili, kumukuha ng mga lokal na transformation ng feature.
Sukat. Ang GPT-4 ay tinatantyang mahigit isang trilyon na parameter (hindi pa nakumpirma ng OpenAI). Ang Llama 2 70B ay gumagamit ng 70 bilyon. Ang Mistral 7B ay gumagamit ng 7 bilyon, na may grouped-query attention at sliding window attention para sa kahusayan. Ang mas malalaking modelo sa pangkalahatan ay nagpapakita ng mas mahusay na zero-shot at few-shot na pangangatuwiran — ang mga umuusbong na kakayahan na ginagawa silang kapaki-pakinabang para sa mga gawaing hindi sila hayagang sinanay.
Ang Tanawin ng Modelo noong 2023 #
Ang 2023 ay naglikha ng mas maraming makabuluhang paglabas ng modelo kaysa sa anumang nakaraang taon:
GPT-4 (OpenAI, Marso 2023). Multimodal (text + image na input), window ng konteksto hanggang 128,000 token sa susunod na variant na GPT-4 Turbo, malakas na multi-step na pangangatuwiran. Itinaas ang benchmark para sa mga gawaing may propesyonal na domain.
Claude 2 (Anthropic, Hulyo 2023). Window ng konteksto na 100,000 token (pinakamahabang sa paglulunsad), malakas na performance sa mga gawaing may mahabang dokumento tulad ng pagsusuri ng kontrata at pagsusuri ng regulasyon. Pagsasanay ng Constitutional AI para sa pinababang mapanganib na output.
Llama 2 (Meta, Hulyo 2023). Open-weight na paglabas sa mga variant na 7B, 13B, 34B, at 70B na parameter. Pinahintulutan ang komersyal na paggamit. Pinagana ang on-premise na pagpapatupad para sa mga industriyang regulado. Nagsilang ng daan-daang fine-tuned na variant (Code Llama, Vicuna, WizardLM).
Mistral 7B (Mistral AI, Setyembre 2023). 7 bilyong parameter na higit sa Llama 2 13B sa karamihan ng mga benchmark. Pinapababa ng grouped-query attention at sliding window attention ang gastos sa inference. Ang unang makabuluhang European frontier model, kaugnay sa konteksto ng GDPR at EU AI Act.
Falcon 180B (TII, Setyembre 2023). Open-weight na modelo na may 180 bilyong parameter, sinanay sa 3.5 trilyong token ng datos ng RefinedWeb. Nagpakita na ang mga open-weight na modelo ay maaaring lumapit sa sukat ng klase ng GPT-4.
Saan Unang Napadpad ang Generative AI sa Mga Serbisyong Pinansyal #
Sa huling bahagi ng 2023, ang mga institusyong pinansyal ay lumipat mula sa panloob na eksperimento patungo sa mga nakastruktura na programang pilot sa ilang natatanging kaso ng paggamit:
Produktibidad ng developer. Ang mga tool sa pagbuo ng code (GitHub Copilot, Amazon CodeWhisperer, mga modelong fine-tuned sa loob) ay naging pinaka-malawak na na-deploy na kategorya. Iniulat ng Goldman Sachs na ang 10,000 developer ay may access sa tulong sa coding ng AI. Na-deploy ng Morgan Stanley ang GPT-4 sa loob upang tulungan ang mga financial adviser na makuha ang impormasyon mula sa knowledge base na may 100,000 dokumento.
Pagpoproseso ng legal at regulatoryong dokumento. Ang pagkuha ng sugnay ng kontrata, pagsubaybay ng pagbabago sa regulasyon, at pagma-mapa ng pagsunod ang mga pinaka-mataas na halaga na pilot. Ang pananaliksik ng JPMorgan sa DocLLM ay nagpakita na ang mga modelo ng wika na may kamalayan sa layout ng dokumento ay higit na mahusay kaysa sa mga generic na LLM sa mga gawaing pag-unawa sa dokumentong pinansyal.
Pagpapalakas ng serbisyo sa customer. Nag-deploy ang mga bangko ng mga katulong na pinapatakbo ng LLM para sa mga unang linyang katanungan ng customer, na may pagtaas ng tao para sa reguladong payo. Mga pangunahing hadlang: ang modelo ay hindi maaaring magbigay ng reguladong payo, hindi dapat mag-hallucinate ng mga tuntunin ng produkto, at dapat na ma-audit.
Paglikha ng kwento ng KYC at AML. Ang pagbubuod ng mga kumplikadong pattern ng transaksyon at mga profile ng customer para sa pagsusuri ng analyst — pinapalitan ang dati ay manu-manong gawain sa pagsulat — lumitaw bilang mapagkakatiwalaang kaso ng paggamit na may mas mababang panganib ng hallucination dahil ang modelo ay nagbubuod ng ibinigay na datos kaysa sa paglikha ng mga bagong pahayag.
Ang Mga Panganib na Inihayag ng Produksyon #
Ang paglipat mula sa demo patungo sa produksyon sa mga serbisyong pinansyal ay naglantad ng isang hanay ng mga panganib na nangangailangan ng mga architectural na tugon:
Hallucination. Ang mga LLM ay naglilikha ng mga maling output na mukhang may kumpiyansa sa mga antas na nagbabago ayon sa uri ng gawain at modelo. Sa mga gawaing pag-recall ng katotohanan, kahit ang GPT-4 ay nag-hallucinate sa mga antas na hindi katanggap-tanggap para sa mga opinyon sa pagsunod o mga pagsisiwalat sa kredito. Ang pangunahing pagpapagaan ay retrieval-augmented generation (RAG): ibatay ang output ng modelo sa mga nakuhang, naberipikang dokumento sa halip na umasa lamang sa parametric na kaalaman.
Prompt injection. Ang mga adversarial na input na naka-embed sa mga dokumento o mensahe ng user ay maaaring mag-redirect ng gawi ng modelo. Sa mga serbisyong pinansyal, kung saan ang mga LLM ay nagpoproseso ng mga hindi pinagkakatiwalaang dokumento (mga kontrata, email, mga submission ng customer), ang prompt injection ay isang panganib sa seguridad ng produksyon, hindi isang teoretikal.
Pagtagas ng datos. Ang mga modelong fine-tuned o na-prompt sa kumpidensyal na datos ay maaaring i-reproduce ang datos na iyon sa output — isang materyal na panganib para sa PII, mga posisyon sa trading, at impormasyon ng kliyente. Ang mga architectural na kontrol (pribadong pagpapatupad, pamamahala ng datos-sa-konteksto, pag-filter ng output) ay kinakailangan, hindi opsyonal.
Provenance at auditability ng modelo. Inaasahan ng mga regulator na ipaliwanag ng mga institusyong pinansyal ang mga awtomatikong desisyon. Ang isang LLM na naglilikha ng isang pagsusuri sa kredito nang walang naa-audit na trail ng pangangatuwiran ay nabigo sa mga kinakailangan ng explainability ng GDPR Article 22, ang mga probisyon ng mataas na panganib na AI ng EU AI Act, at ang kasalukuyang gabay ng FCA sa panganib ng modelo.
Lipas na kaalaman. Ang mga LLM ay may mga cutoff sa pagsasanay. Ang isang modelo na sinanay sa datos hanggang sa unang bahagi ng 2023 ay hindi alam ang tungkol sa mga pagbabago sa regulasyon, mga desisyon sa rate, o mga kaganapan sa merkado pagkatapos ng petsang iyon — isang makabuluhang limitasyon para sa real-time na pagsunod o mga kaso ng paggamit ng komentaryo sa merkado nang walang RAG o real-time na pagkuha.
Mga Kinakailangan sa Pamamahala Bago ang Pagpapatupad #
Ang mga practitioner ng serbisyong pinansyal na nag-ooperate noong 2023 ay hindi naghihintay ng katiyakan sa regulasyon bago mag-deploy — ngunit ang mga nangungunang institusyon ay nag-adopt ng mga balangkas ng model risk management (MRM) na inangkop mula sa gabay ng SR 11-7 at SS3/18:
Imbentaryo at dokumentasyon ng modelo. Ang mga LLM na na-deploy para sa mga function ng negosyo ay nangangailangan ng dokumentasyon ng provenance ng datos ng pagsasanay, metodolohiya ng fine-tuning, mga kilalang mode ng pagkabigo, at performance sa mga domain-specific na validation set.
Mga checkpoint ng tao sa loop. Para sa mga regulated na output (mga desisyon sa kredito, mga opinyon sa pagsunod, mga pagsisiwalat sa customer), ang pagsusuri ng tao ay nananatiling mandatory noong 2023. Ang awtomatisasyon ay inilapat sa pagsusulat at pagbubuod; ang huling pag-apruba ay nananatiling tao.
Panganib sa vendor. Ang paggamit ng third-party model API (OpenAI, Anthropic, Google) ay nagpapakilala ng panganib ng konsentrasyon ng vendor, panganib sa residency ng datos, at panganib sa pagbabago ng modelo (maaaring mag-update ang mga provider ng mga modelo nang tahimik). Ang mga enterprise agreement at pribadong pagpapatupad ay bahagyang nagpapagaan ng mga ito.
Pakikipag-ugnayan sa regulasyon. Ang FCA, PRA, ECB, at FINRA ay naglabas ng mga papel o talumpati sa pamamahala ng AI noong 2023. Ang pare-parehong mensahe: ang mga kasalukuyang balangkas ng panganib ng modelo ay naaangkop sa AI, at ang mga kumpanya ay dapat maging maagap sa pag-dokumenta ng kanilang diskarte sa pamamahala bago ang pormal na gabay.
Mga Madalas na Itanong #
Ano ang pagkakaiba sa pagitan ng isang large language model at isang foundation model?
Ang large language model (LLM) ay isang modelo na sinanay sa datos ng teksto sa sukat upang hulaan at likhain ang wika. Ang foundation model ay isang mas malawak na termino para sa anumang malaking pre-trained na modelo na maaaring i-adapt (fine-tuned o na-prompt) para sa maraming downstream na gawain — kabilang ang mga LLM ngunit pati na rin ang mga vision model, mga code model, at mga multimodal na modelo. Ang GPT-4 ay parehong isang LLM at isang foundation model. Ang DALL-E 3 ay isang foundation model ngunit hindi isang LLM. Sa praktis, ang mga termino ay madalas na ginagamit nang palitan kapag tumutukoy sa mga sistema ng paglikha ng teksto.
Ano ang retrieval-augmented generation at bakit ito mahalaga para sa mga serbisyong pinansyal?
Pinagsasama ng RAG ang isang modelo ng wika sa isang sistema ng pagkuha: sa halip na umasa lamang sa parametric na kaalaman ng modelo (kung ano ang natutunan nito sa panahon ng pagsasanay), ang RAG ay kumukuha ng mga kaugnay na dokumento sa oras ng inference at ibinibigay ang mga ito bilang konteksto. Ito ay makabuluhang nagpapababa ng hallucination sa mga gawaing katotohanan dahil ang modelo ay gumagawa ng synthesis ng ibinigay na teksto sa halip na alalahanin ang mga natutunang katotohanan. Para sa mga serbisyong pinansyal, ang RAG ay nagbibigay-daan sa mga kaso ng paggamit tulad ng pagsubaybay ng pagbabago sa regulasyon (palaging kumukuha ng kasalukuyang mga patakaran) at pagsusuri ng kontrata (ibinabatay ang modelo sa aktwal na teksto ng kontrata) na magiging masyadong hallucination-prone sa isang purong diskarte sa paglikha.
Paano dapat hawakan ng mga institusyong pinansyal ang EU AI Act kaugnay ng mga pagpapatupad ng generative AI noong 2023?
Ang EU AI Act ay nasa proseso pa rin ng batas noong 2023 (ipinasa ng European Parliament noong Marso 2024, pumasok sa bisa noong Agosto 2024). Gayunpaman, ang mga institusyon na may mga operasyon sa EU o mga customer sa EU ay nag-assess na ng kanilang mga pipeline. Ang mga mataas na panganib na sistema ng AI sa pag-score ng kredito, mga desisyon sa trabaho, at kritikal na imprastraktura ay nangangailangan ng mga pagsusuri ng conformity, mga mekanismo ng pangangasiwa ng tao, at pag-log ng audit. Ang mga General-purpose AI (GPAI) na modelo — na kinabibilangan ng mga foundation model tulad ng GPT-4 — ay may sariling tier ng mga kinakailangan sa paligid ng transparency at systemic na panganib. Ang mga kumpanyang nagsimula ng gawain sa dokumentasyon at pamamahala noong 2023 ay mas mahusay na nakaposisyon para sa mga deadline sa implementasyon.
Ano ang praktikal na pagkakaiba sa pagitan ng fine-tuning at prompt engineering para sa mga enterprise na pagpapatupad ng LLM?
Binabago ng fine-tuning ang mga timbang ng modelo sa pamamagitan ng pagpapatuloy ng pagsasanay sa domain-specific na datos — itinuturo nito sa modelo ang bagong kaalaman at mga pattern ng gawi. Nangangailangan ito ng mga label na datos sa pagsasanay, badyet sa compute, at patuloy na pagpapanatili habang ina-update ang mga base model. Ang prompt engineering (kabilang ang mga halimbawa ng few-shot at mga system prompt) ay humuhubog ng gawi sa oras ng inference nang hindi nagbabago ng mga timbang — mas mabilis na ipatupad at i-update, ngunit nakatali sa kung ano ang alam na ng base model. Para sa karamihan ng mga pagpapatupad ng serbisyong pinansyal noong 2023, ang RAG kasama ang prompt engineering ang naging preferring na simula; ang fine-tuning ay naireserba para sa mga kaso kung saan kailangan ng modelo na matuto ng proprietary na terminolohiya o mag-adopt ng mahigpit na mga format ng output.
Mga Sanggunian #
- Vaswani, A., et al., (2017). Attention Is All You Need ⧉.
- OpenAI, (2023). GPT-4 Technical Report ⧉.
- Touvron, H., et al., Meta AI, (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models ⧉.
- Jiang, A., et al., Mistral AI, (2023). Mistral 7B ⧉.
Huling sinuri .
Huling sinuri .