Një model i madh gjuhësor ( LLM ) është një lloj modeli llogaritës i projektuar për detyra të përpunimit të gjuhës natyrore si gjenerimi i gjuhës. Si modele gjuhësore, LLM-të i fitojnë këto aftësi duke mësuar marrëdhëniet statistikore nga sasi të mëdha teksti gjatë një procesi trajnimi të vetë-mbikëqyrur dhe gjysmë të mbikëqyrur.[1]

LLM-të më të fuqishme dhe më të avancuara, që nga gushti 2024, janë rrjete nervore artificiale me një arkitekturë të bazuar kryesisht në dekoderë, duke ofruar përpunim efikas dhe gjenerim të gjuhës në shkallë të gjerë. Këto modele mund të përshtaten për detyra specifike ose të përdorin inxhinierinë e shpejtë. Ato ofrojnë parashikime në lidhje me sintaksën dhe semantikën, por gjithashtu trashëgojnë pasaktësitë dhe paragjykimet nga të dhënat mbi të cilat janë trajnuar.

Historia

Redakto
 
Llogaritja e trajnimit të modeleve të mëdha të dukshme në FLOP kundrejt datës së publikimit gjatë periudhës 2010-2024. Për modelet e përgjithshme të dukshme (lart majtas), modelet kufitare (lart djathtas), modelet e gjuhës së sipërme (poshtë majtas) dhe modelet kryesore brenda kompanive kryesore (poshtë djathtas). Shumica e këtyre modeleve janë modele gjuhësore.
 
Llogaritja e trajnimit të modeleve të mëdha të dukshme të AI në FLOP kundrejt datës së publikimit gjatë periudhës 2017-2024. Shumica e modeleve të mëdha janë modele gjuhësore ose modele multimodale me kapacitet gjuhësor.

Para vitit 2017, disa modele gjuhësore ishin të konsiderueshme për kohën. Në vitet 1990, IBM prezantoi modelimin statistikor të gjuhës, dhe në vitin 2001, një model i zbutur n-gram me 0.3 miliardë fjalë arriti rezultate të larta për atë kohë. Në vitet 2000, studiuesit filluan të trajnojnë modele gjuhësore mbi grupe të mëdha të dhënash nga interneti. Deri në vitin 2009, modelet statistikore të gjuhës dominonin për shkak të aftësisë së tyre për të përpunuar sasi të mëdha të dhënash. [2]

Pasi qe rrjetat nervore bëhen dominante në processimin e imazhit rreth 2012,[3] ato janë aplikuar në modelimin e gjuhës po ashtu. Google e konvertoi shërbimin e tij të përkthimit në Përkthimin e Makinerisë Neurale në 2016. Siç ishte përpara Transformers, ajo u bë nga rrjetet e thella LSTM seq2seq.

 
Një ilustrim i përbërësve kryesorë të modelit të transformatorit nga letra origjinale, ku shtresat u normalizuan pas (në vend të mëparshëm) vëmendjes me shumë koka

Në konferencën NeurIPS 2017, studiuesit e Google prezantuan arkitekturën e transformatorit në punimin e tyre historik " Vëmendja është gjithçka që ju nevojitet ". Qëllimi i këtij punimi ishte të përmirësonte teknologjinë Seq2seq të vitit 2014, [4] dhe bazohej kryesisht në mekanizmin e vëmendjes të zhvilluar nga Bahdanau et al. në 2014. [5] Një vit më pas në 2018, BERT u prezantua dhe shpejt u bë "i kudondodhur". [6] Megjithëse transformatori origjinal ka blloqe kodues dhe dekoder, BERT është një model vetëm për kodues.

Megjithëse GPT-1 u prezantua në vitin 2018, ishte GPT-2 që tërhoqi vëmendje të madhe në 2019 pasi OpenAI vendosi të mos e lëshonte fillimisht për publikun, për shkak të shqetësimeve mbi keqpërdorimin. GPT-3 në 2020 e çoi më tej dhe që nga viti 2024 është i disponueshëm vetëm përmes API-së. ChatGPT, i prezantuar në 2022, fitoi popullaritet të gjerë për përdoruesit e zakonshëm. GPT-4, lëshuar në 2023, vlerësohet për saktësinë e tij dhe aftësitë multimodale, por OpenAI nuk zbuloi detajet e plota të arkitekturës.

Që nga viti 2022, modelet me burim të hapur si BLOOM dhe LLaMA kanë fituar popullaritet, megjithëse kanë disa kufizime në përdorim. Modelet si Mistral AI (Mistral 7B dhe Mixtral 8x7b) përdorin licencën Apache. Që nga qershori 2024, Llama 3 me 70 miliardë parametra, në versionin e tij të akorduar, është LLM më i fuqishëm i hapur, sipas tabelës LMSYS Chatbot Arena, duke tejkaluar GPT-3.5, por mbetet më pak i fuqishëm se GPT-4.

Që nga viti 2024, modelet më të mëdha dhe më të afta bazohen të gjitha në arkitekturën Transformer. Disa implementime të kohëve të fundit bazohen në arkitektura të tjera, të tilla si variantet e rrjetit nervor të përsëritur dhe Mamba (një model i hapësirës shtetërore ).[7] [8]

Parapërpunimi i të dhënave

Redakto

Tokenizimi

Redakto

Për shkak se algoritmet e mësimit të makinerive përpunojnë numra dhe jo tekst, teksti duhet të konvertohet në numra. Në hapin e parë, vendoset një fjalor, më pas indekset e numrave të plotë caktohen në mënyrë arbitrare, por unike për çdo hyrje të fjalorit, dhe së fundi, një përfshirje shoqërohet me indeksin e numrit të plotë. Algoritmet përfshijnë kodimin e çifteve bajt (BPE) dhe WordPiece . Ekzistojnë gjithashtu shenja të veçanta që shërbejnë si karaktere kontrolli, të tilla si [MASK] për shenjën e maskuar (siç përdoret në BERT ) dhe [UNK] ("i panjohur") për karakteret që nuk shfaqen në fjalor. Gjithashtu, disa simbole të veçanta përdoren për të treguar formatimin e veçantë të tekstit. Për shembull, "Ġ" tregon një hapësirë të bardhë të mëparshme në RoBERTa dhe GPT. "##" tregon vazhdimin e një fjale të mëparshme në BERT. [9]

shenjë izer :  tekste  -> seri  e  numerike  " t ok ens "

Tokenizimi gjithashtu ngjesh grupet e të dhënave. Për shkak se LLM-të në përgjithësi kërkojnë që hyrja të jetë një grup që nuk është i dehur, tekstet më të shkurtra duhet të "mbushen" derisa të përputhen me gjatësinë e më të gjatit. Sa argumente nevojiten mesatarisht për fjalë varet nga gjuha e grupit të të dhënave. [10] [11]

Si shembull, merrni parasysh një tokenizues të bazuar në kodimin e çiftëve të bajtit. Në fillim, të gjitha karakteret unike, përfshirë boshllëqet dhe shenjat e pikësimit, trajtohen si një grup fillestar uni-gramësh. Çifti më i shpeshtë i karaktereve bashkohet në një bigram dhe të gjitha rastet e tij zëvendësohen. Më pas, çiftet që ndodhin së bashku më shpesh bashkohen përsëri në n-gram më të gjatë, derisa të formohet një fjalor i caktuar. Pasi të trajnohet, shënuesi mund të përdoret për të shënuar tekstin që nuk përmban karaktere të panjohura.[12]

Problemet

Redakto

Një fjalor simbolik i bazuar në frekuencat e nxjerra nga korpuset kryesisht angleze përdor sa më pak shenja të jetë e mundur për një fjalë mesatare angleze. Megjithatë, një fjalë mesatare në një gjuhë tjetër e koduar nga një tokenizues i tillë i optimizuar nga anglishtja ndahet në një sasi jooptimale të shenjave. Tokenizuesi GPT-2 mund të përdorë deri në 15 herë më shumë shenja për fjalë për disa gjuhë, për shembull për gjuhën Shan nga Mianmari . Edhe gjuhët më të përhapura si portugalishtja dhe gjermanishtja kanë "një premium prej 50%" në krahasim me anglishten. [13]

Tokenizimi i pangopur gjithashtu shkakton probleme delikate me plotësimin e tekstit. [14]

Pastrimi i të dhënave

Redakto

Në kontekstin e trajnimit të LLM-ve, grupet e të dhënave zakonisht pastrohen duke hequr pasazhe toksike nga grupi i të dhënave, duke hedhur poshtë të dhënat me cilësi të ulët dhe duke hequr dyfishimin. Pastrimi i grupeve të të dhënave mund të rrisë efikasitetin e trajnimit dhe të çojë në përmirësimin e performancës në rrjedhën e poshtme. [15] [16] Një LLM e trajnuar mund të përdoret për të pastruar grupet e të dhënave për trajnimin e një LLM të mëtejshëm.

Me rritjen e përqindjes së përmbajtjes së krijuar nga LLM në ueb, pastrimi i të dhënave në të ardhmen mund të përfshijë filtrimin e përmbajtjes së tillë. Përmbajtja e gjeneruar nga LLM mund të përbëjë problem nëse përmbajtja është e ngjashme me tekstin njerëzor (duke e bërë të vështirë filtrimin) por me cilësi më të ulët (performancë degraduese e modeleve të trajnuar në të).

Të dhëna sintetike

Redakto

Trajnimi i modeleve më të mëdha gjuhësore mund të ketë nevojë për më shumë të dhëna gjuhësore sesa të disponueshme natyrshëm, ose që të dhënat e natyrshme të jenë të cilësisë së pamjaftueshme. Në këto raste, mund të përdoren të dhëna sintetike. Seria Phi e Microsoft-it e LLM-ve është trajnuar mbi të dhëna të ngjashme me tekstet shkollore të krijuara nga një LLM tjetër. [17]

Trajnimi dhe arkitektura

Redakto

Të mësuarit përforcues nga reagimet njerëzore (RLHF)

Redakto

Stampa:SmalldivTë mësuarit përforcues nga reagimet njerëzore (RLHF) përmes algoritmeve, të tilla si optimizimi i politikave proksimale, përdoret për të rregulluar më tej një model të bazuar në një grup të dhënash të preferencave njerëzore.

Akordimi i udhëzimeve

Redakto

Duke përdorur qasjet "vetë-udhëzuese", LLM-të kanë qenë në gjendje të nisin përgjigjet e sakta, duke zëvendësuar çdo përgjigje naive, duke filluar nga korrigjimet e krijuara nga njeriu në disa raste. Për shembull, në udhëzimin "Shkruani një ese për temat kryesore të përfaqësuara në Hamlet ", një përfundim fillestar naiv mund të jetë "Nëse e dorëzoni esenë pas datës 17 mars, nota juaj do të reduktohet me 10% për çdo ditë vonesë." bazuar në shpeshtësinë e kësaj sekuence tekstuale në korpus.

Përzierje ekspertësh

Redakto

LLM-ja më e madhe mund të jetë shumë e shtrenjtë për t'u trajnuar dhe përdorur drejtpërdrejt. Për modele të tilla, mund të aplikohet përzierja e ekspertëve (MM), një linjë kërkimesh e ndjekur nga studiuesit e Google që nga viti 2017 për të trajnuar modele që arrijnë deri në 1 trilion parametra. [18] [19]

Inxhinieri e shpejtë, mekanizmi i vëmendjes dhe dritarja e kontekstit

Redakto

Shumica e rezultateve të arritura më parë vetëm me rregullim të imët (të kushtueshëm), mund të arrihen përmes inxhinierisë së shpejtë, megjithëse të kufizuara në shtrirjen e një bisede të vetme (më saktë, të kufizuar në fushëveprimin e një dritareje konteksti). [20]

 
Kur secila kokë llogarit, sipas kritereve të veta, sa shenja të tjera janë të rëndësishme për shenjën "it_", vini re se koka e dytë e vëmendjes, e përfaqësuar nga kolona e dytë, fokusohet më së shumti në dy rreshtat e parë, dmth. The" dhe "kafshë", ndërsa kolona e tretë fokusohet më së shumti në dy rreshtat e poshtëm, dmth në "i lodhur", i cili është shënjuar në dy shenja. [21]

Për të identifikuar rëndësinë e shenjave brenda fushëveprimit të dritares së kontekstit, mekanizmi i vëmendjes llogarit peshat "të buta" për çdo shenjë, duke përdorur disa koka të vëmendjes, secila me "relevancën" e saj për të llogaritur peshat. Për shembull, modeli i vogël GPT-2 (117M parametra) kishte dymbëdhjetë koka vëmendjeje dhe një dritare konteksti me 1,000 shenja. Versioni mesatar i tij kishte 345 milion parametra dhe 24 shtresa, gjithashtu me 12 koka vëmendjeje. Trajnimi përdorte një grup prej 512. [12]

Modelet më të mëdha, si Gemini 1.5 i Google, i prezantuar në shkurt 2024, mund të kenë një dritare konteksti deri në 1 milion shenja (madje është testuar një dritare prej 10 milionësh). Modele të tjera me dritare të gjera konteksti përfshijnë Claude 2.1 nga Anthropic, që mbështet deri në 200,000 shenja. Është e rëndësishme të theksohet se ky maksimum i referohet shenjave hyrëse, ndërsa numri maksimal i shenjave të daljes është shpesh më i vogël, si në rastin e GPT-4 Turbo me 4,096 shenja dalëse.

Kohëzgjatja e një bisede që modeli merr parasysh për të gjeneruar përgjigjen e tij të radhës është e kufizuar nga madhësia e dritares së kontekstit. Nëse biseda është më e gjatë se dritarja e kontekstit, vetëm pjesët brenda saj do të merren parasysh gjatë gjenerimit të përgjigjes. Alternativisht, modeli mund të përdorë një algoritëm për të përmbledhur pjesët më të largëta të bisedës për të përfshirë informacionin relevant.

Mangësitë e zgjerimit të dritares së kontekstit përfshijnë kosto më të lartë llogaritëse dhe një ndoshta zvogëlim të fokusit në kontekstin lokal. Nga ana tjetër, zvogëlimi i saj mund të çojë në humbjen e varësive të rëndësishme me rreze të gjatë. Balancimi i këtyre aspekteve është një çështje eksperimentimi dhe kërkon konsiderata specifike për domenin.

Një model mund të trajnohet paraprakisht ose për të parashikuar se si segmenti vazhdon, ose çfarë mungon në segment, duke pasur parasysh një segment nga grupi i të dhënave të tij të trajnimit. [22] Mund të jetë ose

  • autoregresiv (dmth. parashikimi se si vazhdon segmenti, mënyra se si e bëjnë GPT- të): për shembull duke pasur parasysh një segment "Më pëlqen të ha", modeli parashikon "akullore" ose "sushi".
  • " i maskuar " (dmth. plotësimi i pjesëve që mungojnë nga segmenti, siç e bën "BERT" [23] ): për shembull, duke pasur parasysh një segment "Më pëlqen të [__] [__] krem", modeli parashikon se " hani" dhe "akull" mungojnë.

Modelet mund të trajnohen për detyra ndihmëse që testojnë të kuptuarit e tyre për shpërndarjen e të dhënave, siç është Parashikimi i Fjalive Tjera (NSP), ku çifte fjalish paraqiten dhe modeli duhet të parashikojë nëse ato shfaqen në mënyrë të njëpasnjëshme në korpusin e trajnimit. Gjatë stërvitjes, humbja e rregullimit përdoret për të stabilizuar procesin, por zakonisht nuk aplikohet gjatë testimit dhe vlerësimit.

Infrastruktura

Redakto

Infrastruktura e konsiderueshme është e nevojshme për trajnimin e modeleve më të mëdha. [24] [25] [26]

Kostoja e trajnimit

Redakto

Përparimet në softuer dhe harduer kanë ulur ndjeshëm koston që nga viti 2020, kështu që në vitin 2023 trajnimi i një kosto llogaritëse LLM me 12 miliardë parametra është 72,300 orë A100-GPU, ndërsa në vitin 2020 kostoja e trajnimit të një LLM me 1.5 miliardë parametra. (e cila ishte dy rend magnitudë më e vogël se gjendja e artit në 2020) ishte midis 80 mijë dhe 1.6 milion dollarë. [27] Që nga viti 2020, shuma të mëdha janë investuar në modele gjithnjë e më të mëdha. Për shembull, trajnimi i GPT-2 (dmth një model me 1.5 miliardë parametra) në 2019 kushtoi 50,000 dollarë, ndërsa trajnimi i PaLM (dmth një model me 540 miliardë parametra) në 2022 kushtoi 8 milion dollarë, dhe Megatron-Turing NLG. 530 B (në 2021) kushtoi rreth 11 milion dollarë. [28]

Për LLM të bazuar në Transformer, kostoja e trajnimit është shumë më e lartë se kostoja e konkluzionit. Kushton 6 FLOP për parametër për të trajnuar në një shenjë, ndërsa kushton 1 deri në 2 FLOP për parametër për të konkluduar në një shenjë. [29]

Përdorimi i mjetit

Redakto

Ka disa detyra që, në parim, nuk mund të zgjidhen nga asnjë LLM, të paktën jo pa përdorimin e mjeteve të jashtme ose softuerit shtesë. Një shembull i një detyre të tillë është përgjigjja ndaj hyrjes së përdoruesit '354 * 139 = ', me kusht që LLM të mos ketë hasur tashmë në një vazhdimësi të kësaj llogaritjeje në korpusin e saj të trajnimit. </link>[ <span title="The material near this tag is possibly inaccurate or nonfactual. (September 2024)">e dyshimtë</span> – diskutoni ] Në raste të tilla, LLM duhet të përdorë kodin e programit të ekzekutimit që llogarit rezultatin, i cili më pas mund të përfshihet në përgjigjen e tij. </link>[ <span title="The material near this tag is possibly inaccurate or nonfactual. (September 2024)">e dyshimtë</span> – diskutoni ] : Një shembull tjetër është 'Sa është ora tani? Është ', ku një përkthyes i veçantë programi do të duhet të ekzekutojë një kod për të marrë kohën e sistemit në kompjuter, kështu që LLM mund ta përfshijë atë në përgjigjen e tij. [30] Kjo strategji bazë mund të jetë e sofistikuar me përpjekje të shumta të programeve të krijuara, dhe strategji të tjera kampionimi.

Në përgjithësi, në mënyrë që një LLM të përdorë mjete, duhet ta rregulloni atë për përdorim të veglave. Nëse numri i mjeteve është i kufizuar, atëherë rregullimi mund të bëhet vetëm një herë. Nëse numri i mjeteve mund të rritet në mënyrë arbitrare, si me shërbimet API në internet, atëherë LLM mund të rregullohet mirë për të qenë në gjendje të lexojë dokumentacionin API dhe të thërrasë saktë API. [31] [32]

Një formë më e thjeshtë e përdorimit të mjetit është gjenerimi i shtuar me rikthim : shtimi i një LLM me rikthim dokumenti . Duke pasur parasysh një pyetje, një rifitues dokumenti thirret për të marrë dokumentet më të rëndësishme. Kjo zakonisht bëhet duke koduar pyetjen dhe dokumentet në vektorë, pastaj duke gjetur dokumentet me vektorë (zakonisht të ruajtura në një bazë të dhënash vektoriale ) më të ngjashme me vektorin e pyetjes. LLM më pas gjeneron një dalje bazuar në pyetjen dhe kontekstin e përfshirë nga dokumentet e marra. [33]

Agjencia

Redakto

Një LLM është një model gjuhësor, i cili nuk është një agjent pasi nuk ka qëllim, por mund të përdoret si një komponent i një agjenti inteligjent . [34] Studiuesit kanë përshkruar disa metoda për integrime të tilla. </link>[ citim i nevojshëm ]

Modeli ReAct, një portmanto i "Arsyeja + Act", ndërton një agjent nga një LLM, duke përdorur LLM si një planifikues. LLM-së i kërkohet të "mendojë me zë të lartë". Në mënyrë të veçantë, modeli gjuhësor nxitet me një përshkrim tekstual të mjedisit, një qëllim, një listë të veprimeve të mundshme dhe një regjistrim të veprimeve dhe vëzhgimeve të deritanishme. Ai gjeneron një ose më shumë mendime përpara se të gjenerojë një veprim, i cili më pas ekzekutohet në mjedis. [35] Përshkrimi gjuhësor i mjedisit që i jepet planifikuesit LLM mund të jetë edhe kodi LaTeX i një punimi që përshkruan mjedisin. [36]

Në metodën DEPS ("Përshkruani, Shpjegoni, Planifikoni dhe Zgjidh"), një LLM fillimisht lidhet me botën vizuale nëpërmjet përshkrimeve të imazheve, pastaj nxitet të prodhojë plane për detyra dhe sjellje komplekse bazuar në njohuritë e tij të paratrajnuara dhe reagimet mjedisore. merr.

Metoda Reflexion ndërton një agjent që mëson mbi episode të shumta. Në fund të çdo episodi, LLM-së i jepet regjistrimi i episodit dhe nxitet të mendojë "mësimet e nxjerra", të cilat do ta ndihmonin atë të performonte më mirë në një episod pasues. Këto "mësime të nxjerra" i jepen agjentit në episodet e mëvonshme. </link>[ citim i nevojshëm ]

Kërkimi i pemës në Monte Carlo mund të përdorë një LLM si heuristikë të paraqitjes. Kur një model bote programatik nuk është i disponueshëm, një LLM gjithashtu mund të nxitet me një përshkrim të mjedisit për të vepruar si model botëror. [37]

Për eksplorim të hapur, një LLM mund të përdoret për të shënuar vëzhgime për "interesantitetin" e tyre, i cili mund të përdoret si një sinjal shpërblimi për të udhëhequr një agjent mësimor përforcues normal (jo-LLM). [38] Përndryshe, ai mund të propozojë detyra gjithnjë e më të vështira për mësimin e kurrikulës . [39] Në vend të nxjerrjes së veprimeve individuale, një planifikues LLM mund të ndërtojë gjithashtu "aftësi" ose funksione për sekuenca komplekse veprimesh. Aftësitë mund të ruhen dhe të përdoren më vonë, duke lejuar rritjen e niveleve të abstraksionit në planifikim. [39]

Agjentët e fuqizuar nga LLM mund të mbajnë një memorie afatgjatë të konteksteve të tij të mëparshme dhe kujtesa mund të merret në të njëjtën mënyrë si Retrieval Augmented Generation. Shumë agjentë të tillë mund të ndërveprojnë shoqërisht.

Kompresimi

Redakto

Në mënyrë tipike, LLM-të trajnohen me numra me pikë lundruese me një ose gjysmë saktësi (float32 dhe float16). Një float16 ka 16 bit, ose 2 bajt, dhe kështu një miliard parametra kërkojnë 2 gigabajt. Modelet më të mëdha zakonisht kanë 100 miliardë parametra, që kërkojnë 200 gigabajt për t'u ngarkuar, gjë që i vendos ato jashtë gamës së shumicës së pajisjeve elektronike të konsumit. [40]

Kuantizimi pas trajnimit [41] synon të ulë kërkesën për hapësirë duke ulur saktësinë e parametrave të një modeli të trajnuar, duke ruajtur pjesën më të madhe të performancës së tij. Forma më e thjeshtë e kuantizimit thjesht i shkurton të gjithë numrat në një numër të caktuar bitësh. Mund të përmirësohet duke përdorur një libër kodi të ndryshëm kuantizimi për shtresë. Përmirësimi i mëtejshëm mund të bëhet duke aplikuar saktësi të ndryshme për parametra të ndryshëm, me saktësi më të lartë për parametra veçanërisht të rëndësishëm ("pesha të jashtme"). Shih [42] për një udhëzues vizual.

Ndërsa modelet e kuantizuara zakonisht janë të ngrira, dhe vetëm modelet e para-kuantizuara rregullohen mirë, modelet e kuantizuara mund të akordohen ende. [43]

Multimodaliteti

Redakto

Multimodaliteti do të thotë "të kesh disa modalitete" dhe një "modalitet" i referohet një lloji të hyrjes ose daljes, të tilla si video, imazh, audio, tekst, proprioceptim, etj. [44] Ka pasur shumë modele të AI të trajnuar posaçërisht për të gëlltitur një modalitet dhe nxirrni një modalitet tjetër, të tilla si AlexNet për etiketimin e imazhit, [45] përgjigjen e pyetjes vizuale për tekstin nga imazhi në tekst, [46] dhe njohja e të folurit nga fjalimi në tekst.

Një metodë e zakonshme për të krijuar modele multimodale nga një LLM është "tokenizimi" i prodhimit nga një kodues i trajnuar. Kjo përfshin përdorimin e një LLM dhe një kodues imazhi të trajnuar. Një perceptron me shumë shtresa krijohet në mënyrë që vektori i pas-përpunuar të ketë dimensione të ngjashme me një token të koduar. Kjo krijon "shenjat e imazhit", të cilat mund të ndërlidhen me shenjat e tekstit. Më pas, modeli rregullohet mirë në një grup të dhënash me tekst dhe imazhe, duke përmirësuar stabilitetin e koduesit të imazhit. [47]

Flamingo demonstroi efektivitetin e metodës së tokenizimit, duke rregulluar një palë modele gjuhësore të paratrajnuara dhe kodues imazhi për të performuar më mirë në përgjigjen vizuale të pyetjeve sesa modelet e trajnuara nga e para. [48] Modeli Google PaLM u akordua mirë në një model multimodal PaLM-E duke përdorur metodën e tokenizimit dhe u aplikua në kontrollin robotik. [49] Modelet LLaMA janë kthyer gjithashtu multimodale duke përdorur metodën e tokenizimit, për të lejuar hyrjet e imazhit, [50] dhe hyrjet video. [51]

GPT-4 mund të përdorë tekstin dhe imazhin si hyrje (megjithëse komponenti i vizionit nuk u lëshua për publikun deri në GPT-4V [52] ); Gemini i Google DeepMind është gjithashtu multimodal. [53] Mistral prezantoi modelin e vet multimodel Pixtral 12B në shtator 2024. [54]

Vetitë

Redakto

Ligjet e shkallëzimit

Redakto

Katër hiper-parametrat e mëposhtëm karakterizojnë një LLM:

  •   është kostoja e trajnimit të modelit, në FLOP .
  •   është numri i parametrave në model.
  •   është numri i argumenteve në grupin e trajnimit.
  •   është humbja mesatare negative e gjasave të log-it për shenjë ( nats /token), e arritur nga LLM e trajnuar në grupin e të dhënave të testit.

Ato lidhen me ligje të thjeshta statistikore, të quajtura "ligjet e shkallëzimit". Një ligj i veçantë i shkallëzimit (" Shkallëzimi Chinchilla ") për LLM të trajnuar në mënyrë autoregresive për një epokë, me një orar të normës së të mësuarit log-log, thotë se: [55]   ku janë variablat

  •  , që do të thotë se kushton 6 FLOP për parametër për t'u trajnuar në një shenjë. Vini re se kostoja e trajnimit është shumë më e lartë se kostoja e konkluzionit, ku kushton 1 deri në 2 FLOP për parametër për të konkluduar në një shenjë.
  •  

Aftësitë emergjente

Redakto
 
Në pikë(at) të referuara si ndërprerje, [56] vijat ndryshojnë pjerrësinë e tyre, duke u shfaqur në një grafik linear-log si një seri segmentesh lineare të lidhura me harqe.

Performanca e modeleve më të mëdha në detyra të ndryshme, kur vizatohet në shkallë log-log, shfaqet si një ekstrapolim linear nga performanca e modeleve më të vogla. Megjithatë, ky linearitet mund të shënohet nga "ndërprerjet" në ligjin e shkallëzimit, ku pjerrësia e linjës ndryshon papritur dhe ku modelet më të mëdha fitojnë "aftësi emergjente". Këto aftësi lindin nga ndërveprimi kompleks i komponentëve të modelit dhe nuk janë të dizajnuara apo të programura në mënyrë eksplicite.

Gjëja më intriguese midis aftësive emergjente është të mësuarit në kontekst nga demonstrimet e shembujve. Të mësuarit në kontekst përfshihet në detyra, të tilla si:

  • aritmetika e raportuar, deshifrimi i alfabetit fonetik ndërkombëtar, zbërthimi i shkronjave të një fjale, zbërthimi i fjalës në kontekst, [20] [57] [58] konvertimi i fjalëve hapësinore, drejtimet kryesore (për shembull, përgjigjja "verilindore" në [0, 0, 1; 0, 0, 0; 0, 0, 0]), termat me ngjyra të paraqitura në tekst. [59]
  • nxitja e zinxhirit të mendimit : Rezultatet e modelit përmirësohen nga nxitja e zinxhirit të mendimit vetëm kur madhësia e modelit kalon 62 B. Modelet më të vogla performojnë më mirë kur nxiten të përgjigjen menjëherë, pa zinxhir mendimi. [60]
  • identifikimi i përmbajtjes fyese në paragrafët e Hinglishit (një kombinim i hindishtes dhe anglishtes) dhe gjenerimi i një ekuivalenti të ngjashëm në anglisht të fjalëve të urta kisuahili . [61]

Schaeffer et. al. argumentojnë se aftësitë emergjente nuk janë fituar në mënyrë të paparashikueshme, por janë fituar në mënyrë të parashikueshme sipas një ligji të shkallës së qetë . Autorët konsideruan një model statistikor lodër të një LLM që zgjidh pyetje me zgjedhje të shumëfishta dhe treguan se ky model statistikor, i modifikuar për të llogaritur lloje të tjera detyrash, zbatohet edhe për këto detyra.

Interpretimi

Redakto

Modelet e mëdha gjuhësore në vetvete janë " kuti të zeza ", dhe nuk është e qartë se si mund të kryejnë detyra gjuhësore. Ka disa metoda për të kuptuar se si funksionon LLM.

Interpretueshmëria mekanike synon të rindërtojë LLM- në duke zbuluar algoritme simbolike që përafrojnë përfundimin e kryer nga LLM. Një shembull është Othello-GPT, ku një Transformer i vogël është trajnuar për të parashikuar lëvizjet ligjore të Othello . Është konstatuar se ekziston një paraqitje lineare e tabelës Othello, dhe modifikimi i paraqitjes ndryshon lëvizjet e parashikuara ligjore të Othello në mënyrën e duhur. [62] Në një shembull tjetër, një Transformer i vogël është trajnuar në programet Karel . Ngjashëm me shembullin Othello-GPT, ekziston një paraqitje lineare e semantikës së programit Karel, dhe modifikimi i paraqitjes ndryshon rezultatin në mënyrën e duhur. Modeli gjithashtu gjeneron programe të sakta që janë mesatarisht më të shkurtra se ato në grupin e trajnimit.

Në një shembull tjetër, autorët trajnuan transformatorë të vegjël për mbledhjen aritmetike modulare . Modelet që rezultuan u projektuan në mënyrë të kundërt, dhe doli që ata përdorën transformimin diskrete të Furierit . [63]

Kuptimi dhe inteligjenca

Redakto

Studiuesit e NLP u ndanë në mënyrë të barabartë kur u pyetën, në një sondazh të vitit 2022, nëse LLM-të (të parregulluara) "mund (ndonjëherë) të kuptojnë gjuhën natyrore në një kuptim jo të parëndësishëm". [64] Përkrahësit e "të kuptuarit të LLM" besojnë se disa aftësi LLM, të tilla si arsyetimi matematikor, nënkuptojnë një aftësi për të "kuptuar" koncepte të caktuara. Një ekip i Microsoft-it argumentoi në vitin 2023 se GPT-4 "mund të zgjidhë detyra të reja dhe të vështira që përfshijnë matematikën, kodimin, vizionin, mjekësinë, ligjin, psikologjinë dhe më shumë" dhe se GPT-4 "mund të shihet në mënyrë të arsyeshme si e hershme (ende ende e paplotë ) versioni i një sistemi të inteligjencës së përgjithshme artificiale ": "A mund të thuhet me arsye se një sistem që kalon provimet për kandidatët e inxhinierisë softuerike nuk është vërtet inteligjent?" [65] Disa studiues i karakterizojnë LLM-të si "inteligjencë aliene". [66] Për shembull, CEO i Conjecture, Connor Leahy i konsideron LLM-të e parregulluara si alienët e padepërtueshëm " Shoggoths ", dhe beson se akordimi RLHF krijon një "fasadë të buzëqeshur" duke errësuar funksionimin e brendshëm të LLM: "Nëse nuk e shtyni shumë larg, fytyra e buzëqeshur mbetet e ndezur, por më pas ju i jepni një nxitje të papritur dhe befas shihni këtë nënbark masiv të marrëzisë, të proceseve të çuditshme të të menduarit dhe të kuptuarit qartësisht jo njerëzor. [67] [68]

Paragjykimi politik

Redakto

Paragjykimi politik i referohet tendencës së algoritmeve për të favorizuar sistematikisht pikëpamje të caktuara politike, ideologji ose rezultate mbi të tjerat. Modelet gjuhësore mund të shfaqin gjithashtu paragjykime politike. Meqenëse të dhënat e trajnimit përfshijnë një gamë të gjerë opinionesh dhe mbulimi politik, modelet mund të gjenerojnë përgjigje që anojnë drejt ideologjive ose pikëpamjeve të veçanta politike, në varësi të përhapjes së këtyre pikëpamjeve në të dhëna. [69]

Referime

Redakto
  1. ^ "Better Language Models and Their Implications". OpenAI. 2019-02-14. Arkivuar nga origjinali më 2020-12-19. Marrë më 2019-08-25. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  2. ^ Halevy, Alon; Norvig, Peter; Pereira, Fernando (mars 2009). "The Unreasonable Effectiveness of Data". IEEE Intelligent Systems. 24 (2): 8–12. doi:10.1109/MIS.2009.36. ISSN 1541-1672. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  3. ^ https://www.mdpi.com/2072-4292/13/22/4712
  4. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30. Arkivuar (PDF) nga origjinali më 2024-02-21. Marrë më 2024-01-21. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  5. ^ Bahdanau. "Neural Machine Translation by Jointly Learning to Align and Translate". {{cite arXiv}}: Kërkohet |arxiv= (Ndihmë!); Mungon ose është bosh parametri |language= (Ndihmë!)
  6. ^ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What We Know About How BERT Works". Transactions of the Association for Computational Linguistics (në anglisht). 8: 842–866. arXiv:2002.12327. doi:10.1162/tacl_a_00349. Arkivuar nga origjinali më 2022-04-03. Marrë më 2024-01-21.
  7. ^ Merritt, Rick (2022-03-25). "What Is a Transformer Model?". NVIDIA Blog. Arkivuar nga origjinali më 2023-11-17. Marrë më 2023-07-25. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  8. ^ Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752 {{citation}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  9. ^ Kaushal, Ayush; Mahowald, Kyle (2022-06-06), What do tokens know about their characters and how do they know it?, arXiv:2206.02608 {{citation}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  10. ^ Yennie Jun (2023-05-03). "All languages are NOT created (tokenized) equal". Language models cost much more in some languages than others. Arkivuar nga origjinali më 2023-08-17. Marrë më 2023-08-17. In other words, to express the same sentiment, some languages require up to 10 times more tokens. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  11. ^ Petrov, Aleksandar; Malfa, Emanuele La; Torr, Philip; Bibi, Adel (23 qershor 2023). "Language Model Tokenizers Introduce Unfairness Between Languages". NeurIPS. arXiv:2305.15425. Arkivuar nga origjinali më 15 dhjetor 2023. Marrë më 16 shtator 2023 – nëpërmjet openreview.net. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  12. ^ a b Paaß, Gerhard; Giesselbach, Sven (2022). "Pre-trained Language Models". Foundation Models for Natural Language Processing. Artificial Intelligence: Foundations, Theory, and Algorithms. fq. 19–78. doi:10.1007/978-3-031-23190-2_2. ISBN 9783031231902. Arkivuar nga origjinali më 3 gusht 2023. Marrë më 3 gusht 2023. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)Mirëmbajtja CS1: Datë e përkthyer automatikisht (lidhja)
  13. ^ Petrov. "Language Model Tokenizers Introduce Unfairness Between Languages". {{cite arXiv}}: Kërkohet |arxiv= (Ndihmë!); Mungon ose është bosh parametri |language= (Ndihmë!)
  14. ^ Lundberg, Scott (2023-12-12). "The Art of Prompt Design: Prompt Boundaries and Token Healing". Medium (në anglisht). Marrë më 2024-08-05.
  15. ^ Lee, Katherine; Ippolito, Daphne; Nystrom, Andrew; Zhang, Chiyuan; Eck, Douglas; Callison-Burch, Chris; Carlini, Nicholas (maj 2022). "Deduplicating Training Data Makes Language Models Better" (PDF). Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. 1: Long Papers: 8424–8445. doi:10.18653/v1/2022.acl-long.577. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  16. ^ Li, Yuanzhi; Bubeck, Sébastien; Eldan, Ronen; Del Giorno, Allie; Gunasekar, Suriya; Lee, Yin Tat (2023-09-11), Textbooks Are All You Need II: phi-1.5 technical report, arXiv:2309.05463 {{citation}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  17. ^ Abdin. "Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone". {{cite arXiv}}: Kërkohet |arxiv= (Ndihmë!); Mungon ose është bosh parametri |language= (Ndihmë!)
  18. ^ Shazeer. "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer". arXiv:1701.06538. {{cite arXiv}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  19. ^ Lepikhin. "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding". arXiv:2006.16668. {{cite arXiv}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  20. ^ a b Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff (31 gusht 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research. ISSN 2835-8856. Arkivuar nga origjinali më 22 mars 2023. Marrë më 19 mars 2023. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)Mirëmbajtja CS1: Datë e përkthyer automatikisht (lidhja)
  21. ^ Allamar, Jay. "Illustrated transformer". Arkivuar nga origjinali më 2023-07-25. Marrë më 2023-07-29. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  22. ^ Zaib, Munazza; Sheng, Quan Z.; Emma Zhang, Wei (4 shkurt 2020). "A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP". Proceedings of the Australasian Computer Science Week Multiconference. fq. 1–4. doi:10.1145/3373017.3373028. ISBN 9781450376976. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  23. ^ Jurafsky, Dan; Martin, James H. (7 janar 2023). Speech and Language Processing (PDF) (bot. 3rd edition draft). Arkivuar (PDF) nga origjinali më 23 mars 2023. Marrë më 24 maj 2022. {{cite book}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  24. ^ "From bare metal to a 70B model: infrastructure set-up and scripts". imbue.com (në anglishte amerikane). Arkivuar nga origjinali më 2024-07-26. Marrë më 2024-07-24.
  25. ^ "metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq". GitHub (në anglisht). Arkivuar nga origjinali më 2024-01-24. Marrë më 2024-07-24.
  26. ^ Albrecht, Josh (2024-07-23). "State of the Art: Training >70B LLMs on 10,000 H100 clusters". www.latent.space (në anglisht). Marrë më 2024-07-24.
  27. ^ Wiggers, Kyle (28 prill 2022). "The emerging types of language models and why they matter". TechCrunch. Arkivuar nga origjinali më 16 mars 2023. Marrë më 9 mars 2023. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)Mirëmbajtja CS1: Datë e përkthyer automatikisht (lidhja)
  28. ^ Maslej, Nestor; Fattorini, Loredana; Brynjolfsson, Erik; Etchemendy, John; Ligett, Katrina; Lyons, Terah; Manyika, James; Ngo, Helen; Niebles, Juan Carlos (2023-10-05), Artificial Intelligence Index Report 2023, arXiv:2310.03715 {{citation}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  29. ^ Section 2.1 and Table 1, Kaplan. "Scaling Laws for Neural Language Models". {{cite arXiv}}: Kërkohet |arxiv= (Ndihmë!); Mungon ose është bosh parametri |language= (Ndihmë!)
  30. ^ "PAL: Program-aided Language Models". reasonwithpal.com. Arkivuar nga origjinali më 2023-06-12. Marrë më 2023-06-12. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  31. ^ Liang. "TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs". {{cite arXiv}}: Kërkohet |arxiv= (Ndihmë!); Mungon ose është bosh parametri |language= (Ndihmë!)
  32. ^ Patil. "Gorilla: Large Language Model Connected with Massive APIs". {{cite arXiv}}: Kërkohet |arxiv= (Ndihmë!); Mungon ose është bosh parametri |language= (Ndihmë!)
  33. ^ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau; Rocktäschel, Tim; Riedel, Sebastian; Kiela, Douwe (2020). "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 9459–9474. arXiv:2005.11401. Arkivuar nga origjinali më 2023-06-12. Marrë më 2023-06-12. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  34. ^ Huang, Wenlong; Abbeel, Pieter; Pathak, Deepak; Mordatch, Igor (2022-06-28). "Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents". Proceedings of the 39th International Conference on Machine Learning. PMLR: 9118–9147. arXiv:2201.07207. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  35. ^ A bot will complete this citation soon. Click here to jump the queue arXiv:[1].
  36. ^ A bot will complete this citation soon. Click here to jump the queue arXiv:[2].
  37. ^ Hao. "Reasoning with Language Model is Planning with World Model". {{cite arXiv}}: Kërkohet |arxiv= (Ndihmë!); Mungon ose është bosh parametri |language= (Ndihmë!)
  38. ^ A bot will complete this citation soon. Click here to jump the queue arXiv:[3].
  39. ^ a b "Voyager | An Open-Ended Embodied Agent with Large Language Models". voyager.minedojo.org. Arkivuar nga origjinali më 2023-06-08. Marrë më 2023-06-09. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  40. ^ Mann, Tobias. "How to run an LLM locally on your PC in less than 10 minutes". www.theregister.com. Marrë më 2024-05-17. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  41. ^ Nagel, Markus; Amjad, Rana Ali; Baalen, Mart Van; Louizos, Christos; Blankevoort, Tijmen (2020-11-21). "Up or Down? Adaptive Rounding for Post-Training Quantization". Proceedings of the 37th International Conference on Machine Learning. PMLR: 7197–7206. Arkivuar nga origjinali më 2023-06-14. Marrë më 2023-06-14. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  42. ^ Grootendorst, Maarten. "A Visual Guide to Quantization". newsletter.maartengrootendorst.com (në anglisht). Arkivuar nga origjinali më 31 korr 2024. Marrë më 2024-07-31.
  43. ^ Dettmers. "QLoRA: Efficient Finetuning of Quantized LLMs". {{cite arXiv}}: Kërkohet |arxiv= (Ndihmë!); Mungon ose është bosh parametri |language= (Ndihmë!)
  44. ^ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Rich (2014-06-18). "Multimodal Neural Language Models". Proceedings of the 31st International Conference on Machine Learning. PMLR: 595–603. Arkivuar nga origjinali më 2023-07-02. Marrë më 2023-07-02. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  45. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (2012). "ImageNet Classification with Deep Convolutional Neural Networks". Advances in Neural Information Processing Systems. Curran Associates, Inc. 25. Arkivuar nga origjinali më 2023-07-02. Marrë më 2023-07-02. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  46. ^ Antol, Stanislaw; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margaret; Batra, Dhruv; Zitnick, C. Lawrence; Parikh, Devi (2015). "VQA: Visual Question Answering". ICCV: 2425–2433. Arkivuar nga origjinali më 2023-07-02. Marrë më 2023-07-02. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  47. ^ Li. "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models". {{cite arXiv}}: Kërkohet |arxiv= (Ndihmë!); Mungon ose është bosh parametri |language= (Ndihmë!)
  48. ^ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine; Reynolds, Malcolm; Ring, Roman; Rutherford, Eliza; Cabi, Serkan; Han, Tengda; Gong, Zhitao (2022-12-06). "Flamingo: a Visual Language Model for Few-Shot Learning". Advances in Neural Information Processing Systems. 35: 23716–23736. arXiv:2204.14198. Arkivuar nga origjinali më 2023-07-02. Marrë më 2023-07-02. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  49. ^ Driess. "PaLM-E: An Embodied Multimodal Language Model". {{cite arXiv}}: Kërkohet |arxiv= (Ndihmë!); Mungon ose është bosh parametri |language= (Ndihmë!)
  50. ^ Liu. "Visual Instruction Tuning". {{cite arXiv}}: Kërkohet |arxiv= (Ndihmë!); Mungon ose është bosh parametri |language= (Ndihmë!)
  51. ^ Zhang. "Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding". {{cite arXiv}}: Kërkohet |arxiv= (Ndihmë!); Mungon ose është bosh parametri |language= (Ndihmë!)
  52. ^ OpenAI (25 shtator 2023). "GPT-4V(ision) System Card" (PDF). {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  53. ^ Pichai, Sundar (10 maj 2023), Google Keynote (Google I/O '23), timestamp 15:31, marrë më 2023-07-02 {{citation}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  54. ^ Wiggers, Kyle (11 shtator 2024). "Mistral releases Pixtral 12B, its first multimodal model". TechCrunch. Marrë më 14 shtator 2024. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)Mirëmbajtja CS1: Datë e përkthyer automatikisht (lidhja)
  55. ^ Hoffmann. "Training Compute-Optimal Large Language Models". {{cite arXiv}}: Kërkohet |arxiv= (Ndihmë!); Mungon ose është bosh parametri |language= (Ndihmë!)
  56. ^ Caballero. "Broken Neural Scaling Laws". {{cite arXiv}}: Kërkohet |arxiv= (Ndihmë!); Mungon ose është bosh parametri |language= (Ndihmë!)
  57. ^ Pilehvar, Mohammad Taher; Camacho-Collados, Jose (qershor 2019). "Proceedings of the 2019 Conference of the North". Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Minneapolis, Minnesota: Association for Computational Linguistics: 1267–1273. doi:10.18653/v1/N19-1128. Arkivuar nga origjinali më 2023-06-27. Marrë më 2023-06-27. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  58. ^ "WiC: The Word-in-Context Dataset". pilehvar.github.io. Arkivuar nga origjinali më 2023-06-27. Marrë më 2023-06-27. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  59. ^ Patel, Roma; Pavlick, Ellie (2021-10-06). "Mapping Language Models to Grounded Conceptual Spaces". ICLR. Arkivuar nga origjinali më 2023-06-24. Marrë më 2023-06-27. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  60. ^ A Closer Look at Large Language Models Emergent Abilities (Yao Fu, Nov 20, 2022)
  61. ^ Ornes, Stephen (mars 16, 2023). "The Unpredictable Abilities Emerging From Large AI Models". Quanta Magazine. Arkivuar nga origjinali më mars 16, 2023. Marrë më 16 mars 2023. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)Mirëmbajtja CS1: Datë e përkthyer automatikisht (lidhja)
  62. ^ "Large Language Model: world models or surface statistics?". The Gradient. 2023-01-21. Marrë më 2023-06-12. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  63. ^ Nanda. "Progress measures for grokking via mechanistic interpretability". arXiv:2301.05217. {{cite arXiv}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  64. ^ Mitchell, Melanie; Krakauer, David C. (28 mars 2023). "The debate over understanding in AI's large language models". Proceedings of the National Academy of Sciences. 120 (13): e2215907120. arXiv:2210.13966. Bibcode:2023PNAS..12015907M. doi:10.1073/pnas.2215907120. PMC 10068812. PMID 36943882. {{cite journal}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  65. ^ Metz, Cade (16 maj 2023). "Microsoft Says New A.I. Shows Signs of Human Reasoning". The New York Times. {{cite news}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  66. ^ "ChatGPT is more like an 'alien intelligence' than a human brain, says futurist". ZDNET. 2023. Arkivuar nga origjinali më 12 qershor 2023. Marrë më 12 qershor 2023. {{cite news}}: Mungon ose është bosh parametri |language= (Ndihmë!)Mirëmbajtja CS1: Datë e përkthyer automatikisht (lidhja)
  67. ^ Roose, Kevin (30 maj 2023). "Why an Octopus-like Creature Has Come to Symbolize the State of A.I." The New York Times. Arkivuar nga origjinali më 30 maj 2023. Marrë më 12 qershor 2023. {{cite news}}: Mungon ose është bosh parametri |language= (Ndihmë!)
  68. ^ "The A to Z of Artificial Intelligence". Time Magazine. 13 prill 2023. Arkivuar nga origjinali më 16 qershor 2023. Marrë më 12 qershor 2023. {{cite news}}: Mungon ose është bosh parametri |language= (Ndihmë!)Mirëmbajtja CS1: Datë e përkthyer automatikisht (lidhja)
  69. ^ Heikkilä, Melissa (7 gusht 2023). "AI language models are rife with different political biases". MIT Technology Review. Marrë më 2023-12-29. {{cite web}}: Mungon ose është bosh parametri |language= (Ndihmë!)