Tyrinėti alternatyvias architektūras, susijusias su LLM prognoze

Tyrinėti alternatyvias architektūras, susijusias su LLM prognoze

Anotacija ir 1. Įvadas

2. Metodas

3. Realių duomenų eksperimentai

4. Sintetinių duomenų abliacijos

5. Kodėl tai veikia? Kai kurios spekuliacijos

6. Susijęs darbas

7. Išvada, poveikio pareiškimas, poveikis aplinkai, pripažinimai ir nuorodos

A. Papildomi savarankiško dekodavimo rezultatai

B. Alternatyvios architektūros

C. Treniruočių greitis

D. Finetuning

E. Papildomi modelio mastelio elgesio rezultatai

F. Išsami informacija apie „CodeContests Finetuning“

G. Papildomi natūralių kalbų etalonų rezultatai

H. Papildomi abstraktyvaus teksto apibendrinimo rezultatai

I. Papildomi matematinių samprotavimų rezultatai natūralioje kalboje

J. Papildomi mokymosi indukcijos rezultatai

K. Papildomi algoritminių pagrindimo rezultatai

L. Papildomos intuicijos apie daugialypę prognozę

M. Mokymo hiperparametrai

B. Alternatyvios architektūros

S4 lentelė: Alternatyvi architektūra pagerėja pradiniame, bet ne taip nuosekliai. Verta ištirti alternatyvias daugialypės prognozavimo architektūras, siekiant pagerinti efektyvumą. Čia mes išbandėme antikaualų, priežastinį ir linijinį ir neparodėme reikšmingo patobulinimo lygiagrečios architektūros atžvilgiu.S4 lentelė: Alternatyvi architektūra pagerėja pradiniame, bet ne taip nuosekliai. Verta ištirti alternatyvias daugialypės prognozavimo architektūras, siekiant pagerinti efektyvumą. Čia mes išbandėme antikaualų, priežastinį ir linijinį ir neparodėme reikšmingo patobulinimo lygiagrečios architektūros atžvilgiu.

2 skyriuje aprašyta architektūra nėra vienintelė protinga galimybė, tačiau mūsų eksperimentuose pasirodė techniškai perspektyvi ir gerai atlikta. Šiame skyriuje aprašome ir lyginame alternatyvias architektūras.

Pakartojami bedieviai Nepakankamos matricos N laikų atkartojimas yra paprastas daugialypės prognozavimo architektūros įgyvendinimo būdas. Tačiau norint pažymėti 2 skyrių, kuriai draudžiama didelio masto mokymui, reikia matricų su formomis (D, NV).

Linijinės galvos Be to, kad galvos naudojimas galvoms Hikitos architektūros yra įsivaizduojamos. Eksperimentavome su vienu tiesiniu sluoksniu be jokio netiesiškumo kaip galvutės, kurios prilygo linijiniam modelio liekanos atvaizdo z zondui. Taip pat įmanoma architektūra, turinti daugiau nei vieną sluoksnį vienam galva, tačiau mes toliau nesiekėme šios krypties.

Pav. Kaip ir į priekį/atgal, pavaizduotame lygiagrečių prognozavimo galvutėse 2 paveiksle, mes išvengiame visų atminties lygių gradientų materializavimo vienu metu ir žymiai sumažiname GPU atminties sunaudojimą. Pakartojimas per galvą prasideda nuo to, kas tolimiausia iki bagažinės. Kiekvienoje galvoje gradientas iš paskesnių numatymo galvučių ir pačios galvos praradimo yra sukauptas tiek dėl galvos išvesties, tiek jo svorių.Pav. Kaip ir į priekį/atgal, pavaizduotame lygiagrečių prognozavimo galvutėse 2 paveiksle, mes išvengiame visų atminties lygių gradientų materializavimo vienu metu ir žymiai sumažiname GPU atminties sunaudojimą. Pakartojimas per galvą prasideda nuo to, kas tolimiausia iki bagažinės. Kiekvienoje galvoje gradientas iš paskesnių numatymo galvučių ir pačios galvos praradimo yra sukauptas tiek dėl galvos išvesties, tiek jo svorių.

Autoriai:

(1) Fabianas Gloeckle'as, mugė meta, cermics ecole des ponts paristech ir lygiavertis indėlis;

(2) Badr Yoybi Idrissi, mugė Meta, Lisn Université Paris-Saclayand ir vienodas indėlis;

(3) Baptiste Rozière, mugė meta;

(4) Davidas Lopezas-Pazas, mugė „Meta“ ir paskutinis autorius;

(5) Gabriel Synnaeve, mugė „Meta“ ir paskutinis autorius.


Nuoroda į informacijos šaltinį

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Miesto naujienos - Šeimos gydytojai - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai - Teniso treniruotės - Pranešimai spaudai -