Tyrinėti alternatyvias architektūras, susijusias su LLM prognoze

Nuorodų lentelė
Anotacija ir 1. Įvadas
2. Metodas
3. Realių duomenų eksperimentai
4. Sintetinių duomenų abliacijos
5. Kodėl tai veikia? Kai kurios spekuliacijos
6. Susijęs darbas
7. Išvada, poveikio pareiškimas, poveikis aplinkai, pripažinimai ir nuorodos
A. Papildomi savarankiško dekodavimo rezultatai
B. Alternatyvios architektūros
C. Treniruočių greitis
D. Finetuning
E. Papildomi modelio mastelio elgesio rezultatai
F. Išsami informacija apie „CodeContests Finetuning“
G. Papildomi natūralių kalbų etalonų rezultatai
H. Papildomi abstraktyvaus teksto apibendrinimo rezultatai
I. Papildomi matematinių samprotavimų rezultatai natūralioje kalboje
J. Papildomi mokymosi indukcijos rezultatai
K. Papildomi algoritminių pagrindimo rezultatai
L. Papildomos intuicijos apie daugialypę prognozę
M. Mokymo hiperparametrai
B. Alternatyvios architektūros
2 skyriuje aprašyta architektūra nėra vienintelė protinga galimybė, tačiau mūsų eksperimentuose pasirodė techniškai perspektyvi ir gerai atlikta. Šiame skyriuje aprašome ir lyginame alternatyvias architektūras.
Pakartojami bedieviai Nepakankamos matricos N laikų atkartojimas yra paprastas daugialypės prognozavimo architektūros įgyvendinimo būdas. Tačiau norint pažymėti 2 skyrių, kuriai draudžiama didelio masto mokymui, reikia matricų su formomis (D, NV).
Linijinės galvos Be to, kad galvos naudojimas galvoms Hikitos architektūros yra įsivaizduojamos. Eksperimentavome su vienu tiesiniu sluoksniu be jokio netiesiškumo kaip galvutės, kurios prilygo linijiniam modelio liekanos atvaizdo z zondui. Taip pat įmanoma architektūra, turinti daugiau nei vieną sluoksnį vienam galva, tačiau mes toliau nesiekėme šios krypties.
Autoriai:
(1) Fabianas Gloeckle'as, mugė meta, cermics ecole des ponts paristech ir lygiavertis indėlis;
(2) Badr Yoybi Idrissi, mugė Meta, Lisn Université Paris-Saclayand ir vienodas indėlis;
(3) Baptiste Rozière, mugė meta;
(4) Davidas Lopezas-Pazas, mugė „Meta“ ir paskutinis autorius;
(5) Gabriel Synnaeve, mugė „Meta“ ir paskutinis autorius.


