Mamba: naujas žaidėjas kalbų modeliavimo srityje lenkia didelius vardus

Mamba: naujas žaidėjas kalbų modeliavimo srityje lenkia didelius vardus


Autoriai:

(1) Albertas Gu, Carnegie Mellon universiteto Mašininio mokymosi katedra ir su tokiu pat indėliu;

(2) Tri Dao, Prinstono universiteto Kompiuterių mokslų katedra ir taip pat prisidėjo.

Santrauka ir 1 Įvadas

2 valstybiniai kosminiai modeliai

3 atrankiniai būsenos erdvės modeliai ir 3.1 motyvacija: pasirinkimas kaip suspaudimo priemonė

3.2 SSM tobulinimas naudojant atranką

3.3 Veiksmingas atrankinių SSM įgyvendinimas

3.4 Supaprastinta SSM architektūra

3.5 Atrankos mechanizmų savybės

3.6 Papildoma modelio informacija

4 Empirinis įvertinimas ir 4.1 Sintetinės užduotys

4.2 Kalbos modeliavimas

4.3 DNR modeliavimas

4.4 Garso modeliavimas ir generavimas

4.5 Greičio ir atminties standartai

4.6 Modelių abliacijos

5 Diskusija

6 Išvados ir literatūros sąrašas

Diskusija: atrankos mechanizmas

B Susijęs darbas

C Atrankinių SSM mechanika

D Aparatinę įrangą patyręs algoritmas atrankiniams SSM

E Eksperimento informacija ir papildomi rezultatai

4.2 Kalbos modeliavimas

„Mamba“ architektūrą vertiname naudodami standartinį autoregresinį kalbos modeliavimą, palyginti su kitomis architektūromis, tiek išankstinio mokymo metrikos (supainiojimo), tiek nulinio įvertinimo pagrindu. Mes nustatome modelio dydžius (gylį ir plotį) pagal GPT3 specifikacijas. Mes naudojame „Pile“ duomenų rinkinį (L. Gao, Biderman ir kt., 2020) ir laikomės mokymo recepto, aprašyto Brown ir kt. (2020). Visa informacija apie mokymą pateikta E.2 priede.

4.2.1 Mastelio keitimo dėsniai

Pradines linijas lyginame su standartine transformatoriaus architektūra (GPT3 architektūra), taip pat su stipriausiu mums žinomu transformatoriaus receptu (čia vadinamas Transformer++), pagrįstu PaLM ir LLaMa.

4 pav. (Mastelio keitimo dėsniai.) Modeliai, kurių dydis ≈ 125M iki ≈ 1.3B parametrai, parengti ant krūvos. Mamba skalauja geriau nei visi kiti dėmesio nereikalaujantys modeliai ir yra pirmoji, atitinkanti labai stiprų „Transformer++“ receptą, kuris dabar tapo standartiniu, ypač didėjant sekos trukmei.4 pav. (Mastelio keitimo dėsniai.) Modeliai, kurių dydis ≈ 125M – ≈ 1.3B parametrai, parengti ant krūvos. Mamba skalauja geriau nei visi kiti dėmesio nereikalaujantys modeliai ir yra pirmoji, atitinkanti labai stiprų „Transformer++“ receptą, kuris dabar tapo standartiniu, ypač didėjant sekos trukmei.

architektūros (pvz., rotacinis įterpimas, SwiGLU MLP, RMSNorm vietoj LayerNorm, nėra tiesinio poslinkio ir didesni mokymosi rodikliai). Taip pat lyginame su kitomis naujausiomis subkvadratinėmis architektūromis (4 pav.). Visa modelio informacija pateikta E.2 priede.

4 paveiksle parodyti mastelio dėsniai pagal standartinį Chinchilla (Hoffmann ir kt., 2022) protokolą modeliuose nuo ≈ 125 푀M iki ≈ 1,3 B parametrų. Mamba yra pirmasis dėmesio nereikalaujantis modelis, atitinkantis labai stiprų Transformer receptą (Transformer++), kuris dabar tapo standartiniu, ypač didėjant sekos ilgiui. Atkreipiame dėmesį, kad trūksta visų 8k konteksto ilgio rezultatų, susijusių su RWKV ir RetNet bazinėmis linijomis, ankstesniais stipriais pasikartojančiais modeliais, kurie taip pat gali būti interpretuojami kaip SSM, nes trūksta veiksmingo įgyvendinimo, dėl kurio trūksta atminties arba atsiranda nerealių skaičiavimo reikalavimų.

4.2.2 Tolesni vertinimai

3 lentelėje parodytas Mamba našumas atliekant įvairias populiarias pasroviui skirtas nulinio kadro vertinimo užduotis. Mes lyginame su žinomiausiais atvirojo kodo modeliais tokio dydžio, svarbiausia Pythia (Biderman ir kt., 2023) ir RWKV (B. Peng ir kt., 2023), kurie buvo apmokyti naudojant tą patį prieigos raktą, duomenų rinkinį ir mokymo trukmę ( 300B žetonų), kaip mūsų modeliai. (Atkreipkite dėmesį, kad Mamba ir Pythia yra mokomi konteksto ilgiu 2048, o RWKV buvo mokomi 1024 konteksto ilgiu.)



Source link

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Miesto naujienos - Šeimos gydytojai - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai - Teniso treniruotės - Pranešimai spaudai -