Paskirstytos mokymo architektūros ir technikos

Mašininio mokymosi srityje didelių kalbų modelių (LLM) mokymas tapo įprasta praktika, nes iš pradžių tai buvo specializuota veikla.

Mokymui naudojamų duomenų rinkinių dydis didėja kartu su vis stipresnių modelių poreikiu.

Naujausi tyrimai rodo, kad bendras duomenų rinkinių, naudojamų išankstiniam LLM mokymui, dydis viršija 774,5 TB, o įvairiuose duomenų rinkiniuose yra daugiau nei 700 milijonų atvejų.

Nepaisant to, didelių duomenų rinkinių tvarkymas yra sudėtingas veiksmas, dėl kurio, be teisingų duomenų, reikia tinkamos infrastruktūros ir metodų.

Šiame tinklaraštyje išnagrinėsime, kaip paskirstytos mokymo architektūros ir metodai gali padėti efektyviai valdyti šiuos didžiulius duomenų rinkinius.

Didelių duomenų rinkinių iššūkis

Prieš tyrinėjant sprendimus, svarbu suprasti, kodėl dirbti su dideliais duomenų rinkiniais taip sunku.

Norint išmokyti LLM, paprastai reikia apdoroti šimtus milijardų ar net trilijonus žetonų. Šis didžiulis duomenų kiekis reikalauja didelės saugyklos, atminties ir apdorojimo galios.

Be to, norint valdyti šiuos duomenis, būtina užtikrinti, kad jie būtų veiksmingai saugomi ir vienu metu pasiekiami keliuose kompiuteriuose.

Didžiulis duomenų kiekis ir apdorojimo laikas yra pagrindinės problemos. Savaitėms ar mėnesiams tokiems modeliams kaip GPT-3 ir naujesni gali prireikti šimtų GPU arba TPU, kad jie veiktų. Tokio masto duomenų įkėlimo, apdorojimo ir modelio sinchronizavimo kliūtys gali lengvai atsirasti, o tai gali sukelti neefektyvumą.

Taip pat skaitykite „AI naudojimas siekiant pagerinti duomenų valdymą: atitikties užtikrinimas didelių duomenų amžiuje“.

Paskirstytas mokymas: mastelio pagrindas

Paskirstytas mokymas yra technika, leidžianti mašininio mokymosi modelius keisti didėjant duomenų rinkinių dydžiui.

Paprastai tariant, tai apima mokymo darbo padalijimą į kelias mašinas, kurių kiekviena tvarko dalį viso duomenų rinkinio.

Šis metodas ne tik pagreitina mokymą, bet ir leidžia modelius apmokyti naudojant duomenų rinkinius, per didelius, kad tilptų viename įrenginyje.

Yra du pagrindiniai paskirstytų mokymų tipai:

· Duomenų lygiagretumas:

Naudojant šį metodą duomenų rinkinys padalijamas į mažesnes partijas ir kiekvienas įrenginys apdoroja atskirą duomenų paketą. Apdorojus kiekvieną partiją, modelio svoriai keičiami, o sinchronizavimas vyksta reguliariai, siekiant užtikrinti, kad visi modeliai sutampa.

· Modelio lygiagretumas:

Čia pats modelis yra padalintas į kelias mašinas. Kiekviename įrenginyje yra dalis modelio, o kai duomenys perduodami per modelį, tarp įrenginių vyksta ryšys, kad būtų užtikrintas sklandus veikimas.

Didelių kalbų modeliams dažnai naudojamas abiejų metodų derinys, žinomas kaip hibridinis paralelizmas, kad būtų pasiekta veiksmingo duomenų tvarkymo ir modelio paskirstymo pusiausvyra.

Pagrindinės paskirstytos mokymo architektūros

Nustatant paskirstytą mokymo sistemą dideliems duomenų rinkiniams, labai svarbu pasirinkti tinkamą architektūrą. Siekiant efektyviai valdyti šią apkrovą, buvo sukurtos kelios paskirstytos sistemos, įskaitant:

Parametras serverio architektūra

Šioje sąrankoje vienas ar daugiau serverių saugo modelio parametrus, o darbuotojo mazgai apdoroja mokymo duomenis.

Darbuotojai atnaujina parametrus, o parametrų serveriai sinchronizuoja ir paskirsto atnaujintus svorius.

Nors šis metodas gali būti veiksmingas, jį reikia kruopščiai suderinti, kad būtų išvengta komunikacijos kliūčių.

Visiškai sumažinta architektūra

Tai dažniausiai naudojama duomenų lygiagretumui, kai kiekvienas darbuotojo mazgas savarankiškai apskaičiuoja savo gradientus.

Vėliau mazgai bendrauja tarpusavyje, kad derintų gradientus taip, kad visi mazgai veiktų su tuo pačiu modelio svoriu.

Ši architektūra gali būti efektyvesnė nei parametrų serverio modelis, ypač kai ji derinama su didelio našumo jungtimis, pvz., „InfiniBand“.

Ring-All-Reduce

Tai yra „viso sumažinimo“ architektūros, kuri organizuoja darbuotojų mazgus žiede, kur duomenys perduodami žiediniu būdu, variantas.

Kiekvienas mazgas palaiko ryšį su dviem kitais, o duomenys cirkuliuoja, kad būtų atnaujinami visi mazgai.

Ši sąranka sumažina laiką, reikalingą gradiento sinchronizavimui, ir puikiai tinka labai didelio masto sąrankoms.

Modelio lygiagretumas su vamzdyno lygiagrečiu

Tais atvejais, kai vienas modelis yra per didelis vienai mašinai, būtinas modelio lygiagretumas.

Tai derinant su konvejerio lygiagretumu, kai duomenys apdorojami dalimis skirtinguose modelio etapuose, pagerina efektyvumą.

Šis metodas užtikrina, kad kiekvienas modelio etapas apdoroja savo duomenis, o kiti etapai apdoroja skirtingus duomenis, o tai žymiai pagreitina bendrą mokymo procesą.

5 efektyvaus paskirstyto mokymo būdai

Norint užtikrinti sklandų mokymą, nepakanka vien turėti paskirstytą architektūrą. Yra keletas metodų, kuriuos galima naudoti norint optimizuoti našumą ir sumažinti neefektyvumą:

1. Gradiento kaupimas

Vienas iš pagrindinių paskirstyto mokymo metodų yra gradiento kaupimas.

Užuot atnaujinus modelį po kiekvienos mažos partijos, prieš atliekant atnaujinimą kaupiami kelių mažesnių partijų gradientai.

Tai sumažina ryšio išlaidas ir efektyviau išnaudoja tinklą, ypač sistemose, kuriose yra daug mazgų.

2. Mišrus tikslumo mokymas

Vis dažniau naudojamos mišrios tikslumo treniruotės siekiant pagreitinti treniruotes ir sumažinti atminties naudojimą.

Mokymas gali būti baigtas greičiau, nepažeidžiant modelio tikslumo, naudojant mažesnio tikslumo slankiojo kablelio skaičius (pvz., FP16), o ne įprastą FP32.

Tai sumažina atminties kiekį ir reikalingą skaičiavimo laiką, o tai labai svarbu, kai mastelį keičiate keliose mašinose.

3. Duomenų bendrinimas ir kaupimas talpykloje

Kitas svarbus būdas yra dalijimasis, kuris padalija duomenų rinkinį į mažesnes, lengviau valdomas dalis, kurios gali būti įkeliamos vienu metu.

Sistema išvengia būtinybės iš naujo įkelti duomenis iš saugyklos, taip pat naudojant talpyklą, o tai gali būti kliūtis tvarkant didelius duomenų rinkinius.

4. Asinchroniniai atnaujinimai

Atliekant tradicinius sinchroninius naujinimus, visi mazgai turi palaukti, kol kiti baigs, prieš tęsdami.

Tačiau asinchroniniai naujinimai leidžia mazgams tęsti darbą nelaukiant, kol visi darbuotojai sinchronizuos, o tai pagerina bendrą pralaidumą.

Tačiau svarbiausia, kad tai susiję su modelių atnaujinimų nenuoseklumo rizika, todėl reikia kruopštaus balanso.

5. Elastinis pleiskanojimas

Debesų infrastruktūra, kuri gali būti elastinga, ty turimų išteklių kiekis gali padidėti arba mažėti pagal poreikį, dažnai naudojama paskirstytam mokymui.

Tai ypač naudinga modifikuojant pajėgumus pagal duomenų rinkinio dydį ir sudėtingumą, užtikrinant, kad ištekliai visada būtų naudojami efektyviai.

Paskirstyto mokymo iššūkių įveikimas

Nors paskirstytos architektūros ir mokymo metodai sumažina sunkumus, susijusius su dideliais duomenų rinkiniais, vis dėlto jie kelia nemažai iššūkių. Štai keletas sunkumų ir jų sprendimo būdų:

Tinklo kliūtys

Tinklo patikimumas ir greitis tampa itin svarbūs, kai duomenys paskirstomi keliuose kompiuteriuose.
Šiuolaikinėse paskirstytose sistemose dažnai naudojami didelio pralaidumo, mažo vėlavimo ryšiai, tokie kaip NVLink arba InfiniBand, kad būtų užtikrintas greitas ryšys tarp mašinų.

Gedimų tolerancija

Didelėse paskirstytose sistemose gedimai neišvengiami.

Gedimų tolerancijos metodai, tokie kaip modelio tikrinimas ir replikacija, užtikrina, kad mokymas gali būti atnaujintas iš paskutinės geros būsenos neprarandant pažangos.

Apkrovos balansavimas

Tolygiai paskirstyti darbą tarp mašinų gali būti sudėtinga.

Tinkamas apkrovos balansavimas užtikrina, kad kiekvienas mazgas gautų nemažą darbo dalį, o kai kurie mazgai nebūtų per daug apkrauti, o kiti nepakankamai išnaudojami.

Hiperparametrų derinimas

Hiperparametrų, pvz., mokymosi greičio ir paketo dydžio, derinimas paskirstytoje aplinkoje yra sudėtingesnis.

Automatizuoti įrankiai ir metodai, tokie kaip mokymas pagal gyventojų skaičių (PBT) ir Bajeso optimizavimas, gali padėti supaprastinti šį procesą.

Išvada

Varžybose kuriant galingesnius modelius matome, kad atsiranda išmanesnių, efektyvesnių sistemų, kurios gali susidoroti su sudėtingais mastelio keitimo sunkumais.

Nuo hibridinio lygiagretumo iki elastingo mastelio – šie metodai ne tik įveikia techninius apribojimus – jie keičia mūsų mąstymą apie AI potencialą.

Dirbtinio intelekto aplinka keičiasi, o tie, kurie gali įvaldyti didelių duomenų rinkinių valdymo meną, nuves į ateitį, kurioje galimybių ribos bus nuolat apibrėžiamos iš naujo.

Source link