Kaip transliteracija pagerina mašininį vertimą: HeArBERT metodas

Kaip transliteracija pagerina mašininį vertimą: HeArBERT metodas

Autoriai:

(1) Aviad Rom, Reichmano universiteto duomenų mokslo institutas, Herclija, Izraelis;

(2) Kfir Bar, Reichmano universiteto duomenų mokslo institutas, Herzlija, Izraelis.

Santrauka ir įvadas

Susiję darbai

Metodika

Eksperimentiniai nustatymai

Rezultatai

Išvada ir apribojimai

Bibliografinės nuorodos

3. Metodika

Mes pradedame iš anksto mokydami naują kalbos modelį, naudodami tekstus, parašytus tiek arabų, tiek hebrajų kalbomis. Šis modelis, pavadintas HeArBERT, vėliau buvo sureguliuotas siekiant pagerinti mašininio vertimo iš arabų ir hebrajų kalbų našumą.

Išankstiniam mokymui naudojame OSCAR duomenų rinkinio arabų (∼ 3 B žodžių) ir hebrajų (∼ 1 B žodžių) dubliuotas versijas (Ortiz Suárez ir kt., 2020). Šiame darbe siekiame išmatuoti visų tekstų normalizavimo į bendrą scenarijų poveikį, kad būtų galima suvienyti giminingus žodžius pagal tą patį atvaizdą. Todėl mes transliteruojame arabiškus tekstus į hebrajų rašmenis kaip išankstinio apdorojimo žingsnį ir mokymui, ir bandymams. Mūsų transliteracijos procedūra sukurta vadovaujantis daugeliu gairių, paskelbtų Hebrajų kalbos akademijos, kuri apibrėžė kiekvienos arabų raidės hebrajų atvaizdą (4), ir atvaizdavimą, pateiktą (Terner ir kt., 2020). Tik arabiškos raidės konvertuojamos į jų hebrajų atitikmenis, o ne arabiški simboliai lieka nepakitę. Mūsų įgyvendinimas pagrįstas paprasta paieškos lentele, vykdoma raidė po raidės, kurią sudaro du pirmiau minėti atvaizdai, kaip parodyta A priede.

Vertinimui mes savarankiškai apmokome modelį du kartus: vieną kartą su transliteracijos žingsniu ir vieną kartą be. Vėliau palyginame šių dviejų versijų našumą, kai jas sureguliuojame naudojant tolesnio automatinio vertimo testų rinkinį.

Mūsų modelis yra pagrįstas originalia BERT bazės architektūra. Mes mokome WordPiece žetonų įtaisą, kurio žodyno dydis yra 30 000, o priimtas abėcėlės dydis apribojamas iki 100. Šis metodas skatina mokytis abiem kalboms bendrų žetonų, leidžiant žetonui sutelkti dėmesį į turinį, o ne į specialius simbolius, kurie nėra būdingi nė vienai. kalba. Mes pasirenkame treniruotis tik užmaskuotos kalbos modelio (MLM) užduočiai, kuri iš pradžių buvo naudojama BERT, nepaisydami kito sakinio numatymo komponento, nes anksčiau buvo įrodyta, kad jis yra mažiau veiksmingas (Liu ir kt., 2019). Apskritai, mes mokėme kiekvieną modelį 10 epochų, maždaug per 3 savaites, naudodami 4 Nvidia RTX 3090 GPU.

Tikslus HeArBERT derinimas atliekamas panašiai kaip originalaus BERT modelio koregavimas, išskyrus arabiškų raidžių transliteracijos žingsnį, kuris vyksta prieš ženklinimą. Šiame išankstinio apdorojimo etape visos nearabiškos raidės lieka nepažeistos, o arabiškos raidės transliteruojamos į jų atitikmenis hebrajų kalba, kaip aprašyta aukščiau.

HeArBERT paruošimo ir paruošimo procesas pavaizduotas 1 paveiksle

1 pav. HeArBERT paruošiamasis mokymas.


(4) https://hebrajų akademija. org.il/wp-content/uploads/ taatik-aravit-ivrit-1.pdf

Source link

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Miesto naujienos - Šeimos gydytojai - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai - Teniso treniruotės - Pranešimai spaudai -