Nulinis balso konvertavimas: „HierSpeech++“ palyginimas su kitais baziniais modeliais

Nulinis balso konvertavimas: „HierSpeech++“ palyginimas su kitais baziniais modeliais


Santrauka ir 1 Įvadas

2 Susiję darbai

2.1 Neuroninio kodeko kalbos modeliai ir 2.2 Neautoregresyvūs modeliai

2.3 difuzijos modeliai ir 2.4 nulinis balso klonavimas

3 Hierspeech++ ir 3.1 kalbėjimo atvaizdavimas

3.2 Hierarchinis kalbos sintezatorius

3.3 Tekstas į „Vec“.

3.4 Kalba Itin didelė raiška

3.5 Modelio architektūra

4 Kalbos sintezės užduotys

4.1 Balso konvertavimas ir 4.2 Tekstas į kalbą

4.3 Stiliaus raginimo replikacija

5 Eksperimentas ir rezultatas bei duomenų rinkinys

5.2 Išankstinis apdorojimas ir 5.3 Mokymas

5.4 Vertinimo metrika

5.5 Abliacijos tyrimas

5.6 Nulinis balso konvertavimas

5.7 Didelės įvairovės, bet labai tikslios kalbos sintezė

5.8 Nulinis tekstas į kalbą

5.9 Nulinis tekstas į kalbą su 1 s raginimu

5.10 Kalba Super didelė raiška

5.11 Papildomi eksperimentai su kitomis bazinėmis linijomis

6 Apribojimas ir greitas pataisymas

7 Išvada, pripažinimas ir nuorodos

5.6 Nulinis balso konvertavimas

Palyginome „HierSpeech++“ balso stiliaus perdavimo našumą su kitais baziniais modeliais: 1) „AutoVC“ (66), kuris yra automatiniu koduotuvu pagrįstas neautoregresyvus VC modelis, naudojant informacijos kliūtį, kad atskirtų turinį ir stilių, 2) „VoiceMixer“ (46), yra GAN pagrįstas lygiagretus VC modelis, kuriame naudojamas panašumu pagrįstos informacijos kliūtis, 3–5) Difuzija pagrįsti modeliai („DiffVC“ (64), „Diff-HierVC“ (11) ir DDDM-VC (10)), 6) „YourTTS“ (7), VITS pagrįsti tiesioginiai VC modeliai, naudojanti fonemų sekas turinio informacijai išgauti, 7) „HierVST“ (45), hierskalbe pagrįstas VC modelis, naudojant hierarchinio stiliaus pritaikymą. Siekiant teisingo palyginimo, apmokėme visus modelius naudodami tą patį duomenų rinkinį (LT460, LibriTTS pogrupiai „train-clean-460“) be „YourTTS“. Mes panaudojome oficialų YourTTS diegimą, kuris buvo apmokytas naudojant papildomą duomenų rinkinį. Taip pat apmokėme modelį naudodami didelio masto duomenų rinkinį, pvz., LT-960, visus „LibriTTS“ mokymo pogrupius) ir papildomus duomenų rinkinius, kad patikrintume duomenų rinkinio didinimo efektyvumą.

Subjektyviam tikslui 5 LENTELĖ rodo, kad mūsų modelis žymiai pagerina konvertuotos kalbos natūralumą ir panašumą nMOS ir sMOS atžvilgiu. Mes nustatėme, kad mūsų modelis su didelio masto duomenų rinkiniu parodė geresnį natūralumą nei kalbos apie pagrindinę tiesą.

Tačiau rezultatai taip pat parodė, kad padidinus duomenų rinkinį nefiltruojant triukšmingų duomenų, garso kokybė, kalbant apie nMOS ir UTMOS, šiek tiek sumažėjo, tačiau panašumas nuolat didėjo pagal duomenų skalę. Be to, WER taip pat parodė geresnį našumą nei kiti modeliai. Be to, panašumo matavimo rezultatai rodo, kad mūsų modeliai veikia geriau pagal EER ir SECS. Be to, rezultatai patvirtino, kad „HierSpeech++“, kuris buvo apmokytas naudojant didelio masto duomenų rinkinį, yra daug stipresnis nulinio vaizdo kalbos sintezatorius.

Į savo demonstracinį puslapį įtrauksime nulinio tarpkalbio balso stiliaus perdavimo rezultatus ir papildomus nulinio balso konvertavimo rezultatus su triukšmingais kalbos raginimais. Primygtinai rekomenduojame klausytis demonstracinių pavyzdžių ir išleisime hierarchinio kalbos sintezatoriaus šaltinio kodą, kad būtų sukurtas stiprus nulinis kalbos sintezatorius. Be to, mes taip pat galime padidinti garso mėginius naudodami SpeechSR nuo 16 kHz iki 48 kHz, o tai gali tiesiog pagerinti suvokimo garso kokybę, kaip aprašyta 5.10 skyriuje.

6 LENTELĖ. Temperatūros parametrų paieška. TTS atveju turime dvi kontroliuojamas temperatūras: TTV Tttv ir hierarchinio kalbos sintezatoriaus Th. Šiam eksperimentui naudojame HierSpeech++, išmokytą su LT-960, ir pataisome atsitiktinę pradžią. Mes nustatėme, kad žema temperatūra pagerina sintetinės kalbos tvirtumą CER ir WER požiūriu. Tačiau jei tikitės sukurti įvairią ir išraiškingą kalbą, galite rinktis aukštą temperatūrą. Žemės tiesos CER ir WER yra atitinkamai 2,31 ir 4,13. UTMOS pateikiamas su standartiniu nuokrypiu.6 LENTELĖ. Temperatūros parametrų paieška. TTS atveju turime dvi kontroliuojamas temperatūras: TTV Tttv ir hierarchinio kalbos sintezatoriaus Th. Šiam eksperimentui naudojame HierSpeech++, išmokytą su LT-960, ir pataisome atsitiktinę pradžią. Mes nustatėme, kad žema temperatūra pagerina sintetinės kalbos tvirtumą CER ir WER požiūriu. Tačiau jei tikitės sukurti įvairią ir išraiškingą kalbą, galite rinktis aukštą temperatūrą. Žemės tiesos CER ir WER yra atitinkamai 2,31 ir 4,13. UTMOS pateikiamas su standartiniu nuokrypiu.

Autoriai:

(1) Sang-Hoon Lee, Korėjos universiteto Dirbtinio intelekto katedros bendradarbis, IEEE, Seulas 02841, Pietų Korėja;

(2) Ha-Yeong Choi, Korėjos universiteto Dirbtinio intelekto katedros bendradarbis, IEEE, Seulas 02841, Pietų Korėja;

(3) Seung-Bin Kim, Korėjos universiteto Dirbtinio intelekto katedros bendradarbis, IEEE, Seulas 02841, Pietų Korėja;

(4) Seong-Whan Lee, Korėjos universiteto Dirbtinio intelekto katedros bendradarbis, IEEE, Seulas 02841, Pietų Korėja, ir atitinkamas autorius.



Source link

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Miesto naujienos - Šeimos gydytojai - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai - Teniso treniruotės - Pranešimai spaudai -