Nulinis balso konvertavimas: „HierSpeech++“ palyginimas su kitais baziniais modeliais

Turinys

Nuorodų lentelė

Santrauka ir 1 Įvadas

2 Susiję darbai

2.1 Neuroninio kodeko kalbos modeliai ir 2.2 Neautoregresyvūs modeliai

2.3 difuzijos modeliai ir 2.4 nulinis balso klonavimas

3 Hierspeech++ ir 3.1 kalbėjimo atvaizdavimas

3.2 Hierarchinis kalbos sintezatorius

3.3 Tekstas į „Vec“.

3.4 Kalba Itin didelė raiška

3.5 Modelio architektūra

4 Kalbos sintezės užduotys

4.1 Balso konvertavimas ir 4.2 Tekstas į kalbą

4.3 Stiliaus raginimo replikacija

5 Eksperimentas ir rezultatas bei duomenų rinkinys

5.2 Išankstinis apdorojimas ir 5.3 Mokymas

5.4 Vertinimo metrika

5.5 Abliacijos tyrimas

5.6 Nulinis balso konvertavimas

5.7 Didelės įvairovės, bet labai tikslios kalbos sintezė

5.8 Nulinis tekstas į kalbą

5.9 Nulinis tekstas į kalbą su 1 s raginimu

5.10 Kalba Super didelė raiška

5.11 Papildomi eksperimentai su kitomis bazinėmis linijomis

6 Apribojimas ir greitas pataisymas

7 Išvada, pripažinimas ir nuorodos

5.6 Nulinis balso konvertavimas

Palyginome „HierSpeech++“ balso stiliaus perdavimo našumą su kitais baziniais modeliais: 1) „AutoVC“ (66), kuris yra automatiniu koduotuvu pagrįstas neautoregresyvus VC modelis, naudojant informacijos kliūtį, kad atskirtų turinį ir stilių, 2) „VoiceMixer“ (46), yra GAN pagrįstas lygiagretus VC modelis, kuriame naudojamas panašumu pagrįstos informacijos kliūtis, 3–5) Difuzija pagrįsti modeliai („DiffVC“ (64), „Diff-HierVC“ (11) ir DDDM-VC (10)), 6) „YourTTS“ (7), VITS pagrįsti tiesioginiai VC modeliai, naudojanti fonemų sekas turinio informacijai išgauti, 7) „HierVST“ (45), hierskalbe pagrįstas VC modelis, naudojant hierarchinio stiliaus pritaikymą. Siekiant teisingo palyginimo, apmokėme visus modelius naudodami tą patį duomenų rinkinį (LT460, LibriTTS pogrupiai „train-clean-460“) be „YourTTS“. Mes panaudojome oficialų YourTTS diegimą, kuris buvo apmokytas naudojant papildomą duomenų rinkinį. Taip pat apmokėme modelį naudodami didelio masto duomenų rinkinį, pvz., LT-960, visus „LibriTTS“ mokymo pogrupius) ir papildomus duomenų rinkinius, kad patikrintume duomenų rinkinio didinimo efektyvumą.

Subjektyviam tikslui 5 LENTELĖ rodo, kad mūsų modelis žymiai pagerina konvertuotos kalbos natūralumą ir panašumą nMOS ir sMOS atžvilgiu. Mes nustatėme, kad mūsų modelis su didelio masto duomenų rinkiniu parodė geresnį natūralumą nei kalbos apie pagrindinę tiesą.

Tačiau rezultatai taip pat parodė, kad padidinus duomenų rinkinį nefiltruojant triukšmingų duomenų, garso kokybė, kalbant apie nMOS ir UTMOS, šiek tiek sumažėjo, tačiau panašumas nuolat didėjo pagal duomenų skalę. Be to, WER taip pat parodė geresnį našumą nei kiti modeliai. Be to, panašumo matavimo rezultatai rodo, kad mūsų modeliai veikia geriau pagal EER ir SECS. Be to, rezultatai patvirtino, kad „HierSpeech++“, kuris buvo apmokytas naudojant didelio masto duomenų rinkinį, yra daug stipresnis nulinio vaizdo kalbos sintezatorius.

Į savo demonstracinį puslapį įtrauksime nulinio tarpkalbio balso stiliaus perdavimo rezultatus ir papildomus nulinio balso konvertavimo rezultatus su triukšmingais kalbos raginimais. Primygtinai rekomenduojame klausytis demonstracinių pavyzdžių ir išleisime hierarchinio kalbos sintezatoriaus šaltinio kodą, kad būtų sukurtas stiprus nulinis kalbos sintezatorius. Be to, mes taip pat galime padidinti garso mėginius naudodami SpeechSR nuo 16 kHz iki 48 kHz, o tai gali tiesiog pagerinti suvokimo garso kokybę, kaip aprašyta 5.10 skyriuje.

Autoriai:

(1) Sang-Hoon Lee, Korėjos universiteto Dirbtinio intelekto katedros bendradarbis, IEEE, Seulas 02841, Pietų Korėja;

(2) Ha-Yeong Choi, Korėjos universiteto Dirbtinio intelekto katedros bendradarbis, IEEE, Seulas 02841, Pietų Korėja;

(3) Seung-Bin Kim, Korėjos universiteto Dirbtinio intelekto katedros bendradarbis, IEEE, Seulas 02841, Pietų Korėja;

(4) Seong-Whan Lee, Korėjos universiteto Dirbtinio intelekto katedros bendradarbis, IEEE, Seulas 02841, Pietų Korėja, ir atitinkamas autorius.

Source link

Nulinis balso konvertavimas: „HierSpeech++“ palyginimas su kitais baziniais modeliais

Nuorodų lentelė

5.6 Nulinis balso konvertavimas

BetAlice premija be užstato JK: išsamus vadovas

Five Common Failure Modes in FLUX Illustration LoRA Training

AI aukso karštinės turi ir neturi

Kredito unijų sektorius pirmąjį ketvirtį – pelno daugiau nei prieš metus

Bihari Kathal ki Sabji | Džekfrutų karis

Degalų kortelės, skirtos automobilių parko vadovams, suteikia visapusiškas sistemas

BetAlice premija be užstato JK: išsamus vadovas

Kauno miesto savivaldybė Kauno miesto muziejui vadovaus ilgametis muziejininkas Simonas Jazavita

Kontaktai

Naujausi įrašai

Nuorodų lentelė

5.6 Nulinis balso konvertavimas

More Stories

Praleistos naujienos

Kontaktai

Žymos

Kategorijos

Naujausi įrašai