Kas yra TokenFlow? | HackerNoon

Nuorodų lentelė
Santrauka ir 1. Įvadas
2 Susiję darbai
3 Preliminariai
4 Metodas
4.1 Rakto pavyzdys ir bendras redagavimas
4.2 Redaguoti platinimą naudojant TokenFlow
5 rezultatai
5.1 Kokybinis įvertinimas ir 5.2 Kiekybinis įvertinimas
5.3 Abliacijos tyrimas
6 Diskusija
7 Pripažinimas ir nuorodos
A įgyvendinimo detalės
SANTRAUKA
Neseniai generacinė AI revoliucija išsiplėtė iki vaizdo įrašų. Nepaisant to, dabartiniai naujausi vaizdo įrašų modeliai vis dar atsilieka nuo vaizdo modelių pagal vaizdo kokybę ir vartotojų valdymą kuriamam turiniui. Šiame darbe pristatome sistemą, kuri išnaudoja teksto į vaizdą sklaidos modelio galią teksto vaizdo įrašų redagavimo užduočiai. Konkrečiai, atsižvelgiant į šaltinio vaizdo įrašą ir tikslinį teksto raginimą, mūsų metodas sukuria aukštos kokybės vaizdo įrašą, kuris atitinka tikslinį tekstą, išsaugant įvesties vaizdo įrašo erdvinį išdėstymą ir judėjimą. Mūsų metodas pagrįstas pagrindiniu pastebėjimu, kad redaguoto vaizdo įrašo nuoseklumą galima pasiekti užtikrinant difuzijos funkcijų erdvės nuoseklumą. Tai pasiekiame aiškiai platindami difuzijos ypatybes, pagrįstas tarpkadrų atitikmenimis, lengvai prieinamas modelyje. Taigi, mūsų sistema nereikalauja jokio mokymo ar koregavimo ir gali veikti kartu su bet kuriuo paruoštu teksto į vaizdą redagavimo metodu. Demonstruojame pažangiausius redagavimo rezultatus įvairiuose realaus pasaulio vaizdo įrašuose.
1 ĮVADAS
Teksto į vaizdą modelių raida pastaruoju metu palengvino vaizdų redagavimo ir turinio kūrimo pažangą, leidžiančią vartotojams valdyti įvairias tiek sugeneruotų, tiek realių vaizdų ypatybes. Nepaisant to, šios įdomios pažangos išplėtimas į vaizdo įrašus vis dar atsilieka. Atsirado didelio masto teksto į vaizdo įrašą generuojamųjų modelių antplūdis, rodantis įspūdingus rezultatus generuojant klipus vien iš tekstinių aprašymų. Tačiau, nepaisant šioje srityje padarytos pažangos, esami vaizdo įrašų modeliai vis dar tik pradeda kurtis, nes jų skiriamoji geba, vaizdo įrašo trukmė arba vaizdo dinamikos sudėtingumas yra riboti. Šiame straipsnyje mes panaudojame pažangiausio iš anksto parengto teksto į vaizdą modelio galią, kad galėtume redaguoti natūralius vaizdo įrašus pagal tekstą. Tiksliau, mūsų tikslas yra sukurti aukštos kokybės vaizdo įrašus, kurie atitiktų tikslinį redagavimą, išreikštą įvesties teksto raginimu, išsaugant erdvinį originalaus vaizdo įrašo išdėstymą ir judėjimą. Pagrindinis iššūkis panaudojant vaizdo sklaidos modelį vaizdo įrašų redagavimui yra užtikrinti, kad redaguotas turinys būtų nuoseklus visuose vaizdo kadruose – idealiu atveju kiekvienas fizinis 3D pasaulio taškas laikui bėgant yra nuosekliai keičiamas. Esami ir vienu metu taikomi vaizdo įrašų redagavimo metodai, pagrįsti vaizdo sklaidos modeliais, parodė, kad visuotinės išvaizdos suderinamumą redaguotuose kadruose galima pasiekti išplečiant dėmesio į save modulį, įtraukiant kelis kadrus (Wu ir kt., 2022; Khachatryan ir kt., 2023b; Ceylan ir kt., 2023; Qi ir kt., 2023). Nepaisant to, šio požiūrio nepakanka norint pasiekti norimą laikinojo nuoseklumo lygį, nes judesys vaizdo įraše išsaugomas tik netiesiogiai per dėmesio modulį. Todėl profesionalai arba pusiau profesionalūs vartotojai dažnai naudojasi sudėtingais vaizdo įrašų redagavimo vamzdynais, kurie reikalauja papildomo rankinio darbo. Šiame darbe mes siūlome sistemą, kaip išspręsti šį iššūkį, redaguojant aiškiai įgyvendinant originalius tarpkadrų atitikmenis. Intuityviai suprantama, kad natūraliuose vaizdo įrašuose yra perteklinės informacijos per kadrus, pvz., vaizduojama panaši išvaizda ir bendri vaizdo elementai. Mūsų pagrindinis pastebėjimas yra tas, kad vidinis vaizdo įrašo vaizdas difuzijos modelyje pasižymi panašiomis savybėmis. Tai yra, kadrų pertekliaus lygis ir laikinas nuoseklumas RGB erdvėje ir difuzijos funkcijų erdvėje yra glaudžiai susiję. Remiantis šiuo pastebėjimu, mūsų požiūrio ramstis yra pasiekti nuoseklų redagavimą užtikrinant, kad redaguoto vaizdo įrašo funkcijos būtų vienodos visuose kadruose. Tiksliau, užtikriname, kad redaguotose funkcijose būtų perteikti tokie patys atitikmenys tarp kadrų ir dubliavimosi kaip ir originalios vaizdo įrašo funkcijos. Norėdami tai padaryti, pasitelkiame originalias tarp kadrų funkcijas, kurias modelis lengvai pasiekia. Tai lemia efektyvų metodą, kuris tiesiogiai skleidžia redaguotas difuzijos ypatybes, pagrįstas originalia vaizdo dinamika. Šis metodas leidžia mums panaudoti generatyvų pažangiausio vaizdo sklaidos modelio pirmenybę be papildomo mokymo ar koregavimo ir gali veikti kartu su jau paruoštu sklaida pagrįstu vaizdo redagavimo metodu (pvz., Meng ir kt. (2022 m.);
Apibendrinant, pateikiame šiuos pagrindinius indėlius:
• Technika, pavadinta TokenFlow, kuri užtikrina semantines sklaidos ypatybių atitikmenis tarp kadrų ir leidžia žymiai padidinti vaizdo įrašų, sukurtų naudojant teksto į vaizdą sklaidos modelį, laikinį nuoseklumą.
• Nauja empirinė analizė, tirianti vaizdo įrašo sklaidos ypatybes.
• Pažangiausi įvairių vaizdo įrašų redagavimo rezultatai, kuriuose vaizduojami sudėtingi judesiai.
Autoriai:
(1) Michal Geyer, Weizmann mokslo institutas ir nurodo vienodą indėlį;
(2) Omer Bar-Tal, Weizmann mokslo institutas ir nurodo vienodą indėlį;
(3) Shai Bagon, Weizmann mokslo institutas;
(4) Tali Dekel, Weizmann mokslo institutas.