MLLM naudojimas difuzinei sintezei, kuri sinergizuoja abi puses: kaip tai įmanoma?

MLLM naudojimas difuzinei sintezei, kuri sinergizuoja abi puses: kaip tai


Santrauka ir 1 Įvadas

2 Fonas ir problemos pareiškimas

2.1 Kaip galime naudoti MLLM difuzinei sintezei, kuri sinergizuoja abi puses?

3 DreamLLM

3.1 Nuo galo iki galo interleaved generatyvinis išankstinis mokymas (I-GPT)

3.2 Modelių mokymas

4 eksperimentai ir 4.1 Multimodalinis supratimas

4.2 Teksto ir sąlyginio vaizdo sintezė

4.3 Daugiarūšis bendras kūrimas ir supratimas

5 Diskusijos

5.1 Kūrimo ir supratimo sinergija?

5. 2 Ko išmoko DreamLLM?

6 Susiję darbai

7 Išvados ir literatūros sąrašas

A Papildomi eksperimentai

B Papildomi kokybiniai pavyzdžiai

C Įgyvendinimo detalės

D Papildomi susiję darbai

E Apribojimai, gedimų atvejai ir būsimi darbai

2.1 Kaip galime naudoti MLLM difuzinei sintezei, kuri sinergizuoja abi puses?

Daugiarūšiai signalai paprastai rodo specifinę modalumo informaciją, kuri turi skirtingą struktūrą, bet papildo viena kitą semantiką (Dong ir kt., 2023). Ši papildoma savybė leidžia mums panaudoti gilų kalbos supratimą, kad pagerintume įvairių rūšių vaizdų generavimą (Saharia ir kt., 2022). Tačiau daugiarūšio kūrimo potencialas pagerinti supratimą lieka beveik neištirtas.

Mokymosi tikslas Mūsų tikslas yra panaudoti MLLM modeliuoti paskirstymą naudojant tiesioginį pikselių erdvės atranką. Čia iš anksto paruoštas SD veikia kaip balų metrika, distiliuojanti išmoktų duomenų pasiskirstymą. Šis metodas yra panašus į Score Distillation Sampling (Poole ir kt., 2023) (SDS, taip pat žinomas kaip Score Jacobian Chaining (Wang ir kt., 2023a)). Šiame kontekste vaizdas užpakalinis mokomas panašiai kaip DeepDream (Mordvintsev ir kt., 2015), naudojant MLLM sąlyginį parametravimą.

Sąlyginiai įterpimai Užuot konvertavus MLLM išvesties erdvę, kad ji atitiktų CLIP, siūlome užklausti MLLM naudojant išmoktus įterpimus. Todėl MLLM praturtinta semantika yra difuzijos sąlyga, o pasiskirstymas netiesiogiai modeliuojamas sintezės atrankos būdu.

Autoriai:

(1) Runpei Dong, Xi'an Jiaotong universitetas ir stažuotė MEGVII;

(2) Chunrui Han, MEGVII technologija;

(3) Yuang Peng, Tsinghua universitetas ir stažuotė MEGVII;

(4) Zekun Qi, Xi'an Jiaotong universitetas ir stažuotė MEGVII;

(5) Zheng Ge, MEGVII technologija;

(6) Jinrong Yang, HUST ir stažuotė MEGVII;

(7) Liang Zhao, MEGVII technologija;

(8) Jianjian Sun, MEGVII technologija;

(9) Hongyu Zhou, MEGVII technologija;

(10) Haoran Wei, MEGVII technologija;

(11) Xiangwen Kong, MEGVII Technology;

(12) Xiangyu Zhang, MEGVII technologija ir projekto vadovas;

(13) Kaisheng Ma, Tsinghua universitetas ir atitinkamas autorius;

(14) Li Yi, Tsinghua universitetas, atitinkami autoriai ir projekto vadovas.



Source link

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Miesto naujienos - Šeimos gydytojai - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai - Teniso treniruotės - Pranešimai spaudai -