Sintetiniai veido atpažinimo duomenys: žaidimų keitiklis ar tiesiog „hype“?

Veido atpažinimo (FR) technologija pastaraisiais metais labai pažengė į priekį, nes tai lėmė poreikis padidinti saugumą ir taikomųjų programų, pvz., pigių vartotojų prietaisų, orlaivių įlaipinimo, sienų kontrolės ir finansinių paslaugų, plitimo įvairiose pramonės šakose. Veiksmingų FR sistemų pagrindas yra esminis komponentas – duomenys. Didelio masto duomenų rinkiniai yra būtini mokant šiuos modelius, kad būtų galima tiksliai identifikuoti ir patikrinti veidus įvairiomis sąlygomis.

Kad FR būtų patikimas, modeliai turi būti veikiami įvairių duomenų, įskaitant demografinius, apšvietimo, aplinkos, išraiškų ir okliuzijų pokyčius. Tai užtikrina tvirtumą ir sąžiningumą diegimo metu, sumažindama šališkumo ar gedimo riziką susidūrus su nepažįstamomis sąlygomis.

Sintetiniai duomenų rinkiniai, sukurti naudojant genAI metodus, gali padėti, tačiau dabartinėje būsenoje jie negali visiškai pakeisti realaus pasaulio duomenų rinkinių. Šiame straipsnyje nagrinėjami sintetinių FR duomenų rinkinių pranašumai ir trūkumai bei nagrinėjama dabartinė veido atpažinimo genAI būklė.

Turinys

Veido duomenų gavimas: realus pasaulis prieš sintetinius

LFW, Cfp-fp, Agedb-30, Ca-lfw ir Cp-lfw yra vieni iš plačiausiai naudojamų duomenų rinkinių, naudojamų FR modelių patikros našumui įvertinti. 1 lentelėje parodytas ML modelio, parengto pagal tą patį algoritmą, tikrinimo našumas skirtingų dydžių realaus pasaulio veidų duomenų rinkiniuose.

Galima pastebėti, kaip duomenų rinkinio dydis veikia modelio našumą ir mastą, kuriuo turi būti gauta duomenų, kad būtų gauti tvirti FR modeliai. Patvirtinimas reiškia, kad modeliui suteikiama pora veido atvaizdų ir numato, ar veidų pora priklauso tam pačiam asmeniui, ar dviem atskiriems žmonėms. Pranešama apie modelio prognozių tikrinimo tikslumo procentą.

1 lentelė. Patvirtinimo tikslumas (%) pagal penkis skirtingus FR etalonus. Siekiant teisingo palyginimo, visi rezultatai gauti iš originalių publikuotų darbų, naudojant tą patį ML modelį ir algoritmą.

Be didelio masto mokymo duomenų rinkinio, taip pat svarbu, kad duomenų rinkinyje būtų minimalių paklaidų. Pirmiausia svarbu suprasti, ką šališkumas reiškia FR kontekste. Apskritai mašininio mokymosi modelio šališkumas reiškia, kad modelis nevienodai veikia skirtingų tipų įvesties duomenims. FR modelis gali būti šališkas įvairiais būdais.

Dažniausias pavyzdys yra šališkumas dėl etninės priklausomybės, kai FR modelis paprastai veikia prastai, kai pateikiamas su tam tikros etninės grupės veidais.

Tačiau tai nėra vienintelis šališkumas, kurį reikia pašalinti norint gauti patikimus FR modelius. Amžiaus, lyties ir aplinkos šališkumo (veido danga, veido plaukai ir kt.) yra keletas kitų pavyzdžių, kaip FR modelis gali būti šališkas. Šiuos paklaidas galima sumažinti renkant ir įtraukiant reprezentatyvius pavyzdžius į duomenų rinkinį, naudojamą FR modeliui mokyti.

Įvairių etninių grupių žmonių, turinčių dešimties–penkiolikos metų skirtumą, nuotraukas arba žmonių, esančių skirtinguose fonuose, įvairiomis apšvietimo sąlygomis ir skirtingomis veido išraiškomis, nuotraukas gali būti sudėtinga užduotis.

Be to, realaus pasaulio duomenų rinkimas FR kelia daug kitų iššūkių. Tokių didelio masto įvairių duomenų gavimas iš viso pasaulio yra brangus. Be išlaidų ir techninių apribojimų, duomenų rinkimas tampa vis sunkesnis dėl etinių ir privatumo problemų.

Biometrinius duomenis reglamentuoja tokie įstatymai kaip Europos BDAR (Bendrasis duomenų apsaugos reglamentas), Kalifornijos CCPA (Kalifornijos vartotojų privatumo įstatymas) ir Illlionio BIPA (Biometrinės informacijos privatumo įstatymas), kad būtų galima paminėti keletą.

Šie įstatymai reglamentuoja atitinkamų gyventojų biometrinių duomenų gavimą ir saugojimą, o tai dar labiau apsunkina didelio masto biometrinių duomenų gavimą. Atsižvelgiant į didėjančią FR taikomųjų programų paklausą, dabar yra labai svarbus laikas ištirti sintetinių duomenų gyvybingumą, išnagrinėti jų privalumus ir trūkumus kuriant keičiamo dydžio, etiškas ir teisiškai suderinamas veido atpažinimo sistemas.

Šie iššūkiai, kartu su generuojamojo AI (genAI) atsiradimu, paskatino daug tyrimų, siekiant sukurti sintetinius duomenis, kurie pakeistų realaus pasaulio jautrius biometrinius duomenis. Prieš pasineriant į dabartinę sintetinių duomenų būklę FR, būtina suprasti, ką reiškia genAI.

Paprastais žodžiais tariant, genAI yra dirbtinio intelekto tipas, galintis sukurti naują turinį, pvz., tekstą, vaizdus ar muziką, remdamasis duomenimis, kuriais jis buvo apmokytas, o sukurti duomenys vadinami „sintetiniais duomenimis“.

Veido atpažinimo GenAI yra ypač viliojanti dėl kelių priežasčių. Visų pirma, sintetinius duomenų rinkinius generuoja AI, o tai reiškia, kad tyrėjai, inžinieriai ir entuziastai gali kurti (ir treniruotis) duomenų rinkinius neatlikdami rankinio vaizdų iš tikrų asmenų gavimo proceso.

Daugelis atitikties reikalavimų renkant ir naudojant tikrus vaizdo duomenų rinkinius netaikomi sintetiniams duomenims, o teoriškai į paklaidas, dėl kurių gali atsirasti algoritmas, parengtas remiantis realiais vaizdo duomenimis, būtų galima geriau atsižvelgti naudojant sintetinius duomenis.

Tačiau sintetiniai veido duomenų rinkiniai dar nėra sidabrinė kulka. Tolesniuose šio straipsnio skyriuose aprašoma, kur sintetiniai duomenų rinkiniai šviečia, kur jie neatitinka, ir dabartinė veido atpažinimo genAI būsena.

Sintetinių duomenų privalumai veido atpažinimo srityje

Sintetiniai duomenys turi keletą privalumų, todėl jie yra vertinga priemonė kuriant veido atpažinimo technologiją. Vienas iš pagrindinių privalumų yra tai, kad sintetiniams duomenų rinkiniams nereikia gauti tikrų žmonių vaizdų. Sintetiniai duomenys tiesiogiai nenaudoja tikrų asmens duomenų, todėl privatumo atitikties reikalavimai, tokie kaip sutikimas naudoti ir teisės būti pamirštam, nekeliami.

Sintetinių duomenų generavimas taip pat gali būti ekonomiškesnis nei daugybės realaus pasaulio duomenų rinkimas ir anotavimas, o tai, be laiko ir išteklių, sugaištų siekiant užtikrinti, kad toks duomenų rinkinys atitiktų teisinius ir etinius reikalavimus, yra rankinis ir daug laiko reikalaujantis darbas, ir brangus procesas. Sintetiniai duomenys leidžia sukurti kontroliuojamą aplinką, kurioje galima manipuliuoti konkrečiais kintamaisiais, o tai padeda testuoti ir koreguoti veido atpažinimo modelius.

Be to, sintetiniai duomenys palengvina didelių duomenų rinkinių kūrimą ir gavimą, ypač tais atvejais, kai realaus pasaulio duomenų yra mažai, juos sunku surinkti arba kai dėl teisinių reikalavimų ir etinių priežasčių toks rinkimas yra nepagrįstas. GenAI metodai taip pat gali būti naudojami esamam realaus pasaulio duomenų rinkiniui papildyti, užpildant spragas siekiant sumažinti šališkumą; demografinė ar kitokia.

Pavyzdžiui, daugelį viešai paskelbtų didelio masto veido duomenų rinkinių daugiausia sudaro baltaodžių tapatybės, o tai sukelia demografinį šališkumą ML modeliuose, parengtuose remiantis tokiais duomenimis. Tai galima lengvai ištaisyti naudojant sintetinį duomenų rinkinį.

Dabartiniai veido atpažinimo sintetinių duomenų apribojimai

Vaizdo domenui generatyvūs priešpriešiniai tinklai (GAN) yra vienas iš populiariausių modelių, naudojamų duomenims generuoti. Nvidia Styleganir Stylegan2 padarė stebuklus kurdami sintetinius veido vaizdus, kurių negalima atskirti nuo tikrų veidų. „Microsoft“ tyrėjai Digiface-1mKim ir kt DiscoGANTencents' Sinfasasir Mičigano valstijos universitete DCFace be kita ko, padarė didelę pažangą kurdami sintetinius veido atpažinimo duomenų rinkinius ir parodė teigiamus realių duomenų rezultatus.

Tačiau visi šie metodai turi apribojimų, susijusių su kaina, laiku, unikalių tapatybių, kurias galima sugeneruoti, skaičiumi ir našumu. ne iki par su modeliais, parengtais naudojant realaus veido duomenų rinkinius.

Teoriškai sintetinis duomenų rinkinys su „realiai atrodančiais“ veidais ir kontroliuojamais įvairiais etninės priklausomybės, lyties, pozos, apšvietimo ir fono variacijų atributais turėtų pranokti tikrą „laukinėje“ duomenų rinkinį. Tada kodėl modelių, parengtų naudojant šiuos duomenų rinkinius, našumas nėra panašus į modelius, mokomus naudojant tokio paties dydžio realaus pasaulio duomenų rinkinius? Atsakymas į šį klausimą slypi nekontroliuojamose pačių realaus pasaulio duomenų ypatybėse. Tikrų duomenų skirtumų mastas iki šiol nebuvo visiškai užfiksuotas jokiuose paskelbtuose tyrimuose.

Jei duomenų rinkinyje yra toks pat ribotas visų sintetinių tapatybių variantų skaičius, tai kenkia modelio veikimui. Bandymas padidinti variacijas lemia, kad veido tapatybė taip pat keičiasi, o tai sukelia duomenų triukšmą, o tai vėl kenkia modelio veikimui.

Dabartinė sintetinių veido duomenų rinkinių būsena

2 lentelėje pateikiamas tos pačios FR modelio architektūros (Resnet 50), parengtos naudojant skirtingus sintetinius duomenų rinkinius, našumas. Taip pat pateikiamas pradinis modelio, parengto naudojant maždaug tokio paties dydžio autentišką duomenų rinkinį, našumas. Lentelėje taip pat nurodyti kiekvieno sintetinio duomenų išleidimo metai.

2 lentelė. Plačiai naudojamų FR vertinimo duomenų rinkinių patikros tikslumas (%), pasiektas naudojant modelius, parengtus remiantis sintetiniais duomenimis. Pirmoje eilutėje nurodomas pradinis našumas, pasiektas modelio naudojant panašaus dydžio realaus pasaulio duomenis. Visi rezultatai gauti iš originalių publikuotų darbų, naudojant tą patį ML modelį ir algoritmą.

Kaip matyti iš 2 lentelės, modeliai, parengti naudojant sintetinius duomenis, neveikia taip gerai, kaip modeliai, parengti naudojant realaus pasaulio duomenis. Nors „paprastų“ ir mažų duomenų rinkinių, pvz., „LFW“, našumo atotrūkis yra nedidelis, jis labiau pastebimas kituose griežtesniuose duomenų rinkiniuose, pvz., CFP-FP ir Agedb-30, kuriuose yra veidų ir veidų profilio vaizdų pavyzdžiai. atitinkamai įvairaus amžiaus asmuo.

Pastebėtina, kad pastaraisiais metais pagerėjo modelių, parengtų remiantis sintetiniais duomenimis, našumas.

Sintetinių duomenų veiksmingumo patvirtinimas išlieka iššūkiu. Norint sukurti patikimas veido atpažinimo sistemas, labai svarbu užtikrinti, kad sintetiniai duomenys tiksliai atspindėtų realias sąlygas. Tačiau patvirtinimo procesas yra sudėtingas ir reikalauja patikimų metodų, kad būtų užtikrinta duomenų kokybė ir pritaikymas.

Galimas sprendimas yra sukurti genAI modelį, kuris taip pat galėtų imituoti šias sintetinių duomenų savybes. Generatyvusis modelis gali būti išmokytas įveikti šiuos apribojimus, naudojant realaus pasaulio duomenų rinkinį, kuriame yra daug veido atributų, vaizdo kokybės ir fono variacijų. Galima kelti klausimą, iš kur tokie duomenys gali būti gauti. Toks duomenų gavimas susidurtų su visais anksčiau minėtais apribojimais, būtent etiniais, teisiniais ir išlaidų apribojimais.

Tačiau juos sušvelnina mažesnis duomenų rinkinio dydis, reikalingas generatyviniams FR modeliams parengti. Nvidia StiliusGAN2 gali generuoti tikroviškus veido atvaizdus, buvo tik apmokytas 70 000 vaizdųir jame nėra informacijos apie duomenų rinkinio veidų tapatybę. Šie vaizdai nebuvo renkami atsižvelgiant į FR, o modelis taip pat nebuvo parengtas tam tikslui, todėl modeliai, parengti naudojant StyleGAN2 sugeneruotus sintetinius FR duomenų rinkinius, neatitinka realaus našumo.

Išvada

Sintetiniai duomenys žada tobulinti veido atpažinimo technologiją, tačiau būtina atpažinti dabartinius jos apribojimus. Nors „genAI“ pranašumai apima sintetinių pavyzdžių tikroviškumą ir lengvą vaizdų derinimą, kad būtų pagerintos arba sumažintos funkcijos, pvz., veido išraiškos, galvos poza, veido plaukai ir kt. reikšmingas.

Sintetiniai duomenys dar nepakeičia gerai kuruojamų tikrų duomenų rinkinių. Nepaisant to, sintetinių veido duomenų kokybė vejasi realaus pasaulio duomenų kokybę, nes tobulėja duomenų generavimo metodai, todėl galime manyti, kad netolimoje ateityje sintetiniai duomenys gali visiškai panaikinti poreikį naudoti tikrus duomenis. -Pasaulio veido duomenys FR mokymui.

Funkcijos vaizdas pagal Stephas Meade'as

Source link

Sintetiniai veido atpažinimo duomenys: žaidimų keitiklis ar tiesiog „hype“?

Veido duomenų gavimas: realus pasaulis prieš sintetinius

Sintetinių duomenų privalumai veido atpažinimo srityje

Dabartiniai veido atpažinimo sintetinių duomenų apribojimai

Dabartinė sintetinių veido duomenų rinkinių būsena

Išvada

BetAlice premija be užstato JK: išsamus vadovas

Five Common Failure Modes in FLUX Illustration LoRA Training

AI aukso karštinės turi ir neturi

nuo grandiozinių projektų iki naujų patogumų gyventojams

Kredito unijų sektorius pirmąjį ketvirtį – pelno daugiau nei prieš metus

Bihari Kathal ki Sabji | Džekfrutų karis

Degalų kortelės, skirtos automobilių parko vadovams, suteikia visapusiškas sistemas

BetAlice premija be užstato JK: išsamus vadovas

Kontaktai

Naujausi įrašai

Veido duomenų gavimas: realus pasaulis prieš sintetinius

Sintetinių duomenų privalumai veido atpažinimo srityje

Dabartiniai veido atpažinimo sintetinių duomenų apribojimai

Dabartinė sintetinių veido duomenų rinkinių būsena

Išvada

More Stories

Praleistos naujienos

Kontaktai

Žymos

Kategorijos

Naujausi įrašai