Įstrigę laike: kodėl AI negali nustoti piešti laikrodžių 10:10

Būkime atviri, dirbtinis intelektas yra stulbinančiai šaunus – kol jis taip pat stulbinančiai nuspėjamas.
Iki šiol tikriausiai matėte keletą antraštes vagiančių pavyzdžių, kaip generatyvus AI sukuria siurrealistinį meną, akinantį vaizdą ar neįtikėtinai kūrybišką dizainą. Paprašykite jo įsivaizduoti ateivius miestus, besimaudančius neoninėje šviesoje, arba miškus, kuriuose medžiai augina bioliuminescencines gėles, ir – bum! – jums bus pateikti vaizdai, peržengiantys ribas to, ką žmonės paprastai įsivaizduotų.
Bet tada jūs paprašote AI nupiešti laikrodį. Ir visi stebuklingi šauksmai sustoja. Ką tu gauni? Laikrodis atkakliai įstrigo 10:10.
Tai beveik juokinga: kad ir kaip ragintumėte dirbtinį intelektą – „nupieškite senovinį rankinį laikrodį! „futuristinis laikrodis!” ar net „išlydytą Dali laikrodį!“ – tos laikrodžio rodyklės kažkodėl randa kelią į tą keistai linksmą 10:10 padėtį. Jei AI turėtų suprasti niuansus, atsitiktinumą ir kūrybiškumą, kodėl taip yra įstrigo apie tai?
Atsakymas yra ne tik linksmas treniruočių modelių artefaktas, bet ir mikrokosminis žvilgsnis į didesnius AI iššūkius, su kuriais susiduriama, kai reikia suprasti kūrybiškumą, šališkumą ir išsivaduoti nuo nusidėvėjusių taisyklių. Taigi, užsisekite apyrankę ir pasigilinkime į šią stebėtinai filosofinę ir giliai techninę paslaptį.
10:10 fenomenas: žmogaus palikimas
Prieš pradėdami mojuoti pirštais su AI, pakalbėkime apie mus. Priežastis, kodėl dirbtinis intelektas linkęs į 10:10, kyla ne dėl to, kad algoritmas nusprendė: „Taip, čia laikas atrodo tobulas“. Ne – tai tiesiog skatina elgesį, kurį mes, žmonės, sukūrėme laikrodžių dizaine dešimtmečius.
Beveik kiekvienoje jūsų matytoje laikrodžio reklamoje naudojama ta pati ikoninė 10:10 laiko žyma. Ir ne, taip yra ne todėl, kad visi pasaulio gaminių fotografai kartu prisijungė prie „10:10 kulto“. Štai kodėl šis laiko pasirinkimas yra toks dominuojantis:
Simetrija atrodo gerai: 10:10 laikrodžio rodyklės sukuria gražų vizualinės harmonijos pojūtį. Jis yra simetriškas, bet ne per daug standus. Jis taip pat puikiai įrėmina prekės ženklo logotipą, kuris daugumoje laikrodžių dažnai būna 12 valandos padėtyje.
„Bešypsančio laikrodžio“ efektas: Pažiūrėkite atidžiai: 10:10 aukštyn lenktos rankos imituoja šypsenos formą. Nesvarbu, ar sąmoningai, ar nesąmoningai, prekės ženklai supranta, kad laimingi, svetingi dizaino ženklai parduoda daugiau produktų.
Rinkodaros perkrova: Kai ši konvencija tapo dominuojančia, ji tapo sniego gniūžte. Nuo skelbimų iki atsarginių vaizdų iki katalogo nuotraukų, visur pasirodė laikrodis, 10:10 buvo standartas. Tai tapo savaime besitęsiančia dizaino taisykle.
Dešimtmečius mes nuolat maitiname pasaulį šiuo vaizdu, todėl jis tapo toks visur esantis, kad net mūsų smegenys, įsivaizduodamos laikrodžio ciferblatą, jį naudoja pagal numatytuosius nustatymus. Mes apie tai net negalvojame – tiesiog tikimės.
Ir dabar AI taip pat daro.
AI veidrodžio problema
Norėdami suprasti, kodėl dirbtinis intelektas, kartais vadinamas „didžiuoju imitatoriumi“, negali išsivaduoti nuo 10:10, greitai išpakuosime, kaip šie modeliai mokosi.
Kiekvienas generuojantis dirbtinio intelekto modelis, įskaitant tokias jėgaines kaip „Stable Diffusion“, „DALL-E 2“ ir „MidJourney“, treniruodamas remiasi didžiuliais duomenų rinkiniais. Šie duomenų rinkiniai yra didžiulės vaizdų (dažnai milijardų) kolekcijos, išgautos iš interneto: fotografija, internetinės saugyklos, vartotojų sukurtas turinys.
Kai dirbtinis intelektas iš šių vaizdų išmoksta „laikrodžio“ sąvoką, jis ne tik analizuoja laikrodžio estetiką ar funkciją. Tai ieško pasikartojimo modelius.
Spėkite, kas dominuoja interneto laikrodžių vaizduose? Taip, 10:10.
AI nekritiškam „protui“ statistiškai reikšmingiausia tiesa apie laikrodžius yra ne kad jie pasako laiką. Tai, kad jie beveik visada atrodo taip:
- Simetrinės rodyklės, nukreiptos į 10 ir 2.
- Logotipas išdidžiai sėdi ties 12 val.
- Ir kartais papildomų komplikacijų, tokių kaip chronografo ciferblatai, glaudžiasi kaip vitrinos.
Jei 95% „laikrodžio“ vaizdų, kuriuos mato algoritmas, iš esmės yra identiški, atspėkite, kas atsitiks, kai paprašysite sukurti laikrodį? AI nežino geriau. Daroma prielaida, kad norite bet kokios jam labiausiai žinomos laikrodžio versijos – 10:10.
Bet palauk – AI nėra Tiesiog Stebi duomenis… Ar ne?
Galbūt galvojate: „Palauk, AI turėtų būti kūrybingas! Kodėl tai nemaištauja?
Štai čia viskas tampa sudėtinga. AI gali atrodyti kūrybingas – tarsi jis traukia idėjas iš oro, bet taip nėra. Vietoj to, jis veikia tikimybiškai, traukdamasis iš treniruočių metu išmoktų modelių. Leiskite man tai demistifikuoti.
Pagalvokite apie AI smegenis kaip apie milžinišką „automatinio užbaigimo“ žaidimą. Įsivaizduokite, kad į „Google“ įvedate „šunų veislės“ – automatinio užbaigimo pasiūlymai, pvz., „Labradoras“ arba „Vokiečių aviganis“, pasirodo, nes jie yra labiausiai paplitę. Panašiai, kai dirbtinis intelektas sukuria „rankinio laikrodžio“ vaizdą, jis atrenka, kaip, jo manymu, atrodo vidutinis laikrodis, remdamasis jo modeliais. jau matytas.
Štai pagrindinė techninė detalė:
Generatyvieji modeliai kuria vaizdus tyrinėdami jų „latentinę erdvę“, didelės apimties matematinį visko, ką jie išmoko, vaizdą. Įsivaizduokite šią latentinę erdvę kaip tankią galaktiką, sudarytą iš raštų, idėjų ir formų. Tokie objektai kaip „laikrodžio ciferblatai“ sudaro spiečius šioje galaktikoje, o laikrodžių atveju… tankiausia, lengviausiai pasiekiama to spiečiaus dalis yra – atspėjote – 10:10.
Kai modelis pradeda kurti vaizdą, šios tankios sritys veikia kaip gravitaciniai šuliniai. Labiau tikėtina, kad pasirinksite ką nors šalia, o ne nuklysite į „kūrybinį atsitiktinumą“.
Režimo žlugimas: Spąstų AI negali pabėgti
Čia taip pat yra kažkas kito: režimo žlugimas.
Režimo žlugimas yra dažna mašininio mokymosi spąsta, kai AI modelis pradeda teikti pirmenybę tik siauram galimybių pogrupiui, ignoruodamas rečiau matomas parinktis. Tai tarsi prožektorius, šviečiantis tik dažniausiai pasitaikantiems pavyzdžiams, o kiti nublanksta tamsoje. Nes žiūri 10:10 yra dramatiškai per daug atstovaujama AI mokymo duomenų rinkiniuose jie tampa „numatytaisiais“. Kiekvieną kartą, kai paraginate AI, jis pasirenka šį saugų ir pažįstamą pasirinkimą.
Štai dalykas: tai ne tik laikrodžiai. Tas pats šališkumas įsiskverbia į visų rūšių generacinius išėjimus. Paprašykite dirbtinio intelekto sugeneruoti, tarkime, bendrą „verslininko“ įvaizdį, ir dažnai pamatysite stereotipinį Vakarų vyrą, vilkintį kostiumą ir kaklaraištį, nes būtent tai dominuoja standartiniuose vaizduose. AI yra tik tiek nešališkas, kiek ir jo duomenys, o duomenų rinkiniai, kaip žinome, yra apkrauti dešimtmečiais, net šimtmečiais trukusiu žmonių šališkumu.
Palaukite… Ar negalime tiesiog sutvarkyti?
Teoriškai taip. Techniškai? Tai daug kietesnis riešutas.
Kad dirbtinis intelektas išbristų iš 10:10 provėžos ar bet kokio kito giliai įsišaknijusio kultūrinio šališkumo, reikia duomenų ir algoritmai, kurie aktyviai priešinasi vidurkio saugos tinklui. Štai kaip tai gali atrodyti:
Duomenų rinkinių įvairinimas: Pirmiausia įsitikinkite, kad yra mokymo duomenų rinkiniai nepakankamai atstovaujamos alternatyvos. Jei dirbtinio intelekto treniruočių duomenys rodo laikrodžius atsitiktiniu laiku 10:10, galėtume sušvelninti šį šališkumą. Tačiau tai padaryti iki didžiulių duomenų rinkinių nėra menkas – duomenų rinkinių valymas reikalauja didelių skaičiavimo ir žmogiškųjų išteklių.
Pervertinimo tikimybės: Inžinieriai galėtų pakoreguoti AI atlygio algoritmus, kad aktyviai skatintų neįprastesnius rezultatus. Pavyzdžiui, jie gali pridėti nuobaudų už per stiprią numatytųjų išėjimų, pvz., 10:10, nukreipimą.
Triukšmo įvedimas į raginimus: Išplėstinės sistemos gali sukelti „greitąjį triukšmą“, aiškiai verčiantį AI atsitiktinai parinkti subtilius savo išvesties aspektus, pvz., rodyklių padėtį ant laikrodžio arba, plačiau, tyrinėti nepakankamai ištirtas latentinės erdvės sritis.
Pasirinktinis koregavimas: modelius taip pat galima tiksliai sureguliuoti, kad kūriniai būtų kūrybiškesni. Mokydamiesi mažesnių, specializuotų modelių, susijusių su įvairesniais ar nišiniais duomenimis (pvz., laikrodžių duomenų rinkinį 7:13 arba 4:47), kūrėjai gali pakreipti tam tikrus rezultatus, kad sulaužytų pelėsį.
Sakė, čia slidus šlaitas. Per didelis atsitiktinumo skatinimas reiškia, kad AI gali visiškai prarasti savo pagrindą ir sukurti rezultatus, kurie jaučiasi nesusiję ar beprasmiški, o ne „kūrybiški“. Rasti mielą tašką tarp numatytųjų modelių ir tikrų naujovių šiandien tebėra viena didžiausių DI kūrimo dilemų.
Taigi, kas yra didysis išsinešimas?
Priežastis, dėl kurios dirbtinis intelektas nuolat piešia laikrodžius, įstrigusius 10:10, yra ne tik jo mokymo duomenys ar kodavimo keistenybės – tai mikrokosmosas, kaip generatyvus AI atspindi mūsų kūrybiškumo ribas, mūsų šališkumą ir duomenis. Kai tikimės, kad dirbtinis intelektas „mąstys už dėžutės ribų“, pamirštame, kad iš pradžių jis buvo pastatytas mūsų dėžutėje.
Tai, kas mane žavi, nėra techninis niūrumas, kaip veikia latentinės erdvės ar mokymo paskirstymai (nors prisipažinsiu, tai savaime be galo šaunu). Stebina tai, kaip dirbtinis intelektas verčia mus skaičiuoti mūsų pačių modeliai. 10:10 padarėme universaliu laikrodžių simboliu. Ir kol mes nepakeisime savo susitarimų arba neišmokysime dirbtinio intelekto per daug vertinti įvairovę, jis ir toliau kartos tuos pasirinkimus.
Taigi, kai kitą kartą paprašysite dirbtinio intelekto sukurti laikrodį, kuris įstrigo praeityje, laikykite tai švelniu priminimu: kūrybiškumas ne visada susijęs su algoritmais. Tai apie ketinimą.
O kol kas dirbtinio intelekto ciferblatas vis dar šypsosi tau, amžinai sustingęs 10 po 10.