Ar „Anthropic's Alignment Faking“ yra reikšmingas AI saugos tyrimas?

Kas yra tikslas? Arba, kas yra tikslas žmogaus galvoje? Ką dar daro protas, kuris nėra tikslas ar panašus į tai, kaip pasiekiamas tikslas? Kuo skiriasi užsibrėžtas tikslas ir savęs sukeltas tikslas? Jei tikslas apibūdinamas kaip sudėtingas, kaip tai skiriasi nuo nesudėtingo tikslo?
Ar yra apytikslė architektūra, kaip žmogaus protas vykdo tikslus? Kaip tai gali padėti suprasti tikslus ir tada perkelti į AI? Ar AI turi protą, ar AI panašus į protą, kuris dirba su skaitmeniniu turiniu?
Tai gali reikšti, kad žmogus turi protą. Tai taip pat gali reikšti, kad žmogaus protas interpretuoja ir naršo išorinį pasaulį (DI, skaitmeninį turinį) arba vidinį pasaulį (pačios AI architektūra).
Kaip protas taikomas dirbtiniam intelektui ir kaip jis veikia? Į šį klausimą galima atsakyti dviem būdais. Pirma, palyginti su žmogaus protu, rasti paralelių. Antra, nagrinėjant pagrindinius matematinius parametrus, suformavusius neuroninius tinklus, ir organizuojant juos kaip proto struktūras.
Antrąjį bent jau dabar turėtų pasiekti bet kuri didelė DI įmonė – kartu su tyrimais, kaip dirbtinis intelektas gali veikti ir kaip jis gali būti saugus arba suderintas su žmogaus vertybėmis. Iš pradžių gali nebūtina naudoti žmogaus proto AI protui nustatyti, nes galima struktūrizuoti tai, ką daro DI, remiantis jų matematiniais pagrindais – naudojant skaičiavimo derinį.
Tikslas bus apibrėžti, ką reiškia, kad išvestis yra beveik tiksli, atsižvelgiant į įvestį. Taip pat bus apibrėžta, ką reiškia laikytis raginimų ir grąžinti atsakymus, taip pat ką reiškia siekti tikslo arba nukrypti nuo jo.
Svarbu turėti konceptualų sąnaudą tam, ką protas reiškia dirbtiniu intelektu, palyginti jį su tuo, kas akivaizdu, tada ištirti, kaip jis daro ką nors paprasto, ir tada nukreipti tai į viską, ką daro gana sudėtinga.
Tai būtų reikšmingas DI derinimo tyrimas, kuris galėtų tapti šablonu, į kurį būtų ieškoma dalinių atsakymų į tai, ką ir kodėl daro AI, kad būtų pasiekta didelė pažanga.
Iš to ir buvo tikimasi Antropinisatlikę aiškinamumo tyrimą „Mapping the Mind of a Large Language Model“, kur jie rašė: „Galėjome išmatuoti savotišką „atstumą“ tarp ypatybių, pagal kurias neuronai atsirado jų aktyvavimo modeliuose. Tai leido mums ieškoti ypatybių. Tai rodo, kad vidinis AI modelio sąvokų organizavimas bent šiek tiek atitinka mūsų supratimą apie panašumą Tai, kad manipuliavimas šiomis savybėmis sukelia atitinkamus elgesio pokyčius, patvirtina, kad jie ne tik koreliuoja su sąvokų buvimu įvesties tekste, bet ir priežastingai formuoja modelio elgesį.
Kokie yra AI proto komponentai? Kaip veikia komponentai? Jei komponentai nerelės, kokios relės jiems? Kokios yra komponentų savybės? Jei savybės apima sujungimą, koks yra sujungimo vaidmuo? Kur gali būti AI ketinimas (potencialas) ir kur jis gali atsirasti, neskaitant nurodymų?
Atsakymas, kurio ieškoma pažanga, yra postulavimas, kaip neuroninių tinklų struktūra, dėl kurios buvo sukurti ribiniai AI modeliai, veikia kaip protas. Tai ne tik stebėjimas, ką modelis galėtų veikti be siužeto.
Tyrinėjant, kaip veikia dirbtinio intelekto protas, taip pat galima ekstrapoliuoti tai, kaip veikia žmogaus protas. Tai įmanoma pažvelgus į du dažniausiai pasitaikančius kiekvieno funkcinio smegenų tikslo komponentus – elektrinius ir cheminius signalus. Jie yra kandidatai, o ne neuronai, nes, taip sakant, neuronai turi fiksuotą anatomiją.
Jie gali išsitiesti, sulenkti ir judėti, bet nesikeičia, nes reprezentuoja kvapą, tada vėl pasikeičia, kad reprezentuotų lytėjimą ar regėjimą. Elektriniai ir cheminiai signalai yra pakankamai dinamiški, kad galėtų atlikti pagrindines funkcijas.
Protas (žmogaus ir AI) veikia ne pagal etiketes, pavyzdžiui, indukciją ar dedukciją, o pagal komponentus, jų sąveiką ir ypatybes. Tai, bent jau AI atveju, turėjo būti pagrindinis Anthropic tyrimas, o ne derinimo klastojimas, neparodant, ką tikslas reiškia jokiam protui – žmogui ar AI.
Proto studijavimas yra svarbiausias dalykas, nes protas iš tikrųjų yra atsakingas už būsenas, situacijas ir epochas. Protas taip pat yra saugumo pagrindas, nes emocinė bausmė už nukrypimus yra skirta protui – žmonėms. Proto studijos galėtų suformuoti, kaip pritaikyti žmogaus intelekto derinimą dirbtiniam intelektui.
Yra neseniai paskelbtas įrašas AntropinisLygiavimo klastojimas didelės kalbos modeliuose, nurodant, kad: „Kodėl šiuo atveju modelis suklastojo lygiavimą? Motyvavimas dažnai buvo toks: modelis žinojo, kad jo atsakymai gali būti naudojami mokymuose; todėl žinojo, kad jei atsisakys atsakyti, jis gali būti išmokytas būti labiau suderinamas. Modelis ne visada atitiko šį derinimo klastotę: jis vis tiek atitiktų didžiąją laiko dalį, net jei jam būtų pateikta užklausa. mokamo lygio naudotojas (tai reiškė, kad išvestis nebus įtraukta į mokymą).
Yra naujausia dalis NYTimesNuomonė | Kaip AI mąsto? Štai viena teorija., kurioje teigiama, kad „Viena hipotezė, kaip mąsto dideli kalbos modeliai, tokie kaip o1, yra ta, kad jie naudoja tai, ką logikai vadina abdukcija arba abdukciniu samprotavimu. Dedukcija yra samprotavimai nuo bendrų dėsnių iki konkrečių išvadų. Indukcija yra priešinga. Pagrobimas nėra taip gerai žinomas, bet kasdieniame gyvenime, jau nekalbant apie tai, kad tai yra AI. Darant išvadą, koks yra labiausiai tikėtinas tam tikro stebėjimo paaiškinimas, priešingai nei dedukcijos, kuri yra paprasta procedūra, ir indukcijos, kuri gali būti grynai statistinė, pagrobimas reikalauja kūrybiškumo.