DAP tikslo išvedimas pagal Plackett-Luce modelį

Autoriai:

(1) Rafaelis Rafailo, Stanfordo universitetas ir „Equal“ indėlis; daugiau jaunesniųjų autorių, išvardytų anksčiau;

(2) Archit Sharma, Stanfordo universitetas ir Equal indėlis; daugiau jaunesniųjų autorių, išvardytų anksčiau;

(3) Eric Mitchel, Stanfordo universitetas ir Equal indėlis; daugiau jaunesniųjų autorių, išvardytų anksčiau;

(4) Stefano Ermon, CZ Biohub;

(5) Christopheris D. Manningas, Stanfordo universitetas;

(6) Chelsea Finn, Stanfordo universitetas.

Turinys

Nuorodų lentelė

Santrauka ir 1. Įvadas

2 Susiję darbai

3 Preliminariai

4 Tiesioginis nuostatų optimizavimas

5 DAP teorinė analizė

6 eksperimentai

7 Diskusija, padėkos ir nuorodos

Autoriaus indėlis

A Matematiniai dariniai

A.1 KL apriboto atlygio maksimizavimo tikslo optimalaus išvedimas

A.2 DAP tikslo nustatymas pagal Bradley-Terry modelį

A.3 DAP tikslo nustatymas pagal Plackett-Luce modelį

A.4 DAP tikslo gradiento išvedimas ir A.5 1 ir 2 lemos įrodymas

A.6 1 teoremos įrodymas

B DPO įgyvendinimo detalės ir hiperparametrai

C Daugiau informacijos apie eksperimentinę sąranką ir C.1 IMDb nuotaikų eksperimentą ir pradinė informacija

C.2 GPT-4 ragina apskaičiuoti suvestinę ir dialogo laimėjimo rodiklius

C.3 Mažos tikimybės pradinis lygis

D Papildomi empiriniai rezultatai

D.1 Geriausio iš N pradinio lygio našumas įvairiems N ir D.2 pavyzdiniams atsakymams ir GPT-4 sprendimams

D.3 Išsami informacija apie žmogaus tyrimą

A.3 DAP tikslo nustatymas pagal Plackett-Luce modelį

Plackett-Luce modelis (30, 21) yra Bradley-Terry modelio apibendrinimas, palyginti su reitingais (o ne tik porų palyginimas). Panašiai kaip Bradley-Terry modelyje, jame nustatyta, kad kai jiems pateikiamas galimų pasirinkimų rinkinys, žmonės renkasi pasirinkimą, kurio tikimybė yra proporcinga tam tikros latentinės atlygio funkcijos vertei už tą pasirinkimą. Mūsų kontekste, kai pateikiamas raginimas x ir K atsakymų rinkinys, atsako y1, . . . , yK vartotojas išvestų permutaciją τ : (K) → (K), nurodydamas savo atsakymų reitingą. Plackett-Luce modelis tai numato

Atkreipkite dėmesį, kad kai K = 2, 18 lygtis sumažinama iki Bradley-Terry modelio. Tačiau bendrajam Plackett-Luce modeliui vis tiek galime panaudoti Eq. 5 ir pakeiskite atlygio funkciją, parametruotą pagal optimalią politiką. Panašiai kaip A.2 priede, normalizavimo konstanta Z(x) panaikinama ir lieka:

Source link

DAP tikslo išvedimas pagal Plackett-Luce modelį

Nuorodų lentelė

A.3 DAP tikslo nustatymas pagal Plackett-Luce modelį

„Applied Computing“ nori suteikti naftos ir dujų operatoriams AI modelį visai gamyklai

AI agentai sveikatos priežiūros operacijoms

BetAlice premija be užstato JK: išsamus vadovas

Kauno miesto savivaldybė Kauno miesto savivaldybė skelbia pakartotinį Kauno miesto savivaldybei nuosavybės teise priklausančių viešosios įstaigos „Prisikėlimo projektai“ dalininko teisių pardavimą viešo aukciono būdu

Lietuvos banko valdyba patvirtino vartojimo kredito reguliavimo pakeitimus

Viena čili makaronų keptuvė

2026 m. „Nissan Z“ apžvalga

„Applied Computing“ nori suteikti naftos ir dujų operatoriams AI modelį visai gamyklai

Kontaktai

Naujausi įrašai

Nuorodų lentelė

A.3 DAP tikslo nustatymas pagal Plackett-Luce modelį

More Stories

Praleistos naujienos

Kontaktai

Žymos

Kategorijos

Naujausi įrašai