DAP tikslo išvedimas pagal Plackett-Luce modelį


Autoriai:

(1) Rafaelis Rafailo, Stanfordo universitetas ir „Equal“ indėlis; daugiau jaunesniųjų autorių, išvardytų anksčiau;

(2) Archit Sharma, Stanfordo universitetas ir Equal indėlis; daugiau jaunesniųjų autorių, išvardytų anksčiau;

(3) Eric Mitchel, Stanfordo universitetas ir Equal indėlis; daugiau jaunesniųjų autorių, išvardytų anksčiau;

(4) Stefano Ermon, CZ Biohub;

(5) Christopheris D. Manningas, Stanfordo universitetas;

(6) Chelsea Finn, Stanfordo universitetas.

Santrauka ir 1. Įvadas

2 Susiję darbai

3 Preliminariai

4 Tiesioginis nuostatų optimizavimas

5 DAP teorinė analizė

6 eksperimentai

7 Diskusija, padėkos ir nuorodos

Autoriaus indėlis

A Matematiniai dariniai

A.1 KL apriboto atlygio maksimizavimo tikslo optimalaus išvedimas

A.2 DAP tikslo nustatymas pagal Bradley-Terry modelį

A.3 DAP tikslo nustatymas pagal Plackett-Luce modelį

A.4 DAP tikslo gradiento išvedimas ir A.5 1 ir 2 lemos įrodymas

A.6 1 teoremos įrodymas

B DPO įgyvendinimo detalės ir hiperparametrai

C Daugiau informacijos apie eksperimentinę sąranką ir C.1 IMDb nuotaikų eksperimentą ir pradinė informacija

C.2 GPT-4 ragina apskaičiuoti suvestinę ir dialogo laimėjimo rodiklius

C.3 Mažos tikimybės pradinis lygis

D Papildomi empiriniai rezultatai

D.1 Geriausio iš N pradinio lygio našumas įvairiems N ir D.2 pavyzdiniams atsakymams ir GPT-4 sprendimams

D.3 Išsami informacija apie žmogaus tyrimą

A.3 DAP tikslo nustatymas pagal Plackett-Luce modelį

Plackett-Luce modelis (30, 21) yra Bradley-Terry modelio apibendrinimas, palyginti su reitingais (o ne tik porų palyginimas). Panašiai kaip Bradley-Terry modelyje, jame nustatyta, kad kai jiems pateikiamas galimų pasirinkimų rinkinys, žmonės renkasi pasirinkimą, kurio tikimybė yra proporcinga tam tikros latentinės atlygio funkcijos vertei už tą pasirinkimą. Mūsų kontekste, kai pateikiamas raginimas x ir K atsakymų rinkinys, atsako y1, . . . , yK vartotojas išvestų permutaciją τ : (K) → (K), nurodydamas savo atsakymų reitingą. Plackett-Luce modelis tai numato

Atkreipkite dėmesį, kad kai K = 2, 18 lygtis sumažinama iki Bradley-Terry modelio. Tačiau bendrajam Plackett-Luce modeliui vis tiek galime panaudoti Eq. 5 ir pakeiskite atlygio funkciją, parametruotą pagal optimalią politiką. Panašiai kaip A.2 priede, normalizavimo konstanta Z(x) panaikinama ir lieka:



Source link

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Miesto naujienos - Šeimos gydytojai - Saulius Narbutas - Įvaizdžio kūrimas - VeidoskaitaTeniso treniruotės - Pranešimai spaudai