Kaip medicininio AI šališkumas veikia diagnozes įvairiose grupėse

Nuorodų lentelė
Santrauka ir įvadas
Susiję darbai
Metodai
3.1 Teigiamas sumos teisingumas
3.2 Taikymas
Eksperimentai
4.1 Pradiniai rezultatai
4.2 Teigiamas sumos teisingumas
Išvados ir literatūros sąrašas
Šališkumas dažniausiai nustatomas atliekant medicininių vaizdų analizės programas (38, 40). Pavyzdžiui (6), CNN, apmokytas smegenų MRT, lėmė reikšmingą skirtumą tarp etninių grupių. Seyyed-Kalantari ir kt. (32) pastebėjo, kad mažumos gavo didesnį algoritminės nepakankamos diagnozės rodiklį. Zong ir kt. (40) įvertino šališkumo mažinimo algoritmus ir neplatinimo nustatymus. Eksperimentai parodė, kad dirbtinio intelekto medicinos vaizdų klasifikatoriuose egzistuoja platus šališkumas ir nė vienas šališkumo mažinimo algoritmas negalėjo to išvengti.
Naudojami įvairūs sąžiningumo apibrėžimai:
– Individualus sąžiningumas (25) reikalaujama, kad panašūs asmenys būtų traktuojami vienodai ir todėl turėtų panašias prognozes. Pavyzdžiui, modelis turi turėti panašią diagnozę dviejuose panašiuose rentgeno vaizduose.
– Grupinis sąžiningumas reikalauja vienodų rezultatų pogrupiuose, suskirstytuose pagal jautrius požymius (pvz., rasę, lytį ir amžių). Įprastos grupės teisingumo metrikos yra demografinis paritetas (8), lygūs šansai (12) ir nuspėjamasis normos paritetas arba pakankamumas (21).
– Minimalus teisingumas (5) siekia užtikrinti, kad su blogiausiai atsidūrusia grupe būtų elgiamasi kiek įmanoma teisingiau, sumažinant didžiausią neigiamą sprendimo ar sistemos poveikį.
Šie apibrėžimai turi privalumų ir trūkumų (36). Individualus teisingumas priklauso nuo atstumo metrikos pasirinkimo, o tam reikia ekspertų indėlio. Kalbant apie minimalų teisingumą, idealų sprendimą sunku apskaičiuoti, o nesąžiningumo laipsnis labai priklauso nuo modelių rinkinio pasirinkimo. Grupės sąžiningumo metriką lengva įdiegti ir suprasti, tačiau jos ne visada pritaikomos prie problemos ir nedera tarpusavyje (2,18). Ir nors ankstesnis darbas išplėtė grupės sąžiningumo sąvoką, pridedant kitus norminius pasirinkimus, išskyrus griežtą lygybę (1), nė viena iš siūlomų metrikų neapsaugo nuo žalos, kuri gali būti padaryta kiekvieno pogrupio veiklai atskirai arba visai populiacijai.
Kaip minėta įžangoje, kaip ir (24,34,27,26), manome, kad medicininis AI skiriasi nuo kitų sričių tuo, kad kiekvienas patobulinimas gali išgelbėti gyvybes. Todėl skirtumų didinimas, siekiant geriausio kiekvieno demografinio pogrupio ir visos populiacijos veiklos rezultatų, galėtų būti pateisinamas. Ankstesni tyrimai parodė, kad patys vaizdai gali turėti demografines koduotes (10, 9). Pavyzdžiui, Yang ir kt. (39) ištirti demografinių kodų panaudojimą, analizuojant demografinių nuorodų naudojimą ligų klasifikavimui. Dviejuose straipsniuose (41, 11) nagrinėjama jautrių atributų naudojimo teisingose klasifikacijos sistemose svarba ne medicinos problemoms spręsti. Jie lygina skirtingus modelius, kurie naudoja jautrias savybes, su modeliu, kuris nėra apmokytas jokio jautraus požymio.
Autoriai:
(1) Samia Belhadj∗, Lunit Inc., Seulas, Korėjos Respublika ((apsaugotas el. paštu));
(2) Sanguk Park (0009 −0005 −0538 −5522)*, Lunit Inc., Seulas, Korėjos Respublika ((apsaugotas el. paštu));
(3) Ambika Seth, Lunit Inc., Seulas, Korėjos Respublika ((apsaugotas el. paštu));
(4) Hesham Dar (0009 −0003 −6458 −2097), Lunit Inc., Seulas, Korėjos Respublika ((apsaugotas el. paštu));
(5) Thijs Kooi (0009 −0003 −6458 −2097), Kooi, Lunit Inc., Seulas, Korėjos Respublika ((apsaugotas el. paštu)).