Kaip funkcinės izoliacijos miškas aptinka anomalijas
Autoriai:
(1) Guillaume'as Staermanas, INRIA, CEA, Univ. Paryžius-Saclay, Prancūzija;
(2) Marta Campi, CERIAH, Institut de l'Audition, Institut Pasteur, Prancūzija;
(3) Garethas W. Petersas, Kalifornijos Santa Barbaros universiteto Statistikos ir taikomųjų tikimybių departamentas, JAV.
Nuorodų lentelė
Santrauka ir 1. Įvadas
2. Pagrindiniai faktai ir preliminarūs
2.1. Funkcinis izoliacinis miškas
2.2. Parašo metodas
3. Parašo izoliavimo miško metodas
4. Skaitiniai eksperimentai
4.1. Parametrų jautrumo analizė
4.2. (K-)SIF pranašumai prieš FIF
4.3. Realių duomenų anomalijų aptikimo etalonas
5. Diskusija ir išvados, poveikio pareiškimai ir nuorodos
Priedas
A. Papildoma informacija apie parašą
B. K-SIF ir SIF algoritmai
C. Papildomi skaitiniai eksperimentai
2. Pagrindiniai faktai ir preliminarūs
2.1. Funkcinis izoliacinis miškas
Laikykite H funkcine Hilberto erdve su vidine sandauga ⟨., .⟩H taip, kad bet kuri x ∈ H būtų reali funkcija, apibrėžta (0, 1). Funkcinis izoliacinis miškas sukuriamas naudojant funkcinių izoliacinių medžių (F-medžių) rinkinį. Kiekvienas F-medis yra sudarytas iš atsitiktinių padalijimų iš Xn subimties (m dydžio). Tada stebėjimo x nenormalumo balas nustatomas kaip monotoniškai mažėjanti x vidutinio gylio transformacija medžiuose. Pagrindinė koncepcija slypi skilimų atsitiktinume, kai nuo kitų pastebimai besiskiriantis stebėjimas labiau tikėtina, kad bus izoliuotas nuo Xn, atsirandančio seklesniame F-medžių lygyje. F-iteriai sukurti remiantis iš anksto nustatytu žodynu D ⊂ H, apimančiu ir deterministines, ir (arba) stochastines funkcijas, fiksuojančias atitinkamas duomenų savybes, kurios taip pat gali būti Xn poaibis. Prieš kiekvieną atsitiktinį vienanarį padalijimą, visi mazgų stebėjimai projektuojami į liniją, kurią apibrėžia atsitiktinai parinktas elementas iš žodyno D. Tinkamo žodyno pasirinkimas vaidina pagrindinį vaidmenį formuojant FIF balų konstrukciją. Projekcijos kriterijus kiekviename kiekvienos F-tree mazge apibrėžiamas taip: