Indholdsfortegnelse:
Definition - Hvad betyder mere detaljeret detektion?
Ældre detektion er processen til at detektere og derefter ekskludere outliers fra et givet datasæt.
En outlier kan defineres som et stykke data eller observation, der drastisk afviger fra den givne norm eller gennemsnit af datasættet. En outlier kan være forårsaget af en tilfældighed, men det kan også indikere målefejl, eller at det givne datasæt har en tung-halet distribution.
Her er et simpelt scenarie i detektering af udligger, en måleproces producerer konsekvent aflæsninger mellem 1 og 10, men i nogle sjældne tilfælde får vi målinger på over 20.
Disse sjældne målinger ud over normen kaldes outliers, da de "ligger uden for" den normale distributionskurve.
Techopedia forklarer Outlier Detection
Der er virkelig ingen standardiseret og stiv matematisk metode til bestemmelse af en outlier, fordi den virkelig varierer afhængigt af sæt eller datapopulation, så dens bestemmelse og detektion bliver i sidste ende subjektiv. Gennem kontinuerlig prøveudtagning i et givet datafelt kan karakteristika for en outlier etableres for at gøre detektering lettere.
Der er modelbaserede metoder til at detektere outliers, og de antager, at dataene alle er hentet fra en normal fordeling og vil identificere observationer eller punkter, der anses for at være usandsynlige baseret på gennemsnit eller standardafvigelse, som outliers. Der er adskillige metoder til detektering af udvidere:
- Grubb's Test for Outliers - Dette er baseret på antagelsen om, at dataene har en normal distribution og fjerner en outlier ad gangen, når testen itereres, indtil der ikke kan findes flere outliers.
- Dixons Q-test - Også baseret på datasættets normalitet tester denne metode for dårlige data. Det er blevet bemærket, at dette bør bruges sparsomt og aldrig mere end én gang i et datasæt.
- Chauvenet's Kriterium - Dette bruges til at analysere, om udliggeren er falsk eller stadig er inden for grænserne og betragtes som en del af sættet. Gennemsnittet og standardafvigelsen tages, og sandsynligheden for, at udliggeren finder sted, beregnes. Resultaterne bestemmer, om det skal inkluderes eller ej.
- Pierces kriterium - Der er indstillet en fejlgrænse for en række observationer, ud over hvilke alle observationer vil blive kasseret, da de allerede involverer en så stor fejl.