Indholdsfortegnelse:
Definition - Hvad betyder beskidte data?
Beskidte data henviser til data, der indeholder forkerte oplysninger. Det kan også bruges, når der henvises til data, der er i hukommelsen og endnu ikke indlæst i en database. Fuldstændig fjernelse af beskidte data fra en kilde er upraktisk eller praktisk talt umulig.
Følgende data kan betragtes som beskidte data:
- Vildledende data
- Kopier data
- Forkerte data
- Forkerte data
- Ikke-integrerede data
- Data, der overtræder forretningsregler
- Data uden en generel formatering
- Forkert punkterede eller stavede data
Techopedia forklarer beskidte data
Ud over forkert dataregistrering kan der genereres beskidte data på grund af de forkerte metoder i datastyring og datalagring. Nogle beskidte datatyper forklares nedenfor:
- Forkerte data - For at sikre, at dataene er gyldige eller korrekte, skal den indtastede værdi overholde feltets gyldige værdier. F.eks. Skal den indtastede værdi i månedsfeltet ligge i området fra 1 til 12, eller en persons alder skal være mindre end 130. Dataværdiens korrekthed kan håndhæves programmatisk ved hjælp af opslagstabeller eller med redigeringskontrol.
- Unøjagtige data - Det er muligt, at en dataværdi kan være korrekt, men ikke nøjagtig. Til tider er det praktisk at undersøge mod andre filer eller felter for at finde ud af, om dataværdien er nøjagtig ud fra den kontekst, den bruges. Stadig kan nøjagtighed ofte kun valideres ved manuel verifikation.
- Overtrædelse af forretningsregel - Data, der overtræder forretningsregel, er en anden type beskidte data. F.eks. Skal en effektiv dato altid komme før en udløbsdato. Et andet eksempel på overtrædelse af forretningsregel kan være en patients Medicare-forsikringskrav, hvor patienten stadig kan være under pensionsalderen og ikke har ret til Medicare.
- Uoverensstemmende data - Ukontrolleret dataredundans fører til dataar inkonsekvens. Hver organisation påvirkes af inkonsekvente og gentagne data. Dette er især typisk for kundedata.
- Ufuldstændige data - Data med manglende værdier er den vigtigste type ufuldstændige data.
- Duplikatdata - Duplikatdata kan forekomme på grund af gentagne indsendelser, forkert dataforbindelse eller brugerfejl.
For at øge datakvaliteten og forhindre beskidte data, bør organisationer inkorporere metodologier for at sikre dataens fuldstændighed, gyldighed, konsistens og korrekthed.
