Indholdsfortegnelse:
Definition - Hvad betyder dataforarbejdning?
Dataforarbejdning er en data mining-teknik, der involverer omdannelse af rå data til et forståeligt format. Data fra den virkelige verden er ofte ufuldstændige, inkonsekvente og / eller mangler visse adfærd eller tendenser og vil sandsynligvis indeholde mange fejl. Dataforarbejdning er en gennemprøvet metode til at løse sådanne problemer. Forarbejdning af data forbereder rå data til videre behandling.
Dataforarbejdning bruges databasedrevne applikationer såsom styring af kundeforhold og regelbaserede applikationer (som neurale netværk).
Techopedia forklarer dataforarbejdning
Data gennemgår en række trin under forarbejdning:
- Rengøring af data: Data renses gennem processer såsom udfyldning af manglende værdier, udjævning af de støjende data eller løsning af uoverensstemmelser i dataene.
- Dataintegration: Data med forskellige repræsentationer er sammensat, og konflikter inden for dataene løses.
- Datatransformation: Data normaliseres, aggregeres og generaliseres.
- Datareduktion: Dette trin har til formål at præsentere en reduceret repræsentation af dataene i et datavarehus.
- Datadiskretisering: involverer reduktionen af et antal værdier for en kontinuerlig attribut ved at dele omfanget af attributintervaller.
