Indholdsfortegnelse:
- Data fra forskellige kilder, der er svære at oprette forbindelse og kortlægge
- Hadoop-eksperter forsøger at flette data sammen
Hadoop er et fantastisk sted at downloade data til analytisk behandling eller til at modellere større mængder af en enkelt datakilde, der ikke er muligt med eksisterende systemer. Da virksomheder imidlertid bringer data fra mange kilder ind i Hadoop, er der en stigende efterspørgsel efter analyse af data på tværs af forskellige kilder, hvilket kan være ekstremt vanskeligt at opnå. Dette indlæg er det første i en tredelt serie, der forklarer de spørgsmål, organisationer står overfor, når de forsøger at analysere forskellige datakilder og typer inden for Hadoop, og hvordan man løser disse udfordringer. Dagens indlæg fokuserer på de problemer, der opstår, når man kombinerer flere interne kilder. De næste to indlæg forklarer, hvorfor disse problemer øges i kompleksitet, når eksterne datakilder tilføjes, og hvordan nye tilgange hjælper med at løse dem.
Data fra forskellige kilder, der er svære at oprette forbindelse og kortlægge
Data fra forskellige kilder har forskellige strukturer, der gør det vanskeligt at forbinde og kortlægge datatyper sammen, også data fra interne kilder. Det kan være særligt svært at kombinere data, hvis kunderne har flere kontonumre, eller en organisation har erhvervet eller fusioneret med andre virksomheder. I løbet af de sidste par år har nogle organisationer forsøgt at bruge dataopdagelse eller datavidenskabelige applikationer til at analysere data fra flere kilder, der er gemt i Hadoop. Denne tilgang er problematisk, fordi den involverer en masse gætarbejde: Brugere skal beslutte, hvilke fremmed nøgler de skal bruge til at forbinde forskellige datakilder og gøre antagelser, når de opretter overlejringer af datamodeller. Disse gætte er svære at teste og ofte forkerte, når de anvendes i skala, hvilket fører til fejlagtig dataanalyse og mistillid til kilderne.
Hadoop-eksperter forsøger at flette data sammen
Derfor har organisationer, der ønsker at analysere data på tværs af datakilder, benyttet sig af at ansætte Hadoop-eksperter til at oprette brugerdefinerede, kildespecifikke scripts for at flette datasæt sammen. Disse Hadoop-eksperter er normalt ikke dataintegrations- eller enhedsopløsningseksperter, men de gør det bedste, de kan for at imødekomme de umiddelbare behov i organisationen. Disse eksperter bruger typisk Svin eller Java til at skrive hårde og hurtige regler, der bestemmer, hvordan man kombinerer strukturerede data fra specifikke kilder, f.eks. Matchende poster baseret på et kontonummer. Når der er skrevet et script til to kilder, hvis en tredje kilde skal tilføjes, skal det første script smides væk og et nyt script designet til at kombinere tre specifikke kilder. Den samme ting sker, hvis der tilføjes en anden kilde og så videre. Ikke kun er denne tilgang ineffektiv, men den mislykkes også, når den anvendes i skala, håndterer kantsager dårligt, kan resultere i et stort antal duplikatposter og fletter ofte mange poster, der ikke bør kombineres.