Indholdsfortegnelse:
- Sådan bruges Big Data
- Hvor er den reelle værdi?
- Undertiden har små data en større (og mindre dyre) virkning
Big data er et tæppeord, der bruges til at henvise til håndtering af store datamængder. Vi forstår alle, at jo større datamængden er, jo mere kompliceret bliver den. Traditionelle databaseløsninger klarer ofte ikke at styre store mængder data korrekt på grund af deres kompleksitet og størrelse. Derfor er det en udfordrende opgave at styre store datamængder og udtrække reel indsigt. Det samme "værdi" -koncept gælder også for små data.
Sådan bruges Big Data
Konventionelle databaseløsninger baseret på RDBMS-konceptet kan håndtere transaktionsdata meget godt og bruges vidt i forskellige applikationer. Men når det kommer til håndtering af et stort sæt data (data, der arkiveres og findes i terabyte eller petabytes), mislykkes ofte disse databaseløsninger. Disse datasæt er for store, og for det meste passer de ikke ind i arkitekturen i traditionelle databaser. I disse dage er big data blevet en omkostningseffektiv tilgang til håndtering af større datasæt. Fra et organisatorisk synspunkt kan brugen af big data opdeles i følgende kategorier, hvor big data's reelle værdi ligger:- Analytisk brug
Analytikere af big data har afsløret mange vigtige skjulte aspekter af data, der er for dyre at behandle. For eksempel, hvis vi er nødt til at kontrollere studerendes tendensinteresse for et bestemt nyt emne, kan vi gøre dette ved at analysere daglige deltagelsesregister og andre sociale og geografiske fakta. Disse fakta er fanget i databasen. Hvis vi ikke kan få adgang til disse data på en effektiv måde, kan vi ikke se resultaterne.
- Aktivér nye produkter
I den seneste tid er mange nye webfirmaer, såsom Facebook, begyndt at bruge big data som en løsning til lancering af nye produkter. Vi ved alle, hvor populær Facebook er - det har med succes forberedt en højtydende brugeroplevelse ved hjælp af big data.
Hvor er den reelle værdi?
Forskellige big data-løsninger er forskellige i den tilgang, de lagrer data i, men til sidst gemmer de alle data i en flad filstruktur. Generelt består Hadoop af filsystemet og nogle dataabstraktioner på operativsystemniveau. Dette inkluderer en MapReduce-motor og Hadoop Distribueret filsystem (HDFS). En simpel Hadoop-klynge inkluderer en masterknude og flere arbejderknudepunkter. Masternoden består af følgende:- Task Tracker
- Job Tracker
- Navn Node
- Dataknudepunkt
- Task Tracker
- Dataknudepunkt
Nogle implementeringer har kun dataknuden. Dataknudepunktet er det faktiske område, hvor dataene ligger. HDFS gemmer store filer (i området fra terabyte til petabytes) fordelt på flere maskiner. Pålideligheden af data på hver knude opnås ved at gentage data på tværs af alle værter. Dataene er således tilgængelige, selv når en af noder er nede. Dette hjælper med at opnå hurtigere svar mod forespørgsler. Dette koncept er meget nyttigt i tilfælde af store applikationer som Facebook. Som bruger får vi et svar på vores chatanmodning, for eksempel næsten øjeblikkeligt. Overvej et scenario, hvor en bruger skal vente i lang tid, mens han chatter. Hvis meddelelsen og det efterfølgende svar ikke leveres med det samme, hvor mange mennesker bruger faktisk disse chatteværktøjer?
Når man går tilbage til Facebook-implementeringen, hvis dataene ikke replikeres på tværs af klyngerne, er det ikke muligt at have en tiltalende implementering. Hadoop distribuerer dataene på tværs af maskiner i en større klynge og gemmer filer som en række af blokke. Disse blokke er af samme størrelse undtagen den sidste blok. Størrelsen på blokken og replikationsfaktoren kan tilpasses efter behov. Filer i HDFS følger strengt én gang-metoden og kan derfor kun skrives eller redigeres af en bruger ad gangen. Beslutninger om replikering af blokke træffes med navnet knudepunkt. Navneknudeposten modtager rapporter og pulsresponser fra hver af dataknudepunkterne. Pulsresponserne sikrer tilgængeligheden af den tilsvarende dataknudepunkt. Rapporten indeholder detaljerne om blokke på dataknuden.
En anden implementering af big data, Cassandra, bruger også et lignende distributionskoncept. Cassandra distribuerer data baseret på den geografiske placering. I Cassandra er dataene således adskilt baseret på den geografiske placering af dataforbruget.
Undertiden har små data en større (og mindre dyre) virkning
I henhold til Rufus Pollock fra Open Knowledge Foundation er der ingen mening i at skabe hype omkring big data, mens små data stadig er det sted, hvor den reelle værdi ligger.
Som navnet antyder er små data et sæt af data, der er målrettet mod et større datasæt. Små data har til hensigt at skifte fokus fra dataforbrug, og det sigter også mod at modvirke tendensen med at bevæge sig hen imod big data. Den lille datatilgang hjælper med at indsamle data baseret på specifikke krav med mindre indsats. Som et resultat er det den mere effektive forretningspraksis, mens du implementerer forretningsinformation.
I sin kerne drejer konceptet om små data sig omkring virksomheder, der kræver resultater, der kræver yderligere handlinger. Disse resultater skal hentes hurtigt, og den efterfølgende handling skal også udføres straks. Således kan vi eliminere de typer systemer, der ofte bruges i big data-analyse.
Generelt, hvis vi overvejer nogle af de specifikke systemer, der er nødvendige til indsamling af big data, kan et firma muligvis investere i at opsætte en masse serverlagring, bruge avancerede high-end-servere og de nyeste data mining applikationer til at håndtere forskellige bits af data, inklusive datoer og tidspunkter for brugerhandlinger, demografiske oplysninger og anden information. Hele dette datasæt flyttes til et centralt datavarehus, hvor komplekse algoritmer bruges til at sortere og behandle dataene, der skal vises i form af detaljerede rapporter.
Vi ved alle, at disse løsninger har gavnet mange virksomheder med hensyn til skalerbarhed og tilgængelighed; der er organisationer, der finder ud af, at anvendelse af disse tilgange kræver en betydelig indsats. Det er også sandt, at der i nogle tilfælde opnås lignende resultater ved hjælp af en mindre robust strategi for data mining.
Små data giver organisationer mulighed for at gå ned fra en besættelse af de nyeste og nyeste teknologier, der understøtter mere sofistikerede forretningsprocesser. Virksomheder, der reklamerer for små data, hævder, at det er vigtigt ud fra forretningsmæssigt synspunkt at bruge deres ressourcer på en effektiv måde, så overskud på teknologi i en vis grad kan undgås.
Vi har diskuteret meget om big data og small data realities, men vi må forstå, at valg af den rigtige platform (big data eller small data) til den rigtige brug er den vigtigste del af hele øvelsen. Og sandheden er, at selvom big data kan give en masse fordele, er det ikke altid bedst.