Indholdsfortegnelse:
Alle taler om Hadoop, den hotte nye teknologi, der er meget værdsat blandt udviklere og bare måske ændrer verden (igen). Men hvad er det alligevel? Er det et programmeringssprog? En database? Et behandlingssystem? En indisk te hyggelig?
Det brede svar: Hadoop er alle disse ting (undtagen te-hyggelig) og mere. Det er et softwarebibliotek, der giver en programmeringsramme for billig, nyttig behandling af et andet moderne buzzword: big data.
Hvor kom Hadoop fra?
Apache Hadoop er en del af Foundation Project fra Apache Software Foundation, en non-profit organisation, hvis mission er at "levere software til det offentlige." Som sådan er Hadoop-biblioteket gratis open source-software tilgængelig for alle udviklere.
Den underliggende teknologi, der styrker Hadoop, blev faktisk opfundet af Google. Tilbage i de tidlige dage havde den ikke-helt gigantiske søgemaskine brug for en måde at indeksere de enorme mængder data, de indsamlede fra Internettet, og omdanne den til meningsfulde, relevante resultater for sine brugere. Med intet tilgængeligt på markedet, der kunne imødekomme deres krav, byggede Google deres egen platform.
Disse nyskabelser blev frigivet i et open source-projekt kaldet Nutch, som Hadoop senere anvendte som fundament. Grundlæggende anvender Hadoop Google's kraft til big data på en måde, der er overkommelig for virksomheder i alle størrelser.
Hvordan fungerer Hadoop?
Som nævnt tidligere er Hadoop ikke en ting - det er mange ting. Softwarebiblioteket, der er Hadoop, består af fire primære dele (moduler) og et antal add-on-løsninger (som databaser og programmeringssprog), der forbedrer dens virkelige verden. De fire moduler er:- Hadoop Common: Dette er samlingen af fælles hjælpeprogrammer (det fælles bibliotek), der understøtter Hadoop-moduler.
- Hadoop Distribueret filsystem (HDFS): Et robust distribueret filsystem uden begrænsninger for lagrede data (hvilket betyder, at data enten kan være struktureret eller ustruktureret og skematisk, hvor mange DFS'er kun vil gemme strukturerede data), der giver adgang til høj kapacitet med redundans ( HDFS gør det muligt at gemme data på flere maskiner - så hvis en maskine mislykkes, opretholdes tilgængeligheden gennem de andre maskiner).
- Hadoop YARN: Denne ramme er ansvarlig for jobplanlægning og styring af klyngeressourcer; det sikrer, at dataene er spredt tilstrækkeligt over flere maskiner til at opretholde redundans. YARN er det modul, der gør Hadoop til en overkommelig og omkostningseffektiv måde at behandle big data på.
- Hadoop MapReduce: Dette YARN-baserede system, bygget på Google-teknologi, udfører parallel behandling af store datasæt (struktureret og ustruktureret). MapReduce kan også findes i de fleste af dagens store databehandlingsrammer, herunder MPP- og NoSQL-databaser.
Hardware, der kan håndtere den mængde behandlingskraft, der kræves for at arbejde med big data, er mildt sagt dyr. Dette er den sande innovation af Hadoop: muligheden for at nedbryde enorme mængder af processorkraft på tværs af flere, mindre maskiner, hver med sin egen lokaliserede beregning og opbevaring, sammen med indbygget redundans på applikationsniveau for at forhindre fejl.
Hvad gør Hadoop?
Enkelt sagt gør Hadoop store data tilgængelige og brugbare for alle.
Før Hadoop gjorde virksomheder, der brugte big data, det mest med relationelle databaser og firmadataoplag (som bruger enorme mængder dyre hardware). Selvom disse værktøjer er fremragende til behandling af strukturerede data - som er data, der allerede er sorteret og organiseret på en håndterbar måde, var kapaciteten til behandling af ustrukturerede data ekstremt begrænset, så meget at de praktisk talt ikke eksisterede. For at være brugbare måtte data først struktureres, så de passer pænt ind i tabeller.
Hadoop-rammen ændrer dette krav og gør det billigt. Med Hadoop kan massive mængder data fra 10 til 100 gigabyte og derover, både struktureret og ustruktureret, behandles ved hjælp af almindelige (råvares) servere.
Hadoop bringer potentielle big data applikationer til virksomheder i alle størrelser i enhver branche. Open source-rammen giver finansvirksomheder mulighed for at oprette sofistikerede modeller til porteføljeevaluering og risikoanalyse eller online detailhandlere til at finjustere deres søgesvar og henvise kunder mod produkter, de er mere tilbøjelige til at købe.
Med Hadoop er mulighederne virkelig ubegrænsede.