Q:
Hvordan kan jeg lære at bruge Hadoop til at analysere big data?
EN:Apache-softwaresættet kendt som Hadoop er ved at blive en meget populær ressource til håndtering af store datasæt. Denne type softwarehåndteringssoftwareramme blev bygget for at hjælpe med at aggregere data på specifikke måder, baseret på design, der muligvis gør nogle slags dataprojekter mere effektive. Når det er sagt, er Hadoop kun et af mange værktøjer til håndtering af store datasæt.
En af de første og mest basale måder at lære om big data-analyse med Hadoop på er at forstå nogle af topniveaukomponenterne i Hadoop og hvad det gør. Disse inkluderer en Hadoop YARN "resource management platform", der kan anvendes til bestemte typer netværksopsætninger, samt et Hadoop MapReduce sæt af funktioner, der gælder for store datasæt. Der er også et Hadoop distribueret filsystem (HDFS), som hjælper med at gemme data på tværs af distribuerede systemer, så de hurtigt og effektivt kan indekseres eller hentes.
Ud over dette kan de, der ønsker at blive mere fortrolige med Hadoop, se på individuelle offentliggjorte ressourcer for fagfolk, der forklarer softwaren på et relativt niveau. Dette eksempel fra Chris Stucchio på en personlig blog giver et fremragende sæt punkter om Hadoop og dataskala. En af de grundlæggende afhentninger er, at Hadoop måske er mere almindeligt anvendt end nødvendigt, og måske ikke er den bedste løsning til et individuelt projekt. Gennemgang af denne slags ressourcer vil hjælpe fagfolk med at blive mere fortrolige med detaljerne om at bruge Hadoop i et givet scenario. Stucchio tilvejebringer også metaforer til at relatere Hadoop's funktioner til specifikke fysiske opgaver. Her tæller eksemplet antallet af bøger i et bibliotek, mens en Hadoop-funktion muligvis kan opdele dette bibliotek i sektioner, hvilket giver individuelle tællinger, der er blandet i et samlet dataresultat.
En mere dybtgående måde, som fagfolk kan lære mere om Hadoop og dens anvendelse på big data på, er gennem specifikke træningsressourcer og programmer. For eksempel har onlinelæringsfirmaet Cloudera, en fremtrædende udbyder af fjerntræningssessioner, en række interessante muligheder omkring Hadoop-brug og lignende typer datahåndtering.