Indholdsfortegnelse:
Apache Hadoop har været grundlaget for big data-applikationer i lang tid nu og betragtes som den grundlæggende dataplatform til alle big-data-relaterede tilbud. Database og beregning i hukommelsen vinder imidlertid popularitet på grund af hurtigere ydelse og hurtige resultater. Apache Spark er en ny ramme, der bruger hukommelsesfunktioner til at levere hurtig behandling (næsten 100 gange hurtigere end Hadoop). Så Spark-produktet bruges i stigende grad i en verden af big data og hovedsageligt til hurtigere behandling.
Webinar: Forslagets magt: Sådan giver et datakatalog analytikere Tilmeld dig her |
Hvad er Apache Spark?
Apache Spark er en open-source ramme til behandling af enorme mængder data (big data) med hastighed og enkelhed. Det er velegnet til analytiske applikationer baseret på big data. Gnist kan bruges med et Hadoop-miljø, uafhængigt eller i skyen. Det blev udviklet på University of California og derefter senere tilbudt det til Apache Software Foundation. Således hører det til open source-samfundet og kan være meget omkostningseffektivt, hvilket yderligere tillader amatørudviklere at arbejde let. (Se Hvad er påvirkningen af Open Source på Apache Hadoop-økosystemet for at lære mere om Hadoop's open source?)
Det vigtigste formål med Spark er, at det tilbyder udviklere med en applikationsramme, der arbejder omkring en centreret datastruktur. Gnist er også ekstremt kraftfuld og har den medfødte evne til hurtigt at behandle store mængder data på kort tid og dermed tilbyde ekstrem god ydelse. Dette gør det meget hurtigere end hvad der siges at være den nærmeste konkurrent, Hadoop.