Indholdsfortegnelse:
SQL on Hadoop er en gruppe analytiske applikationsværktøjer, der kombinerer SQL-stil forespørgsel og behandling af data med de seneste Hadoop-datarammeelementer. Fremveksten af SQL på Hadoop er en vigtig udvikling til behandling af big data, fordi det giver bredere grupper af mennesker succes med at arbejde med Hadoop-databehandlingsrammen ved at køre SQL-forespørgsler på de enorme mængder big data, som Hadoop behandler. Det var klart, at Hadoop-rammerne tidligere ikke var så tilgængelige for mennesker, især med hensyn til dens forespørgselsfunktioner. Baseret på udviklingen har der været flere værktøjer i værkerne, der lover at forbedre virksomhedernes produktivitet, når det kommer til behandling og analyse af big data med kvalitet og hastighed. Det er heller ikke nødvendigt at investere meget i at lære værktøjet, som traditionel viden om SQL burde gøre.
Definition af SQL på Hadoop
SQL på Hadoop er en gruppe af applikationer, der giver dig mulighed for at køre SQL-stilforespørgsler på big data, der er hostet af Hadoop-databehandlingsrammen. Det er klart, dataforespørgsler, hentning og analyse er blevet lettere med tilføjelsen af SQL på Hadoop. Da SQL oprindeligt var designet til relationelle databaser, måtte den ændres i henhold til Hadoop 1-modellen, der omfatter MapReduce og Hadoop Distribueret filsystem (HDFS), og Hadoop 2-modellen, der ikke har MapReduce og HDFS.
En af de tidligste bestræbelser på at kombinere SQL med Hadoop resulterede i oprettelsen af Hive-datalageret med HiveQL-softwaren, der kunne oversætte SQL-stilforespørgsler til MapReduce-job. Derefter blev der udviklet flere applikationer, der kunne udføre lignende job. Fremtrædende blandt de senere værktøjer er Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) og Tez (Hive on Tez).