Indholdsfortegnelse:
Definition - Hvad betyder Apache Avro?
Apache Avro er en dataserialiserings- og ekstern procedureopkaldsramme, der er udviklet inden for Apache Hadoop-projektet, hvor det giver både et serialiseringsformat for at få vedvarende data og et trådformat til at levere kommunikation mellem Hadoop-knudepunkter, samt at forbinde klientprogrammer til Hadoop tjenester.
Avro bruger JSON-formatet til at definere protokoller og datatyper samt serialisere data i et kompakt binært format.
Techopedia forklarer Apache Avro
Apache Avro er en ramme for stor dataserialisering, der producerer data i et kompakt binært format, som ikke kræver kodegenerering eller proxyobjekter.
Det bruges som en dataserialiseringskomponent til Apache Hadoop. Avro arbejder med begrebet skemaer. Når Avro-data læses, er det skema, der blev brugt under skrivningen af de specifikke data, altid til stede.
Dette tillader hvert datasæt uden per-værdi-omkostninger, hvilket gør serieringen både hurtig og relativt lille i størrelse. Og da data og deres skema er fuldt selvbeskrivende, gør dette det let at bruge med dynamiske scripting-sprog.
Når Avro-dataene gemmes i en bestemt fil, gemmes skemaet også sammen med dem for senere at blive behandlet af et andet program. Så hvis et program, der læser dataene, forventer et andet skema, kan dette let løses, da begge skemaer er til stede.
Avro giver:
Et kompakt og hurtigt binært dataformat
Rige datastrukturer
En containerfil til lagring af vedvarende data
Fjernprocedureopkald (RPC)
Integration med dynamiske sprog
Generering af kode er ikke et krav til læsning eller skrivning af datafiler eller for at bruge eller implementere RPC-protokoller.
