Hjem Lyd Hvorfor hadoop er en perfekt match til genomsekventering

Hvorfor hadoop er en perfekt match til genomsekventering

Indholdsfortegnelse:

Anonim

Klinisk genomik er et fascinerende emne, hvor folk arbejder på avancerede teknologier for at behandle hurtige og præcise resultater. Der er mange genomsekventer, der er tilgængelige på markedet, og de producerer petabytes af sekvensdata, og væksten i sekventering vil producere exabyte med data i den nærmeste fremtid. Her er Hadoop den perfekte platform til behandling af kompleks genomisk arbejdsgang. Hadoop kan gemme og sortere enorme mængder information og kan også give en meningsfuld analyse. (For at få en idé om, hvor meget data dette virkelig indebærer, skal du læse Forståelse af bits, byte og deres multiple.)

Genomics nutid og fremtid

I dag har genomkortlægning nået sit højdepunkt i udviklingen. Mange mennesker, der er forbundet med genomikindustrien, sprænger af nysgerrighed, og når nye muligheder præsenterer sig selv, er bedre teknologi timens behov. Genomsekventering er en meget gentagen og ressourceintensiv opgave. Alene i 2013 blev ca. 15 petabytes data produceret og kun af 2.000 sequencere. Denne kæbefaldende mængde inkluderede 300 KB sekventerede humane genomdata. Ved denne hastighed af dataproduktion kan det estimeres, at i 2018 vil der blive produceret ca. en exabyte af data. Dette skyldes væksten af ​​sequencere, der vil producere flere og flere data pr. Kørsel. En anden grund er fremkomsten af ​​ekstremt magtfulde og billige omkostningsgenomekventeringsmaskiner. Siden 2008 er prisen på disse maskiner faldet støt. Dette er på grund af kraftfulde næste generations maskiner, der er kommet ind på markedet.

Behovene for genomkartlægningsindustrien

Komplekse algoritmer bruges til behandling af de data, der indsamles fra det humane genom. Derefter skal denne information gemmes. Det kan blive revideret i fremtiden for sammenligning med de originale data. Opgaven med at behandle og opbevare 100 GB data er ikke så vanskelig, især når du gør det med de magtfulde maskiner, der er ansat i sekvenseringscentre. Undersøgelser viser, at denne mængde data kan behandles på næsten 1.000 CPU-timer, så det er meget let. Med denne hastighed inden for teknisk udvikling fremgår det, at genomindustrien snart vil behandle tusinder af gigabyte på kun få sekunder.

Hvorfor hadoop er en perfekt match til genomsekventering