Indholdsfortegnelse:
Definition - Hvad betyder Apache Nutch?
Apache Nutch er et webcrawler-softwareprodukt, der kan bruges til at samle data fra nettet. Det bruges sammen med andre Apache-værktøjer, såsom Hadoop, til dataanalyse.
Techopedia forklarer Apache Nutch
Apache Nutch er et open source-produkt licenseret af Apache Software Foundation. Dette udviklerfællesskab har licenser til en række Apache-softwareværktøjer, der kan sortere og analysere data. En af de centrale teknologier er Apache Hadoop, et stort dataanalyseværktøj, der er meget populært i erhvervslivet.
Sammen med værktøjer som Apache Hadoop og funktioner til fillagring, analyse og mere, er Nutchs rolle at indsamle og gemme data fra nettet ved hjælp af webcrawl-algoritmer.
Brugere kan drage fordel af enkle kommandoer i Apache Nutch til at indsamle information under URL'er. Brugere bruger typisk Apache Nutch sammen med et andet open-source værktøj, en ramme kaldet Apache Solr, som kan fungere som et lager for de data, der er indsamlet med Apache Nutch.
