Hadoop per i Big Data2018-06-20T21:32:44+00:00

HADOOP

Il frame-work open source

Il progetto Apache ™ Hadoop® sviluppa software open source per un computing distribuito affidabile e scalabile. La libreria del software Apache Hadoop è un framework che consente l’elaborazione distribuita di grandi set di dati su cluster di computer utilizzando semplici modelli di programmazione. È progettato per scalare da singoli server a migliaia di macchine, ognuna delle quali offre calcolo e archiviazione locali. Anziché affidarsi all’hardware per garantire un’elevata disponibilità, la libreria è progettata per rilevare e gestire i guasti a livello di applicazione, offrendo così un servizio altamente disponibile su un cluster di computer, ognuno dei quali potrebbe essere soggetto a guasti.

Il progetto include i moduli:

  • Hadoop Common: le utilità comuni che supportano gli altri moduli Hadoop;

  • Hadoop Distributed File System (HDFS ™): un file system distribuito che fornisce accesso ad alta velocità ai dati delle applicazioni;

  • Hadoop YARN: un framework per la pianificazione del lavoro e la gestione delle risorse del cluster;

  • Hadoop MapReduce: un sistema basato su YARN per l’elaborazione parallela di insiemi di dati di grandi dimensioni.

Ulteriori strumenti in cui Miriade ha sviluppato una conoscenza verticale sono, tra gli altri:

  • Cassandra ™: un database multi-master scalabile senza singoli punti di errore;

  • HBase ™: un database distribuito e scalabile che supporta l’archiviazione di dati strutturati per tabelle di grandi dimensioni;

  • Hive ™: un’infrastruttura di data warehouse che fornisce riepilogo dei dati e query ad hoc;

  • Spark ™: un motore di calcolo veloce e generale per i dati Hadoop, che fornisce un modello di programmazione semplice ed espressivo capace di supportare una vasta gamma di applicazioni, tra cui ETL, machine learning, elaborazione del flusso e calcolo del grafico.

RICHIEDI INFORMAZIONI
SCOPRI I CORSI HADOOP