Corso Hadoop Developer

Obiettivi del corso

Il corso illustra le tecniche di development per Hadoop. Per poter seguire le lezioni i partecipanti dovranno avere a disposizione 4 nodi (virtuali o su cloud – consigliato AWS), oltre ad essere già in possesso di una formazione base su Hadoop.

Il percorso, pensato per un massimo di 8 partecipanti e rivolto esclusivamente a personale interno, si svolge presso la sede dell’azienda cliente.

Durata

4 giornate da 8 ore ciascuna

Temi affrontati

Materiale corso e installazione strumenti

  • Hadoop Ecosystem (Hadoop, HDFS, YARN)
  • Using HDFS
  • Cos’è MapReduce
  • Running a MapReduce Job
  • Writing a MapReduce Program in Python
Writing a MapReduce Streaming Program in Python
  • Importing Data With Sqoop
  • Manipulating Data With Hive
  • Running an Oozie Workflow
  • Creating an Inverted Index – Solr
  • Hue Dashboard on Index
Spark
  • Introduzione
  • Shell: pyspark & scala shell
  • Storage interface
  • Spark SQL
  • RDD: theory and hands on
  • RDD: key – value
  • Spark Streaming
  • Spark on Yarn cluster

DataFrames and Apache Spark SQL

  • Calculating Word Co-Occurence
  • Message Processing with Apache Kafka
  • Capturing Data with Apache Flume
  • Integrating Apache Flume and Apache Kafka

Ready to Learn?

RICHIEDI PERSONALIZZAZIONE
2018-08-01T12:24:00+02:00