Corso BIG DATA Full

Documento rilasciato al termine del corso: ATTESTATO di frequenza

Descrizione

Il Corso fornisce una visione generale dell’universo Big Data, ne illustra i principali elementi, gli skill necessari rispetto agli obiettivi da perseguire e come sfruttare i Big Data per elaborare progetti di successo. Quindi affronta i seguenti argomenti: Cassandra, Hadoop, Hbase, Hive, Impala, Kafka, MongoDB, Neo4J, Spark, Sqoop.

 

A chi è rivolto

Il corso è diretto a Professionisti interessati ad acquisire il set di competenze fondamentali per la creazione di valore dai dati e le logiche di recupero e le tecniche di correlazione.

 

Altre informazioni

Lingua: Italiano

Materiale: Dispense (ITA/ENG)

Durata: 10 giorni

Requisiti partecipazione: Nessuno

Principali argomenti del corso

Big-Data: i fondamentali

  • Introduzione al Big Data ed il suo attuale ecosistema
  • Utilizzo del HDFS e differenze con il File System operativo
  • Interazioni tra FS ed HDFS
  • Utilizzo e scenari per la implementazione di soluzioni Big Data
  • Concetti legati a Volume, Velocità, Varietà dei dati
  • Basi dati acquisiti e gestiti come Data Lake

Cassandra

  • Concetti fondamentali di un database misto tra colonnare e documentale
  • Uso di KeySpace e Tabelle in Cassandra
  • Utilizzo delle Partizioni e dei nodi per le ridondanze
  • Column Family
  • Super Colonne
  • Chiave di partizionamento e chiavi cluster
  • Gestione degli indici secondari
  • Gestione del cluster in RING
  • Gestione file LOG, MemTable e SSTable
  • Comandi per inserimento, modifica, cancellazione e visualizzazione dei dati inseriti
  • Funzioni di aggregazione e di ordinamento del dato
  • Gestione dei dati in assenza di Join
  • Differenze con database transazionali
  • Punti di forza di Cassandra
  • Utilizzo per IoT
  • Possibili scenari di applicazione

Hadoop

  • Concetto di File System distribuito
  • Gestione dei nodi
  • Balancing
  • Ridondanze dati
  • Sicurezza
  • Map&Reduce
  • YARN per la velocizzazione di M&R
  • Gestione dell’HDFS da Shell
  • Trasferimento dati da e verso Linux

Hbase

  • Concetti fondamentali di un database colonnare
  • Uso di database e tabella in Hbase
  • Utilizzo delle Region per le ridondanze
  • Concetto di Versioning
  • Column Family e settaggi particolari
  • Comandi per inserimento, modifica, cancellazione e visualizzazione dei dati inseriti
  • Funzioni di aggregazione del dato
  • Gestione dei dati in assenza di Join
  • Differenze con database transazionali
  • Punti di forza del colonnare
  • Possibili scenari di applicazione

Hive

  • Concetti fondamentali di Hive inteso come repository di Warehousing
  • Uso di Database e Tabelle in Hive
  • Differenza tra tabelle External ed Internal
  • Creazione ed utilizzo di indici
  • Comandi per inserimento, modifica, cancellazione e visualizzazione dei dati inseriti
  • Funzioni di aggregazione e di ordinamento del dato
  • Gestione dei dati con Join
  • Differenze con database transazionali
  • Punti di forza di Hive
  • Importazione dati da sorgenti eterogenee
  • Possibili scenari di applicazione

Impala

  • Concetti fondamentali di Impala
  • Velocità di elaborazione sui dati
  • File Parquet e Avro
  • Uso di Database e Tabelle
  • Comandi per inserimento e visualizzazione dei dati inseriti
  • Funzioni di aggregazione e di ordinamento del dato
  • Gestione dei dati con Join
  • Differenze con database transazionali
  • Punti di forza di Impala
  • Importazione dati da sorgenti eterogenee con Sqoop
  • Possibili scenari di applicazione

Kafka

  • Streaming dei dati
  • Intercettazione e smistamento dati
  • Logiche applicate agli alert in real-time
  • Scrittura dati in db nosql di stoccaggio

MongoDB

  • Concetti fondamentali di un database documentale
  • Uso di database e collection
  • Utilizzo degli Shard per le ridondanze
  • Array e Documenti nidificati
  • Comandi per inserimento, modifica, cancellazione e visualizzazione dei documenti inseriti
  • Funzioni di aggregazione del dato
  • Gestione dei dati in assenza di Join
  • Differenze con database transazionali
  • Punti di forza del documentale
  • Possibili scenari di applicazione

Neo4J

  • Concetti fondamentali di Neo4J
  • Definizione di Grafo ed Archi
  • Velocità di elaborazione sui dati
  • Uso di Database e Tabelle
  • Comandi per inserimento e visualizzazione dei dati inseriti
  • Funzioni di aggregazione e di ordinamento del dato
  • Differenze con database transazionali
  • Punti di forza di Neo4J
  • Possibili scenari di applicazione

Spark

  • Evoluzione del calcolo computazionale rispetto al Map e Reduce di Hadoop
  • Sparql per il prelievo dei dati da fonti esterne
  • Gestione del cluster in memory

Sqoop

  • Accesso a dati transazionali esterni per prelievo dati
  • Trasferimento dati da e verso database transazionali
  • Scrittura in FS e HDFS
  • Scrittura diretta in Hive
  • Gestione dei Job

Richiedi Informazioni

Dove siamo

Sede operativa Via Vincenzo Lamaro, 15 00173 Roma
Gruppo Digital Engineering

Sede legale Via dell'Acquedotto Paolo, 80 00168 Roma