Corso BIG DATA Full

Documento rilasciato al termine del corso: ATTESTATO di frequenza

Descrizione

Il Corso fornisce una visione generale dell’universo Big Data, ne illustra i principali elementi, gli skill necessari rispetto agli obiettivi da perseguire e come sfruttare i Big Data per elaborare progetti di successo. Quindi affronta i seguenti argomenti: Cassandra, Hadoop, Hbase, Hive, Impala, Kafka, MongoDB, Neo4J, Spark, Sqoop.

A chi è rivolto

Il corso è diretto a Professionisti interessati ad acquisire il set di competenze fondamentali per la creazione di valore dai dati e le logiche di recupero e le tecniche di correlazione.

Altre informazioni

Lingua: Italiano

Materiale: Dispense (ITA/ENG)

Durata: 10 giorni

Requisiti partecipazione: Nessuno

Principali argomenti del corso

Big-Data: i fondamentali

Introduzione al Big Data ed il suo attuale ecosistema
Utilizzo del HDFS e differenze con il File System operativo
Interazioni tra FS ed HDFS
Utilizzo e scenari per la implementazione di soluzioni Big Data
Concetti legati a Volume, Velocità, Varietà dei dati
Basi dati acquisiti e gestiti come Data Lake

Cassandra

Concetti fondamentali di un database misto tra colonnare e documentale
Uso di KeySpace e Tabelle in Cassandra
Utilizzo delle Partizioni e dei nodi per le ridondanze
Column Family
Super Colonne
Chiave di partizionamento e chiavi cluster
Gestione degli indici secondari
Gestione del cluster in RING
Gestione file LOG, MemTable e SSTable
Comandi per inserimento, modifica, cancellazione e visualizzazione dei dati inseriti
Funzioni di aggregazione e di ordinamento del dato
Gestione dei dati in assenza di Join
Differenze con database transazionali
Punti di forza di Cassandra
Utilizzo per IoT
Possibili scenari di applicazione

Hadoop

Concetto di File System distribuito
Gestione dei nodi
Balancing
Ridondanze dati
Sicurezza
Map&Reduce
YARN per la velocizzazione di M&R
Gestione dell’HDFS da Shell
Trasferimento dati da e verso Linux

Hbase

Concetti fondamentali di un database colonnare
Uso di database e tabella in Hbase
Utilizzo delle Region per le ridondanze
Concetto di Versioning
Column Family e settaggi particolari
Comandi per inserimento, modifica, cancellazione e visualizzazione dei dati inseriti
Funzioni di aggregazione del dato
Gestione dei dati in assenza di Join
Differenze con database transazionali
Punti di forza del colonnare
Possibili scenari di applicazione

Hive

Concetti fondamentali di Hive inteso come repository di Warehousing
Uso di Database e Tabelle in Hive
Differenza tra tabelle External ed Internal
Creazione ed utilizzo di indici
Comandi per inserimento, modifica, cancellazione e visualizzazione dei dati inseriti
Funzioni di aggregazione e di ordinamento del dato
Gestione dei dati con Join
Differenze con database transazionali
Punti di forza di Hive
Importazione dati da sorgenti eterogenee
Possibili scenari di applicazione

Impala

Concetti fondamentali di Impala
Velocità di elaborazione sui dati
File Parquet e Avro
Uso di Database e Tabelle
Comandi per inserimento e visualizzazione dei dati inseriti
Funzioni di aggregazione e di ordinamento del dato
Gestione dei dati con Join
Differenze con database transazionali
Punti di forza di Impala
Importazione dati da sorgenti eterogenee con Sqoop
Possibili scenari di applicazione

Kafka

Streaming dei dati
Intercettazione e smistamento dati
Logiche applicate agli alert in real-time
Scrittura dati in db nosql di stoccaggio

MongoDB

Concetti fondamentali di un database documentale
Uso di database e collection
Utilizzo degli Shard per le ridondanze
Array e Documenti nidificati
Comandi per inserimento, modifica, cancellazione e visualizzazione dei documenti inseriti
Funzioni di aggregazione del dato
Gestione dei dati in assenza di Join
Differenze con database transazionali
Punti di forza del documentale
Possibili scenari di applicazione

Neo4J

Concetti fondamentali di Neo4J
Definizione di Grafo ed Archi
Velocità di elaborazione sui dati
Uso di Database e Tabelle
Comandi per inserimento e visualizzazione dei dati inseriti
Funzioni di aggregazione e di ordinamento del dato
Differenze con database transazionali
Punti di forza di Neo4J
Possibili scenari di applicazione

Spark

Evoluzione del calcolo computazionale rispetto al Map e Reduce di Hadoop
Sparql per il prelievo dei dati da fonti esterne
Gestione del cluster in memory

Sqoop

Accesso a dati transazionali esterni per prelievo dati
Trasferimento dati da e verso database transazionali
Scrittura in FS e HDFS
Scrittura diretta in Hive
Gestione dei Job

Richiedi Informazioni

Dove siamo

Sede operativa Via Vincenzo Lamaro, 13 00173 Roma
Gruppo Digital Engineering

Sede legale Via dell'Acquedotto Paolo, 80 00168 Roma

Lavora con noi

Corso BIG DATA Full

Documento rilasciato al termine del corso: ATTESTATO di frequenza

Descrizione

A chi è rivolto

Altre informazioni

Principali argomenti del corso

Richiedi Informazioni

Contattaci