Panoramica del laboratorio
In questo laboratorio, distribuirai un cluster Hadoop perfettamente funzionante e pronto per analizzare i dati di log in pochi minuti. Per cominciare, avvierai un cluster Amazon EMR, quindi utilizzerai uno script HiveQL per elaborare i dati di log di esempio archiviati in un bucket Amazon Simple Storage Service (Amazon S3). HiveQL è un linguaggio di scripting simile a SQL per data warehousing e analisi. In seguito puoi usare una configurazione simile per analizzare i tuoi file di log.
Questo laboratorio si basa sul progetto Analisi di Big Data con Hadoop.
Obiettivi
Al termine del laboratorio, sarai in grado di svolgere le seguenti attività :
- avviare un cluster Hadoop perfettamente funzionante usando Amazon EMR;
- fefinire lo schema e creare una tabella per i dati di log di esempio memorizzati in Amazon S3;
- analizzare i dati utilizzando uno script HiveQL e trascrivere i risultati su Amazon S3;
- scaricare e visualizzare i risultati sul tuo computer;
- connettersi alla CLI Hive ed eseguire lo script di query HiveQL per visualizzare i risultati.
Competenze tecniche preliminari
Per questo laboratorio, è consigliabile, ma non necessario, avere familiarità con Hadoop. Per questo laboratorio è consigliabile, ma non obbligatorio, avere una familiarità di base con Amazon S3 e la coppia di chiavi Amazon EC2.
Durata
Il completamento di questo laboratorio richiede circa 60 minuti.
Legenda icone
In questo laboratorio vengono utilizzate varie icone per richiamare l’attenzione su diversi tipi di istruzioni e note. Nell’elenco seguente viene illustrato lo scopo di ciascuna di esse:
- Comando: un comando da eseguire.
- Output previsto: un output di esempio che puoi utilizzare per verificare l’output di un comando o di un file modificato.
- Nota: una nota, un suggerimento o indicazioni importanti.
- Ulteriori informazioni: specifica dove trovare ulteriori informazioni.
- Attenzione: informazioni di particolare interesse o importanza, non così importanti da causare problemi alle apparecchiature o ai dati se non si rispettano, ma che potrebbero comportare la necessità di ripetere determinate fasi.
- Contenuto del file: un blocco di codice che mostra i contenuti di uno script o di un file da copiare e incollare, già creati preventivamente.
- Verifica delle conoscenze: un’opportunità per verificare le conoscenze e testare ciò che hai imparato.
- Risposta: la risposta a una domanda o alla sfida.
- Aggiorna: un momento in cui potrebbe essere necessario aggiornare un elenco o una pagina del browser web per mostrare nuove informazioni.
- Copia-modifica: si tratta del caso in cui copiare un comando, uno script o altro testo in un editor di testo (per modificare variabili specifiche al suo interno) è più facile che apportare la modifica direttamente nella riga di comando o nel terminale.