Analisi di Big Data con Hadoop (Italiano) | Analyze Big Data with Hadoop (Italian)

Overview

Panoramica del laboratorio

In questo laboratorio, distribuirai un cluster Hadoop perfettamente funzionante e pronto per analizzare i dati di log in pochi minuti. Per cominciare, avvierai un cluster Amazon EMR, quindi utilizzerai uno script HiveQL per elaborare i dati di log di esempio archiviati in un bucket Amazon Simple Storage Service (Amazon S3). HiveQL è un linguaggio di scripting simile a SQL per data warehousing e analisi. In seguito puoi usare una configurazione simile per analizzare i tuoi file di log.

Questo laboratorio si basa sul progetto Analisi di Big Data con Hadoop.

Obiettivi

Al termine del laboratorio, sarai in grado di svolgere le seguenti attività:

avviare un cluster Hadoop perfettamente funzionante usando Amazon EMR;
fefinire lo schema e creare una tabella per i dati di log di esempio memorizzati in Amazon S3;
analizzare i dati utilizzando uno script HiveQL e trascrivere i risultati su Amazon S3;
scaricare e visualizzare i risultati sul tuo computer;
connettersi alla CLI Hive ed eseguire lo script di query HiveQL per visualizzare i risultati.

Competenze tecniche preliminari

Per questo laboratorio, è consigliabile, ma non necessario, avere familiarità con Hadoop. Per questo laboratorio è consigliabile, ma non obbligatorio, avere una familiarità di base con Amazon S3 e la coppia di chiavi Amazon EC2.

Durata

Il completamento di questo laboratorio richiede circa 60 minuti.

Legenda icone

In questo laboratorio vengono utilizzate varie icone per richiamare l’attenzione su diversi tipi di istruzioni e note. Nell’elenco seguente viene illustrato lo scopo di ciascuna di esse:

Comando: un comando da eseguire.
Output previsto: un output di esempio che puoi utilizzare per verificare l’output di un comando o di un file modificato.
Nota: una nota, un suggerimento o indicazioni importanti.
Ulteriori informazioni: specifica dove trovare ulteriori informazioni.
Attenzione: informazioni di particolare interesse o importanza, non così importanti da causare problemi alle apparecchiature o ai dati se non si rispettano, ma che potrebbero comportare la necessità di ripetere determinate fasi.
Contenuto del file: un blocco di codice che mostra i contenuti di uno script o di un file da copiare e incollare, già creati preventivamente.
Verifica delle conoscenze: un’opportunità per verificare le conoscenze e testare ciò che hai imparato.
Risposta: la risposta a una domanda o alla sfida.
Aggiorna: un momento in cui potrebbe essere necessario aggiornare un elenco o una pagina del browser web per mostrare nuove informazioni.
Copia-modifica: si tratta del caso in cui copiare un comando, uno script o altro testo in un editor di testo (per modificare variabili specifiche al suo interno) è più facile che apportare la modifica direttamente nella riga di comando o nel terminale.

Reviews

Start your review of Analisi di Big Data con Hadoop (Italiano) | Analyze Big Data with Hadoop (Italian)

Panoramica del laboratorio

Obiettivi

Competenze tecniche preliminari

Durata

Legenda icone

Tags

Analisi di Big Data con Hadoop (Italiano) | Analyze Big Data with Hadoop (Italian)

Análisis de Big Data con Hadoop (Español de España) | Analyze Big Data with Hadoop (Spanish from Spain)

Análisis de Big Data con Hadoop (Español LATAM) | Analyze Big Data with Hadoop (Spanish from Latin America)

Lavorare con Amazon Redshift (Italiano) | Working with Amazon Redshift (Italian)

Análise de big data com o Hadoop (Português) | Analyze Big Data with Hadoop (Portuguese)

Análisis de Big Data con Hadoop (Español LATAM) | Analyze Big Data with Hadoop (Spanish from Latin America)

Never Stop Learning.