Panoramica del laboratorio
In questo laboratorio, verrà utilizzato Amazon EMR per analizzare n-grammi da Google Books. Un n-gramma è una sequenza contigua di n elementi provenienti da una determinata sequenza di testo o discorso. Ad esempio, consideriamo questa frase:
The sun rises in the East and sets in the West.
La frase comprende più digrammi, tra cui:
- “il sole”
- “a ovest”
- “tramonta a”
Un esempio di trigramma è “tramonta a ovest” e un esempio di quadrigramma è “sole sorge a est”.
Gli n-grammi vengono utilizzati per prevedere la probabilità che determinate parole appaiano in una sequenza, e ciò può rivelarsi utile per fornire consigli di digitazione su pagine web e telefoni cellulare.
I vari passaggi di questo laboratorio sono molto simili alle attività che un Data Scientist eseguirebbe quando analizza un nuovo set di dati. Ciò include il caricamento dei dati, l’esame degli attributi dei dati e la scrittura di SQL per analizzare i dati. In questo laboratorio eseguirai SQL su dati di n-grammi disponibili pubblicamente e archiviati in Amazon S3, per ottenere informazioni interessanti.
Obiettivi
Dopo aver completato questo laboratorio, sarai in grado di:
- Creare un cluster Amazon EMR che esegue Hive;
- Utilizzare le istruzioni Hive per creare tabelle dai dati di input di Google Ngram archiviati in Amazon S3;
- Eseguire query Hive per fare il drill-down e analizzare i dati.
Durata
Il completamento di questo laboratorio richiede circa 45 minuti*.
Legenda icone
In questo laboratorio vengono utilizzate varie icone per richiamare l’attenzione su diversi tipi di istruzioni e note. Nell’elenco seguente viene illustrato lo scopo di ciascuna di esse:
- Comando: un comando da eseguire.
- Output previsto: un output di esempio che puoi utilizzare per verificare l’output di un comando o di un file modificato.
- Nota: un commento, un suggerimento o indicazioni importanti.
- AVVISO: un’azione irreversibile e che potrebbe provocare la mancata esecuzione di un comando o di un processo. Include avvisi su configurazioni che sarà impossibile modificare dopo l’esecuzione.
- Verifica delle conoscenze: un’opportunità per verificare le conoscenze e testare ciò che hai imparato.
- Attività completata: una conclusione o un punto riepilogativo del laboratorio.