Esploriamo gli n-grammi di Google con Amazon EMR e Hive (Italiano) | Exploring Google Ngrams with Amazon EMR and Hive (Italian)

Overview

Panoramica del laboratorio

In questo laboratorio, verrà utilizzato Amazon EMR per analizzare n-grammi da Google Books. Un n-gramma è una sequenza contigua di n elementi provenienti da una determinata sequenza di testo o discorso. Ad esempio, consideriamo questa frase:

The sun rises in the East and sets in the West.

La frase comprende più digrammi, tra cui:

“il sole”
“a ovest”
“tramonta a”

Un esempio di trigramma è “tramonta a ovest” e un esempio di quadrigramma è “sole sorge a est”.

Gli n-grammi vengono utilizzati per prevedere la probabilità che determinate parole appaiano in una sequenza, e ciò può rivelarsi utile per fornire consigli di digitazione su pagine web e telefoni cellulare.

I vari passaggi di questo laboratorio sono molto simili alle attività che un Data Scientist eseguirebbe quando analizza un nuovo set di dati. Ciò include il caricamento dei dati, l’esame degli attributi dei dati e la scrittura di SQL per analizzare i dati. In questo laboratorio eseguirai SQL su dati di n-grammi disponibili pubblicamente e archiviati in Amazon S3, per ottenere informazioni interessanti.

Obiettivi

Dopo aver completato questo laboratorio, sarai in grado di:

Creare un cluster Amazon EMR che esegue Hive;
Utilizzare le istruzioni Hive per creare tabelle dai dati di input di Google Ngram archiviati in Amazon S3;
Eseguire query Hive per fare il drill-down e analizzare i dati.

Durata

Il completamento di questo laboratorio richiede circa 45 minuti*.

Legenda icone

In questo laboratorio vengono utilizzate varie icone per richiamare l’attenzione su diversi tipi di istruzioni e note. Nell’elenco seguente viene illustrato lo scopo di ciascuna di esse:

Comando: un comando da eseguire.
Output previsto: un output di esempio che puoi utilizzare per verificare l’output di un comando o di un file modificato.
Nota: un commento, un suggerimento o indicazioni importanti.
AVVISO: un’azione irreversibile e che potrebbe provocare la mancata esecuzione di un comando o di un processo. Include avvisi su configurazioni che sarà impossibile modificare dopo l’esecuzione.
Verifica delle conoscenze: un’opportunità per verificare le conoscenze e testare ciò che hai imparato.
Attività completata: una conclusione o un punto riepilogativo del laboratorio.

Reviews

Start your review of Esploriamo gli n-grammi di Google con Amazon EMR e Hive (Italiano) | Exploring Google Ngrams with Amazon EMR and Hive (Italian)

Panoramica del laboratorio

Obiettivi

Durata

Legenda icone

Tags

Analisi di Big Data con Hadoop (Italiano) | Analyze Big Data with Hadoop (Italian)

Analisi di Big Data con Hadoop (Italiano) | Analyze Big Data with Hadoop (Italian)

Lavorare con Amazon Redshift (Italiano) | Working with Amazon Redshift (Italian)

Architetture serverless utilizzando Amazon CloudWatch Events e gli eventi pianificati con AWS Lambda (Italiano) | Serverless Architectures using Amazon CloudWatch Events and Scheduled Events with AWS Lambda (Italian)

Scansioni, query e indici di Amazon DynamoDB (Italiano) | Amazon DynamoDB Scans, Queries, and Indexes (Italian)

Scansioni, query e indici di Amazon DynamoDB (Italiano) | Amazon DynamoDB Scans, Queries, and Indexes (Italian)

10 Best Data Science Courses

From Data to Insights: 10 Best Data Analysis Courses for 2024

10 Best Free SQL Courses for 2024

Never Stop Learning.