Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Amazon Web Services

Esploriamo gli n-grammi di Google con Amazon EMR e Hive (Italiano) | Exploring Google Ngrams with Amazon EMR and Hive (Italian)

Amazon Web Services and Amazon via AWS Skill Builder

Overview

Panoramica del laboratorio

In questo laboratorio, verrà utilizzato Amazon EMR per analizzare n-grammi da Google Books. Un n-gramma è una sequenza contigua di n elementi provenienti da una determinata sequenza di testo o discorso. Ad esempio, consideriamo questa frase:

The sun rises in the East and sets in the West.

La frase comprende più digrammi, tra cui:

  • “il sole”
  • “a ovest”
  • “tramonta a”

Un esempio di trigramma è “tramonta a ovest” e un esempio di quadrigramma è “sole sorge a est”.

Gli n-grammi vengono utilizzati per prevedere la probabilità che determinate parole appaiano in una sequenza, e ciò può rivelarsi utile per fornire consigli di digitazione su pagine web e telefoni cellulare.

I vari passaggi di questo laboratorio sono molto simili alle attività che un Data Scientist eseguirebbe quando analizza un nuovo set di dati. Ciò include il caricamento dei dati, l’esame degli attributi dei dati e la scrittura di SQL per analizzare i dati. In questo laboratorio eseguirai SQL su dati di n-grammi disponibili pubblicamente e archiviati in Amazon S3, per ottenere informazioni interessanti.

Obiettivi

Dopo aver completato questo laboratorio, sarai in grado di:

  • Creare un cluster Amazon EMR che esegue Hive;
  • Utilizzare le istruzioni Hive per creare tabelle dai dati di input di Google Ngram archiviati in Amazon S3;
  • Eseguire query Hive per fare il drill-down e analizzare i dati.

Durata

Il completamento di questo laboratorio richiede circa 45 minuti*.

Legenda icone

In questo laboratorio vengono utilizzate varie icone per richiamare l’attenzione su diversi tipi di istruzioni e note. Nell’elenco seguente viene illustrato lo scopo di ciascuna di esse:

  • Comando: un comando da eseguire.
  • Output previsto: un output di esempio che puoi utilizzare per verificare l’output di un comando o di un file modificato.
  • Nota: un commento, un suggerimento o indicazioni importanti.
  • AVVISO: un’azione irreversibile e che potrebbe provocare la mancata esecuzione di un comando o di un processo. Include avvisi su configurazioni che sarà impossibile modificare dopo l’esecuzione.
  • Verifica delle conoscenze: un’opportunità per verificare le conoscenze e testare ciò che hai imparato.
  • Attività completata: una conclusione o un punto riepilogativo del laboratorio.

Reviews

Start your review of Esploriamo gli n-grammi di Google con Amazon EMR e Hive (Italiano) | Exploring Google Ngrams with Amazon EMR and Hive (Italian)

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.