Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Amazon Web Services

Exploración de Google Ngrams con Amazon EMR y Hive (Español de España) | Exploring Google Ngrams with Amazon EMR and Hive (Spanish from Spain)

Amazon Web Services and Amazon via AWS Skill Builder

Overview

Información general sobre el laboratorio

En este laboratorio, vas a usar Amazon EMR para analizar Ngrams de Google Books. Un n-gram es una secuencia contigua de n elementos de una determinada secuencia de texto o discurso. Por ejemplo, considera esta frase:

The sun rises in the East and sets in the West.

Esta frase incluye varios 2-grams, entre los que se incluyen:

  • «the sun»
  • «in the»
  • «sets in»

Un 3-gram de ejemplo sería «sets in the» y un 4-gram de ejemplo sería «rises in the east».

Los n-grams se usan para predecir la probabilidad de que aparezcan ciertas palabras en una secuencia. Esto puede ser útil para ofrecer sugerencias de escritura en páginas web y teléfonos móviles.

Los pasos de este laboratorio son muy similares a las actividades que llevaría a cabo un científico de datos al analizar un nuevo conjunto de datos. Esto incluye cargar los datos, examinar los atributos de los datos y escribir código SQL para analizar los datos. En este laboratorio, vas a ejecutar el código SQL en los datos de Ngrams disponibles públicamente y almacenados en Amazon S3 para obtener información interesante.

Objetivos

Después de completar este laboratorio, serás capaz de hacer lo siguiente:

  • crear un clúster de Amazon EMR que ejecute Hive
  • usar enunciados de Hive para crear tablas a partir de los datos de entrada de Google Ngram almacenados en Amazon S3
  • ejecutar consultas de Hive para desglosar y analizar los datos

Duración

El tiempo estimado para completar este laboratorio es de 45 minutos*.

Significado de los iconos

En este laboratorio, se usan varios iconos para llamar la atención sobre diferentes tipos de instrucciones y notas. En la siguiente lista, se explica el propósito de cada icono:

  • Comando: un comando que debes ejecutar.
  • Resultado previsto: contiene una muestra de resultado que permite revisar el resultado de un comando o archivo editado.
  • Nota: Una pista, un consejo o una orientación importante.
  • ADVERTENCIA: cualquier acción que sea irreversible y pueda hacer que un comando o un proceso no se ejecuten correctamente (se incluyen advertencias relativas a configuraciones que no se pueden cambiar una vez realizadas).
  • Prueba de conocimientos: una oportunidad para comprobar tus conocimientos y poner a prueba lo que has aprendido.
  • Tarea completada: un punto de conclusión o resumen del laboratorio.

Reviews

Start your review of Exploración de Google Ngrams con Amazon EMR y Hive (Español de España) | Exploring Google Ngrams with Amazon EMR and Hive (Spanish from Spain)

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.