Exploración de Google Ngrams con Amazon EMR y Hive (Español de España) | Exploring Google Ngrams with Amazon EMR and Hive (Spanish from Spain)

Overview

Información general sobre el laboratorio

En este laboratorio, vas a usar Amazon EMR para analizar Ngrams de Google Books. Un n-gram es una secuencia contigua de n elementos de una determinada secuencia de texto o discurso. Por ejemplo, considera esta frase:

The sun rises in the East and sets in the West.

Esta frase incluye varios 2-grams, entre los que se incluyen:

«the sun»
«in the»
«sets in»

Un 3-gram de ejemplo sería «sets in the» y un 4-gram de ejemplo sería «rises in the east».

Los n-grams se usan para predecir la probabilidad de que aparezcan ciertas palabras en una secuencia. Esto puede ser útil para ofrecer sugerencias de escritura en páginas web y teléfonos móviles.

Los pasos de este laboratorio son muy similares a las actividades que llevaría a cabo un científico de datos al analizar un nuevo conjunto de datos. Esto incluye cargar los datos, examinar los atributos de los datos y escribir código SQL para analizar los datos. En este laboratorio, vas a ejecutar el código SQL en los datos de Ngrams disponibles públicamente y almacenados en Amazon S3 para obtener información interesante.

Objetivos

Después de completar este laboratorio, serás capaz de hacer lo siguiente:

crear un clúster de Amazon EMR que ejecute Hive
usar enunciados de Hive para crear tablas a partir de los datos de entrada de Google Ngram almacenados en Amazon S3
ejecutar consultas de Hive para desglosar y analizar los datos

Duración

El tiempo estimado para completar este laboratorio es de 45 minutos*.

Significado de los iconos

En este laboratorio, se usan varios iconos para llamar la atención sobre diferentes tipos de instrucciones y notas. En la siguiente lista, se explica el propósito de cada icono:

Comando: un comando que debes ejecutar.
Resultado previsto: contiene una muestra de resultado que permite revisar el resultado de un comando o archivo editado.
Nota: Una pista, un consejo o una orientación importante.
ADVERTENCIA: cualquier acción que sea irreversible y pueda hacer que un comando o un proceso no se ejecuten correctamente (se incluyen advertencias relativas a configuraciones que no se pueden cambiar una vez realizadas).
Prueba de conocimientos: una oportunidad para comprobar tus conocimientos y poner a prueba lo que has aprendido.
Tarea completada: un punto de conclusión o resumen del laboratorio.

Reviews

Start your review of Exploración de Google Ngrams con Amazon EMR y Hive (Español de España) | Exploring Google Ngrams with Amazon EMR and Hive (Spanish from Spain)

Información general sobre el laboratorio

Objetivos

Duración

Significado de los iconos

Tags

Análisis de Big Data con Hadoop (Español de España) | Analyze Big Data with Hadoop (Spanish from Spain)

Trabajar con Amazon Redshift (Español LATAM) | Working with Amazon Redshift (LATAM Spanish)

Análisis de Big Data con Hadoop (Español LATAM) | Analyze Big Data with Hadoop (LATAM Spanish)

Análisis de Big Data con Hadoop (Español LATAM) | Analyze Big Data with Hadoop (Spanish from Latin America)

Cifrado del lado del cliente del sistema de archivos EMR mediante claves gestionadas por AWS KMS (Español LATAM) | EMR File System Client-side Encryption Using AWS KMS-managed Keys (LATAM Spanish)

Análisis de Big Data con Hadoop (Español LATAM) | Analyze Big Data with Hadoop (Spanish from Latin America)

From Data to Insights: 10 Best Data Analysis Courses for 2024

Never Stop Learning.