Exploración de Google Ngrams con Amazon EMR y Hive (Español LATAM) | Exploring Google Ngrams with Amazon EMR and Hive (Spanish from Latin America)

Overview

Información general sobre el laboratorio

En este laboratorio, utilizará Amazon EMR para analizar Ngrams de Google Books. Un n-grama es una secuencia contigua de elementos n de una secuencia determinada de texto o voz. Por ejemplo, considere esta oración:

The sun rises in the East and sets in the West.

Esta oración incluye múltiples 2-grams, incluyendo:

“el sol”
“por”
“se pone”

Un ejemplo de 3-grama es “se pone por” y un ejemplo de 4-grama es “sale por el Este”.

Los N-grams se utilizan para predecir la probabilidad de que ciertas palabras aparezcan en una secuencia. Esto puede ser útil para proporcionar sugerencias de tipeo en páginas web y teléfonos móviles.

Los pasos de este laboratorio son muy similares a las actividades que realizaría un científico de datos cuando tiene que analizar un conjunto de datos. Estas tareas incluyen cargar los datos, examinar sus atributos y escribir SQL para analizarlos. En este laboratorio, ejecutará SQL sobre datos de Ngrams públicos almacenados en Amazon S3 para obtener información interesante.

Objetivos

Al finalizar este laboratorio, podrá hacer lo siguiente:

crear un clúster de Amazon EMR con Hive
utilizar instrucciones de Hive para crear tablas a partir del ingreso de datos de N-gramas de Google almacenados en Amazon S3
ejecutar consultas de Hive para profundizar y analizar los datos

Duración

El tiempo estimado para completar este laboratorio es de 45 minutos*.

Significados de los íconos

A lo largo de este laboratorio, se utilizan varios íconos para llamar la atención sobre diferentes tipos de instrucciones y notas. En la siguiente lista, se explica el propósito de cada ícono:

Comando: un comando que debe ejecutar.
Resultado esperado: un resultado de ejemplo que puede utilizar para verificar el resultado de un comando o archivo editado.
Nota: una pista, consejo u orientación importante.
ADVERTENCIA: una acción que es irreversible y que podría generar un error en un comando o proceso (incluye advertencias sobre configuraciones que no se pueden modificar después de realizarlas).
Evaluación de conocimientos: una oportunidad para verificar lo que sabe y poner a prueba lo que ha aprendido.
Tarea completa: un punto de conclusión o resumen del laboratorio.

Reviews

Start your review of Exploración de Google Ngrams con Amazon EMR y Hive (Español LATAM) | Exploring Google Ngrams with Amazon EMR and Hive (Spanish from Latin America)

Información general sobre el laboratorio

Objetivos

Duración

Significados de los íconos

Tags

Análisis de Big Data con Hadoop (Español LATAM) | Analyze Big Data with Hadoop (Spanish from Latin America)

Análisis de Big Data con Hadoop (Español LATAM) | Analyze Big Data with Hadoop (Spanish from Latin America)

Análisis de Big Data con Hadoop (Español LATAM) | Analyze Big Data with Hadoop (LATAM Spanish)

Uso de datos abiertos con Amazon S3 (Español LATAM) | Using Open Data with Amazon S3 (Spanish from Latin America)

Uso de datos abiertos con Amazon S3 (Español LATAM) | Using Open Data with Amazon S3 (Spanish from Latin America)

Trabajar con Amazon Redshift (Español LATAM) | Working with Amazon Redshift (LATAM Spanish)

From Data to Insights: 10 Best Data Analysis Courses for 2024

Never Stop Learning.