Información general sobre el laboratorio
En este laboratorio, utilizará Amazon EMR para analizar Ngrams de Google Books. Un n-grama es una secuencia contigua de elementos n de una secuencia determinada de texto o voz. Por ejemplo, considere esta oración:
The sun rises in the East and sets in the West.
Esta oración incluye múltiples 2-grams, incluyendo:
- “el sol”
- “por”
- “se pone”
Un ejemplo de 3-grama es “se pone por” y un ejemplo de 4-grama es “sale por el Este”.
Los N-grams se utilizan para predecir la probabilidad de que ciertas palabras aparezcan en una secuencia. Esto puede ser útil para proporcionar sugerencias de tipeo en páginas web y teléfonos móviles.
Los pasos de este laboratorio son muy similares a las actividades que realizaría un científico de datos cuando tiene que analizar un conjunto de datos. Estas tareas incluyen cargar los datos, examinar sus atributos y escribir SQL para analizarlos. En este laboratorio, ejecutará SQL sobre datos de Ngrams públicos almacenados en Amazon S3 para obtener información interesante.
Objetivos
Al finalizar este laboratorio, podrá hacer lo siguiente:
- crear un clúster de Amazon EMR con Hive
- utilizar instrucciones de Hive para crear tablas a partir del ingreso de datos de N-gramas de Google almacenados en Amazon S3
- ejecutar consultas de Hive para profundizar y analizar los datos
Duración
El tiempo estimado para completar este laboratorio es de 45 minutos*.
Significados de los íconos
A lo largo de este laboratorio, se utilizan varios íconos para llamar la atención sobre diferentes tipos de instrucciones y notas. En la siguiente lista, se explica el propósito de cada ícono:
- Comando: un comando que debe ejecutar.
- Resultado esperado: un resultado de ejemplo que puede utilizar para verificar el resultado de un comando o archivo editado.
- Nota: una pista, consejo u orientación importante.
- ADVERTENCIA: una acción que es irreversible y que podría generar un error en un comando o proceso (incluye advertencias sobre configuraciones que no se pueden modificar después de realizarlas).
- Evaluación de conocimientos: una oportunidad para verificar lo que sabe y poner a prueba lo que ha aprendido.
- Tarea completa: un punto de conclusión o resumen del laboratorio.