Información general sobre el laboratorio
En este laboratorio, implementará un clúster de Hadoop completamente funcional, listo para analizar los datos de registro en tan solo unos minutos. Para comenzar, iniciará un clúster de Amazon EMR y luego utilizará un script de HiveQL para procesar los datos de registro de muestra que están almacenados en un bucket de Amazon Simple Storage Service (Amazon S3). HiveQL es un lenguaje de scripting similar a SQL que sirve para el almacenamiento y análisis de datos. Luego puede utilizar una configuración similar para analizar sus propios archivos de registro.
Este laboratorio se basa en el proyecto Análisis de big data con Hadoop.
Objetivos
Al final de este laboratorio, podrá hacer lo siguiente:
- Iniciar un clúster de Hadoop completamente funcional con Amazon EMR.
- Definir el esquema y crear una tabla para los datos de registro de muestra almacenados en Amazon S3.
- Analizar los datos con un script de HiveQL y volver a escribir los resultados en Amazon S3.
- Descargar y ver los resultados en su equipo.
- Conectarse a la CLI de Hive y ejecutar el script de consultas de HiveQL para ver los resultados.
Requisitos previos sobre conocimientos técnicos
Se recomienda tener conocimientos sobre Hadoop pero no es obligatorio para este laboratorio. También se recomienda tener conocimientos básicos sobre los pares de claves de Amazon S3 y Amazon EC2, aunque no es obligatorio.
Duración
El tiempo estimado para completar este laboratorio es de 60 minutos.
Significados de los íconos
A lo largo de este laboratorio, se utilizan varios íconos para llamar la atención sobre diferentes tipos de instrucciones y notas. En la siguiente lista, se explica el propósito de cada ícono:
- Comando: un comando que debe ejecutar.
- Resultado esperado: un resultado de ejemplo que puede utilizar para verificar el resultado de un comando o archivo editado.
- Nota: una pista, consejo u orientación importante.
- Más información: dónde encontrar más información.
- Precaución: información de especial interés o importancia (no es tan importante como para causar problemas con el equipo o los datos si la omite, pero podría generar la necesidad de repetir ciertos pasos).
- Contenido del archivo: un bloque de código donde se muestra el contenido de un script o archivo que debe ejecutar y se ha creado previamente para usted.
- Evaluación de conocimientos: una oportunidad para verificar lo que sabe y poner a prueba lo que ha aprendido.
- Respuesta: una respuesta a una pregunta o a un desafío.
- Actualización: un momento en el que podría tener que actualizar una lista o página del navegador web para que se muestre información nueva.
- Copiar para edición: un momento en el que copiar un comando, script u otro texto a un editor de texto (para editar variables específicas en su interior) sería más fácil que editar directamente en la línea de comandos o el terminal.
- Tarea completa: un punto de conclusión o resumen del laboratorio.