Información general sobre el laboratorio
En este laboratorio, se implementa un clúster de Hadoop plenamente funcional y que está listo para analizar datos de registro en muy pocos minutos. Lo primero que debes hacer es iniciar un clúster de Amazon EMR y, a continuación, usar un script de HiveQL para procesar los datos de registro de muestra almacenados en un bucket de Amazon Simple Storage Service (Amazon S3). HiveQL es un lenguaje de scripting similar a SQL que se usa para el análisis y almacenamiento de datos. Después, podrás usar una configuración parecida para analizar tus propios archivos de registro.
Este laboratorio se basa en el proyecto Análisis de Big Data con Hadoop.
Objetivos
Al finalizar este laboratorio, podrás hacer las siguientes tareas:
- Iniciar un clúster de Hadoop plenamente funcional mediante Amazon EMR
- Definir el esquema y crear una tabla para los datos de registro de muestra almacenados en Amazon S3.
- Analizar los datos mediante un script de HiveQL y escribir los resultados en Amazon S3.
- Descargar y ver los resultados en un equipo.
- Conectar con la CLI de Hive y ejecutar un script de consulta de HiveQL para ver los resultados.
Conocimientos técnicos necesarios
Se recomienda estar familiarizado con Hadoop, pero no es necesario para este laboratorio. Para este laboratorio, también se recomienda, aunque no es obligatorio, estar familiarizado con los pares de claves de Amazon S3 y Amazon EC2.
Duración
El tiempo estimado para llevar a cabo este laboratorio es de 60 minutos.
Significado de los iconos
En este laboratorio, se usan varios iconos para llamar la atención sobre diferentes tipos de instrucciones y notas. En la siguiente lista, se explica el propósito de cada icono:
- Comando: un comando que debes ejecutar.
- Resultado previsto: contiene una muestra de resultado que permite revisar el resultado de un comando o archivo editado.
- Nota: una pista, un consejo o una orientación importante.
- Más información: el lugar donde encontrar más información.
- Precaución: información de especial interés o importancia (no es tan importante como para causar problemas con el equipo o los datos si la pasas por alto, pero podría dar lugar a la necesidad de repetir ciertos pasos).
- Contenido del archivo: bloque de código en el que se muestra el contenido de un script o archivo que tienes que ejecutar y que se ha creado previamente para ti.
- Prueba de conocimientos: una oportunidad para comprobar tus conocimientos y poner a prueba lo que has aprendido.
- Respuesta: una respuesta a una pregunta o reto.
- Actualización: un momento en el que puede ser necesario actualizar una página del navegador web o una lista para mostrar nueva información.
- Copiar, no editar: cuando copiar un comando, script, o cualquier otro texto, en un editor de texto (para editar variables concretas del mismo) puede resultar más fácil que editarlos directamente en la línea de comandos o el terminal.
- Tarea completada:* un punto de conclusión o resumen del laboratorio.