Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Amazon Web Services

Análisis de Big Data con Hadoop (Español de España) | Analyze Big Data with Hadoop (Spanish from Spain)

Amazon Web Services and Amazon via AWS Skill Builder

Overview

Información general sobre el laboratorio

En este laboratorio, se implementa un clúster de Hadoop plenamente funcional y que está listo para analizar datos de registro en muy pocos minutos. Lo primero que debes hacer es iniciar un clúster de Amazon EMR y, a continuación, usar un script de HiveQL para procesar los datos de registro de muestra almacenados en un bucket de Amazon Simple Storage Service (Amazon S3). HiveQL es un lenguaje de scripting similar a SQL que se usa para el análisis y almacenamiento de datos. Después, podrás usar una configuración parecida para analizar tus propios archivos de registro.

Este laboratorio se basa en el proyecto Análisis de Big Data con Hadoop.

Objetivos

Al finalizar este laboratorio, podrás hacer las siguientes tareas:

  • Iniciar un clúster de Hadoop plenamente funcional mediante Amazon EMR
  • Definir el esquema y crear una tabla para los datos de registro de muestra almacenados en Amazon S3.
  • Analizar los datos mediante un script de HiveQL y escribir los resultados en Amazon S3.
  • Descargar y ver los resultados en un equipo.
  • Conectar con la CLI de Hive y ejecutar un script de consulta de HiveQL para ver los resultados.

Conocimientos técnicos necesarios

Se recomienda estar familiarizado con Hadoop, pero no es necesario para este laboratorio. Para este laboratorio, también se recomienda, aunque no es obligatorio, estar familiarizado con los pares de claves de Amazon S3 y Amazon EC2.

Duración

El tiempo estimado para llevar a cabo este laboratorio es de 60 minutos.

Significado de los iconos

En este laboratorio, se usan varios iconos para llamar la atención sobre diferentes tipos de instrucciones y notas. En la siguiente lista, se explica el propósito de cada icono:

  • Comando: un comando que debes ejecutar.
  • Resultado previsto: contiene una muestra de resultado que permite revisar el resultado de un comando o archivo editado.
  • Nota: una pista, un consejo o una orientación importante.
  • Más información: el lugar donde encontrar más información.
  • Precaución: información de especial interés o importancia (no es tan importante como para causar problemas con el equipo o los datos si la pasas por alto, pero podría dar lugar a la necesidad de repetir ciertos pasos).
  • Contenido del archivo: bloque de código en el que se muestra el contenido de un script o archivo que tienes que ejecutar y que se ha creado previamente para ti.
  • Prueba de conocimientos: una oportunidad para comprobar tus conocimientos y poner a prueba lo que has aprendido.
  • Respuesta: una respuesta a una pregunta o reto.
  • Actualización: un momento en el que puede ser necesario actualizar una página del navegador web o una lista para mostrar nueva información.
  • Copiar, no editar: cuando copiar un comando, script, o cualquier otro texto, en un editor de texto (para editar variables concretas del mismo) puede resultar más fácil que editarlos directamente en la línea de comandos o el terminal.
  • Tarea completada:* un punto de conclusión o resumen del laboratorio.

Reviews

Start your review of Análisis de Big Data con Hadoop (Español de España) | Analyze Big Data with Hadoop (Spanish from Spain)

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.