Información general sobre el laboratorio
Su colega está de vacaciones, por lo que está a cargo de la práctica de ingeniería de los datos de su organización durante el día. Tome su lugar y explore varias opciones administradas para el movimiento de datos en Amazon Web Services (AWS). Considere los patrones de arquitectura, las optimizaciones de rendimiento y costos y las prácticas recomendadas de seguridad ¡e impresione a su colega cuando regrese a la oficina!
Su colega le ha proporcionado un entorno de pruebas para que pueda experimentar y hacer una prueba de concepto (POC) en su ausencia. Ha decidido explorar los datos que cree que ayudarán a su pequeña empresa a expandirse con éxito a nuevas ciudades. Utilizará un conjunto de datos de la National Oceanic and Atmospheric Administration (NOAA, Administración Nacional Oceánica y Atmosférica) que le proporciona datos meteorológicos históricos diarios. Usted cree que estos datos pueden ayudar a su empresa a determinar cuándo debe almacenar elementos de verano, en lugar de invierno, en las ciudades a las que se está expandiendo. Para su POC, se centrará en las métricas de temperatura y precipitación.
Este laboratorio utiliza el conjunto de datos del Resumen diario de la superficie global (GSOD) de la NOAA, al que se accedió el 5 de agosto de 2022 desde https://registry.opendata.aws/noaa-gsod. Este conjunto de datos es una colección de mediciones meteorológicas diarias (temperatura, velocidad del viento, humedad, presión y más) de más de 9000 estaciones meteorológicas de todo el mundo. Los datos fueron recopilados originalmente por el National Climactic Data Center (Centro Nacional de Datos Climáticos). Debido al límite de tiempo del laboratorio, el conjunto de datos utilizado en este laboratorio se ha reducido para incluir un subconjunto de los años que están disponibles en el conjunto de datos completo.
Temas
Al final de este laboratorio, podrá hacer lo siguiente:
- crear un rastreador de AWS Glue
- crear y ejecutar un trabajo en AWS Glue Studio
- explorar permisos necesarios para ejecutar los rastreadores de AWS Glue y los trabajos de AWS Glue Studio
- consultar el Catálogo de datos de AWS Glue mediante Amazon Athena
Duración
El tiempo estimado para completar este laboratorio es de 60 minutos.
Requisitos previos
Para este laboratorio, se requiere lo siguiente:
- tener acceso a un equipo con Wi-Fi y Microsoft Windows, macOS X o Linux (Ubuntu, SuSE o Red Hat)
- un navegador de Internet moderno como Google Chrome o Mozilla Firefox