Visão geral do laboratório
Seu colega está de férias, por isso você fica responsável pelo trabalho de engenharia de dados da organização por um dia. Coloque-se no lugar do colega e explore diversas opções gerenciadas para movimentação de dados na Amazon Web Services (AWS). Considere otimizações de custo, desempenho e padrões de arquitetura, bem como práticas recomendadas de segurança, e impressione seu colega quando ele voltar ao escritório!
O colega forneceu um ambiente de sandbox para você poder experimentar e testar uma prova de conceito (POC) durante a ausência dele. Você decidiu explorar dados que possam ajudar sua pequena empresa a ter uma expansão bem sucedida para cidades novas. Você usará o conjunto de dados da National Oceanic and Atmospheric Administration (NOAA – Administração Oceânica e Atmosférica Nacional), que oferece um histórico de dados meteorológicos diários. Você acredita que esses dados podem ajudar a empresa a determinar quando será preciso ter em estoque itens de verão, em vez de itens de inverno, nas cidades para onde ela está expandindo. Para a POC, você deve priorizar as métricas de temperatura e precipitação.
Este laboratório usa o conjunto de dados Global Surface Summary of Day (GSOD) da NOAA, acessado em 5 de agosto de 2022, em https://registry.opendata.aws/noaa-gsod. Esse conjunto de dados é uma coleção das medidas meteorológicas diárias (temperatura, velocidade do vento, pressão, entre outras) de mais de nove mil estações meteorológicas no mundo todo. Os dados foram coletados originalmente pelo National Climactic Data Center (Centro Nacional de Dados Climáticos). Devido ao limite de tempo do laboratório, o conjunto de dados usado foi reduzido de modo a incluir um subconjunto dos anos disponíveis no conjunto de dados completo.
Tópicos abordados
Ao final deste laboratório, você será capaz de:
- Criar um crawler do AWS Glue.
- Criar e executar um trabalho no AWS Glue Studio.
- Explorar as permissões necessárias para executar crawlers do AWS Glue e trabalhos do AWS Glue Studio.
- Consultar o Catálogo de dados do AWS Glue usando o Amazon Athena.
Duração
O laboratório leva 60 minutos.
Pré-requisitos
Este laboratório requer:
- Acesso a um computador com Wi-Fi e Microsoft Windows, macOS X ou Linux (Ubuntu, SUSE ou Red Hat)
- Um navegador moderno como o Google Chrome ou o Mozilla Firefox