Présentation de l’atelier
Votre collègue est en vacances, vous êtes donc responsable de l’entraînement de l’ingénierie des données des votre organisation pour la journée. Mettez-vous à sa place et découvrez différentes options gérées pour le déplacement des données sur Amazon Web Services (AWS). Tenez compte des modèles d’architecture, des performances et des optimisations des coûts, ainsi que des bonnes pratiques en matière de sécurité, et impressionnez votre collègue lors de son retour !
Votre collègue vous a donné un environnement de test (sandbox) pour que vous puissiez expérimenter et tester une preuve de concept (POC) pendant son absence. Vous avez décidé d’explorer les données qui, selon vous, aideront votre petite entreprise à se développer avec succès dans de nouvelles villes. Vous utilisez un jeu de données du National Oceanic and Atmospheric Administration (NOAA, Administration océanique et atmosphérique nationale) qui vous permet d’accéder à l’historique quotidien des données météorologiques. Pour vous, ces données peuvent aider votre entreprise à déterminer quand elle doit stocker des éléments d’été, ou d’hiver, dans les villes dans lesquelles elle se développe. Pour votre POC, vous vous concentrerez sur les métriques de température et de précipitation.
Cet atelier utilise le jeu de données NOAA Global Surface Summary of Day (GSOD), consulté le 5 août 2022 à l’adresse https://registry.opendata.aws/noaa-gsod. Ce jeu de données est un ensemble de relevés météorologiques quotidiens (température, vitesse du vent, humidité, pression, et plus) provenant de plus de 9 000 stations météorologiques à travers le monde. Les données ont d’abord été recueillies par le National Climatic Data Center (Centre national de données climatiques). En raison de la limite de temps de l’atelier, le jeu de données utilisé ici a été réduit pour inclure un sous-ensemble des années disponibles dans le jeu de données complet.
Rubriques abordées
À la fin de cet atelier, vous serez en mesure d’effectuer les opérations suivantes :
- Créer un crawler AWS Glue.
- Créer et exécuter une tâche dans AWS Glue Studio.
- Explorer les autorisations requises pour exécuter les crawlers AWS Glue et les tâches AWS Glue Studio.
- Interroger le catalogue de données AWS Glue à l’aide d’Amazon Athena.
Durée
Cet atelier durera environ 60 minutes.
Prérequis
Pour cet atelier, vous devez :
- Accès à un ordinateur doté d’une connexion Wi-Fi et exécutant Microsoft Windows, macOS ou Linux (Ubuntu, SuSE ou Red Hat).
- Disposer d’un navigateur Internet moderne tel que Google Chrome ou Mozilla Firefox