Présentation de l’atelier
Dans cet atelier, vous déployez un cluster Hadoop entièrement fonctionnel, prêt à analyser les données des journaux en quelques minutes seulement. Vous commencez par lancer un cluster Amazon EMR, puis vous utilisez un script HiveQL pour traiter des exemples de données de journal stockées dans un compartiment Amazon Simple Storage Service (Amazon S3). HiveQL est un langage de script similaire à SQL pour l’entreposage et l’analyse de données. Vous pouvez alors utiliser une configuration similaire pour analyser vos propres fichiers journaux.
Cet atelier est basé sur le projet Analyser des données volumineuses avec Hadoop.
Objectifs
À la fin de cet atelier, vous serez en mesure d’effectuer les opérations suivantes :
- Lancer un cluster Hadoop entièrement fonctionnel à l’aide d’Amazon EMR.
- Définir le schéma et créer une table pour les exemples de données de journal stockées dans Amazon S3.
- Analyser les données à l’aide d’un script HiveQL et écrire les résultats dans Amazon S3.
- Télécharger et visualiser les résultats sur votre ordinateur.
- Vous connecter à l’interface de ligne de commande (CLI) Hive et exécuter le script de requête HiveQL pour afficher les résultats.
Connaissances techniques préalables
Une connaissance de Hadoop est recommandée mais non obligatoire pour cet atelier. Des connaissances de base des paires de clés Amazon S3 et Amazon EC2 est également recommandée mais non obligatoire pour cet atelier.
Durée
Cet atelier dure environ 60 minutes.
Signification des icônes
De nombreuses icônes sont utilisées dans cet atelier pour attirer l’attention sur différents types d’instructions et de remarques. La liste suivante explique la signification de chaque icône :
- Commande : une commande que vous devez exécuter.
- Sortie attendue : un exemple de sortie que vous pouvez utiliser pour vérifier la sortie d’une commande ou d’un fichier modifié.
- Remarque : un indice, une directive ou un conseil important.
- En savoir plus : un emplacement où trouver davantage d’informations.
- Attention : information présentant un intérêt spécial ou d’une importance particulière (pas assez importante pour causer des problèmes avec l’équipement ou les données si vous n’y faites pas attention, mais qui pourrait vous amener à devoir répéter certaines étapes).
- Contenu du fichier : un bloc de code affichant le contenu d’un script ou d’un fichier à exécuter qui a été préalablement créé pour vous.
- Contrôle des connaissances : une opportunité de vérifier vos connaissances et de tester ce que vous avez appris.
- Réponse : une réponse à une question ou à un défi.
- Actualisation : un moment où vous devez actualiser une page de navigateur web ou une liste pour afficher de nouvelles informations
- Modification en copie : un moment où la copie d’une commande, d’un script ou d’un autre texte dans un éditeur de texte (pour modifier des variables spécifiques qui y sont contenues) peut s’avérer plus facile que de procéder directement à la modification dans la ligne de commande ou le terminal.
- Tâche terminée : une conclusion ou un récapitulatif de l’atelier.