Présentation de l’atelier
Dans cet atelier, vous utiliserez Amazon EMR pour analyser les Ngrams provenant de Google Books. Un n-gram est une séquence continue d’éléments n provenant d’une séquence de texte ou de discours. Par exemple, voyez la phrase suivante :
The sun rises in the East and sets in the West.
Cette phrase contient plusieurs 2-grams, dont :
- « the sun »
- « in the »
- « sets in »
Un échantillon 3-gram est « sets in the » et un échantillon 4-gram est « rises in the east ».
Les N-grams sont utilisés pour prédire la probabilité de certains mots apparaissant dans une séquence. Cette fonctionnalité peut être utile pour fournir des suggestions de recherche sur des pages web et des téléphones portables.
Les étapes de cet atelier sont très similaires aux activités qu’un Scientifique de données réaliserait en analysant un nouvel ensemble de données. Cela inclut le chargement des données, examiner les attributs des données et écrire en SQL pour analyser les données. Dans cet atelier, vous utilisez SQL plutôt que les données Ngrams disponibles au public stockées dans Amazon S3 pour obtenir des informations intéressantes.
Objectifs
À la fin de cet atelier, vous saurez :
- créer un cluster Amazon EMR en utilisant Hive ;
- utiliser les expressions de Hive pour créer des tables depuis les données saisies de Google Ngram stockées dans Amazon S3 ;
- utiliser des requêtes Hive pour examiner et analyser les données.
Durée
Cet atelier dure environ 45 minutes*.
Signification des icônes
De nombreuses icônes sont utilisées dans cet atelier pour attirer l’attention sur différents types d’instructions et de remarques. La liste suivante explique la signification de chaque icône :
- Commande : une commande que vous devez exécuter.
- Sortie attendue : un exemple de sortie que vous pouvez utiliser pour vérifier la sortie d’une commande ou d’un fichier modifié.
- Remarque : un indice, une directive ou un conseil important.
- AVERTISSEMENT : une action qui est irréversible et susceptible d’avoir une incidence sur l’échec d’une commande ou d’un processus (y compris les avertissements concernant les configurations ne pouvant pas être modifiées après leur mise en place).
- Contrôle des connaissances : une opportunité de vérifier vos connaissances et de tester ce que vous avez appris.
- Tâche terminée : une conclusion ou un récapitulatif de l’atelier.