Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Amazon Web Services

Découverte de Google Ngrams avec Amazon EMR et Hive (Français) | Exploring Google Ngrams with Amazon EMR and Hive (French)

Amazon Web Services and Amazon via AWS Skill Builder

This course may be unavailable.

Overview

Présentation de l’atelier

Dans cet atelier, vous utiliserez Amazon EMR pour analyser les Ngrams provenant de Google Books. Un n-gram est une séquence continue d’éléments n provenant d’une séquence de texte ou de discours. Par exemple, voyez la phrase suivante :

The sun rises in the East and sets in the West.

Cette phrase contient plusieurs 2-grams, dont :

  • « the sun »
  • « in the »
  • « sets in »

Un échantillon 3-gram est « sets in the » et un échantillon 4-gram est « rises in the east ».

Les N-grams sont utilisés pour prédire la probabilité de certains mots apparaissant dans une séquence. Cette fonctionnalité peut être utile pour fournir des suggestions de recherche sur des pages web et des téléphones portables.

Les étapes de cet atelier sont très similaires aux activités qu’un Scientifique de données réaliserait en analysant un nouvel ensemble de données. Cela inclut le chargement des données, examiner les attributs des données et écrire en SQL pour analyser les données. Dans cet atelier, vous utilisez SQL plutôt que les données Ngrams disponibles au public stockées dans Amazon S3 pour obtenir des informations intéressantes.

Objectifs

À la fin de cet atelier, vous saurez :

  • créer un cluster Amazon EMR en utilisant Hive ;
  • utiliser les expressions de Hive pour créer des tables depuis les données saisies de Google Ngram stockées dans Amazon S3 ;
  • utiliser des requêtes Hive pour examiner et analyser les données.

Durée

Cet atelier dure environ 45 minutes*.

Signification des icônes

De nombreuses icônes sont utilisées dans cet atelier pour attirer l’attention sur différents types d’instructions et de remarques. La liste suivante explique la signification de chaque icône :

  • Commande : une commande que vous devez exécuter.
  • Sortie attendue : un exemple de sortie que vous pouvez utiliser pour vérifier la sortie d’une commande ou d’un fichier modifié.
  • Remarque : un indice, une directive ou un conseil important.
  • AVERTISSEMENT : une action qui est irréversible et susceptible d’avoir une incidence sur l’échec d’une commande ou d’un processus (y compris les avertissements concernant les configurations ne pouvant pas être modifiées après leur mise en place).
  • Contrôle des connaissances : une opportunité de vérifier vos connaissances et de tester ce que vous avez appris.
  • Tâche terminée : une conclusion ou un récapitulatif de l’atelier.

Reviews

Start your review of Découverte de Google Ngrams avec Amazon EMR et Hive (Français) | Exploring Google Ngrams with Amazon EMR and Hive (French)

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.