Découverte de Google Ngrams avec Amazon EMR et Hive (Français) | Exploring Google Ngrams with Amazon EMR and Hive (French)

Overview

Présentation de l’atelier

Dans cet atelier, vous utiliserez Amazon EMR pour analyser les Ngrams provenant de Google Books. Un n-gram est une séquence continue d’éléments n provenant d’une séquence de texte ou de discours. Par exemple, voyez la phrase suivante :

The sun rises in the East and sets in the West.

Cette phrase contient plusieurs 2-grams, dont :

« the sun »
« in the »
« sets in »

Un échantillon 3-gram est « sets in the » et un échantillon 4-gram est « rises in the east ».

Les N-grams sont utilisés pour prédire la probabilité de certains mots apparaissant dans une séquence. Cette fonctionnalité peut être utile pour fournir des suggestions de recherche sur des pages web et des téléphones portables.

Les étapes de cet atelier sont très similaires aux activités qu’un Scientifique de données réaliserait en analysant un nouvel ensemble de données. Cela inclut le chargement des données, examiner les attributs des données et écrire en SQL pour analyser les données. Dans cet atelier, vous utilisez SQL plutôt que les données Ngrams disponibles au public stockées dans Amazon S3 pour obtenir des informations intéressantes.

Objectifs

À la fin de cet atelier, vous saurez :

créer un cluster Amazon EMR en utilisant Hive ;
utiliser les expressions de Hive pour créer des tables depuis les données saisies de Google Ngram stockées dans Amazon S3 ;
utiliser des requêtes Hive pour examiner et analyser les données.

Durée

Cet atelier dure environ 45 minutes*.

Signification des icônes

De nombreuses icônes sont utilisées dans cet atelier pour attirer l’attention sur différents types d’instructions et de remarques. La liste suivante explique la signification de chaque icône :

Commande : une commande que vous devez exécuter.
Sortie attendue : un exemple de sortie que vous pouvez utiliser pour vérifier la sortie d’une commande ou d’un fichier modifié.
Remarque : un indice, une directive ou un conseil important.
AVERTISSEMENT : une action qui est irréversible et susceptible d’avoir une incidence sur l’échec d’une commande ou d’un processus (y compris les avertissements concernant les configurations ne pouvant pas être modifiées après leur mise en place).
Contrôle des connaissances : une opportunité de vérifier vos connaissances et de tester ce que vous avez appris.
Tâche terminée : une conclusion ou un récapitulatif de l’atelier.

Reviews

Start your review of Découverte de Google Ngrams avec Amazon EMR et Hive (Français) | Exploring Google Ngrams with Amazon EMR and Hive (French)

Présentation de l’atelier

Objectifs

Durée

Signification des icônes

Tags

Travailler avec Amazon Redshift (Français) | Working with Amazon Redshift (French)

Analyser des données volumineuses avec Hadoop (Français) | Analyze Big Data with Hadoop (French)

Analyser des données volumineuses avec Hadoop (Français) | Analyze Big Data with Hadoop (French)

Héberger WordPress avec Amazon S3 (Français) | Hosting WordPress Using Amazon S3 (French)

Gestion des données des capteurs IoT avec Amazon ElastiCache for Redis (Français) | Managing IoT Sensor Data with Amazon ElastiCache for Redis (French)

Utilisation d'Open Data avec Amazon S3 (Français) | Using Open Data with Amazon S3 (French)

From Data to Insights: 10 Best Data Analysis Courses for 2024

10 Best Free SQL Courses for 2024

Never Stop Learning.