Como explorar os Google Ngrams com o Amazon EMR e o Hive (Português) | Exploring Google Ngrams with Amazon EMR and Hive (Portuguese)

Overview

Visão geral do laboratório

Neste laboratório, você vai usar o Amazon EMR para analisar o Ngrams do Google Livros. Um n-grama é uma sequência contígua de n itens de uma dada sequência de texto ou fala. Por exemplo, considere esta frase:

The sun rises in the East and sets in the West.

Esta frase inclui vários 2-gramas, incluindo:

“the sun”
“in the”
“sets in”

Um 3-grama de exemplo é “sets in the” e um exemplo de 4-grama é “rises in the east”.

N-gramas são usados para prever a probabilidade de determinadas palavras aparecerem em uma sequência. Isso pode ser útil para fornecer sugestões de digitação em páginas da web e telefones celulares.

As etapas neste laboratório são muito parecidas com as atividades que um cientista de dados realizaria ao analisar um novo conjunto de dados. Isso inclui carregar os dados, examinar os atributos de dados e escrever SQL para analisar os dados. Neste laboratório, você vai executar SQL em dados de Ngramas disponíveis ao público armazenados no Amazon S3 para obter informações interessantes.

Objetivos

Depois de concluir o laboratório, você será capaz de:

Criar um cluster do Amazon EMR executando o Hive
Usar instruções do Hive para criar tabelas com base nos dados de entrada do Google Ngram armazenados no Amazon S3
Executar consultas do Hive para detalhar e analisar dados

Duração

O laboratório leva aproximadamente 45 minutos* para ser concluído.

Lista de ícones

Vários ícones são usados neste laboratório para chamar a atenção para diferentes tipos de instruções e observações. A lista a seguir explica a finalidade de cada ícone:

Comando: um comando que você precisa executar.
Saída esperada: um exemplo que você pode usar para verificar a saída de um comando ou arquivo editado.
Observação: uma sugestão, dica ou orientação importante.
AVISO: uma ação que seja irreversível e que tenha potencial de afetar a falha de um comando ou processo (inclusive avisos sobre configurações que não possam ser alteradas após serem feitas).
Teste de conhecimento: uma oportunidade de verificar seu conhecimento e testar o que você aprendeu.
Tarefa concluída: um ponto de conclusão ou de resumo no laboratório.

Reviews

Start your review of Como explorar os Google Ngrams com o Amazon EMR e o Hive (Português) | Exploring Google Ngrams with Amazon EMR and Hive (Portuguese)

Visão geral do laboratório

Objetivos

Duração

Lista de ícones

Tags

Análise de big data com o Hadoop (Português) | Analyze Big Data with Hadoop (Portuguese)

Análise de big data com o Hadoop (Português) | Analyze Big Data with Hadoop (Portuguese)

Working with Amazon Redshift (Portuguese)

Working with Amazon Redshift (Portuguese)

Criação com tabelas do Amazon DynamoDB (Português) | Building with Amazon DynamoDB Tables (Portuguese)

Introdução ao Amazon Redshift (Português) | Introduction to Amazon Redshift (Portuguese)

From Data to Insights: 10 Best Data Analysis Courses for 2024

10 Best Free SQL Courses for 2024

Never Stop Learning.