Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Amazon Web Services

Como explorar os Google Ngrams com o Amazon EMR e o Hive (Português) | Exploring Google Ngrams with Amazon EMR and Hive (Portuguese)

Amazon Web Services and Amazon via AWS Skill Builder

This course may be unavailable.

Overview

Visão geral do laboratório

Neste laboratório, você vai usar o Amazon EMR para analisar o Ngrams do Google Livros. Um n-grama é uma sequência contígua de n itens de uma dada sequência de texto ou fala. Por exemplo, considere esta frase:

The sun rises in the East and sets in the West.

Esta frase inclui vários 2-gramas, incluindo:

  • “the sun”
  • “in the”
  • “sets in”

Um 3-grama de exemplo é “sets in the” e um exemplo de 4-grama é “rises in the east”.

N-gramas são usados para prever a probabilidade de determinadas palavras aparecerem em uma sequência. Isso pode ser útil para fornecer sugestões de digitação em páginas da web e telefones celulares.

As etapas neste laboratório são muito parecidas com as atividades que um cientista de dados realizaria ao analisar um novo conjunto de dados. Isso inclui carregar os dados, examinar os atributos de dados e escrever SQL para analisar os dados. Neste laboratório, você vai executar SQL em dados de Ngramas disponíveis ao público armazenados no Amazon S3 para obter informações interessantes.

Objetivos

Depois de concluir o laboratório, você será capaz de:

  • Criar um cluster do Amazon EMR executando o Hive
  • Usar instruções do Hive para criar tabelas com base nos dados de entrada do Google Ngram armazenados no Amazon S3
  • Executar consultas do Hive para detalhar e analisar dados

Duração

O laboratório leva aproximadamente 45 minutos* para ser concluído.

Lista de ícones

Vários ícones são usados neste laboratório para chamar a atenção para diferentes tipos de instruções e observações. A lista a seguir explica a finalidade de cada ícone:

  • Comando: um comando que você precisa executar.
  • Saída esperada: um exemplo que você pode usar para verificar a saída de um comando ou arquivo editado.
  • Observação: uma sugestão, dica ou orientação importante.
  • AVISO: uma ação que seja irreversível e que tenha potencial de afetar a falha de um comando ou processo (inclusive avisos sobre configurações que não possam ser alteradas após serem feitas).
  • Teste de conhecimento: uma oportunidade de verificar seu conhecimento e testar o que você aprendeu.
  • Tarefa concluída: um ponto de conclusão ou de resumo no laboratório.

Reviews

Start your review of Como explorar os Google Ngrams com o Amazon EMR e o Hive (Português) | Exploring Google Ngrams with Amazon EMR and Hive (Portuguese)

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.