Visão geral do laboratório
Neste laboratório, você vai usar o Amazon EMR para analisar o Ngrams do Google Livros. Um n-grama é uma sequência contígua de n itens de uma dada sequência de texto ou fala. Por exemplo, considere esta frase:
The sun rises in the East and sets in the West.
Esta frase inclui vários 2-gramas, incluindo:
- “the sun”
- “in the”
- “sets in”
Um 3-grama de exemplo é “sets in the” e um exemplo de 4-grama é “rises in the east”.
N-gramas são usados para prever a probabilidade de determinadas palavras aparecerem em uma sequência. Isso pode ser útil para fornecer sugestões de digitação em páginas da web e telefones celulares.
As etapas neste laboratório são muito parecidas com as atividades que um cientista de dados realizaria ao analisar um novo conjunto de dados. Isso inclui carregar os dados, examinar os atributos de dados e escrever SQL para analisar os dados. Neste laboratório, você vai executar SQL em dados de Ngramas disponíveis ao público armazenados no Amazon S3 para obter informações interessantes.
Objetivos
Depois de concluir o laboratório, você será capaz de:
- Criar um cluster do Amazon EMR executando o Hive
- Usar instruções do Hive para criar tabelas com base nos dados de entrada do Google Ngram armazenados no Amazon S3
- Executar consultas do Hive para detalhar e analisar dados
Duração
O laboratório leva aproximadamente 45 minutos* para ser concluído.
Lista de ícones
Vários ícones são usados neste laboratório para chamar a atenção para diferentes tipos de instruções e observações. A lista a seguir explica a finalidade de cada ícone:
- Comando: um comando que você precisa executar.
- Saída esperada: um exemplo que você pode usar para verificar a saída de um comando ou arquivo editado.
- Observação: uma sugestão, dica ou orientação importante.
- AVISO: uma ação que seja irreversível e que tenha potencial de afetar a falha de um comando ou processo (inclusive avisos sobre configurações que não possam ser alteradas após serem feitas).
- Teste de conhecimento: uma oportunidade de verificar seu conhecimento e testar o que você aprendeu.
- Tarefa concluída: um ponto de conclusão ou de resumo no laboratório.