Visão geral do laboratório
Neste laboratório, você implantará um cluster totalmente funcional do Hadoop, pronto para analisar dados de log em poucos minutos. Você começará iniciando um cluster do Amazon EMR e depois usará um script do HiveQL para processar dados de log de amostra armazenados em um bucket do Amazon Simple Storage Service (Amazon S3). HiveQL é uma linguagem de desenvolvimento de scripts semelhante a SQL para data warehousing e análise. Então, você pode usar uma configuração semelhante para analisar seus próprios arquivos de log.
Este laboratório é baseado no projeto Análise de big data com o Hadoop.
Objetivos
Ao final deste laboratório, você será capaz de:
- Iniciar um cluster totalmente funcional do Hadoop usando o Amazon EMR.
- Definir o esquema e criar uma tabela para os dados de log de amostra armazenados no Amazon S3.
- Analisar os dados usando um script do HiveQL e gravar os resultados de volta no Amazon S3.
- Baixar e visualizar os resultados no computador.
- Conectar-se ao Hive CLI e executar um script de consulta do HiveQL para visualizar os resultados.
Conhecimentos técnicos necessários
Recomendamos conhecimentos básicos sobre o Hadoop, mas não são obrigatórios para este laboratório. Recomendamos conhecimentos básicos sobre os pares de chave do Amazon S3 e do Amazon EC2 para o laboratório, mas isso não é obrigatório.
Duração
O laboratório leva aproximadamente 60 minutos para ser concluído.
Lista de ícones
Vários ícones são usados neste laboratório para chamar a atenção para diferentes tipos de instruções e observações. A lista a seguir explica a finalidade de cada ícone:
- Command (Comando): um comando que você precisa executar.
- Saída esperada: um exemplo que você pode usar para verificar a saída de um comando ou arquivo editado.
- Observação: uma sugestão, dica ou orientação importante.
- Saiba mais: onde encontrar mais informações.
- Atenção: informações de interesse ou importância especial (não tão importantes a ponto de causar problemas com o equipamento ou dados caso você não as veja, mas que podem resultar na necessidade de repetir determinadas etapas).
- Conteúdo do arquivo: um bloco de código que exibe o conteúdo de um script ou arquivo que será necessário executar e que foi pré-criado para você.
- Teste de conhecimento: uma oportunidade de verificar seu conhecimento e testar o que você aprendeu.
- Resposta: uma resposta para uma pergunta ou um desafio.
- Atualizar: um momento em que talvez seja necessário atualizar uma página ou lista do navegador da web para mostrar novas informações.
- Copiar e editar: um momento em que copiar um comando, um script ou outro texto para um editor de texto (para editar as variáveis específicas que estão ali contidas) pode ser mais fácil que editar diretamente na linha de comando ou no terminal.
- Tarefa concluída: um ponto de conclusão ou de resumo no laboratório.