Visão geral do laboratório
Neste laboratório, você habilitará a criptografia em repouso no lado do cliente usando a chave gerenciada pelo AWS Key Management Service (AWS KMS) para dados armazenados no Amazon Simple Storage Service (Amazon S3) com o EMR File System (EMRFS). Usando o Amazon EMR, você criará uma configuração de segurança para criptografar o objeto que está sendo gravado no S3 com criptografia no lado do cliente usando a chave gerenciada pelo AWS KMS que você especificará e, em seguida, descriptografará objetos com a mesma chave usada para criptografá-los. Isso permitirá que você aproveite com mais facilidade estruturas como Apache Spark, Apache Tez e Apache Hadoop MapReduce no Amazon EMR para executar análises de big data, processamento de streams, machine learning e workloads de ETL em dados confidenciais.
Objetivos
Ao final deste laboratório, você deverá ser capaz de fazer o seguinte:
- Criar um bucket do Amazon S3.
- Criar uma chave usando o AWS KMS.
- Criar uma configuração de segurança no EMR para permitir a criptografia no lado do cliente usando a chave gerenciada pelo AWS KMS.
- Iniciar um cluster do Amazon EMR usando o Console de Gerenciamento da AWS.
- Leia e grave objetos a partir do e para o Amazon S3 usando o EMR File System (EMRFS).
- Visualize os dados de saída do EMR diretamente do Amazon S3.
Pré-requisitos de conhecimentos técnicos
Para concluir este laboratório com êxito, você deverá se familiarizar com os conceitos básicos do Hadoop e do sistema de arquivos distribuído do Hadoop (HDFS). Você também deve ter conhecimentos sobre administração básica de servidores Linux e saber usar as ferramentas de linha de comando do Linux.
Lista de ícones
Vários ícones são usados neste laboratório para chamar a atenção para diferentes tipos de instruções e observações. A lista a seguir explica a finalidade de cada ícone:
- Atenção: informações de interesse ou importância especial (não tão importantes a ponto de causar problemas com o equipamento ou dados caso você não as veja, mas que podem resultar na necessidade de repetir determinadas etapas).
- Aviso: uma ação que seja irreversível e que tenha potencial de afetar a falha de um comando ou processo (inclusive avisos sobre configurações que não possam ser alteradas após serem feitas).
- Tarefa concluída: um ponto de conclusão ou de resumo no laboratório.
- Observação: uma sugestão, dica ou orientação importante.
- Atualização: um momento em que talvez seja necessário atualizar uma página ou lista do navegador da web para mostrar novas informações.
- Comando: um comando que você precisa executar.
- Saída esperada: um exemplo que você pode usar para verificar a saída de um comando ou arquivo editado.