Visão geral do laboratório
Neste laboratório, você vai habilitar a criptografia em repouso do lado do cliente usando a chave gerenciada pelo AWS KMS para dados armazenados no Amazon S3 com o EMR File System (EMRFS). Usando o Amazon EMR, você criará uma configuração de segurança para criptografar o objeto que está sendo gravado no S3 com criptografia do lado do cliente usando a chave gerenciada pelo AWS KMS especificada por você e descriptografar objetos com a mesma chave usada para criptografá-los. Isso permitirá que você aproveite mais facilmente estruturas como o Apache Spark, o Apache Tez e o Apache Hadoop MapReduce no Amazon EMR para executar análises de big data, processamento de stream, machine learning e cargas de trabalho ETL em dados confidenciais.
Tópicos abordados
Este laboratório demonstrará como:
- Criar um bucket do Amazon S3
- Criar uma chave usando o AWS KMS
- Criar configuração de segurança no EMR para habilitar a criptografia do lado do cliente usando a chave gerenciada pelo AWS KMS
- Executar um cluster do AWS Elastic Map Reduce (EMR) usando o Console de Gerenciamento da AWS
- Ler e escreva objetos de e para o S3 usando o AWS EMR File System (EMRFS)
- Exibir dados de saída EMR diretamente do Amazon S3
Pré-requisitos de conhecimentos técnicos
Para concluir este laboratório com sucesso, você deve estar familiarizado com o básico do Hadoop e do Hadoop File System (HDFS).
Você também deve ter conhecimentos sobre administração básica de servidores Linux e saber usar as ferramentas de linha de comando do Linux.
Outros serviços da AWS
Outros serviços da AWS, além dos necessários para esse laboratório, são desabilitados pela política do IAM durante o tempo de acesso nesse laboratório. Além disso, os recursos dos serviços usados neste laboratório são limitados ao que é exigido pelo laboratório e, em alguns casos, são ainda mais limitados como um aspecto intencional do projeto do laboratório. Você deve esperar erros ao acessar outros serviços ou executar ações além das fornecidas neste guia de laboratório.
O que é o Amazon EMR?
O Amazon EMR é um serviço Web que facilita o processamento de grandes quantidades de dados com rapidez e economia. O Amazon EMR simplifica o processamento de big data, oferecendo uma estrutura Hadoop gerenciada que permite distribuir e processar grandes volumes de dados em instâncias dinamicamente escaláveis do Amazon EC2 de forma fácil, rápida e econômica. O Amazon EMR também permite executar outras estruturas distribuídas conhecidas, como Apache Spark e Presto, bem como interagir com outros armazenamentos de dados da AWS, como Amazon S3 e Amazon DynamoDB. O Amazon EMR processa seus casos de uso de big data com segurança e confiabilidade, incluindo análise de logs, indexação da Web, data warehousing, Machine Learning, análise financeira, simulação científica e bioinformática.
O que é o EMRFS?
O EMRFS é uma implementação do HDFS usado para a leitura e gravação de arquivos comuns do Amazon EMR diretamente no Amazon S3. O EMRFS oferece a conveniência de armazenar dados persistentes no Amazon S3 para serem usados com o Hadoop, fornecendo também recursos como a criptografia no lado do servidor do Amazon S3, a consistência da leitura-após-gravação e a consistência de listas.
O que é o AWS KMS?
O AWS Key Management Service (KMS) é um serviço gerenciado que facilita a criação e o controle das chaves de criptografia usadas para criptografar dados, além de usar módulos de segurança de hardware (HSMs) para proteger a segurança das chaves. O AWS Key Management Service é integrado a vários outros serviços da AWS para ajudar a proteger os dados que você armazena nesses serviços. O AWS Key Management Service também está integrado ao AWS CloudTrail para fornecer logs contendo toda a utilização das chaves, ajudando a cumprir requisitos normativos e de conformidade.
O que é o Amazon S3?
O Amazon Simple Storage Service (Amazon S3) oferece aos desenvolvedores e equipes de TI armazenamento na nuvem seguro, resiliente e altamente escalável. O Amazon S3 é um armazenamento de objetos fácil de usar e oferece uma interface de serviço da Web simples para armazenar e recuperar qualquer quantidade de dados de qualquer parte da Web. Com o Amazon S3, você paga apenas pelo armazenamento realmente utilizado. Na nuvem AWS, o Amazon S3 é um bom candidato para uma implementação de data lake para armazenar dados em larga escala para análise de big data usando o Amazon EMR.
O que é uma configuração de segurança no Amazon EMR?
Você pode usar uma configuração de segurança para criptografar dados em repouso, dados em trânsito ou ambos. Cada configuração de segurança é armazenada no Amazon EMR em vez de em objetos de configuração do cluster. Dessa forma, você pode facilmente reutilizar uma configuração para especificar as configurações de criptografia sempre que um cluster é criado.