Información general del laboratorio
En este laboratorio, habilita el cifrado en reposo del cliente mediante una clave gestionada por AWS Key Management Service (AWS KMS) KMS para los datos almacenados en Amazon Simple Storage Service (Amazon S3) con el sistema de archivos EMR (EMRFS). Con Amazon EMR, crea la configuración de seguridad para cifrar los objetos que se escriben en S3 con el cifrado del cliente a través de la clave administrada por AWS KMS que usted especifique y luego descifra los objetos con la misma clave que se utilizó para cifrarlos. Esto le permite aprovechar con mayor facilidad los marcos de trabajo como Apache Spark, Apache Tez y Apache Hadoop MapReduce en Amazon EMR para ejecutar análisis de macrodatos, procesamientos de flujos, machine learning y cargas de trabajo de ETL en datos confidenciales.
Objetivos
Al finalizar este laboratorio, podrá realizar lo siguiente:
- Crear un bucket de Amazon S3.
- Crear una clave con AWS KMS.
- Crear una configuración de seguridad en EMR para habilitar el cifrado del cliente mediante una clave gestionada por AWS KMS.
- Iniciar un clúster de Amazon EMR mediante la Consola de administración de AWS.
- Leer y escribir objetos desde Amazon S3 y hacia este mediante el sistema de archivos EMR (EMRFS).
- Ver los datos de salida de EMR directamente desde Amazon S3.
Requisitos previos sobre conocimientos técnicos
Para completar correctamente este laboratorio, debe estar familiarizado con los conceptos básicos de Hadoop y de Hadoop Distributed File System (HDFS). También debe estar familiarizado con la administración básica del servidor Linux y sentirse cómodo con las herramientas de línea de comandos de Linux.
Significados de los íconos
A lo largo de este laboratorio, se utilizan varios íconos para llamar la atención sobre diferentes tipos de instrucciones y notas. En la siguiente lista, se explica el propósito de cada ícono:
- Precaución: información de especial interés o importancia (no es tan importante como para causar problemas con el equipo o los datos si la omite, pero podría generar la necesidad de repetir ciertos pasos).
- Advertencia: es una acción que es irreversible y que podría generar un error en un comando o proceso (incluye advertencias sobre configuraciones que no se pueden modificar después de aplicarlas).
- Tarea completa: un punto de conclusión o resumen del laboratorio.
- Nota: Una pista, consejo u orientación importante.
- Actualización: un momento en el que podría tener que actualizar una lista o página del navegador web para que se muestre información nueva.
- Comando: un comando que debe ejecutar.
- Resultado esperado: un resultado de ejemplo que puede utilizar para verificar el resultado de un comando o archivo editado.