Présentation de l’atelier
Dans cet atelier, vous allez activer le chiffrement côté client au repos à l’aide de la clé gérée par AWS KMS pour les données stockées dans Amazon S3 à l’aide du système de fichiers (EMRFS). À l’aide d’Amazon EMR, vous allez créer une configuration de sécurité pour chiffrer l’objet en cours d’écriture dans S3 avec un chiffrement côté client à l’aide de la clé gérée AWS KMS que vous avez spécifiée, et déchiffrer les objets à l’aide de la même clé que celle utilisée pour les chiffrer. Cela vous permettra d’exploiter plus facilement des frameworks comme Apache Spark, Apache Tez et Apache Hadoop MapReduce sur Amazon EMR pour exécuter des analyses de Big Data, le traitement de flux, le machine learning et les charges de travail ETL sur des données confidentielles.
Thèmes abordés
Cet atelier montrera comment :
- Créer un compartiment Amazon S3
- Créer une clé à l’aide d’AWS KMS
- Créer une configuration de sécurité dans EMR pour activer le chiffrement côté client à l’aide d’une clé gérée par AWS KMS
- Lancer un cluster AWS Elastic Map Reduce (EMR) à l’aide de la console de gestion AWS
- Lire et écrire des objets depuis et vers S3 à l’aide d’AWS EMR File System (EMRFS)
- Afficher les données de sortie EMR directement depuis Amazon S3
Connaissances techniques préalables
Pour réussir cet atelier, vous devez maîtriser les bases de Hadoop et Hadoop File System (HDFS).
Vous devez aussi maîtriser l’administration des serveurs basiques Linux et dominer les outils de ligne de commande Linux.
Autres services AWS
Les services AWS, autres que ceux nécessaires pour l’atelier, sont désactivés par une stratégie IAM pendant votre temps d’accès à l’atelier. De plus, les capacités des services utilisés pour cet atelier sont limitées, selon ce que l’atelier nécessite. Elles peuvent même être davantage limitées de façon intentionnelle par la conception de l’atelier. Vous devez vous attendre à ce que des erreurs surviennent en cas d’action ou d’accès autres que ceux nécessaires dans ce guide de l’atelier.
Qu’est-ce qu’Amazon EMR ?
Amazon EMR est un service Web qui vous permet de traiter de vastes ensembles de données de manière simple, rapide et rentable. Amazon EMR simplifie le traitement du Big Data, en fournissant un framework Hadoop géré qui vous permet de distribuer et de traiter de manière simple, rapide et rentable, de grandes quantités de données à travers vos instances Amazon EC2 dynamiquement évolutives. Vous pouvez également exécuter d’autres frameworks distribués courants tels qu’Apache Spark et Presto dans Amazon EMR, et interagir avec les données d’autres magasins de données AWS tels qu’Amazon S3 et Amazon DynamoDB. Amazon EMR gère vos cas d’utilisation de Big Data de façon sûre et fiable, tels que l’analyse des journaux, l’indexation web, l’entreposage de données, le Machine Learning, l’analyse financière, la simulation scientifique et la recherche bio-informatique.
Qu’est-ce qu’EMRFS ?
EMRFS est une implémentation de HDFS, utilisée pour lire et écrire des fichiers standard d’Amazon EMR directement sur Amazon S3. EMRFS permet de stocker des données persistantes dans Amazon S3 en vue de les utiliser avec Hadoop, tout en fournissant des fonctionnalités telles que le chiffrement côté serveur Amazon S3, la cohérence en lecture après écriture et la cohérence des listes.
Qu’est-ce qu’AWS KMS ?
AWS Key Management Service (KMS) est un service géré qui permet de créer et de contrôler facilement les clés de chiffrement utilisées pour chiffrer les données. Il utilise des modules de sécurité matériels (HSM) pour assurer la sécurité des clés. AWS Key Management Service est intégré à plusieurs autres services AWS afin de vous aider à protéger les données stockées avec ces services. AWS Key Management Service est également intégré à AWS CloudTrail pour vous fournir des journaux contenant des informations sur toutes les utilisations des clés, afin de vous aider à répondre à vos besoins en matière de réglementation et de conformité.
Qu’est-ce qu’Amazon S3 ?
Amazon Simple Storage Service (Amazon S3) offre aux développeurs et aux équipes informatiques un espace de stockage dans le cloud sécurisé, durable et hautement évolutif. Amazon S3 est un service de stockage d’objets facile à utiliser, doté d’une interface de services web simple pour stocker et récupérer toute quantité de données depuis n’importe où sur le web. Avec Amazon S3, vous payez uniquement pour le stockage que vous utilisez réellement. Sur le cloud AWS, Amazon S3 est un bon candidat pour une implémentation de data lake pour stocker des données à grande échelle pour l’analyse de Big Data à l’aide d’Amazon EMR.
Qu’est-ce qu’une configuration de sécurité dans Amazon EMR ?
Vous pouvez utiliser une configuration de sécurité pour chiffrer les données au repos, les données en transit ou les deux. Chaque configuration de sécurité est stockée dans Amazon EMR plutôt que dans les objets de configuration du cluster. Dès lors, vous pouvez facilement réutiliser une configuration pour spécifier les paramètres de chiffrement chaque fois qu’un cluster est créé.