ラボの概要
このラボでは、EMR File System (EMRFS) を使用して Amazon S3 に保存されるデータに対し、AWS KMS のマネージドキーを使用したクライアント側の保管時の暗号化を有効にします。Amazon EMR を使用して作成するセキュリティ設定によって、S3 に書き込まれるオブジェクトに関し、指定した AWS KMS のマネージドキーを用いてクライアント側の暗号化を実行し、暗号化に使用したキーと同じキーを使用してオブジェクトを復号します。これにより、Amazon EMR で Apache Spark、Apache Tez、Apache Hadoop MapReduce のようなフレームワークを簡単に活用できるようになり、ビッグデータ分析、ストリーム処理、機械学習、機密情報の ETL ワークロードを実行できるようになります。
取り上げるトピック
このラボでは、以下の方法のデモンストレーションを行います。
- Amazon S3 バケットを作成する
- AWS KMS を使用してキーを作成する
- セキュリティ設定を EMR に作成して AWS KMS のマネージドキーを使用したクライアント側の暗号化を有効にする
- AWS マネジメントコンソールを使用して AWS Elastic Map Reduce (EMR) クラスターを起動する
- AWS EMR File System (EMRFS) を使用して S3 との間でオブジェクトの読み書きを行う
- EMR の出力データを Amazon S3 から直接確認する
技術知識の前提条件
このラボを修了するには、Hadoop と Hadoop File System (HDFS) の基本的な知識が必要です。
Linux サーバー管理に関する基本的な知識があり、Linux コマンドラインツールを使用できることも必要です。
その他の AWS のサービス
このラボに必要でない AWS のサービスは、このラボにアクセスしている間、IAM ポリシーによって無効にされています。さらに、このラボで使用されるサービスの機能はラボに必要なものに限定されており、場合によってはラボの設計の観点から意図的にさらに制限されています。このラボガイドに指定されていないサービスを使用したりアクションを実行したりすると、エラーが発生することがあります。
Amazon EMR とは
Amazon EMR は、大量のデータを迅速かつコスト効率の良い方法で簡単に処理するためのウェブサービスです。Amazon EMR では、動的にスケーラブルな Amazon EC2 インスタンス間で大量のデータを配信および処理するために、簡単で迅速かつコスト効率の良いマネージド型の Hadoop フレームワークを提供することにより、ビッグデータの処理を簡略化します。また、Apache Spark や Presto などの一般的な他の分散フレームワークを Amazon EMR で実行したり、Amazon S3 や Amazon DynamoDB などの他の AWS データストア内でデータを操作したりできます。Amazon EMR では、ログ分析、ウェブインデックス作成、データウェアハウス、機械学習、財務分析、科学シミュレーション、バイオインフォマティクスなど、ビッグデータのユースケースを安全かつ信頼性の高い方法で処理できます。
EMRFS とは
EMRFS は、通常のファイルを Amazon EMR から Amazon S3 に直接読み書きするために使用される HDFS の実装です。EMRFS では、Hadoop で使用するために Amazon S3 に永続的なデータを保存できるようにしながら、さらに Amazon S3 のサーバー側の暗号化、書き込み後の読み取りの整合性、リストの整合性といった機能も提供します。
AWS KMS とは
AWS Key Management Service (KMS) は、データの暗号化に使用する暗号化キーを簡単に作成および管理できるマネージドサービスで、キーのセキュリティ保護に Hardware Security Modules (HSM) を使用します。AWS Key Management Service は他のいくつかの AWS のサービスと統合されており、それらのサービスで保存するデータを保護できます。また AWS Key Management Service は AWS CloudTrail とも統合されており、すべてのキーの使用ログを表示できるため、規制およびコンプライアンス準拠に役立ちます。
Amazon S3 とは
Amazon Simple Storage Service (Amazon S3) では、安全で耐久性の高い、非常にスケーラブルなクラウドストレージを開発者や IT チームに提供しています。Amazon S3 は、シンプルなウェブサービスインターフェイスを使用した使いやすいオブジェクトストレージであり、ウェブのどこからでも必要な量のデータを保存および取得できます。Amazon S3 では、使用したストレージの分しか料金は発生しません。AWS クラウドにおいて、Amazon S3 は、Amazon EMR を使用したビッグデータ分析向けの大規模データを保存するために実装するデータレイクとして有力な候補です。
Amazon EMR のセキュリティ設定とは
セキュリティ設定を使用すると、保管時のデータ、転送中のデータ、またはその両方を暗号化できます。各セキュリティ設定は、クラスターの設定オブジェクトではなく Amazon EMR に保存されるため、クラスターを作成するときはいつでも設定を再利用して暗号化設定を指定できます。