실습 개요
이 실습에서는 EMRFS(EMR 파일 시스템)로 Amazon S3에 저장된 데이터에 AWS KMS 관리형 키를 사용하여 클라이언트 측 미사용 데이터 암호화를 활성화합니다. Amazon EMR을 사용하면 사용자가 지정한 AWS KMS 관리형 키를 사용한 클라이언트 측 암호화로 S3에 기록되는 객체를 암호화하고, 암호화에 사용된 키와 동일한 키로 객체를 복호화하는 보안 구성을 생성할 수 있습니다. 이를 통해 Apache Spark, Apache Tez, Amazon EMR의 Apache 하둡 MapReduce와 같은 프레임워크를 보다 쉽게 활용하여 기밀 데이터에 대한 빅 데이터 분석, 스트림 처리, 기계 학습, ETL 워크로드를 실행할 수 있습니다.
다룰 주제
이 실습에서는 다음을 수행하는 방법을 설명합니다.
- Amazon S3 버킷 생성
- AWS KMS를 사용하여 키 생성
- EMR에서 보안 구성을 생성하여 AWS KMS 관리형 키를 사용하는 클라이언트 측 암호화를 활성화합니다.
- AWS 관리 콘솔을 사용하여 AWS Elastic MapReduce(EMR) 클러스터 시작
- AWS EMRFS(EMR 파일 시스템)를 사용하여 S3에서 객체 읽기 및 쓰기
- Amazon S3에서 직접 EMR 출력 데이터 보기
필수 기술 지식
이 실습을 성공적으로 완료하려면 하둡 및 HDFS(하둡 파일 시스템)의 기본 사항에 익숙해야 합니다.
또한 기본적인 Linux 서버 관리와 Linux 명령줄 도구 사용에 익숙해야 합니다.
기타 AWS 서비스
IAM 정책에 따라 이 실습에 액세스하는 시간에는 실습에 필요한 서비스 외에 다른 AWS 서비스는 비활성화됩니다. 또한 본 실습에서 사용하는 서비스의 기능은 실습에서 필요한 수준으로 제한되며, 일부의 경우에는 실습 설계의 의도에 따라 추가로 제한될 수 있습니다. 다른 서비스에 액세스하거나 실습 안내서에서 제공하는 것 외의 작업을 수행하는 경우 오류가 발생할 수 있습니다.
Amazon EMR이란 무엇입니까?
Amazon EMR은 대량의 데이터를 쉽고 빠르고 경제적으로 처리할 수 있도록 지원하는 웹 서비스입니다. Amazon EMR은 빅 데이터 프로세싱을 간소화하여 동적으로 확장할 수 있는 Amazon EC2 인스턴스에 대량의 데이터를 쉽고, 빠르고, 비용 효율적으로 배포하고 처리할 수 있는 관리 하둡 프레임워크를 제공합니다. 또한 Amazon EMR에서 Apache Spark 및 Presto와 같이 널리 사용되는 다른 분산 프레임워크를 실행하고 Amazon S3 및 Amazon DynamoDB와 같은 기타 AWS 데이터 스토어의 데이터와 상호 작용할 수도 있습니다. Amazon EMR은 로그 분석, 웹 인덱싱, 데이터 웨어하우징, 기계 학습, 금융 분석, 과학적 시뮬레이션, 생물정보학을 비롯하여 빅 데이터 사용 사례를 안전하고 안정적으로 처리합니다.
EMRFS란 무엇입니까?
EMRFS는 일반 파일을 Amazon EMR에서 Amazon S3로 직접 읽고 쓰는 데 사용되는 HDFS를 구현한 것입니다. EMRFS는 하둡에서 사용하도록 Amazon S3에 영구 데이터를 저장하게 해 줄 뿐 아니라 Amazon S3 서버 측 암호화, 쓰기 후 읽기 일관성, 목록 일관성 등의 기능을 제공합니다.
AWS KMS란 무엇입니까?
AWS Key Management Service(KMS)는 데이터를 암호화할 때 사용하는 암호화 키를 쉽게 생성하고 제어할 수 있는 관리형 서비스로서 HSM(Hardware Security Module)을 사용하여 키를 안전하게 보호합니다. AWS Key Management Service는 여러 다른 AWS 서비스와 통합되어 이러한 서비스로 저장하는 데이터를 보호해 줍니다. AWS Key Management Service는 AWS CloudTrail과도 통합되어 모든 키 사용에 관한 로그를 제공함으로써 각종 규제 및 규정 준수 요구 사항을 충족할 수 있게 지원합니다.
Amazon S3란 무엇입니까?
Amazon Simple Storage Service(Amazon S3)는 개발자와 IT 팀에게 안전하고, 안정적이며, 확장성이 뛰어난 클라우드 스토리지를 제공합니다. Amazon S3는 간단한 웹 서비스 인터페이스를 통해 웹 어디서나 원하는 양의 데이터를 저장 및 검색할 수 있는 사용이 간편한 객체 스토리지입니다. Amazon S3에서는 실제로 사용한 스토리지에 대해서만 비용을 지불합니다. AWS 클라우드에서 Amazon S3는 Amazon EMR을 사용하여 빅 데이터 분석을 위한 대규모 데이터를 저장하는 데이터 레이크를 구현하기에 적합합니다.
Amazon EMR의 보안 구성이란 무엇입니까?
보안 구성을 사용하여 미사용 데이터, 전송 중 데이터 또는 이 두 가지 데이터를 모두 암호화할 수 있습니다. 각 보안 구성은 클러스터 구성 객체 대신 Amazon EMR에 저장되므로, 클러스터가 생성될 때마다 구성을 쉽게 재사용하여 데이터 암호화 설정을 지정할 수 있습니다.