實驗室概觀
在本實驗室中,您將使用 AWS KMS 管理金鑰,針對使用 EMR 檔案系統 (EMRFS) 的 Amazon S3 之中儲存的資料,啟用用戶端靜態加密。您將使用 Amazon EMR 建立安全組態,使用您指定的 AWS KMS 管理金鑰以用戶端加密來加密寫入 S3 的物件,並以用於加密物件的相同金鑰來解密物件。這將允許您更輕鬆地利用 Amazon EMR 中的 Apache Spark、Apache Tez 和 Apache Hadoop MapReduce 等架構,對機密資料執行大數據分析、串流處理、機器學習和 ETL 工作負載。
涵蓋的主題
此實驗室將示範如何:
- 建立 Amazon S3 儲存貯體
- 使用 AWS KMS 建立金鑰
- 在 EMR 中建立安全組態,以使用 AWS KMS 管理金鑰啟用用戶端加密
- 使用 AWS 管理主控台啟動 AWS Elastic Map Reduce (EMR) 叢集
- 使用 AWS EMR 檔案系統 (EMRFS) 在 S3 讀取和寫入物件
- 直接從 Amazon S3 檢視 EMR 輸出資料
技術知識先決條件
若要順利完成此實驗室,你應該熟悉 Hadoop 和 Hadoop 檔案系統 (HDFS) 的基礎知識。
您也應該熟悉基本的 Linux 伺服器管理,並能順利使用 Linux 命令列工具。
其他 AWS 服務
在您存取此實驗室期間,IAM 政策會停用實驗室不需要的 AWS 服務。此外,這個實驗室所用服務的功能會受限於實驗室所需,且在某些情況下,更會因實驗室蓄意的設計而進一步受限。您應預期在存取其他服務或執行此實驗室指南以外的動作時,將會發生錯誤。
什麼是 Amazon EMR?
Amazon EMR 是一種 Web 服務,讓您能夠輕鬆快速且經濟實惠地處理大量資料。Amazon EMR 簡化了大數據處理,提供受管的 Hadoop 架構,讓您以輕鬆、快速且節省成本的方式,在各個可動態擴展的 Amazon EC2 執行個體之間發佈和處理大量資料。您也可以執行其他常用的分散式架構 (例如 Amazon EMR 中的 Apache Spark 和 Presto),並與其他 AWS 資料存放區 (例如 Amazon S3 和 Amazon DynamoDB) 中的資料進行互動。Amazon EMR 能夠安全可靠地處理大數據使用案例,包括日誌分析、Web 索引、資料倉儲、機器學習、財務分析、科學模擬和生物資訊學。
什麼是 EMRFS?
EMRFS 是 HDFS 的實作,用於從 Amazon EMR 直接將一般檔案讀取和寫入至 Amazon S3。EMRFS 提供將持久性資料存放在 Amazon S3 的方便性,可讓您與 Hadoop 搭配使用,同時提供 Amazon S3 伺服器端加密、先寫後讀一致性及清單一致性這類功能。
什麼是 AWS KMS?
AWS Key Management Service (KMS) 是一種受管服務,讓您能夠輕鬆建立和控制加密資料的加密金鑰,並使用硬體安全模組 (HSM) 保護金鑰安全。AWS Key Management Service 與多個其他 AWS 服務整合,可協助您保護經由這些服務存放的資料。AWS Key Management Service 還與 AWS CloudTrail 整合,提供您所有金鑰使用狀況的記錄日誌,協助您符合法規和合規要求。
什麼是 Amazon S3?
Amazon Simple Storage Service (Amazon S3) 為開發人員和 IT 小組提供安全、耐久、可高度擴展的雲端儲存。Amazon S3 是易於使用的物件儲存,且具備一個簡單的 Web 服務界面,可讓您在 Web 上隨處存放和擷取任意數量的資料。使用 Amazon S3 時,您只需按實際使用的儲存容量付費。在 AWS 雲端上,Amazon S3 是資料湖實作的理想選擇,以便存放大規模資料,並使用 Amazon EMR 進行大數據分析。
什麼是 Amazon EMR 中的安全組態?
您可以使用安全組態加密靜態資料、傳輸中的資料,或兩者都加密。每個安全組態都存放在 Amazon EMR 中,而不是叢集組態物件,因此無論叢集何時建立,您都能輕鬆重複使用組態指定加密設定。