Panoramica del laboratorio
In questo laboratorio procederai all’attivazione della crittografia dei dati inattivi lato client utilizzando la chiave gestita da AWS KMS per i dati memorizzati in Amazon S3 con EMR File System (EMRFS). Utilizzando Amazon EMR, creerai una configurazione di sicurezza per crittografare l’oggetto scritto su S3 con la crittografia lato client mediante la chiave gestita da AWS KMS specificata dall’utente e decrittare gli oggetti con la stessa chiave utilizzata per crittografarli. Ciò ti consentirà di sfruttare più facilmente framework come Apache Spark, Apache Tez e Apache Hadoop MapReduce su Amazon EMR per eseguire analisi dei Big Data, elaborazione streaming, Machine Learning e carichi di lavoro ETL su dati riservati.
Argomenti trattati
Il laboratorio mostrerà come:
- Creare un bucket Amazon S3
- Creare una chiave utilizzando il KMS AWS
- Creare una configurazione di sicurezza in EMR per abilitare la crittografia lato client utilizzando la chiave gestita da KMS AWS
- Avviare un cluster EMR (Elastic Map Reduce) AWS utilizzando Console di gestione AWS
- Leggere e scrivere oggetti da e verso S3 utilizzando AWS EMR File System (EMRFS)
- Visualizzare i dati di output EMR direttamente da Amazon S3
Competenze tecniche preliminari
Per completare con successo questo laboratorio, è necessario avere familiarità con le nozioni di base di Hadoop e Hadoop File System (HDFS).
Dovresti inoltre avere una buona conoscenza dell’amministrazione di base dei server Linux e saper usare gli strumenti Linux a riga di comando.
Altri servizi AWS
I servizi AWS diversi da quelli necessari per questo laboratorio sono disabilitati da IAM per la durata del tuo accesso al laboratorio stesso. Inoltre, le funzionalità dei servizi utilizzati nel laboratorio sono limitate allo stretto necessario. In alcuni casi, anzi, sono soggette a ulteriori restrizioni ai fini della riuscita del laboratorio stesso. Pertanto, se proverai ad accedere ad altri servizi o a eseguire operazioni al di fuori da quelle richieste dal laboratorio, riceverai messaggi di errore.
Cos’è Amazon EMR?
Amazon EMR è un servizio Web che consente di elaborare in modo rapido e conveniente grandi quantità di dati. Amazon EMR semplifica l’elaborazione di Big Data grazie a un framework Hadoop gestito che consente di distribuire grandi quantità di dati su un numero dinamico di istanze Amazon EC2, rendendo l’operazione più semplice, più rapida e più economica. In Amazon EMR puoi anche eseguire altri framework distribuiti comuni, quali Apache Spark e Presto, nonché interagire con i dati contenuti in altri datastore AWS come Amazon S3 e Amazon DynamoDB. Amazon EMR è una soluzione sicura e affidabile per la gestione di Big Data, ideale per una vasta gamma di casi di utilizzo: analisi di log, indicizzazione Web, data warehousing, Machine Learning, analisi finanziarie, simulazioni scientifiche e ricerche bioinformatiche.
Che cos’è EMRFS?
EMRFS è un’implementazione di HDFS utilizzata per leggere e scrivere file normali da EMR direttamente su Amazon S3. EMRFS offre il vantaggio di archiviare dati persistenti in Amazon S3; per l’utilizzo con Hadoop fornendo, al contempo, funzionalità quali la crittografia dei dati lato server Amazon S3, consistenza lettura dopo scrittura e negli elenchi.
Che cos’è KMS AWS?
AWS Key Management Service (KMS) è un servizio gestito che semplifica la creazione e il controllo delle chiavi di crittografia usate per crittografare i dati e utilizza moduli di sicurezza hardware o HSM (Hardware Security Module) per proteggere le chiavi. AWS Key Management Service si integra con numerosi altri servizi AWS per permetterti di proteggere i dati memorizzati con tali servizi. AWS Key Management Service è inoltre integrato con AWS CloudTrail, in modo da fornirti i registri dell’utilizzo di tutte le chiavi e permetterti di soddisfare i requisiti normativi e di conformità .
Che cos’è Amazon S3?
Amazon Simple Storage Service (Amazon S3) offre a sviluppatori e team IT una soluzione di storage nel cloud sicura, durevole e altamente scalabile. Amazon S3 è una soluzione di storage di oggetti semplice da utilizzare, grazie alla semplice interfaccia web service che consente di archiviare e recuperare una quantità qualsiasi di dati in qualunque punto sul Web. Con Amazon S3, i prezzi dello storage vengono calcolati solo in base all’uso effettivo. In AWS Cloud, Amazon S3 è un buon candidato per un’implementazione dei data lake per memorizzare dati su larga scala per l’analisi dei Big Data utilizzando Amazon EMR.
Che cos’è una configurazione di sicurezza in Amazon EMR?
Puoi usare una configurazione di sicurezza per crittografare i dati inattivi, in transito oppure entrambi. Ogni configurazione di sicurezza è memorizzata in Amazon EMR anziché in oggetti di configurazione cluster, in modo da poter facilmente riutilizzare una configurazione per specificare le impostazioni di crittografia ogni volta che viene creato un cluster.