실습 개요
휴가를 간 동료 대신 조직의 데이터 엔지니어링 실무를 맡게 되었습니다. 이들의 입장이 되어서 Amazon Web Services(AWS)의 데이터 관리에 대한 다양한 옵션을 살펴보십시오. 아키텍처 패턴, 성능 및 비용 최적화, 보안 모범 사례를 고려하여 사무실로 복귀한 동료에게 감동을 주십시오!
동료가 자신이 자리를 비운 동안 POC(개념 증명)를 실험하고 테스트해 볼 수 있게 샌드박스 환경을 주고 갔습니다. 귀하의 작은 회사가 새로운 도시로 입지를 넓히는 데 도움이 될 것 같은 데이터를 살펴보기로 했습니다. 일별 기상 데이터 기록을 제공하는 미국 국립해양대기국(NOAA) 데이터 집합을 사용하기로 합니다. 귀하는 회사가 진출하려는 도시에서 여름(겨울 아님) 품목을 비축해 두어야 하는 시기를 결정하는 데 이 데이터가 도움이 될 거라 생각합니다. POC의 경우 기온 및 강수량 지표에 집중합니다.
이 실습에서는 2022년 8월 5일에 https://registry.opendata.aws/noaa-gsod에서 액세스한 NOAA Global Surface Summary of Day (GSOD) 데이터 집합을 사용합니다. 이 데이터 집합은 전 세계 9000개가 넘는 기상 관측소의 일별 기상 측정값(기온, 풍속, 습도, 기압 등)의 모음입니다. 미국 국립 기후 데이터 센터에서 처음 수집한 데이터입니다. 실습 시간 제한에 따라 전체 데이터 집합에 있는 연도별 하위 집합을 포함하기 위해 이 실습에서 사용된 데이터 집합을 축소했습니다.
이 실습에서 다루는 주제
본 실습을 마치면 다음을 할 수 있습니다.
- AWS Glue 크롤러 생성하기
- AWS Glue Studio에서 작업 생성 및 실행
- AWS Glue 크롤러 및 AWS Glue Studio 작업을 실행하는 데 필요한 권한 살펴보기
- Amazon Athena를 사용하여 AWS Glue Data Catalog 쿼리
소요 시간
이 실습을 완료하려면 60분이 소요됩니다.
수강 전 권장 사항
이 실습을 진행하려면 다음 항목이 필요합니다.
- Microsoft Windows, macOS X 또는 Linux(Ubuntu, SuSE, Red Hat)가 실행되는 컴퓨터에 대한 액세스
- Google Chrome 또는 Mozilla Firefox와 같은 최신 인터넷 브라우저