개요
Amazon Redshift는 페타바이트 규모의 빠른 완전관리형 데이터 웨어하우스 서비스로서, 간단하고 비용 효율적으로 모든 데이터를 기존 비즈니스 인텔리전스(BI) 도구를 사용하여 분석할 수 있게 해 줍니다. 수백 기가바이트에서 페타바이트 이상의 데이터 집합에 최적화되어 있습니다. Amazon Redshift 클러스터가 대량 데이터를 분석할 수 있게 해준 발전 중 하나는 Amazon Redshift Spectrum입니다. 이 기능을 통해 Amazon Redshift는 Amazon Simple Storage Service(Amazon S3) 데이터 레이크에 저장된 방대한 데이터를 분석할 수 있습니다.
이 실습에서는 IMDb 데이터 집합을 사용합니다. IMDb는 전 세계 영화 팬들을 위한 플랫폼입니다. 영화, TV 프로그램, 비디오 게임 및 스트리밍 콘텐츠 관련 정보의 온라인 데이터베이스이며, 출연진, 제작진, 줄거리 요약, 관련 정보, 팬 및 평론가 리뷰, 평점 등이 포함되어 있습니다.
목표
이 실습을 완료하면 다음을 수행할 수 있습니다.
- Amazon Redshift용 SQL Workbench 사용
- 데이터 로드 및 압축 작업을 위한 COPY 명령 이해
- 데이터 가져오기에 매니페스트 파일 사용
- UNLOAD 명령을 사용하여 데이터 아카이브
- ANALYZE 및 VACUUM 작업 사용
- Amazon Redshift 콘솔을 사용하여 쿼리 통계 탐색
수강 전 권장 사항
이 실습에는 다음이 필요합니다.
- Microsoft Windows, macOS X 또는 Linux(Ubuntu, SUSE, Red Hat)가 실행되는 Wi-Fi 지원 노트북
- 참고: 이 지침은 iPad 또는 태블릿 디바이스를 사용해 실습 콘솔에서 확인할 수 있습니다.
- 인터넷 브라우저(예: Chrome, Firefox 또는 IE9 이상)
- 참고: 이전 버전의 Internet Explorer는 지원되지 않습니다.
- PuTTY와 같은 SSH 클라이언트
필수 기술 지식
이 실습을 성공적으로 완료하려면 다음 내용에 익숙해야 합니다.
-
SQL 스테이트먼트 및 기본 작업에 대한 지식
-
AWS 관리 콘솔에 대한 지식
-
서버에 연결하기 위한 원격 연결 클라이언트(예: 대부분의 Windows 버전에 포함된 원격 데스크톱 연결)
참고: macOS X를 실행 중인 경우 App Store에서 Microsoft 원격 데스크톱 연결 앱을 다운로드할 수 있습니다. Mac용 RDP 클라이언트를 참조하십시오.
이 실습에서는 AWS 관리 콘솔 및 SQL Workbench를 사용하여 다양한 테이블 레이아웃 및 스키마 설계를 실험합니다. COPY 명령을 사용하여 데이터 로드 작업을 수행합니다.
소요 시간
이 실습을 완료하는 데 60분 정도가 소요됩니다.
이 실습에서 사용되지 않는 AWS 서비스
이 실습에서 사용하지 않는 AWS 서비스는 실습 환경에서 사용 중지됩니다. 또한 이 실습에 사용되는 서비스의 기능은 실습에 필요한 작업으로 제한됩니다. 다른 서비스에 액세스하거나 이 실습 가이드에서 제공하는 것 이외의 작업을 수행하는 경우 오류가 발생할 수 있습니다.