실습 개요
이 실습에서는 완전히 작동하는 Hadoop 클러스터를 몇 분 만에 배포해 로그 데이터를 분석할 수 있습니다. 먼저 Amazon EMR 클러스터를 시작한 다음 HiveQL 스크립트를 사용하여 Amazon Simple Storage Service(Amazon S3) 버킷에 저장된 샘플 로그 데이터를 처리합니다. HiveQL은 데이터 웨어하우징 및 분석을 위한 SQL 유사 스크립팅 언어입니다. 그런 다음 비슷한 설정을 사용하여 자체 로그 파일을 분석할 수 있습니다.
이 실습은 Analyze Big Data with Hadoop 프로젝트를 기반으로 합니다.
목표
본 실습을 마치면 다음을 할 수 있습니다.
- Amazon EMR을 사용하여 완전히 작동하는 Hadoop 클러스터를 시작합니다.
- Amazon S3에 저장된 샘플 로그 데이터에 대한 스키마를 정의하고 테이블을 생성합니다.
- HiveQL 스크립트를 사용하여 데이터를 분석하고 결과를 Amazon S3에 기록합니다.
- 결과를 컴퓨터에 다운로드 및 확인합니다.
- Hive CLI에 연결하고 HiveQL 쿼리 스크립트를 실행하여 결과를 확인합니다.
기술 지식 사전 조건
Hadoop에 대해 알고 있는 것이 좋지만 이번 실습에서는 필요하지 않습니다. Amazon S3 및 Amazon EC2 키 페어에 대해 기본적으로 알고 있는 것이 좋지만 이번 실습에서는 필요하지 않습니다.
소요 시간
이 실습을 완료하려면 약 60분이 소요됩니다.
아이콘 설명
이 실습에서는 다양한 유형의 지침 및 참고 사항에 대한 주의를 환기하기 위해 다양한 아이콘이 사용됩니다. 다음은 각 아이콘의 용도에 대한 설명입니다.
- 명령: 실행해야 하는 명령입니다.
- 예상 출력: 명령 또는 편집된 파일의 출력을 확인하는 데 사용할 수 있는 샘플 출력입니다.
- 참고: 힌트, 팁 또는 중요한 지침입니다.
- 자세히 알아보기: 자세한 정보를 찾을 수 있는 위치를 나타냅니다.
- 주의: 특별한 관심이 필요한 중요한 정보입니다(놓쳤다고 해도 장비 또는 데이터에 문제가 발생할 정도로 중요하지는 않지만 특정 단계를 반복해야 할 수 있음).
- 파일 내용: 사용자를 위해 미리 생성되었으며 실행해야 하는 스크립트 또는 파일의 내용을 표시하는 코드 블록입니다.
- 지식 확인: 이해도를 확인하고 학습한 내용을 테스트할 기회입니다.
- 정답: 문제 또는 도전 과제의 해답입니다.
- 새로 고침: 웹 브라우저 페이지 또는 목록을 새로 고침하여 새 정보를 표시해야 하는 경우입니다.
- 복사 편집: 명령, 스크립트 또는 기타 텍스트를 텍스트 편집기에 복사하여 특정 변수를 편집하는 것이 명령줄 또는 터미널에서 직접 편집하는 것보다 간편합니다.
- 과제 완료: 실습의 결론 또는 요점입니다.