실습 개요
이 실습에서는 Amazon EMR을 사용하여 Google Books의 Ngram을 분석합니다. n-gram은 지정된 텍스트나 음성 시퀀스에서 인접한 n개 항목의 시퀀스입니다. 다음과 같은 문장을 예로 들어 보겠습니다.
The sun rises in the East and sets in the West.
이 문장에는 다음과 같은 여러 개의 2-gram이 있습니다.
- “the sun”
- “in the”
- “sets in”
그리고 샘플 3-gram은 “sets in the”, 샘플 4-gram은 "rises in the east"입니다.
문장에서 특정 단어가 나올 확률을 예측하는 데 사용되는 N-gram은 웹 페이지와 휴대폰에서 입력 제안 항목을 제공할 때 유용합니다.
이 실습의 단계는 Data Scientist가 새 데이터 집합 분석 시 수행하는 작업과 매우 비슷합니다. 이러한 작업으로는 데이터 로드, 데이터 속성 검사, 데이터 분석용 SQL 작성 등이 있습니다. 이 실습에서는 Amazon S3에 저장되어 있는 공개 Ngram 데이터를 대상으로 SQL을 실행하여 주요 인사이트를 파악합니다.
목표
이 실습을 마치면 다음을 수행할 수 있습니다.
- Hive를 실행하는 Amazon EMR 클러스터 생성
- Hive 스테이트먼트를 사용하여 Amazon S3에 저장된 Google Ngram 입력 데이터에서 테이블 생성
- Hive 쿼리를 실행하여 데이터 드릴다운 및 분석
소요 시간
이 실습은 완료하는 데 45분 정도가 소요됩니다.
아이콘 설명
이 실습에서는 다양한 유형의 지침 및 참고 사항에 대한 주의를 환기하기 위해 다양한 아이콘이 사용됩니다. 다음은 각 아이콘의 용도에 대한 설명입니다.
- 명령: 실행해야 하는 명령입니다.
- 예상 출력: 명령 또는 편집된 파일의 출력을 확인하는 데 사용할 수 있는 샘플 출력입니다.
- 참고: 힌트, 팁 또는 중요한 지침입니다.
- 경고: 되돌릴 수 없으며 명령 또는 프로세스의 실패에 영향을 줄 수 있는 작업입니다(설정한 후 변경할 수 없는 구성에 대한 경고 포함).
- 지식 확인: 이해도를 확인하고 학습한 내용을 테스트할 기회입니다.
- 태스크 완료: 실습의 결론 또는 요점입니다.