실습 개요

이 실습에서는 Amazon EMR을 사용하여 Google Books의 Ngram을 분석합니다. n-gram은 지정된 텍스트나 음성 시퀀스에서 인접한 n개 항목의 시퀀스입니다. 다음과 같은 문장을 예로 들어 보겠습니다.

The sun rises in the East and sets in the West.

이 문장에는 다음과 같은 여러 개의 2-gram이 있습니다.

“the sun”
“in the”
“sets in”

그리고 샘플 3-gram은 “sets in the”, 샘플 4-gram은 "rises in the east"입니다.

문장에서 특정 단어가 나올 확률을 예측하는 데 사용되는 N-gram은 웹 페이지와 휴대폰에서 입력 제안 항목을 제공할 때 유용합니다.

이 실습의 단계는 Data Scientist가 새 데이터 집합 분석 시 수행하는 작업과 매우 비슷합니다. 이러한 작업으로는 데이터 로드, 데이터 속성 검사, 데이터 분석용 SQL 작성 등이 있습니다. 이 실습에서는 Amazon S3에 저장되어 있는 공개 Ngram 데이터를 대상으로 SQL을 실행하여 주요 인사이트를 파악합니다.

목표

이 실습을 마치면 다음을 수행할 수 있습니다.

Hive를 실행하는 Amazon EMR 클러스터 생성
Hive 스테이트먼트를 사용하여 Amazon S3에 저장된 Google Ngram 입력 데이터에서 테이블 생성
Hive 쿼리를 실행하여 데이터 드릴다운 및 분석

소요 시간

이 실습은 완료하는 데 45분 정도가 소요됩니다.

아이콘 설명

이 실습에서는 다양한 유형의 지침 및 참고 사항에 대한 주의를 환기하기 위해 다양한 아이콘이 사용됩니다. 다음은 각 아이콘의 용도에 대한 설명입니다.

명령: 실행해야 하는 명령입니다.
예상 출력: 명령 또는 편집된 파일의 출력을 확인하는 데 사용할 수 있는 샘플 출력입니다.
참고: 힌트, 팁 또는 중요한 지침입니다.
경고: 되돌릴 수 없으며 명령 또는 프로세스의 실패에 영향을 줄 수 있는 작업입니다(설정한 후 변경할 수 없는 구성에 대한 경고 포함).
지식 확인: 이해도를 확인하고 학습한 내용을 테스트할 기회입니다.
태스크 완료: 실습의 결론 또는 요점입니다.

Reviews

Start your review of Exploring Google Ngrams with Amazon EMR and Hive (Korean)

실습 개요

목표

소요 시간

아이콘 설명

Tags

Analyze Big Data with Hadoop (Korean)

Working with Amazon Redshift (Korean)

Working with Amazon Redshift (Korean)

Analyze Big Data with Hadoop (Korean)

Managing Applications at Scale with Amazon ECS (Korean)

Using Open Data with Amazon S3 (Korean)

From Data to Insights: 10 Best Data Analysis Courses for 2024

Never Stop Learning.