ラボの概要
このラボでは、完全に機能する Hadoop クラスターをデプロイし、ログデータの分析開始準備をわずか数分で整えます。まず Amazon EMR クラスターを起動し、HiveQL スクリプトを使用して、Amazon Simple Storage Service (Amazon S3) バケットに保存されているサンプルログデータを処理します。HiveQL はデータウェアハウジングや分析で使用する SQL に似たスクリプティング言語です。同様のセットアップを使用してご自身のログファイルを分析できます。
このラボは Analyze Big Data with Hadoop プロジェクトに基づいています。
目標
本ラボを修了すると、次のことができるようになります。
- Amazon EMR を使用して、完全に機能する Hadoop クラスターを起動する。
- スキーマを定義し、Amazon S3 に保存されているサンプルログデータのテーブルを作成する。
- HiveQL スクリプトを使用してデータを分析し、結果を Amazon S3 に書き返す。
- 結果をコンピュータにダウンロードして表示する。
- Hive CLI に接続して HiveQL のクエリスクリプトを実行し、結果を表示する。
技術知識の前提条件
Hadoop に精通している方が望ましいですが、このラボでは必須ではありません。Amazon S3 と Amazon EC2 のキーペアに関する基本的な知識があることが望ましいですが、必須ではありません。
所要時間
このラボの所要時間は約 60 分です。
アイコンキー
このラボでは、さまざまな種類の手順と注記への注意を促すため、各種アイコンが使用されています。以下のリストは、各アイコンの目的を説明したものです。
- コマンド: 実行する必要があるコマンドを表す。
- 想定される出力: 出力のサンプルであり、コマンドまたは編集済みファイルの出力を確認するときに使用する。
- 注意: ヒントや重要なガイダンスを表す。
- 詳細: 詳細情報が記載されている場所を示す。
- 警告: 特記事項または重要な情報を表す (この情報を読み忘れても、機器やデータに問題が発生するというわけではありませんが、特定のステップを繰り返す必要が生じる可能性があります)。
- ファイルの内容: 実行する必要のあるスクリプトまたはファイルの内容を示すコードブロック。事前に作成済み。
- ナレッジチェック: 知識を確認し、理解度をテストする。
- 解答: 質問や課題の解答
- 更新: ウェブブラウザのページやリストを更新して、新しい情報を表示する必要があることを示す。
- コピー編集: 特定の変数を編集する際に、コマンドラインまたはターミナルで直接編集するよりも、コマンド、スクリプト、その他のテキストをテキストエディタにコピーする方が簡単な場合に使用する。
- タスク完了: ラボのまとめや要点を示す。