ラボの概要
このラボでは、Amazon EMR を使用して Google ブックスの Ngram を分析します。n-gram とは、連続したテキストまたは音声に含まれる、連続した n 個の単語のまとまりを指します。例えば、次の文について考えてみましょう。
The sun rises in the East and sets in the West.
この文には、次の複数の 2-grams が含まれています。
- “the sun”
- “in the”
- “sets in”
例えば、3-gram であれば “sets in the” であり、4-gram なら “rises in the east” です。
N-gram は、1 つの文字列の中に特定の単語が現れる確率を予測するために使用されます。この技術によって、ウェブページや携帯電話で入力予測機能を提供することができます。
このラボのステップは、データサイエンティストが新しいデータセットを分析するときに行うアクティビティによく似ています。これには、データのロード、データ属性の確認、データ分析に用いる SQL の記述が含まれます。このラボでは、Amazon S3 に保存され、一般公開されている Ngram データに対して SQL を実行し、興味深いインサイトを取得します。
目標
このラボを修了すると、次のことができるようになります。
- Hive を実行する Amazon EMR クラスターを作成する
- Hive ステートメントを使用して、Amazon S3 に保存されている Google Ngram 入力データからテーブルを作成する
- Hive クエリを実行してデータのドリルダウンと分析を行う
所要時間
このラボの所要時間は約 45 分*です。
アイコンキー
このラボでは、さまざまな種類の手順と注記への注意を促すため、各種アイコンが使用されています。以下のリストは、各アイコンの目的を説明したものです。
- コマンド: 実行する必要があるコマンドを表す。
- 想定される出力: 出力のサンプルであり、コマンドまたは編集済みファイルの出力を確認するときに使用する。
- 注意: ヒントや重要なガイダンスを表す。
- 警告: コマンドやプロセスの失敗に影響を与える可能性のある、元に戻せないアクション (一度設定したら変更できない設定の警告も含む)。
- ナレッジチェック: 知識を確認し、理解度をテストする。
- タスク完了: ラボのまとめや要点を表す。