實驗室概觀
在本實驗室中,您將使用 Amazon EMR 分析 Google Books 的 Ngrams。n-gram 是指定文字或語音序列中的 n 項目的連續序列。例如,思考這句話:
The sun rises in the East and sets in the West.
這句話包含多個 2-grams,包括:
- 「the sun」
- 「in the」
- 「sets in」
一個範本 3-gram 是「sets in the」,而一個範本 4-gram 是「rises in the east」。
N-grams 是用於預測某些字詞在序列中出現的可能性。這對於在網頁和行動電話上提供輸入建議非常實用。
此實驗室中的步驟與資料科學家在分析一組新資料時所執行的活動非常相似。這包括載入資料、檢查資料屬性和編寫 SQL 以分析資料。在本實驗室中,您將針對儲存在 Amazon S3 中公開可用的 Ngrams 資料執行 SQL,以獲得有趣的洞察。
目標
完成此實驗室之後,您將能夠執行以下操作:
- 建立執行 Hive 的 Amazon EMR 叢集
- 使用 Hive 陳述式,以從儲存在 Amazon S3 中的 Google Ngram 輸入資料來建立表格
- 執行 Hive 查詢以深入了解和分析資料
持續時間
此實驗室需要大約 45 分鐘*時間才能完成。
圖示圖例
此實驗室使用各種圖示提醒您注意不同類型的指示和注意事項。下列清單說明各圖示的用途:
- 命令:您必須執行的命令。
- 預期輸出:您可使用的範例輸出,以驗證命令的輸出內容或經過編輯的檔案。
- 注意:提示、秘訣或重要指引。
- 警告:不可逆且可能造成命令或程序失敗的動作 (包含設定後無法變更的警告)。
- 知識檢測:您將有機會檢測您的知識並測試您學到的內容。
- 任務完成:實驗室中的結論或摘要重點。