實驗室概觀
在此實驗室中,您會部署功能完整的 Hadoop 叢集,並做好能在幾分鐘內分析日誌資料的準備。您要從啟動 Amazon EMR 叢集開始,接著使用 HiveQL 指令碼來處理儲存在 Amazon Simple Storage Service (Amazon S3) 儲存貯體中的範例日誌資料。HiveQL 是一種類 SQL 的指令碼語言,用於資料倉儲和分析。您之後可以使用類似的設定來分析您自己的日誌檔。
此實驗室是以 Analyze Big Data with Hadoop 專案為依據。
目標
此實驗室結束後,您將能夠執行下列動作:
- 使用 Amazon EMR 啟動功能完整的 Hadoop 叢集。
- 定義結構,並為儲存在 Amazon S3 的範例日誌資料建立資料表。
- 使用 HiveQL 指令碼分析資料,並將結果寫入回 Amazon S3。
- 在您的電腦上下載並檢視結果。
- 連線到 Hive CLI 並執行 HiveQL 查詢指令碼以檢視結果。
技術知識先決條件
建議熟悉 Hadoop,但針對此實驗室並非必要。此外也建議熟悉 Amazon S3 和 Amazon EC2 金鑰對的基本知識,但針對此實驗室並非必要。
持續時間
此實驗室需要大約 60 分鐘的時間來完成。
圖示圖例
此實驗室使用各種圖示提醒您注意不同類型的指示和注意事項。下列清單說明各圖示的用途:
- 命令:您必須執行的命令。
- 預期輸出:您可使用的範例輸出,以驗證命令的輸出內容或經過編輯的檔案。
- 注意:提示、秘訣或重要指引。
- 了解詳情:具體指明可取得更多資訊的位置。
- 提醒:有特殊影響或重要性的資訊 (如果您錯過此資訊,不會對設備或資料造成太大的問題,但可能會導致需要重複特定步驟)。
- 檔案內容:顯示您需要執行的指令碼或檔案內容的程式碼區塊,這是為您預先建立的內容。
- 知識檢測:您將有機會檢測您的知識並測試您學到的內容。
- 答案:問題或挑戰的答案。
- 重新整理:您可能需要重新整理 Web 瀏覽器頁面或清單,以顯示新資訊的時機。