实验概览

在本实验中，您将部署一个功能齐全的 Hadoop 集群，几分钟内即可准备好分析日志数据。首先启动 Amazon EMR 集群，然后使用 HiveQL 脚本处理存储在 Amazon Simple Storage Service (Amazon S3) 存储桶中的示例日志数据。HiveQL 是一种类似 SQL 的脚本语言，用于数据仓库和分析。然后，您可以使用类似的设置来分析您自己的日志文件。

本实验基于Analyze Big Data with Hadoop 项目。

目标

完成本实验后，您将能够：

使用 Amazon EMR 启动功能齐全的 Hadoop 集群。
定义架构并为存储在 Amazon S3 中的示例日志数据创建一个表。
使用 HiveQL 脚本分析数据，并将结果写回 Amazon S3。
在计算机上下载并查看结果。
连接到 Hive CLI 并运行 HiveQL 查询脚本以查看结果。

技术性知识先决条件

为完成本实验，我们建议您熟悉 Hadoop，但这并不是必需的。此外，还建议您对 Amazon S3 和 Amazon EC2 密钥对有基本的了解，但这也不是必需的。

时长

完成本实验大约需要 60 分钟。

图标键

本实验中使用了不同图标，以提醒大家注意各种类型的说明和备注。下面的列表解释了每个图标的用途：

命令：您必须运行的命令。
预期输出：您可以用来验证命令或已编辑文件输出的示例输出。
注意：一项提示、技巧或重要指导。
了解详情：可以找到更多信息的位置。
提醒：提示特别相关或重要的信息（不查看该信息并不会损坏设备或数据，但可能导致需要重复某些步骤）。
文件内容：一种代码块，显示了已为您预先创建的脚本或文件的内容，您需要运行该脚本或文件。
知识考核：可以检查您的知识掌握情况和测试您学到的知识。
答案：针对某个问题或难点的解答。
刷新：您可能需要刷新 Web 浏览器页面或列表才能看到新信息。
复制编辑：此时可将命令、脚本或其他文本复制到文本编辑器（以便在其中编辑特定的变量），相比直接在命令行或终端中编辑，这可能更加简单。
任务完成：本实验的总结或结论要点。

Reviews

Start your review of Analyze Big Data with Hadoop (Simplified Chinese)

实验概览

目标

技术性知识先决条件

时长

图标键

Tags

Analyze Big Data with Hadoop (Traditional Chinese)

Analyze Big Data with Hadoop (Traditional Chinese)

Using Open Data with Amazon S3 (Simplified Chinese)

My Bucket, My Rules (Simplified Chinese)

Moving to AWS Lambda (Simplified Chinese)

Hosting WordPress Using Amazon S3 (Simplified Chinese)

From Data to Insights: 10 Best Data Analysis Courses for 2024

Never Stop Learning.