实验概览
在本实验中,您将部署一个功能齐全的 Hadoop 集群,几分钟内即可准备好分析日志数据。首先启动 Amazon EMR 集群,然后使用 HiveQL 脚本处理存储在 Amazon Simple Storage Service (Amazon S3) 存储桶中的示例日志数据。HiveQL 是一种类似 SQL 的脚本语言,用于数据仓库和分析。然后,您可以使用类似的设置来分析您自己的日志文件。
本实验基于Analyze Big Data with Hadoop 项目。
目标
完成本实验后,您将能够:
- 使用 Amazon EMR 启动功能齐全的 Hadoop 集群。
- 定义架构并为存储在 Amazon S3 中的示例日志数据创建一个表。
- 使用 HiveQL 脚本分析数据,并将结果写回 Amazon S3。
- 在计算机上下载并查看结果。
- 连接到 Hive CLI 并运行 HiveQL 查询脚本以查看结果。
技术性知识先决条件
为完成本实验,我们建议您熟悉 Hadoop,但这并不是必需的。此外,还建议您对 Amazon S3 和 Amazon EC2 密钥对有基本的了解,但这也不是必需的。
时长
完成本实验大约需要 60 分钟。
图标键
本实验中使用了不同图标,以提醒大家注意各种类型的说明和备注。下面的列表解释了每个图标的用途:
- 命令:您必须运行的命令。
- 预期输出:您可以用来验证命令或已编辑文件输出的示例输出。
- 注意:一项提示、技巧或重要指导。
- 了解详情:可以找到更多信息的位置。
- 提醒:提示特别相关或重要的信息(不查看该信息并不会损坏设备或数据,但可能导致需要重复某些步骤)。
- 文件内容:一种代码块,显示了已为您预先创建的脚本或文件的内容,您需要运行该脚本或文件。
- 知识考核:可以检查您的知识掌握情况和测试您学到的知识。
- 答案:针对某个问题或难点的解答。
- 刷新:您可能需要刷新 Web 浏览器页面或列表才能看到新信息。
- 复制编辑:此时可将命令、脚本或其他文本复制到文本编辑器(以便在其中编辑特定的变量),相比直接在命令行或终端中编辑,这可能更加简单。
- 任务完成:本实验的总结或结论要点。