实验概览
在本实验中,您将使用 Amazon EMR 分析来自 Google Books 的 Ngrams。n-gram 是来自给定文本或语音序列的 n 个项目的连续序列。以下面这句话为例:
The sun rises in the East and sets in the West.
这句话包含以下多个 2-gram:
- “the sun”
- “in the”
- “sets in”
3-gram 的示例为 “sets in the”,4-gram 的示例为 “rises in the east”。
N-gram 用于预测某些单词出现在序列中的概率。这对于在网页和手机上提供打字建议很有用。
本实验中的步骤与数据科学家在分析一组新数据时执行的活动非常相似,其中包括加载数据、检查数据属性和编写 SQL 来分析数据。在本实验中,您将对存储在 Amazon S3 中的公开可用 Ngrams 数据运行 SQL 以获得有趣的见解。
目标
完成本实验后,您将能够:
- 创建运行 Hive 的 Amazon EMR 集群
- 使用 Hive 语句基于存储在 Amazon S3 中的 Google Ngram 输入数据创建表
- 运行 Hive 查询以深入查看和分析数据
时长
完成本实验大约需要 45 分钟*。
图标说明
本实验中使用了不同图标,以提醒大家注意各种类型的说明和备注。下面的列表解释了每个图标的用途:
- 命令:您必须运行的命令。
- 预期输出:您可以用来验证命令或已编辑文件输出的示例输出。
- 备注:一项提示、技巧或重要指导。
- 警告:提醒这是一项不可逆转且可能造成命令或进程失败的操作(包括提醒配置在完成后将无法更改)。
- 知识考核:可以检查您的知识掌握情况和测试您学到的知识。
- 任务完成:本实验的总结或结论要点。