Exploring Google Ngrams with Amazon EMR and Hive (Simplified Chinese)

实验概览

在本实验中，您将使用 Amazon EMR 分析来自 Google Books 的 Ngrams。n-gram 是来自给定文本或语音序列的 n 个项目的连续序列。以下面这句话为例：

The sun rises in the East and sets in the West.

这句话包含以下多个 2-gram：

3-gram 的示例为 “sets in the”，4-gram 的示例为 “rises in the east”。

N-gram 用于预测某些单词出现在序列中的概率。这对于在网页和手机上提供打字建议很有用。

本实验中的步骤与数据科学家在分析一组新数据时执行的活动非常相似，其中包括加载数据、检查数据属性和编写 SQL 来分析数据。在本实验中，您将对存储在 Amazon S3 中的公开可用 Ngrams 数据运行 SQL 以获得有趣的见解。

完成本实验后，您将能够：

完成本实验大约需要 45 分钟*。

本实验中使用了不同图标，以提醒大家注意各种类型的说明和备注。下面的列表解释了每个图标的用途：

Reviews

Start your review of Exploring Google Ngrams with Amazon EMR and Hive (Simplified Chinese)