实验概览
您的同事外出度假,因此由您负责组织当天的数据工程实践。接替他们的工作,探索 Amazon Web Services (AWS) 上的多个托管式数据移动选项。考虑架构模式、性能和成本优化以及安全最佳实践,使您的同事重返工作岗位后感动您所做的这一切!
您的同事为您提供了一个沙盒环境,这样您就可以在他们外出时试验和测试概念验证 (POC)。您已决定探索您认为能帮助您的小型公司成功扩张到新城市的数据。您将使用美国国家海洋和大气管理局 (NOAA) 数据集为您提供历来的每日气象数据。您相信,这些数据可以帮助您的公司决定何时在您要扩张到的城市贮备夏季(而不是冬季)商品。对于 POC,您将关注温度和降水量指标。
本实验使用 NOAA 当日全球地表摘要 (GSOD) 数据集(于 2022 年 8 月 5 日获取自 https://registry.opendata.aws/noaa-gsod)。此数据集由来自世界各地 9000 多个气象站的每日气象测量值(温度、风速、湿度、大气压等)组成。数据最初是由国家气候数据中心收集的。由于受实验时间所限,本实验中使用的数据集已缩减,仅包含完整数据集提供的部分年份的数据。
涵盖的主题
本实验结束时,您将能够:
- 创建 AWS Glue 爬网程序。
- 在 AWS Glue Studio 中创建并运行任务。
- 了解运行 AWS Glue 爬网程序和 AWS Glue Studio 任务所需的权限。
- 使用 Amazon Athena 查询 AWS Glue 数据目录。
时长
完成本实验需要 60 分钟。
先决条件
本实验需要以下配置:
- 配有运行 Microsoft Windows、macOS X 或 Linux(Ubuntu、SuSE 或 Red Hat)并可以连接 Wi-Fi 的电脑
- 电脑上装有现代化互联网浏览器,例如 Google Chrome 或 Mozilla Firefox