概览
Amazon Redshift 是一项快速、完全托管的 PB 级数据仓库服务,它使得使用现有商业智能 (BI) 工具对您的所有数据进行高效分析变得简单而实惠。它针对从几百 GB 到 1PB 或更大的数据集进行了优化。使 Amazon Redshift 集群能够分析这么多数据的一大进步得以实现的功臣就是 Amazon Redshift Spectrum。此功能允许 Amazon Redshift 分析存储在 Amazon Simple Storage Service (Amazon S3) 数据湖中的大量数据。
本实验使用 IMDb 数据集。IMDb 是全球电影爱好者的首选平台。它是与电影、电视节目、视频游戏和流媒体内容有关的在线信息数据库,包括演员、制作组、情节摘要、专业知识、粉丝和评论家评论以及评分。
目标
完成本实验后,您将能够:
- 将 SQL Workbench 用于 Amazon Redshift
- 了解用于加载数据和处理压缩的 COPY 命令
- 使用清单文件进行数据导入
- 使用 UNLOAD 命令归档数据
- 使用 ANALYZE 和 VACUUM 操作
- 使用 Amazon Redshift 控制台浏览查询统计数据
先决条件
要完成本实验,您需要:
- 配有运行 Microsoft Windows、MacOS X 或 Linux(Ubuntu、SuSE 或 Red Hat)且可以连接 Wi-Fi 的笔记本电脑。
- 注意:您可以使用 iPad 或平板电脑在实验控制台中查看这些说明。
- 互联网浏览器,例如 Chrome、Firefox 或 IE9+。
- 注意:不支持早期版本的 Internet Explorer。
- 一个 SSH 客户端,例如 PuTTY。
技术知识先决条件
要想成功完成本实验,您应该熟悉:
-
熟悉 SQL 语句和基本操作
-
熟悉 AWS 管理控制台
-
用于连接到服务器的远程连接客户端(例如远程桌面连接,大多数 Windows 版本均包含)
注意:如果您运行的是 macOS X,则可以从 App Store 下载 Microsoft 远程桌面应用程序。请参阅适用于 Mac 的 RDP 客户端。
在本实验中,您将使用 AWS 管理控制台和 SQL Workbench 尝试不同的表布局和模式设计。您将使用 COPY 命令进行数据加载操作。
时长
完成本实验需要 60 分钟。
本实验中未使用的 AWS 服务
本实验中未使用的 AWS 服务已在实验环境中禁用。此外,本实验中所用服务的功能仅限于本实验所需的功能。如果访问其他服务或执行本实验指南中未规定的操作,可能会出现错误。