概览
Amazon Aurora 是专为云而构建的关系数据库引擎,同时兼容 MySQL 和 PostgreSQL。Aurora 由 Amazon Relational Database Service (RDS) 完全托管,而 RDS 可以自动执行各种耗时的管理任务,例如硬件预置以及数据库设置、修补和备份。Aurora 基于一个专门构建的现代分布式存储系统。所有数据都分布在三个不同的 AWS 可用区中,跨越数百个存储节点,每个可用区都有两个副本。同时兼容 MySQL 和 PostgreSQL 的 Aurora 数据库引擎已自定义为利用快速分布式存储。
默认情况下,查询会将所有扫描的数据并置到 Aurora 集群中的单个头节点,并在那里执行所有查询处理。为了进一步提高性能,您可以启用并行查询,Aurora 通过这一优化功能将数据密集型语句的 I/O 和计算委托给或向下推送到存储节点。Aurora 并行查询可能非常适合那些需要针对包含新数据的大型表快速执行语句的分析工作负载。这类工作负载在本质上通常是可操作的。
在本实验中,您将调查如何以及何时将并行查询应用于语句。您还将了解如何确保在最有利的情况下应用并行查询。
目标
在完成本实验后,您将能够:
- 了解并行查询如何使您的工作负载受益
- 了解并行查询对大型数据集的好处
- 确定触发并行查询的一些情况
先决条件
要完成本实验,您需要:
- 配有运行 Microsoft Windows、MacOS X 或 Linux(Ubuntu、SuSE 或 Red Hat)且可以连接 Wi-Fi 的笔记本电脑。
- 注意:您可以使用 iPad 或平板电脑在实验控制台中查看这些说明。
- 互联网浏览器,例如 Chrome、Firefox 或 IE9+。
- 注意:不支持早期版本的 Internet Explorer。
- 一个 SSH 客户端,例如 PuTTY。
技术知识先决条件
要想成功完成本实验,您应该熟悉:
- 熟悉 MySQL 数据库的语法和操作
时长
完成本实验需要 60 分钟。
本实验中未使用的 AWS 服务
本实验中未使用的 AWS 服务已在实验环境中禁用。此外,本实验中所用服务的功能仅限于本实验所需的功能。如果访问其他服务或执行本实验指南中未描述的操作,可能会出现错误。
实验环境
本实验环境由单个集群中的两个 Aurora 数据库实例组成。这些实例的大小不同,预加载了相同的示例数据集。本环境还包含用于访问数据库实例的 Amazon Elastic Compute Cloud (Amazon EC2) 实例和带有预配置小组件的 Amazon CloudWatch 控制面板。
下图是该环境的网络图:
已为您预加载由美国交通统计局下属的航空公司信息办公室编制的美国五年的航班数据,约 3,000 万条记录。在本实验中,您将探索受益于并行查询的几个语句。为了更好地了解并行查询对服务器负载有怎样的影响,您将查看 CloudWatch 控制面板上显示的缓冲区利用率、结果时间和指标图表。
本实验使用的数据集由美国交通统计局下属的航空公司信息办公室编制,包括美国航空公司预计和实际到达与起飞时间(1987 年-2019 年),来源网站为 https://www.transtats.bts.gov/DatabaseInfo.asp?DB_ID=120&DB_URL=Mode_ID=1&Mode_Desc=Aviation&Subject_ID2=0。