概觀
Amazon Aurora 是專為雲端建置的 MySQL 和 PostgreSQL 相容關聯式資料庫引擎。Aurora 完全由 Amazon Relational Database Service (RDS) 管理,可自動化硬體佈建、資料庫設定、修補程式和備份等耗時的管理任務。Aurora 建立在專屬的現代化分散式儲存系統上。所有資料均分散在三個不同的 AWS 可用區域,有數百個儲存節點,每個區域有兩個副本。Aurora MySQL 和 PostgreSQL 相容資料庫引擎是專為充分利用快速的分散式儲存所自訂。
根據預設,查詢會將所有掃描的資料放到 Aurora 叢集內的單一頭節點,並在該處執行所有查詢處理。若要進一步改善效能,您可以啟用平行查詢這個最佳化功能,讓 Aurora 委派或將部分 I/O 和資料密集型陳述式運算推送到儲存節點。Aurora 平行查詢非常適合需要快速陳述式效能的分析工作負載,以處理含有新資料的大型資料表。這類工作負載本質上通常是可操作的。
在此實驗室中,您將探討把平行查詢套用到陳述式的方式和時機。您也將學習如何確保將平行查詢套用到可提供最大效益之處。
目標
完成此實驗室之後,您將能夠:
- 了解平行查詢可為工作負載提供哪些效益
- 了解平行查詢可為大型資料集提供哪些效益
- 判斷可觸發平行查詢的一些情況
先決條件
要使用本實驗室練習,需要符合以下條件:
- 存取執行 Microsoft Windows、macOS X 或 Linux (Ubuntu、SuSE 或 Red Hat) 且配備 Wi-Fi 的筆記型電腦。
- 注意:您可以使用 iPad 或平板電腦裝置來存取實驗室主控台中的這些指示。
- 網際網路瀏覽器,例如 Chrome、Firefox 或 IE9 以上版本。
- 注意:不支援舊版 Internet Explorer。
- SSH 用戶端,例如 PuTTY。
技術知識先決條件
若要順利完成此實驗室,您應該:
- 熟悉 MySQL 資料庫語法和操作
所需時間
此實驗室需要 60 分鐘的時間才能完成。
此實驗室未使用的 AWS 服務
實驗室環境會停用此實驗室未使用的 AWS 服務。此外,此實驗室可使用的服務功能僅限於實驗室所需的功能。存取其他服務或執行此實驗室指南以外的動作時,將會發生錯誤。
實驗室環境
此實驗室環境由單一叢集中的兩個 Aurora 資料庫執行個體組成。執行個體的大小不同,並已預先載入相同的範例資料集。該環境還包括用於存取資料庫執行個體的 Amazon Elastic Compute Cloud (Amazon EC2) 執行個體,以及已預先設定小工具的 Amazon CloudWatch 儀表板。
下圖是環境的網路圖:
五年的美國飛行資料,大約 3 千萬筆記錄,由運輸統計局航空公司資訊處編製而成,已為您預先載入。在此實驗室中,您將探索多個受益於平行查詢的陳述式。為了更了解平行查詢對伺服器負載的影響,您將檢驗 CloudWatch 儀表板上顯示的緩衝區使用率、結果時間和指標圖。
此實驗室使用的資料集是由運輸統計局航空公司資訊處所編製的美國航空公司預定和實際的抵達和出發時間 (1987 年至 2019 年),可在以下網址取得:https://www.transtats.bts.gov/DatabaseInfo.asp?DB_ID=120&DB_URL=Mode_ID=1&Mode_Desc=Aviation&Subject_ID2=0。