Información general
Amazon Aurora es un motor de base de datos relacional compatible con MySQL y PostgreSQL creado para la nube. Aurora está completamente administrado por Amazon Relational Database Service (RDS), que automatiza las tareas administrativas demandantes, como el aprovisionamiento de hardware, la configuración de bases de datos, la aplicación de parches y las copias de seguridad. Aurora se basa en un moderno sistema de almacenamiento distribuido con diseño personalizado. Todos los datos se distribuyen en tres zonas de disponibilidad de AWS diferentes, en cientos de nodos de almacenamiento, con dos copias por zona. Los motores de base de datos compatibles con PostgreSQL y Aurora MySQL están personalizados para aprovechar el almacenamiento distribuido con rapidez.
De forma predeterminada, una consulta ubica conjuntamente todos los datos escaneados en un único nodo director dentro del clúster de Aurora y realiza todo el procesamiento de consultas allí. Para mejorar aún más el rendimiento, puede habilitar las consultas en paralelo, una optimización en la que Aurora delega o empuja parte de la E/S y el cómputo de los enunciados con uso intensivo de datos de los nodos de almacenamiento. La consulta paralela de Aurora puede ser una buena opción para las cargas de trabajo analíticas que requieren un rendimiento de instrucciones rápido en las tablas grandes con los datos nuevos. A menudo, las cargas de trabajo de este tipo son de naturaleza operativa.
En este laboratorio, investigará cómo y cuándo se aplica una consulta paralela a una instrucción. También aprenderá a garantizar la aplicación de las consultas en paralelo para obtener el máximo beneficio.
Objetivos
Después de completar este laboratorio, podrá realizar lo siguiente:
- comprender cómo la consulta paralela puede beneficiar a su carga de trabajo
- comprender las ventajas de las consultas paralelas para conjuntos de datos grandes
- definir algunas situaciones que desencadenan las consultas en paralelo
Requisitos previos
Los requisitos de este laboratorio son los siguientes:
- tener acceso a una computadora portátil con wifi y Microsoft Windows, macOS X o Linux (Ubuntu, SuSE o Red Hat)
- Nota: Puede utilizar un iPad o una tableta para acceder a estas indicaciones en la consola del laboratorio.
- utilizar un navegador de Internet, como Chrome, Firefox o IE9+
- Nota: No se admiten las versiones anteriores de Internet Explorer.
- tener un cliente de SSH, como PuTTY
Conocimientos técnicos requeridos
Para completar correctamente este laboratorio, debe estar familiarizado con lo siguiente:
- familiaridad con la operación y la sintaxis de las bases de datos de MySQL
Duración
Se requieren 60 minutos para completar este laboratorio.
Servicios de AWS que no se utilizan en este laboratorio
En el entorno de laboratorio, los servicios de AWS que no se utilizan en este laboratorio están desactivados. Además, las capacidades de los servicios que se utilizan en este laboratorio se limitan a lo que este requiere. Es probable que reciba mensajes de error cuando acceda a otros servicios o cuando lleve a cabo acciones que no consten en la guía de este laboratorio.
Entorno del laboratorio
Este entorno de laboratorio consta de dos instancias de base de datos de Aurora en un clúster. Las instancias tienen diferentes tamaños y están precargadas con el mismo conjunto de datos de ejemplo. El entorno también incluye una instancia de Amazon Elastic Compute Cloud (Amazon EC2) para acceder a las instancias de base de datos y a un panel de Amazon CloudWatch con widgets preconfigurados.
La siguiente imagen es un diagrama de red del entorno:
Se han cargado previamente para usted los datos de los vuelos de Estados Unidos recopilados en cinco años (aproximadamente 30 millones de registros) por Office of Airline Information, Bureau of Transportation Statistics. En este laboratorio, explorará varias instrucciones que se benefician de las consultas paralelas. Para comprender mejor cómo afecta la consulta paralela a la carga del servidor, examinará la utilización del búfer, los tiempos de resultados y los gráficos de métricas que se muestran en un panel de CloudWatch.
Los conjuntos de datos que se utilizan en este laboratorio fueron compilados por Office of Airline Information, Bureau of Transportation Statistics y surgen de los horarios de arribo y partida programados y reales de las empresas transportistas de EE. UU. (1987-2019). La información está disponible en https://www.transtats.bts.gov/DatabaseInfo.asp?DB_ID=120&DB_URL=Mode_ID=1&Mode_Desc=Aviation&Subject_ID2=0.