Serverless Data Processing with Dataflow: Develop Pipelines en Español

Overview

En esta segunda parte de la serie de cursos sobre Dataflow, analizaremos en profundidad el desarrollo de canalizaciones con el SDK de Beam. Comenzaremos con un repaso de los conceptos de Apache Beam. A continuación, analizaremos el procesamiento de datos de transmisión con ventanas, marcas de agua y activadores. Luego, revisaremos las opciones de fuentes y receptores en sus canalizaciones, los esquemas para expresar datos estructurados y cómo realizar transformaciones con estado mediante las API de State y de Timer. Después, revisaremos las prácticas recomendadas que ayudan a maximizar el rendimiento de las canalizaciones. Al final del curso, presentaremos SQL y Dataframes para representar su lógica empresarial en Beam y cómo desarrollar canalizaciones de forma iterativa con notebooks de Beam.

Syllabus

Introducción

En este módulo, se presenta el curso y su descripción

Revisión de conceptos de Beam

Revise los conceptos principales de Apache Beam y cómo aplicarlos para escribir sus propias canalizaciones de procesamiento de datos.

Ventanas, marcas de agua y activadores

En este módulo, aprenderá a procesar datos en transmisiones con Dataflow. Para ello, debe conocer tres conceptos principales: cómo agrupar datos en ventanas, la importancia de las marcas de agua para saber cuándo la ventana está lista para producir resultados, y cómo puede controlar cuándo y cuántas veces los emitirá la ventana.

Fuentes y receptores

En este módulo, aprenderá acerca de las características de las fuentes y los receptores en Google Cloud Dataflow. En el módulo hay algunos ejemplos de E/S de Text, E/S de File, E/S de BigQuery, E/S de PubSub, E/S de KafKa, E/S de BigTable, E/S de Avro y DoFn divisible. En el módulo también se indican algunas funciones útiles asociadas a cada E/S.

Esquemas

En este módulo, se presentarán los esquemas, que les proporcionan a los desarrolladores una manera de expresar datos estructurados en sus canalizaciones de Beam.

Estado y Temporizadores

Este módulo abarca Estado y Temporizadores, dos funciones potentes que puede usar en su DoFn para implementar transformaciones con estado.

Prácticas Recomendadas

En este módulo, analizaremos las prácticas recomendadas y revisaremos patrones comunes que maximizan el rendimiento de sus canalizaciones de Dataflow.

Dataflow SQL y DataFrames

En este módulo, se mencionan dos API nuevas para representar su lógica empresarial en Beam: SQL y Dataframes.

Notebooks de Beam

Este módulo abarcará notebooks de Beam, una interfaz para desarrolladores de Python a fin de realizar incorporaciones en el SDK de Beam y desarrollar sus canalizaciones iterativamente en un entorno de notebooks Jupyter.