Serverless Data Processing with Dataflow: Develop Pipelines em Português Brasileiro

Overview

Save Big on Coursera Plus. 7,000+ courses at $160 off. Limited Time Only!

Grab it

In this second installment of the Dataflow course series, we are going to be diving deeper on developing pipelines using the Beam SDK. We start with a review of Apache Beam concepts. Next, we discuss processing streaming data using windows, watermarks and triggers. We then cover options for sources and sinks in your pipelines, schemas to express your structured data, and how to do stateful transformations using State and Timer APIs. We move onto reviewing best practices that help maximize your pipeline performance. Towards the end of the course, we introduce SQL and Dataframes to represent your business logic in Beam and how to iteratively develop pipelines using Beam notebooks.

Syllabus

Introduçao

Este módulo é uma introdução ao curso e ao conteúdo dele.

Resumo dos conceitos do Beam

Confira os principais conceitos do Apache Beam e como aplicá-los na criação dos seus próprios pipelines de processamento de dados.

Janelas, gatilhos de marcas d'água

Neste módulo, você aprenderá a processar dados em streaming com o Dataflow. Para fazer isso, você precisa entender três conceitos principais: como agrupar dados em janelas, a importância das marcas d’água para saber quando a janela está pronta para oferecer resultados e como definir quantas vezes a janela emitirá respostas e a frequência desse processo.

Origens e coletores

Neste módulo, você aprenderá sobre as origens e os coletores no Google Cloud Dataflow. Mostraremos alguns exemplos de DoFn divisível e de E/S de texto, arquivos, BigQuery, Pub/Sub, Kafka, BigTable e Avro. Além disso, mostraremos alguns recursos úteis associados a cada E/S.

Esquemas

Neste módulo, apresentaremos esquemas que são usados por desenvolvedores para expressar dados estruturados nos pipelines do Beam.

Estado e Timers

Neste módulo, falaremos sobre estado e timers, dois recursos avançados que você pode usar na DoFn para implementar transformações com estado.

Práticas Recomendadas

Neste módulo, falaremos sobre práticas recomendadas e padrões comuns que maximizam o desempenho dos seus pipelines do Dataflow.

Dataflow SQL e DataFrames

Neste módulo, apresentaremos duas novas APIs que representam sua lógica de negócios no Beam: SQL e DataFrames.

Notebooks do Beam

Este módulo é sobre os notebooks do Beam, uma interface para que os desenvolvedores que usam Python comecem a adotar o SDK da plataforma. Isso pode ser feito para criar pipelines de forma iterativa em um ambiente de notebooks do Jupyter.