Overview
Save Big on Coursera Plus. 7,000+ courses at $160 off. Limited Time Only!
通常、データ パイプラインは、「抽出、読み込み(EL)」、「抽出、読み込み、変換(ELT)」、「抽出、変換、読み込み(ETL)」のいずれかの考え方に分類できます。このコースでは、バッチデータではどの枠組みを、どのような場合に使用するのかについて説明します。本コースではさらに、BigQuery、Dataproc 上での Spark の実行、Cloud Data Fusion のパイプラインのグラフ、Dataflow でのサーバーレスのデータ処理など、データ変換用の複数の Google Cloud テクノロジーについて説明します。また、Qwiklabs を使用して Google Cloud でデータ パイプラインのコンポーネントを構築する実践演習を行います。
Syllabus
- はじめに
- このモジュールでは、コースおよびアジェンダについて紹介します。
- バッチデータ パイプラインの構築の概要
- このモジュールでは、EL、ELT、ETL について、また何をどのタイミングで使用するかなど、データ読み込みに関するさまざまな方法を確認します。
- Dataproc での Spark の実行
- このモジュールでは、Dataproc での Hadoop の実行、Cloud Storage の活用、Dataproc ジョブの最適化の方法を示します。
- Dataflow を使用したサーバーレスのデータ処理
- このモジュールでは、Dataflow を使用してデータ処理パイプラインを構築する方法について説明します。
- Cloud Data Fusion と Cloud Composer を使用したデータ パイプラインの管理
- このモジュールでは、Cloud Data Fusion と Cloud Composer を使用したデータ パイプラインの管理方法について説明します。
- コースのまとめ
- コースのまとめ
- コースのリソース
- すべてのモジュールへの PDF リンク
Taught by
Google Cloud Training