이 과정에서는 Google Cloud의 데이터 엔지니어링, 데이터 엔지니어의 역할과 책임, 그리고 이러한 요소가 Google Cloud 제공 서비스와 어떻게 연결되는지에 대해 알아봅니다. 또한 데이터 엔지니어링 과제를 해결하는 방법에 대해서도 배우게 됩니다.
Overview
Syllabus
- 과정 소개
- 이 섹션에서는 Introduction to Data Engineering on Google Cloud 과정을 소개하고 과정의 구조와 목표에 대한 개요를 제공합니다.
- 데이터 엔지니어링 작업 및 구성요소
- 이 모듈에서는 데이터 엔지니어의 역할을 소개합니다. 데이터 소스와 싱크, 데이터 형식, Google Cloud의 스토리지 옵션, 메타데이터 관리, 그리고 Analytics Hub를 사용하여 조직 내외부의 데이터를 공유하는 방법과 같은 주요 개념을 다룹니다.
- 데이터 복제 및 마이그레이션
- 이 모듈에서는 Google Cloud에서의 데이터 복제 및 마이그레이션에 대한 개요를 제공합니다. 기본적인 아키텍처, 'gcloud' 명령줄 도구, Storage Transfer Service, Transfer Appliance, Datastream과 각각의 기능 및 사용 사례를 다룹니다.
- 추출 및 로드 데이터 파이프라인 패턴
- 이 모듈에서는 특히 BigQuery를 사용한 Google Cloud에서의 데이터 추출 및 로딩 프로세스를 중점적으로 다룹니다. 기본적인 추출 및 로딩 아키텍처, bq 명령줄 도구, BigQuery Data Transfer Service, 그리고 기존 추출-로드 패턴의 대안인 BigLake에 대한 내용을 다룹니다.
- 추출, 로드, 변환 데이터 파이프라인 패턴
- 이 모듈에서는 Google Cloud에서의 ELT(추출, 로드, 변환) 프로세스에 대한 개요를 제공합니다. 기본적인 ELT 아키텍처, 일반적인 ELT 파이프라인 예시, SQL 스크립팅 및 예약을 위한 BigQuery 기능, 그리고 Dataform의 기능과 사용 사례에 대한 내용을 다룹니다.
- 추출, 변환, 로드 데이터 파이프라인 패턴
- 이 모듈에서는 Google Cloud에서의 ETL(추출, 변환, 로드) 프로세스에 대한 개요를 제공합니다. 기본적인 ETL 아키텍처, GUI 도구, 일괄 및 스트리밍 데이터 처리 옵션(Dataproc, Dataproc Serverless), 데이터 파이프라인에서 Bigtable의 역할에 대한 내용을 다룹니다.
- 자동화 기법
- 이 모듈에서는 파이프라인을 위한 Google Cloud의 자동화 패턴과 옵션을 중점적으로 다룹니다. Cloud Scheduler, Workflows, Cloud Composer, Cloud Run Functions, Eventarc와 같은 다양한 도구 및 서비스와 각각의 기능 및 자동화 사용 사례에 대한 내용을 다룹니다.
- 과정 요약
- 이 마지막 섹션에서는 본 과정에서 살펴본 내용을 복습하고 클라우드 학습 여정을 계속 진행할 다음 단계에 대해 설명합니다.
Taught by
Google Cloud Training