概要
Amazon Redshift は、ペタバイトスケールの高速なフルマネージドデータウェアハウスサービスです。シンプルでコスト効率の良い方法で、すべてのデータを既存のビジネスインテリジェンス (BI) ツールで効率的に分析できます。数百ギガバイトから 1 ペタバイト以上のデータセット向けに最適化されています。Amazon Redshift クラスタがこれほど多くのデータを分析できるようになった進歩の 1 つとして、Amazon Redshift Spectrum があげられます。この機能により、Amazon Redshift では Amazon Simple Storage Service (Amazon S3) のデータレイクに保存された大量のデータを分析することができます。
このラボでは IMDb データセットを使用します。IMDb は、世界中の映画ファンによく使用されているプラットフォームです。映画、テレビ番組、ビデオゲーム、ストリーミングコンテンツに関連する情報のオンラインデータベースで、キャスト、制作クルー、あらすじ、トリビア、ファンと評論家によるレビュー、評価などを提供しています。
目標
このラボを修了すると、以下のことができるようになります。
- Amazon Redshift で SQL Workbench を使用する。
- データをロードして圧縮を処理するための COPY コマンドを理解する。
- マニフェストファイルを使用してデータをインポートする。
- UNLOAD コマンドを使用してデータをアーカイブする。
- ANALYZE オペレーションと VACUUM オペレーションを使用する。
- Amazon Redshift コンソールを使用してクエリの統計を調べる。
前提条件
このラボには以下が必要です。
- Microsoft Windows、macOS X、Linux (Ubuntu、SuSE、Red Hat) のいずれかが搭載されている Wi-Fi 対応ノートパソコンの利用環境
- <i class=“fas fa-sticky-note” style=“color:#ff6633”></i> 注意: iPad またはタブレット端末を使用して、ラボのコンソールの手順にアクセスできます。
- Chrome、Firefox、IE9 以降などのインターネットブラウザ
- <i class=“fas fa-sticky-note” style=“color:#ff6633”></i> 注意: これより前のバージョンの Internet Explorer はサポート対象外です。
- PuTTY などの SSH クライアント。
技術知識の前提条件
このラボを修了するには、以下に関する知識が必要です。
SQL ステートメントと基本的なオペレーション
AWS マネジメントコンソール
サーバーに接続するためのリモート接続クライアント (ほとんどの Windows バージョンに含まれるリモートデスクトップ接続など)
<i class=“fas fa-sticky-note” style=“color:#ff6633”></i> 注意: macOS X を実行している場合は、App Store から Microsoft リモートデスクトップアプリケーションをダウンロードできます。RDP Client for Mac を参照してください。
このラボでは、AWS マネジメントコンソールと SQL Workbench を使用して、異なるテーブルレイアウトとスキーマ設計を試します。データのロード操作には、COPY コマンドを使用します。
所要時間
このラボの所要時間は 60 分です。
このラボで使用しない AWS のサービス
ラボ環境では、このラボで使用しない AWS のサービスにはアクセスできません。また、このラボで使用する各種サービスの機能は、ラボで必要なものに制限されています。このラボガイドで指定されていないサービスを使用したりアクションを実行したりすると、エラーが発生することがあります。