Gambaran umum lab
Di lab ini, Anda akan menggunakan Amazon EMR untuk menganalisis Ngram dari Google Books. Sebuahn-gram adalah urutan item n yang berdekatan dengan urutan teks atau percakapan yang diberikan. Sebagai contoh, perhatikan kalimat ini:
The sun rises in the East and sets in the West.
Kalimat ini mencakup beberapa 2-gram, termasuk:
- “the sun”
- “in the”
- “sets in”
Contoh 3-gram adalah “sets in the” dan contoh 4-gram adalah “rises in the east”.
N-grams digunakan untuk memprediksi kemungkinan suatu kata tertentu yang muncul secara berurutan. Ini dapat berguna dalam memberikan saran pengetikan di halaman web dan ponsel.
Langkah-langkah pada lab ini sangat mirip dengan aktivitas yang akan dilakukan Data Scientist ketika menganalisis sebuah rangkaian data baru. Aktivitas ini termasuk memuat data, menguji atribut data, dan menulis SQL untuk menganalisis data. Di lab ini, Anda akan menjalankan SQL terhadap data Ngram publik yang tersimpan di Amazon S3 untuk menambah wawasan yang menarik.
Tujuan
Setelah menyelesaikan lab ini, Anda akan mampu:
- Membuat klaster Amazon EMR yang menjalankan Hive
- Menggunakan pernyataan Hive untuk membuat tabel dari data input Google Ngram yang disimpan di Amazon S3
- Menjalankan kueri Hive untuk menelusuri dan menganalisis data
Durasi
Dibutuhkan sekitar 45 menit* untuk menyelesaikan lab ini.
Kunci ikon
Beragam ikon digunakan di seluruh lab ini untuk menarik perhatian kepada berbagai jenis petunjuk dan catatan. Daftar berikut menjelaskan tujuan setiap ikon:
- Perintah: Perintah yang harus Anda jalankan.
- Output yang diharapkan: Output sampel yang dapat Anda gunakan untuk memverifikasi output dari perintah atau file yang diedit.
- Catatan: Petunjuk, tip, atau panduan penting.
- PERINGATAN: Tindakan yang tidak dapat dibatalkan dan dapat berpotensi memengaruhi kegagalan perintah atau proses (termasuk peringatan tentang konfigurasi yang tidak dapat diubah setelah dibuat).
- Tes pengetahuan: Kesempatan untuk memeriksa dan menguji pengetahuan yang telah Anda pelajari.
- Tugas selesai: Poin kesimpulan atau ringkasan dalam lab.