Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Amazon Web Services

Exploring Google Ngrams with Amazon EMR and Hive (Indonesian)

Amazon Web Services and Amazon via AWS Skill Builder

Overview

Gambaran umum lab

Di lab ini, Anda akan menggunakan Amazon EMR untuk menganalisis Ngram dari Google Books. Sebuahn-gram adalah urutan item n yang berdekatan dengan urutan teks atau percakapan yang diberikan. Sebagai contoh, perhatikan kalimat ini:

The sun rises in the East and sets in the West.

Kalimat ini mencakup beberapa 2-gram, termasuk:

  • “the sun”
  • “in the”
  • “sets in”

Contoh 3-gram adalah “sets in the” dan contoh 4-gram adalah “rises in the east”.

N-grams digunakan untuk memprediksi kemungkinan suatu kata tertentu yang muncul secara berurutan. Ini dapat berguna dalam memberikan saran pengetikan di halaman web dan ponsel.

Langkah-langkah pada lab ini sangat mirip dengan aktivitas yang akan dilakukan Data Scientist ketika menganalisis sebuah rangkaian data baru. Aktivitas ini termasuk memuat data, menguji atribut data, dan menulis SQL untuk menganalisis data. Di lab ini, Anda akan menjalankan SQL terhadap data Ngram publik yang tersimpan di Amazon S3 untuk menambah wawasan yang menarik.

Tujuan

Setelah menyelesaikan lab ini, Anda akan mampu:

  • Membuat klaster Amazon EMR yang menjalankan Hive
  • Menggunakan pernyataan Hive untuk membuat tabel dari data input Google Ngram yang disimpan di Amazon S3
  • Menjalankan kueri Hive untuk menelusuri dan menganalisis data

Durasi

Dibutuhkan sekitar 45 menit* untuk menyelesaikan lab ini.

Kunci ikon

Beragam ikon digunakan di seluruh lab ini untuk menarik perhatian kepada berbagai jenis petunjuk dan catatan. Daftar berikut menjelaskan tujuan setiap ikon:

  • Perintah: Perintah yang harus Anda jalankan.
  • Output yang diharapkan: Output sampel yang dapat Anda gunakan untuk memverifikasi output dari perintah atau file yang diedit.
  • Catatan: Petunjuk, tip, atau panduan penting.
  • PERINGATAN: Tindakan yang tidak dapat dibatalkan dan dapat berpotensi memengaruhi kegagalan perintah atau proses (termasuk peringatan tentang konfigurasi yang tidak dapat diubah setelah dibuat).
  • Tes pengetahuan: Kesempatan untuk memeriksa dan menguji pengetahuan yang telah Anda pelajari.
  • Tugas selesai: Poin kesimpulan atau ringkasan dalam lab.

Reviews

Start your review of Exploring Google Ngrams with Amazon EMR and Hive (Indonesian)

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.