Amazon SageMaker membantu data scientist mempersiapkan, membangun, melatih, men-deploy, dan memantau model machine learning (ML). SageMaker menyatukan serangkaian kemampuan yang luas, termasuk akses ke pustaka pelatihan terdistribusi, model open source, dan model fondasi (FM). Kursus ini memperkenalkan data scientist berpengalaman pada tantangan dalam membangun model bahasa dan opsi penyimpanan, ingestion, dan pelatihan yang berbeda untuk memproses korpus teks besar. Kursus ini juga membahas tantangan dalam men-deploy model besar dan menyesuaikan model dasar untuk tugas kecerdasan buatan generatif (AI generatif) menggunakan Amazon SageMaker Jumpstart.
- Tingkat kursus: Lanjutan
- Durasi: 5.5 jam
Catatan: Kursus ini memiliki transkrip/subtitle lokal. Narasi disampaikan dalam bahasa Inggris. Untuk menampilkan subtitle, klik tombol CC di sudut kanan bawah pemutar.
Aktivitas
Kursus ini mencakup instruksi teks, grafik ilustratif, pertanyaan tes pengetahuan, dan demonstrasi video lab yang dapat Anda jalankan di akun Amazon Web Services (AWS) Anda sendiri.
Tujuan kursus
Setelah menyelesaikan kursus ini, data scientist dapat dengan percaya diri membangun, melatih, dan menyetel model bahasa berkinerja tinggi di AWS menggunakan SageMaker.
Dalam kursus ini, Anda akan belajar melakukan hal berikut:
- Menerapkan praktik terbaik untuk menyimpan dan menyerap sejumlah besar data teks untuk mendukung pelatihan terdistribusi
- Jelajahi paralelisme data dan pustaka paralelisme model untuk mendukung pelatihan terdistribusi di SageMaker
- Jelaskan opsi yang tersedia di SageMaker untuk meningkatkan kinerja pelatihan, seperti Amazon SageMaker Training Compiler dan Elastic Fabric Adapter (EFA)
- Jelajahi teknik pengoptimalan model bahasa besar (LLM) untuk deployment model yang efektif
- Menunjukkan cara menyetel model dasar yang tersedia di SageMaker Jumpstart
Peserta yang dituju
Kursus ini ditujukan untuk role berikut:
- Data scientist
- Teknisi ML
Prasyarat
Peserta kursus ini disarankan memiliki:
- Lebih dari 1 tahun pengalaman dengan pemrosesan bahasa alami (NLP)
- Lebih dari 1 tahun pengalaman dengan pelatihan dan penyetelan model bahasa
- Kemahiran tingkat menengah dalam pemrograman bahasa Python
- AWS Technical Essentials
- Amazon SageMaker Studio untuk Data Scientist
Kerangka kursus
Pengantar Seri Kursus
Bagian 1: Pengantar
- Pengantar Building Language Models on AWS
Bagian 2: Dasar-dasar Model Bahasa Besar
- Jenis Model Bahasa Besar
- Kasus Penggunaan AI Generatif Umum
Bagian 3: Garis Besar Seri Kursus
- Topik yang Dicakup di Modul Masa Depan
Mengatasi Tantangan dalam Membangun Model Bahasa
Bagian 1: Tantangan Umum
- Tantangan Praktisi LLM Umum
Bagian 2: Solusi Pelatihan Multi-Mesin
- Menskalakan LLM dengan Pelatihan Terdistribusi
- Menerapkan Teknik Paralelisme Data
- Menerapkan Teknik Paralelisme Model
Bagian 3: Solusi Optimalisasi Kinerja
- Teknik Optimasi Kinerja
- Menggunakan Infrastruktur yang Dibangun Khusus
Bagian 4: Penutup
- Penilaian Modul
Menggunakan Amazon SageMaker untuk Melatih Model Bahasa
Bagian 1: Mengonfigurasi SageMaker Studio
- Dasar-dasar SageMaker
- Menyiapkan Domain SageMaker Studio
Bagian 2: Infrastruktur SageMaker
- Memilih Tipe Instans Komputasi
Bagian 3: Bekerja dengan SageMaker Python SDK
- Dasar-dasar SageMaker Python SDK
- Melatih dan Menerapkan Model Bahasa dengan SageMaker Python SDK
Bagian 4: Penutup
- Penilaian Modul
Demonstrasi - Menyiapkan Amazon SageMaker Studio
Memasukkan Data Model Bahasa
Bagian 1: Menyiapkan Data
- Gambaran Umum Manajemen Data
- Mempersiapkan Data untuk Ingestion
Bagian 2: Menganalisis Opsi Ingestion Data
- Memuat Data dengan SageMaker Python SDK
- Menyerap Data dari Amazon S3
- Menyerap Data dengan FSx for Lustre
- Opsi Ingestion Data Tambahan
- Pertimbangan Ingestion dan Penyimpanan Data
Bagian 3: Penutup
- Penilaian Modul
Pelatihan Model Bahasa Besar
Bagian 1: Membuat Pekerjaan Pelatihan SageMaker
- Meluncurkan Pekerjaan Pelatihan SageMaker
- Memodifikasi Skrip untuk Mode Skrip
Bagian 2: Mengoptimalkan Pekerjaan Pelatihan SageMaker Anda
- Monitoring dan Pemecahan Masalah
- Mengoptimalkan Kinerja Komputasi
- Fitur Pelatihan SageMaker untuk Pelatihan Model Bahasa
Bagian 3: Menggunakan Pelatihan Terdistribusi di SageMaker
- Dukungan Pelatihan Terdistribusi SageMaker
- Menggunakan Pustaka Paralel Data Terdistribusi SageMaker
- Menggunakan Pustaka Paralel Model SageMaker
- Menggunakan Pustaka Paralel Model SageMaker dan Paralelisme Data Sharded
- Pelatihan dengan EFA
Bagian 4: Mengompilasi Kode Pelatihan Anda
- Menggunakan Kompiler Pelatihan SageMaker
Bagian 5: Penutup
- Penilaian Modul
Demonstrasi - Melatih Model Bahasa Pertama Anda dengan Amazon SageMaker
Demonstrasi - Paralel Data pada Pelatihan SageMaker dengan PyTorch Lightning
Demonstrasi - Sempurnakan GPT-2 dengan Penskalaan Near-Linear Menggunakan Teknik Paralelisme Data Serpihan (shard) di Perpustakaan Paralelisme Model Amazon SageMaker
Menerapkan Model Bahasa
Bagian 1: Men-deploy Model di SageMaker
- Pengantar Deployment SageMaker
- Memilih Opsi Deployment SageMaker
Bagian 2: Men-deploy Model untuk Inferensi
- Gambaran Umum Inferensi Real-Time
- Menggunakan SageMaker Python SDK untuk Deployment Model
- Menggunakan Perekomendasi Inferensi SageMaker
Bagian 3: Men-deploy Model Bahasa Besar untuk Inferensi
- Teknik Optimalisasi
- Teknik Kompresi Model
- Partisi Model
- Kernel dan Kompilasi yang Dioptimalkan
- Men-deploy dengan Kontainer LMI Sagemaker
Bagian 4: Pertimbangan Tambahan
- Pertimbangan Lain Saat Men-deploy Model di SageMaker
Bagian 5: Penutup
- Penilaian Modul
Demonstrasi - Pengantar Hosting LLM di Amazon SageMaker dengan Kontainer DeepSpeed
Menyesuaikan Model Bahasa Dasar untuk Tugas AI Generatif
Bagian 1: Pengantar
- Pengantar Model Fondasi
Bagian 2: Menggunakan SageMaker JumpStart
- Memulai dengan SageMaker JumpStart
- Men-deploy Model JumpStart SageMaker dengan SageMaker Python SDK
- Memilih FM
Bagian 3: Menyesuaikan FM
- Rekayasa Perintah
- Melakukan penyetelan mendetail Model JumpStart dengan SageMaker Python SDK
Bagian 4: Retrieval Augmented Generation (RAG)
- Menggunakan Retrieval Augmented Generation (RAG)
Bagian 5: Penutup
- Penilaian Modul
Demonstrasi - Men-deploy Model FLAN-T5 untuk Tugas Pembuatan Teks Menggunakan Amazon SageMaker JumpStart
Ajakan Bertindak dan Sumber Daya Tambahan
Bagian 1: Tinjauan
- Topik yang Dibahas dalam Seri Kursus Ini
Bagian 2: Penutup
- Sumber Daya, Rekap, dan Langkah Selanjutnya
Kata kunci
- GenAI
- AI Generatif