Amazon SageMaker ช่วยให้นักวิทยาศาสตร์ข้อมูลจัดเตรียม สร้าง ฝึก ติดตั้งใช้งาน และติดตามตรวจสอบโมเดลแมชชีนเลิร์นนิง (ML) โดย SageMaker รวบรวมชุดความสามารถที่หลากหลาย รวมถึงการเข้าถึงไลบรารีการฝึกแบบกระจาย โมเดลแบบโอเพนซอร์ส และโมเดลพื้นฐาน (FM) หลักสูตรนี้แนะนำให้นักวิทยาศาสตร์ข้อมูลที่มีประสบการณ์ทราบถึงความท้าทายของการสร้างโมเดลภาษา รวมถึงตัวเลือกพื้นที่เก็บข้อมูล การนำเข้า และการฝึกต่างๆ เพื่อประมวลผลคลังข้อมูลข้อความขนาดใหญ่ หลักสูตรนี้ยังกล่าวถึงความท้าทายในการติดตั้งใช้งานโมเดลขนาดใหญ่และการปรับแต่งโมเดลพื้นฐานสำหรับงานด้านปัญญาประดิษฐ์ช่วยสร้าง (AI ช่วยสร้าง) โดยใช้ Amazon SageMaker JumpStart อีกด้วย
- ระดับหลักสูตร: ขั้นสูง
- ระยะเวลา: 5.5 ชั่วโมง
หมายเหตุ: หลักสูตรนี้มีการแปลถอดเสียง/คำบรรยาย บทบรรยายเป็นภาษาอังกฤษ
หากต้องการแสดงคำบรรยาย ให้คลิกที่ปุ่ม CC ที่มุมล่างขวาของเครื่องเล่น
กิจกรรม
หลักสูตรนี้ประกอบด้วยคำแนะนำในรูปแบบข้อความ กราฟิกภาพประกอบ คำถามทดสอบความรู้ และวิดีโอสาธิตของแล็บที่คุณสามารถเรียกใช้ในบัญชี Amazon Web Services (AWS) ของตนเอง
วัตถุประสงค์ของหลักสูตร
หลังจากจบหลักสูตรนี้ นักวิทยาศาสตร์ข้อมูลจะสามารถสร้าง ฝึกอบรม และปรับแต่ง
โมเดลภาษาที่มีประสิทธิภาพบน AWS ได้อย่างมั่นใจโดยใช้ SageMaker
ในหลักสูตรนี้ คุณจะได้เรียนรู้วิธีทำสิ่งเหล่านี้
- ใช้แนวปฏิบัติที่ดีสำหรับการจัดเก็บและนำเข้าข้อมูลข้อความจำนวนมากเพื่อรองรับการฝึกแบบกระจาย
- สำรวจไลบรารีการกระจายข้อมูลแบบขนานและการกระจายโมเดลแบบขนานเพื่อรองรับการฝึกแบบกระจายบน SageMaker
- อธิบายตัวเลือกที่มีอยู่บน SageMaker เพื่อปรับปรุงประสิทธิภาพการฝึก เช่น คอมไพเลอร์การฝึกของ Amazon SageMaker และ Elastic Fabric Adapter (EFA)
- สำรวจเทคนิคการเพิ่มประสิทธิภาพโมเดลภาษาขนาดใหญ่ (LLM) เพื่อการติดตั้งใช้งานโมเดลอย่างมีประสิทธิภาพ
- สาธิตวิธีปรับแต่งโมเดลพื้นฐานอย่างละเอียดที่มีอยู่ใน SageMaker JumpStart
กลุ่มเป้าหมาย
หลักสูตรนี้จัดทำขึ้นสำหรับบทบาทต่อไปนี้
- นักวิทยาศาสตร์ข้อมูล
- วิศวกร ML
ข้อกำหนดเบื้องต้น
เราขอแนะนำว่าผู้เข้าร่วมการอบรมหลักสูตรนี้ควรมีคุณสมบัติต่อไปนี้
- ประสบการณ์ด้านการประมวลผลภาษาธรรมชาติ (NLP) มากกว่า 1 ปี
- ประสบการณ์ด้านการฝึกและปรับแต่งโมเดลภาษามากกว่า 1 ปี
- ความเชี่ยวชาญระดับกลางในการเขียนโปรแกรมภาษา Python
- AWS Technical Essentials
- Amazon SageMaker Studio for Data Scientists
เค้าโครงหลักสูตร
บทนำชุดหลักสูตร
ส่วนที่ 1: ข้อมูลเบื้องต้น
- ข้อมูลเบื้องต้นเกี่ยวกับการสร้างโมเดลภาษาบน AWS
ส่วนที่ 2: ข้อมูลพื้นฐานเกี่ยวกับโมเดลภาษาขนาดใหญ่
- ประเภทของโมเดลภาษาขนาดใหญ่
- กรณีใช้งาน AI ช่วยสร้างทั่วไป
ส่วนที่ 3: เค้าโครงชุดหลักสูตร
- หัวข้อที่ครอบคลุมในโมดูลต่างๆ ถัดไป
การจัดการกับความท้าทายในการสร้างโมเดลภาษา
ส่วนที่ 1: ความท้าทายทั่วไป
- ความท้าทายทั่วไปที่ผู้ปฏิบัติงาน LLM ต้องเผชิญ
ส่วนที่ 2: โซลูชันการฝึกหลายเครื่อง
- การปรับขนาด LLM ด้วยการฝึกแบบกระจาย
- การใช้เทคนิคการกระจายข้อมูลแบบขนาน
- การใช้เทคนิคการกระจายโมเดลแบบขนาน
ส่วนที่ 3: โซลูชันการเพิ่มประสิทธิภาพ
- เทคนิคการเพิ่มประสิทธิภาพ
- การใช้โครงสร้างพื้นฐานที่สร้างขึ้นตามวัตถุประสงค์
ส่วนที่ 4: สรุป
- การประเมินโมดูล
การใช้ Amazon SageMaker สำหรับการฝึกโมเดลภาษา
ส่วนที่ 1: การกำหนดค่า SageMaker Studio
- ข้อมูลพื้นฐานเกี่ยวกับ SageMaker
- การตั้งค่าโดเมน SageMaker Studio
ส่วนที่ 2: โครงสร้างพื้นฐานของ SageMaker
- การเลือกประเภทอินสแตนซ์การประมวลผล
ส่วนที่ 3: การทำงานร่วมกับ SageMaker Python SDK
- ข้อมูลพื้นฐานเกี่ยวกับ SageMaker Python SDK
- การฝึกและการติดตั้งใช้งานโมเดลภาษาด้วย SageMaker Python SDK
ส่วนที่ 4: สรุป
- การประเมินโมดูล
การสาธิต - การตั้งค่า Amazon SageMaker Studio
การนำเข้าข้อมูลโมเดลภาษา
ส่วนที่ 1: การเตรียมข้อมูล
- ภาพรวมการจัดการข้อมูล
- การเตรียมข้อมูลสำหรับการนำเข้า
ส่วนที่ 2: การวิเคราะห์ตัวเลือกการนำเข้าข้อมูล
- การโหลดข้อมูลด้วย SageMaker Python SDK
- การนำเข้าข้อมูลจาก Amazon S3
- การนำเข้าข้อมูลด้วย FSx สำหรับ Lustre
- ตัวเลือกการนำเข้าข้อมูลเพิ่มเติม
- ข้อควรพิจารณาเกี่ยวกับการนำเข้าข้อมูลและพื้นที่เก็บข้อมูล
ส่วนที่ 3: สรุป
- การประเมินโมดูล
การฝึกโมเดลภาษาขนาดใหญ่
ส่วนที่ 1: การสร้างงานการฝึก SageMaker
- การเปิดใช้งานการฝึก SageMaker
- การแก้ไขสคริปต์สำหรับโหมดสคริปต์
ส่วนที่ 2: การเพิ่มประสิทธิภาพงานการฝึก SageMaker ของคุณ
- การติดตามตรวจสอบและการแก้ไขปัญหา
- การเพิ่มประสิทธิภาพการประมวลผล
- ฟีเจอร์การฝึก SageMaker สำหรับการฝึกโมเดลภาษา
ส่วนที่ 3: การใช้การฝึกแบบกระจายบน SageMaker
- การรองรับการฝึกแบบกระจายสำหรับ SageMaker
- การใช้ไลบรารีที่มีการกระจายข้อมูลแบบขนานของ SageMaker
- การใช้ไลบรารีการกระจายโมเดลแบบขนานสำหรับ SageMaker
- การใช้ไลบรารีการกระจายโมเดลแบบขนานสำหรับ SageMaker และการกระจายข้อมูลเป็นส่วนแบบขนาน
- การฝึกด้วย Elastic Fabric Adapter
ส่วนที่ 4: การคอมไพล์โค้ดการฝึกของคุณ
- การใช้คอมไพเลอร์การฝึก SageMaker
ส่วนที่ 5: สรุป
- การประเมินโมดูล
การสาธิต - การฝึกโมเดลภาษาแรกของคุณด้วย Amazon SageMaker
การสาธิต - ข้อมูลแบบขนานในการฝึก SageMaker ด้วย PyTorch Lightning
การสาธิต - ปรับแต่ง GPT-2 อย่างละเอียดด้วยการปรับขนาดแบบเกือบเชิงเส้นโดยใช้เทคนิคการกระจายข้อมูลเป็น
ส่วนแบบขนานในไลบรารีการกระจายโมเดลแบบขนานสำหรับ Amazon SageMaker
การติดตั้งใช้งานโมเดลภาษา
ส่วนที่ 1: การติดตั้งใช้งานโมเดลใน SageMaker
- ข้อมูลเบื้องต้นเกี่ยวกับติดตั้งใช้งาน SageMaker
- การเลือกตัวเลือกการติดตั้งใช้งาน SageMaker
ส่วนที่ 2: การติดตั้งใช้งานโมเดลสำหรับการอนุมาน
- ภาพรวมการอนุมานแบบเรียลไทม์
- การใช้ SageMaker Python SDK สำหรับการติดตั้งใช้งานโมเดล
- การใช้ตัวแนะนำการอนุมานของ SageMaker
ส่วนที่ 3: การติดตั้งใช้งานโมเดลภาษาขนาดใหญ่สำหรับการอนุมาน
- เทคนิคการเพิ่มประสิทธิภาพ
- เทคนิคการบีบอัดโมเดล
- การแบ่งพาร์ติชันโมเดล
- เคอร์เนลและการคอมไพล์ที่เพิ่มประสิทธิภาพ
- การติดตั้งใช้งานกับคอนเทนเนอร์ LMI ของ SageMaker
ส่วนที่ 4: ข้อควรพิจารณาเพิ่มเติม
- ข้อควรพิจารณาอื่นๆ เมื่อติดตั้งใช้งานโมเดลบน SageMaker
ส่วนที่ 5: สรุป
- การประเมินโมดูล
การสาธิต - ข้อมูลเบื้องต้นเกี่ยวกับการโฮสต์ LLM บน Amazon SageMaker ด้วยคอนเทนเนอร์ DeepSpeed
การปรับแต่งโมเดลภาษาพื้นฐานสำหรับงาน AI ช่วยสร้าง
ส่วนที่ 1: ข้อมูลเบื้องต้น
- ข้อมูลเบื้องต้นเกี่ยวกับโมเดลพื้นฐาน
ส่วนที่ 2: การใช้ SageMaker JumpStart
- เริ่มต้นใช้งาน SageMaker JumpStart
- การติดตั้งใช้งานโมเดล SageMaker JumpStart ด้วย SageMaker Python SDK
- การเลือก FM
ส่วนที่ 3: การปรับแต่ง FM
- วิศวกรรมการโต้ตอบ
- ปรับแต่งโมเดล JumpStart อย่างละเอียดด้วย SageMaker Python SDK
ส่วนที่ 4: Retrieval Augmented Generation (RAG)
- การใช้ Retrieval Augmented Generation (RAG)
ส่วนที่ 5: สรุป
- การประเมินโมดูล
การสาธิต - ติดตั้งใช้งานโมเดล FLAN-T5 สำหรับงานการสร้างข้อความโดยใช้ Amazon SageMaker JumpStart
สิ่งที่ต้องดำเนินการและแหล่งข้อมูลเพิ่มเติม
ส่วนที่ 1: ทบทวน
- หัวข้อที่ครอบคลุมในชุดหลักสูตรนี้
ส่วนที่ 2: สรุป
- แหล่งข้อมูล สรุป และขั้นตอนถัดไป
คำสำคัญ
- GenAI
- AI ช่วยสร้าง