Building Language Models on AWS (Korean)

Amazon Web Services and Amazon via AWS Skill Builder

Overview

Amazon SageMaker를 통해 데이터 과학자는 기계 학습(ML) 모델을 준비하고 구축 및 훈련, 배포, 모니터링할 수 있습니다. SageMaker는 분산 훈련 라이브러리, 오픈 소스 모델, 파운데이션 모델(FM)에 대한 액세스 등 광범위한 여러 기능을 제공합니다. 이 과정에서는 숙련된 데이터 과학자에게 언어 모델 구축의 과제와 대규모 텍스트 말뭉치를 처리하기 위한 다양한 스토리지, 수집, 훈련 옵션을 알려 줍니다. 또한 이 과정에서는 Amazon SageMaker JumpStart를 사용하여 대규모 모델을 배포하고 생성형 인공 지능(생성형 AI) 태스크용 파운데이션 모델을 사용자 지정하는 데 수반되는 과제에 대해 논의합니다.

과정 수준: 고급
소요 시간: 5.5시간

참고: 이 과정의 동영상에는 한국어 트랜스크립트 또는 자막이 지원되며 음성은 영어로 출력됩니다. 자막을 표시하려면 동영상 화면 우측 하단의 CC 버튼을 클릭하세요.

참고: 이 과정은 Google Chrome(최신 주요 버전 2개), Microsoft Edge(최신 주요 버전 2개), Safari(최신 주요 버전 2개)에 최적화되어 있습니다.

활동

본 과정에는 텍스트 지침, 예시 그래픽, 지식 확인 문항, 사용자의 Amazon Web Services(AWS) 계정에서 실행할 수 있는 실습 동영상 데모가 포함되어 있습니다.

과정 목표

이 과정을 마친 후 데이터 과학자로서 구축, 훈련, 미세 조정 작업에 자신감 획득 SageMaker를 사용하여 AWS에서 성능에 맞는 언어 모델 사용.

이 과정에서 학습할 내용은 다음과 같습니다.

모범 사례를 적용하여 대량의 텍스트 데이터를 저장 및 수집하여 분산 훈련 지원
데이터 병렬 처리와 모델 병렬 처리 라이브러리를 살펴보고 SageMaker에서 분산 훈련 지원
SageMaker에서 사용할 수 있는 옵션을 살펴보고 Amazon SageMaker Training Compiler 및 Elastic Fabric Adapter(EFA) 등의 훈련 성능 향상
대규모 언어 모델(LLM) 최적화 기술을 살펴보고 효과적으로 모델 배포
SageMaker JumpStart에서 사용할 수 있는 파운데이션 모델을 미세 조정하는 방법에 관한 데모

수강 대상

이 과정의 수강 대상은 다음과 같습니다.

데이터 과학자
기계 학습 엔지니어

수강 전 권장 사항

이 과정을 수강하는 참석자에게 필요한 권장 소양은 다음과 같습니다.

자연어 처리(NLP) 부문에서 1년 이상의 경력
훈련 및 튜닝 언어 모델에서 1년 이상의 경력
Python 언어 프로그래밍에서 중간 수준의 숙련도
AWS Technical Essentials
Amazon SageMaker Studio for Data Scientists

과정 개요

과정 시리즈 소개

섹션 1: 소개

Building Language Models on AWS 소개

섹션 2: 대규모 언어 모델 기본 사항

대규모 언어 모델 유형
일반적인 생성형 AI 사용 사례

섹션 3: 과정 시리즈 개요

향후 모듈에서 다루는 주제

언어 모델 구축의 과제 해결

섹션 1: 일반적인 과제

LLM 실무자의 일반적인 과제

섹션 2: 여러 기계 학습 솔루션

분산 훈련으로 LLM 크기 조정
데이터 병렬 처리 기술 적용
모델 병렬 처리 기술 적용

섹션 3: 성능 최적화 솔루션

성능 최적화 기술
특별히 설계된 인프라 사용

섹션 4: 마무리

모듈 평가

언어 모델 훈련 시 Amazon SageMaker 활용

섹션 1: SageMaker Studio 구성

SageMaker 기본 사항
SageMaker Studio 도메인 설정

섹션 2: SageMaker 인프라

컴퓨팅 인스턴스 유형 선택

섹션 3: SageMaker Python SDK로 작업

SageMaker Python SDK 기본 사항
SageMaker Python SDK로 언어 모델 훈련 및 배포

섹션 4: 마무리

모듈 평가

데모 - Amazon SageMaker Studio 설정

언어 모델 데이터 수집

섹션 1: 데이터 준비

데이터 관리 개요
수집을 위한 데이터 준비

섹션 2: 데이터 수집 옵션 분석

SageMaker Python SDK로 데이터 로드
Amazon S3에서 데이터 수집
FSx for Lustre로 데이터 수집
그 외 데이터 수집 옵션
데이터 수집 및 스토리지 관련 고려 사항

섹션 3: 마무리

모듈 평가

대규모 언어 모델 훈련

섹션 1: SageMaker Training 작업 생성

SageMaker Training 작업 시작
스크립트 모드용 스크립트 수정

섹션 2: SageMaker Training 작업 최적화

모니터링 및 문제 해결
컴퓨팅 성능 최적화
대규모 언어 모델 훈련에 적합한 SageMaker Training 기능

섹션 3: SageMaker에서 분산 훈련 사용

SageMaker 분산 훈련 지원
SageMaker 분산 데이터 병렬 처리 라이브러리 사용
SageMaker 모델 병렬 처리 라이브러리 사용
SageMaker 모델 병렬 처리 라이브러리와 샤딩 데이터 병렬 처리 사용
EFA 사용 관련 훈련

섹션 4: 훈련 코드 컴파일링

SageMaker Training Compiler 사용

섹션 5: 마무리

모듈 평가

데모 - Amazon SageMaker로 첫 언어 모델 훈련

데모 - SageMaker Training에서 PyTorch Lightning으로 데이터 병렬 처리

데모 - Amazon SageMaker 모델 병렬 처리 라이브러리에서 샤딩 데이터 병렬 처리 기술을 사용하여 선형에 가까운 크기 조정으로 GPT-2 미세 조정

언어 모델 배포

섹션1: SageMaker에서 모델 배포

SageMaker 배포 소개
SageMaker 배포 옵션 선택

섹션 2: 추론용 모델 배포

실시간 추론 개요
모델 배포 시 SageMaker Python SDK 사용
SageMaker Inference Recommender 사용

섹션 3: 추론용 대규모 언어 모델 배포

최적화 기법
모델 압축 기술
모델 파티셔닝
커널 및 컴파일 최적화
SageMaker LMI 컨테이너 배포

섹션 4: 추가 고려 사항

SageMaker에서 모델 배포 시 기타 고려 사항

섹션 5: 마무리

모듈 평가

데모 - DeepSpeed 컨테이너를 사용해 Amazon SageMaker에서 대규모 언어 모델 호스팅 소개

생성형 AI 태스크용 파운데이션 언어 모델 사용자 지정

섹션 1: 소개

파운데이션 모델 소개

섹션 2: SageMaker JumpStart 사용

SageMaker JumpStart 시작하기
SageMaker Python SDK를 사용하여 SageMaker JumpStart 모델 배포
FM 선택

섹션 3: FM 사용자 지정

프롬프트 엔지니어링
SageMaker Python SDK를 사용하여 JumpStart 모델 미세 조정

섹션 4: Retrieval Augmented Generation(RAG)

Retrieval Augmented Generation(RAG) 사용

섹션 5: 마무리

모듈 평가

데모 - Amazon SageMaker JumpStart를 사용하여 텍스트 생성 태스크용 FLAN-T5 모델 배포

실천 사항 및 추가 리소스

섹션 1: 복습

본 과정 시리즈에서 다룬 주제

섹션 2: 마무리

리소스와 요약, 다음 단계

Reviews

Start your review of Building Language Models on AWS (Korean)

Go to class

활동

과정 목표

수강 대상

수강 전 권장 사항

과정 개요

Tags

No-code Machine Learning and Generative AI on AWS (Korean)

No-code Machine Learning and Generative AI on AWS (Includes Labs) (Korean)

AWS ML Engineer Associate 2.2 Train Models (Korean)

AWS ML Engineer Associate Curriculum Overview (Korean)

AWS ML Engineer Associate 3.1 Select a Deployment Infrastructure (Korean)

Fundamentals of Machine Learning and Artificial Intelligence (Korean)

10 Best Data Science Courses

10 Best Machine Learning Courses for 2024: Scikit-learn, TensorFlow, and more

Never Stop Learning.