O Amazon SageMaker ajuda data scientists a preparar, criar, treinar, implantar e monitorar modelos de Machine Learning (ML). O SageMaker reúne um conjunto amplo de capacidades, incluindo acesso a bibliotecas de treinamento distribuído, modelos de código aberto e modelos de base (FMs) Este curso apresenta data scientists experientes aos desafios de construir modelos de linguagem e às diferentes opções de armazenamento, ingestão e treinamento para processar um grande corpus de texto. O curso também aborda os desafios de implantar modelos grandes e personalizar modelos de base para tarefas de inteligência artificial generativa (IA generativa) usando o Amazon SageMaker Jumpstart.
- Nível do curso: avançado
- Duração: 5 horas e meia
Observação: Este curso tem transcrições/legendas traduzidas. A narração está em inglês. Para exibir as legendas, clique no botão CC no canto inferior direito do player.
Atividades
Este curso inclui instruções por texto, gráficos ilustrativos, teste de conhecimento e demonstrações em vídeo de laboratórios que você pode executar em sua própria conta da Amazon Web Services (AWS).
Objetivos do curso
Depois de concluir este curso, os data scientists podem criar, treinar e ajustar modelos de linguagem eficientes na AWS usando o SageMaker.
Neste curso, você aprenderá a
- Aplicar as práticas recomendadas para armazenar e ingerir uma grande quantidade de dados de texto para suportar o treinamento distribuído
- Explorar bibliotecas de paralelismo de dados e paralelismo de modelo para suportar o treinamento distribuído no SageMaker
- Explicar as opções disponíveis no SageMaker para melhorar o desempenho do treinamento, como o Amazon SageMaker Training Compiler e o Elastic Fabric Adapter (EFA)
- Explorar técnicas de otimização para grandes modelos de linguagem (LLM) para uma implantação eficaz do modelo
- Demonstrar como ajustar fino modelos de base disponíveis no SageMaker Jumpstart
Público-alvo
Este curso se destina às seguintes funções:
- Data scientists
- Engenheiros de ML
Pré-requisitos
Recomendamos que os participantes deste curso tenham:
- Mais de um ano de experiência com processamento de linguagem natural (PLN)
- Mais de um ano de experiência com treino e ajuste de modelos de linguagem
- Proficiência em nível intermediário em programação em linguagem Python
- Elementos técnicos essenciais da AWS
- Amazon SageMaker Studio para data scientists
Conteúdo do curso
Introdução à serie de cursos
Seção 1: Introdução
- Introdução à criação de modelos de linguagem na AWS
Seção 2: Conceitos básicos de grandes modelos de linguagem
- Tipos de grandes modelos de linguagem
- Casos comuns de uso de IA generativa
Seção 3: Descrição da série de cursos
- Tópicos abordados em módulos futuros
Abordagem dos desafios na criação de modelos de linguagem
Seção 1: Desafios comuns
- Desafios comuns dos profissionais de LLM
Seção 2: Soluções de treinamento em várias máquinas
- Scaling de LLMs com treinamento distribuído
- Como aplicar técnicas de paralelismo de dados
- Como aplicar técnicas de paralelismo de modelo
Seção 3: Soluções de otimização de desempenho
- Técnicas de otimização de desempenho
- Como usar a infraestrutura com propósito específico
Seção 4: Conclusão
- Avaliação do módulo
Como usar o Amazon SageMaker para treinar modelos de linguagem
Seção 1: Configuração do SageMaker Studio
- Noções básicas do SageMaker
- Configuração de domínio do SageMaker Studio
Seção 2: Infraestrutura do SageMaker
- Como escolher tipos de instâncias de computação
Seção 3: Como trabalhar com o SageMaker Python SDK
- Noções básicas do SageMaker Python SDK
- Treinamento e implantação de modelos de linguagem com o SageMaker Python SDK
Seção 4: Conclusão
- Avaliação do módulo
Demonstração: Como configurar o Amazon SageMaker Studio
Ingestão de dados para modelos de linguagem
Seção 1: Preparação dos dados
- Visão geral do gerenciamento de dados
- Preparação de dados para ingestão
Seção 2: Análise das opções de consumo de dados
- Carregamento de Dados com o SageMaker Python SDK
- Ingestão de dados do Amazon S3
- Ingestão de dados com o FSx para Lustre
- Opções adicionais de ingestão de dados
- Considerações sobre Ingestão e Armazenamento de Dados
Seção 3: Conclusão
- Avaliação do módulo
Treinamento de grandes modelos de linguagem
Seção 1: Criação de um trabalho de treinamento do SageMaker
- Execução de trabalhos de treinamento do SageMaker
- Como modificar scripts para o Modo de script
Seção 2: Otimização de seu trabalho de treinamento do SageMaker
- Monitoramento e solução de problemas
- Otimização do desempenho computacional
- Recursos de treinamento do SageMaker para treinamento de modelos de linguagem
Seção 3: Como usar o treinamento distribuído no SageMaker
- Suporte a treinamento distribuído do SageMaker
- Como usar a biblioteca de paralelismo de dados distribuídos do SageMaker
- Como usar a biblioteca de paralelismo de modelos do SageMaker
- Como usar a biblioteca de paralelismo de modelos e paralelismo de dados fragmentados do SageMaker
- Treinamento com o EFA
Seção 4: Compilação do código de treinamento
- Como usar o compilador de treinamento do SageMaker
Seção 5: Conclusão
- Avaliação do módulo
Demonstração: Como treinar seu primeiro modelo de linguagem com o Amazon SageMaker
Demonstração: Paralelismo de dados no treinamento do SageMaker com o PyTorch Lightning
Demonstração: Ajuste do GPT-2 com scaling quase linear usando a técnica de paralelismo de dados fragmentados na biblioteca de paralelismo de modelos do Amazon SageMaker
Implantação de modelos de linguagem
Seção 1: Implantação de um modelo no SageMaker
- Introdução à implantação no SageMaker
- Como escolher uma opção de implantação no SageMaker
Seção 2: Implantação de modelos para inferência
- Visão geral de inferência em tempo real
- Como usar o SageMaker Python SDK para implantação de modelos
- Como usar o recomendador de inferências do SageMaker
Seção 3: Implantação de grandes modelos de linguagem por inferência
- Técnicas de otimização
- Técnicas de compactação de modelos
- Particionamento de modelo
- Kernels otimizados e compilação
- Implantação com contêineres de LMI do SageMaker
Seção 4: Considerações adicionais
- Outras considerações ao implantar modelos no SageMaker
Seção 5: Conclusão
- Avaliação do módulo
Demonstração: Introdução à hospedagem de LLM no Amazon SageMaker com contêineres DeepSpeed
Como personalizar modelos de base de linguagem para tarefas de IA generativa
Seção 1: Introdução
- Introdução aos modelos de base
Seção 2: Como usar o SageMaker JumpStart
- Comece a usar o SageMaker JumpStart
- Como implantar modelos SageMaker JumpStart com o SageMaker Python SDK
- Como selecionar um FM
Seção 3: Personalização de FMs
- Engenharia de prompt
- Como fazer o ajuste fino de modelos JumpStart com o SageMaker Python SDK
Seção 4: Geração Aumentada de Recuperação (RAG)
- Como usar a Geração Aumentada de Recuperação (RAG)
Seção 5: Conclusão
- Avaliação do módulo
Demonstração: Implantação de um modelo Flan-T5 para tarefas de geração de texto usando o Amazon SageMaker JumpStart
Chamada à ação e recursos adicionais
Seção 1: Revisão
- Tópicos abordados nesta série de cursos
Seção 2: Conclusão
- Recursos, recapitulação e próximas etapas