Amazon SageMaker ayuda a los científicos de datos a preparar, crear, entrenar, implementar y supervisar modelos de machine learning (ML). SageMaker reúne un amplio conjunto de capacidades, incluido el acceso a bibliotecas de formación distribuidas, modelos de código abierto y modelos básicos (foundation models, FM) Este curso les presenta a los científicos de datos experimentados los desafíos de la creación de modelos lingüísticos y las distintas opciones de almacenamiento, ingesta y formación para procesar un corpus de texto de gran tamaño. El curso aborda también los desafíos de implementar modelos de gran tamaño y de personalizar modelos básicos para tareas de inteligencia artificial generativa (IA generativa) mediante Amazon SageMaker Jumpstart.
- Nivel del curso: avanzado
- Duración: 5,5 horas
Nota: Este curso tiene transcripciones o subtítulos localizados. La narración está en inglés. Para mostrar los subtítulos, haga clic en el botón CC en la esquina inferior derecha del reproductor.
Actividades
Este curso incluye instrucciones en texto, gráficos ilustrativos, preguntas de evaluación de conocimientos y demostraciones en video de laboratorios que puede ejecutar en su propia cuenta de Amazon Web Services (AWS).
Objetivos del curso
Después de completar este curso, los científicos de datos podrán construir, entrenar y ajustar con confianza modelos lingüísticos de gran desempeño en AWS con SageMaker.
En este curso, aprenderá a hacer lo siguiente:
- Aplicar las prácticas recomendadas de almacenamiento e ingesta de una gran cantidad de datos de texto para apoyar la formación distribuida
- Explorar las bibliotecas de paralelismo de datos y paralelismo de modelos para apoyar la formación distribuida en SageMaker
- Explicar las opciones disponibles en SageMaker para mejorar el rendimiento de la formación, como el compilador de formación SageMaker de Amazon y Elastic Fabric Adapter (EFA)
- Explorar técnicas de optimización de grandes modelos lingüísticos (large language model, LLM) para un despliegue eficaz de los modelos
- Demostrar cómo ajustar finamente los modelos fundacionales disponibles en SageMaker Jumpstart.
A quién se dirige
Este curso está destinado a quienes desempeñan las siguientes funciones:
- Científicos de datos
- Ingenieros de ML
Requisitos previos
Recomendamos que los asistentes a este curso cuenten con esta experiencia:
- Más de 1 año de experiencia en procesamiento del lenguaje natural (PLN)
- Más de 1 año de experiencia en la formación y la optimización de modelos lingüísticos
- Conocimientos de nivel intermedio de programación con lenguaje Python
- Fundamentos técnicos de AWS
- Amazon SageMaker Studio para científicos de datos.
Esquema del curso
Introducción a la serie de cursos
Sección 1: introducción
- Introducción a la creación de modelos de lenguaje en AWS
Sección 2: aspectos básicos de los modelos lingüísticos de gran tamaño
- Tipos de modelos lingüísticos de gran tamaño
- Casos prácticos comunes de IA generativa
Sección 3: esquema de la serie de cursos
- Temas cubiertos en los módulos futuros
Afrontar los desafíos de la creación de modelos lingüísticos
Sección 1: desafíos comunes
- Desafíos comunes de los profesionales de los LLM
Sección 2: soluciones de entrenamiento multimáquina
- Ampliación de los LLM con formación distribuida
- Aplicación de técnicas de paralelismo de datos
- Aplicación de técnicas de paralelismo de modelos
Sección 3: soluciones de optimización del rendimiento
- Técnicas de optimización del rendimiento
- Uso de una infraestructura específica
Sección 4: conclusión
- Evaluación del modulo
Uso de Amazon SageMaker para la formación de modelos lingüísticos
Sección 1: configuración de SageMaker Studio
- Aspectos básicos de SageMaker
- Configuración de dominios de SageMaker Studio
Sección 2: infraestructura de SageMaker
- Elección de tipos de instancias de cómputo
Sección 3: trabajar con el SDK para Python de SageMaker
- Aspectos básicos del SDK para Python de SageMaker
- Formación e implementación de modelos lingüísticos con el SDK para Python de SageMaker
Sección 4: cssonclusión
- Evaluación del modulo
Demostración: configuración de Amazon SageMaker Studio
Ingesta de datos de modelos lingüísticos
Sección 1: preparación de datos
- Información general de la administración de datos
- Preparación de datos para la ingesta
Sección 2: análisis de las opciones de ingesta de datos
- Carga de datos con el SDK para Python de SageMaker
- Datos de ingesta de Amazon S3
- Datos de ingesta con FSx para Lustre
- Opciones de ingesta de datos adicionales
- Consideraciones de ingesta y almacenamiento de datos
Sección 3: conclusion
- Evaluación del modulo
Formación sobre modelos lingüísticos de gran tamaño (LLM)
Sección 1: cómo crear un trabajo de formación de SageMaker
- Trabajo de formación de inicio de SageMaker
- Cómo modificar scripts para el modo script
Sección 2: cómo optimizar su trabajo de formación de SageMaker
- Supervisión y solución de problemas
- Cómo optimizar el rendimiento computacional
- Funciones de formación de SageMaker para la formación de un modelo lingüístico (ML)
Sección 3: uso de la formación distribuida en SageMaker
- Soporte de formación distribuida de SageMaker
- Cómo usar la biblioteca paralela de datos distribuidos de SageMaker
- Cómo utilizar la biblioteca paralela de modelos de SageMaker
- Cómo utilizar la biblioteca paralela de modelos de SageMaker y el paralelismo de partición de datos
- Formación con EFA
Sección 4: compilación del código de formación
- Uso del compilador de formación de SageMaker
Sección 5: conclusión
- Evaluación del modulo
Demostración: formación de su primer modelo lingüístico con Amazon SageMaker
Demostración: paralelismo de datos en la formación de SageMaker con PyTorch Lightning
Demostración: optimización de GPT-2 con escalado casi lineal mediante la técnica de paralelismo de datos compartidos en la biblioteca de paralelismo de modelos de SageMaker.
Implementación de modelos lingüísticos
Sección 1: implementación de un modelo en SageMaker
- Introducción a la implementación de SageMaker
- Cómo seleccionar una opción de implementación de SageMaker
Sección 2: implementación de modelos de inferencia
- Información general de inferencia en tiempo real
- Uso del SDK para Python de SageMaker para la implementación de modelos
- Uso del recomendador de inferencias de Sagemaker
Sección 3: implementación de grandes modelos lingüísticos para la inferencia
- Técnicas de optimización
- Técnicas de compresión de modelos
- Partición de archivos
- Núcleos optimizados y compilación
- Implementación con contenedores LMI de SageMaker
Sección 4: consideraciones adicionales
- Otras consideraciones al implementar modelos en SageMaker
Sección 5: conclusión
- Evaluación del modulo
Demostración: introducción al almacenamiento de LLM en Amazon SageMaker con contenedores DeepSpeed
Personalización de modelos lingüísticos fundacionales para tareas para tareas de IA generativa
Sección 1: introducción
- Introducción a los modelos fundacionales
Sección 2: uso de SageMaker JumpStart
- Introducción a SageMaker JumpStart
- Implementación de los modelos de SageMaker JumpStart con el SDK para Python de SageMaker
- Selección de FM
Sección 3: personalización del FM
- Ingeniería de indicaciones
- Optimización de los modelos de JumpStart con el SDK para Python de SageMaker
Sección 4: generación aumentada de recuperación (Retrieval Augmented Generation, RAG)
- Uso de la generación aumentada de recuperación (RAG)
Sección 5: conclusión
- Evaluación del módulo
- Demostración: implementación del modelo FLAN-T5 para tareas de generación de texto mediante Amazon SageMaker JumpStart
Llamado a la acción y recursos adicionales
Sección 1: revisión
- Temas que se abordan en esta serie de cursos
Sección 2: conclusión
- Recursos, recapitulación y próximos pasos