Amazon SageMaker 帮助数据科学家准备、构建、训练、部署和监控机器学习 (ML) 模型。SageMaker 汇集了一组广泛的功能,其中包括支持使用分布式训练库、开源模型和基础模型 (FM)。本课程向经验丰富的数据科学家介绍了构建语言模型的挑战,以及用于处理大型文本语料库的不同存储、摄取和训练选项。本课程还讨论了使用 Amazon SageMaker Jumpstart 为生成式人工智能(生成式 AI)任务部署大型模型和自定义基础模型的挑战。
- 课程级别:高级
- 时长:5.5 小时
注意:本课程具有本地化的注释/字幕。 旁白保留英语。要显示字幕,请单击播放器右下角的 CC 按钮。
活动
本课程包括文本说明、说明性图形、知识考核问题,以及您可在自己的 Amazon Web Services (AWS) 账户中运行的实验的视频演示。
课程目标
学完本课程后,数据科学家可以自信地使用 SageMaker 在 AWS 上构建、训练和优化高性能语言模型。
在本课程中,您将了解如何:
- 应用存储和摄取大量文本数据的最佳实践来支持分布式训练
- 探索数据并行化和模型并行化库,以支持 SageMaker 上的分布式训练
- 解释 SageMaker 上提供的选项,以提高训练性能,例如 Amazon SageMaker Training Compiler 和 Elastic Fabric Adapter (EFA)
- 了解用于有效模型部署的大型语言模型 (LLM) 优化技术
- 演示如何微调 SageMaker Jumpstart 上提供的基础模型
目标受众
本课程面向以下人员:
- 数据科学家
- 机器学习 (ML) 工程师
先决条件
我们建议符合以下条件的人员参加本课程:
- 拥有 1 年以上自然语言处理 (NLP) 经验
- 拥有 1 年以上语言模型训练和优化经验
- 具备中级水平的 Python 语言编程能力
- 已完成 AWS Technical Essentials 课程
- 已完成 Amazon SageMaker Studio for Data Scientists 课程
课程大纲
课程系列简介
第 1 部分:简介
- Building Language Models on AWS 的简介
第 2 部分:大型语言模型基本知识
- 大型语言模型的类型
- 常见生成式 AI 使用案例
第 3 部分:课程系列大纲
- 后续模块中涵盖的主题
解决语言模型构建方面的挑战
第 1 部分:常见挑战
- 常见 LLM 从业者挑战
第 2 部分:多机器训练解决方案
- 通过分布式训练扩展 LLM
- 应用数据并行化技术
- 应用模型并行化技术
第 3 部分:性能优化解决方案
- 性能优化技术
- 使用专用基础设施
第 4 部分:总结
- 模块评估
使用 Amazon SageMaker 进行语言模型训练
第 1 部分:配置 SageMaker Studio
- SageMaker 基础知识
- 设置 SageMaker Studio 域
第 2 部分:SageMaker 基础设施
- 选择计算实例类型
第 3 部分:使用 SageMaker Python SDK
- SageMaker Python SDK 基础知识
- 通过 SageMaker Python SDK 训练和部署语言模型
第 4 部分:总结
- 模块评估
演示 - 设置 Amazon SageMaker Studio
摄取语言模型数据
第 1 部分:准备数据
- 数据管理概览
- 准备供摄取的数据
第 2 部分:分析数据摄取选项
- 使用 SageMaker Python SDK 加载数据
- 摄取 Amazon S3 中的数据
- 使用适用于 Lustre 的 FSx 摄取数据
- 其他数据摄取选项
- 数据摄取和存储注意事项
第 3 部分:总结
- 模块评估
训练大型语言模型
第 1 部分:创建 SageMaker 训练作业
- 启动 SageMaker 训练作业
- 修改脚本模式的脚本
第 2 部分:优化 SageMaker 训练作业
- 监控和故障排除
- 优化计算性能
- 用于语言模型训练的 SageMaker 训练功能
第 3 部分:在 SageMaker 上使用分布式训练
- SageMaker 分布式训练支持
- 使用 SageMaker 分布式数据并行库
- 使用 SageMaker 模型并行库
- 使用 SageMaker 模型并行库和分区数据并行化
- 使用 EFA 进行训练
第 4 部分:编译训练代码
- 使用 SageMaker Training Compiler
第 5 部分:总结
- 模块评估
演示 - 使用 Amazon SageMaker 训练您的第一个语言模型
演示 - 在 SageMaker 上使用 PyTorch Lightning 进行并行数据训练
演示 - 使用 Amazon SageMaker 模型并行化库中的分区数据并行化技术,以近线性扩展方式微调 GPT-2
部署语言模型
第 1 部分:在 SageMaker 中部署模型
- SageMaker 部署简介
- 选择 SageMaker 部署选项
第 2 部分:部署推理模型
- 实时推理概览
- 使用 SageMaker Python SDK 进行模型部署
- 使用 SageMaker 推理推荐器
第 3 部分:为推理部署大型语言模型
- 优化方法
- 模型压缩技术
- 模型分区
- 优化的内核和编译
- 利用 SageMaker LMI 容器进行部署
第 4 部分:其他注意事项
- 在 SageMaker 上部署模型时的其他注意事项
第 5 部分:总结
- 模块评估
演示 - 使用 DeepSpeed 容器在 Amazon SageMaker 上托管 LLM 的简介
为生成式 AI 任务自定义基础语言模型
第 1 部分:简介
- 基础模型简介
第 2 部分:使用 SageMaker JumpStart
- SageMaker JumpStart 使用入门
- 使用 SageMaker Python SDK 部署 SageMaker JumpStart 模型
- 选择 FM
第 3 部分:自定义 FM
- 提示工程
- 使用 SageMaker Python SDK 微调 JumpStart 模型
第 4 部分:检索增强生成 (RAG)
- 使用检索增强生成 (RAG)
第 5 部分:总结
- 模块评估
演示 - 使用 Amazon SageMaker JumpStart 部署用于执行文本生成任务的 FLAN-T5 模型
行动号召和其他资源
第 1 部分:回顾
- 本课程系列涵盖的主题
第 2 部分:总结
- 资源、回顾与后续步骤