Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Amazon Web Services

Building Language Models on AWS (Simplified Chinese)

Amazon Web Services and Amazon via AWS Skill Builder

Overview

Amazon SageMaker 帮助数据科学家准备、构建、训练、部署和监控机器学习 (ML) 模型。SageMaker 汇集了一组广泛的功能,其中包括支持使用分布式训练库、开源模型和基础模型 (FM)。本课程向经验丰富的数据科学家介绍了构建语言模型的挑战,以及用于处理大型文本语料库的不同存储、摄取和训练选项。本课程还讨论了使用 Amazon SageMaker Jumpstart 为生成式人工智能(生成式 AI)任务部署大型模型和自定义基础模型的挑战。


  • 课程级别:高级
  • 时长:5.5 小时


注意:本课程具有本地化的注释/字幕。 旁白保留英语。要显示字幕,请单击播放器右下角的 CC 按钮。


活动

本课程包括文本说明、说明性图形、知识考核问题,以及您可在自己的 Amazon Web Services (AWS) 账户中运行的实验的视频演示。


课程目标

学完本课程后,数据科学家可以自信地使用 SageMaker 在 AWS 上构建、训练和优化高性能语言模型。


在本课程中,您将了解如何:

  • 应用存储和摄取大量文本数据的最佳实践来支持分布式训练
  • 探索数据并行化和模型并行化库,以支持 SageMaker 上的分布式训练
  • 解释 SageMaker 上提供的选项,以提高训练性能,例如 Amazon SageMaker Training Compiler 和 Elastic Fabric Adapter (EFA)
  • 了解用于有效模型部署的大型语言模型 (LLM) 优化技术
  • 演示如何微调 SageMaker Jumpstart 上提供的基础模型


目标受众

本课程面向以下人员:

  • 数据科学家
  • 机器学习 (ML) 工程师


先决条件

我们建议符合以下条件的人员参加本课程:

  • 拥有 1 年以上自然语言处理 (NLP) 经验
  • 拥有 1 年以上语言模型训练和优化经验
  • 具备中级水平的 Python 语言编程能力
  • 已完成 AWS Technical Essentials 课程
  • 已完成 Amazon SageMaker Studio for Data Scientists 课程


课程大纲

课程系列简介

第 1 部分:简介

  • Building Language Models on AWS 的简介

第 2 部分:大型语言模型基本知识

  • 大型语言模型的类型
  • 常见生成式 AI 使用案例

第 3 部分:课程系列大纲

  • 后续模块中涵盖的主题

 

解决语言模型构建方面的挑战

第 1 部分:常见挑战

  • 常见 LLM 从业者挑战

第 2 部分:多机器训练解决方案

  • 通过分布式训练扩展 LLM
  • 应用数据并行化技术
  • 应用模型并行化技术

第 3 部分:性能优化解决方案

  • 性能优化技术
  • 使用专用基础设施

第 4 部分:总结

  • 模块评估

 

使用 Amazon SageMaker 进行语言模型训练

第 1 部分:配置 SageMaker Studio

  • SageMaker 基础知识
  • 设置 SageMaker Studio 域

第 2 部分:SageMaker 基础设施

  • 选择计算实例类型

第 3 部分:使用 SageMaker Python SDK

  • SageMaker Python SDK 基础知识
  • 通过 SageMaker Python SDK 训练和部署语言模型

第 4 部分:总结

  • 模块评估

 

演示 - 设置 Amazon SageMaker Studio

 

摄取语言模型数据

第 1 部分:准备数据

  • 数据管理概览
  • 准备供摄取的数据

第 2 部分:分析数据摄取选项

  • 使用 SageMaker Python SDK 加载数据
  • 摄取 Amazon S3 中的数据
  • 使用适用于 Lustre 的 FSx 摄取数据
  • 其他数据摄取选项
  • 数据摄取和存储注意事项

第 3 部分:总结

  • 模块评估


训练大型语言模型

第 1 部分:创建 SageMaker 训练作业

  • 启动 SageMaker 训练作业
  • 修改脚本模式的脚本

第 2 部分:优化 SageMaker 训练作业

  • 监控和故障排除
  • 优化计算性能
  • 用于语言模型训练的 SageMaker 训练功能

第 3 部分:在 SageMaker 上使用分布式训练

  • SageMaker 分布式训练支持
  • 使用 SageMaker 分布式数据并行库
  • 使用 SageMaker 模型并行库
  • 使用 SageMaker 模型并行库和分区数据并行化
  • 使用 EFA 进行训练

第 4 部分:编译训练代码

  • 使用 SageMaker Training Compiler

第 5 部分:总结

  • 模块评估


演示 - 使用 Amazon SageMaker 训练您的第一个语言模型

 

演示 - 在 SageMaker 上使用 PyTorch Lightning 进行并行数据训练


演示 - 使用 Amazon SageMaker 模型并行化库中的分区数据并行化技术,以近线性扩展方式微调 GPT-2

 

部署语言模型

第 1 部分:在 SageMaker 中部署模型

  • SageMaker 部署简介
  • 选择 SageMaker 部署选项

第 2 部分:部署推理模型

  • 实时推理概览
  • 使用 SageMaker Python SDK 进行模型部署
  • 使用 SageMaker 推理推荐器

第 3 部分:为推理部署大型语言模型

  • 优化方法
  • 模型压缩技术
  • 模型分区
  • 优化的内核和编译
  • 利用 SageMaker LMI 容器进行部署

第 4 部分:其他注意事项

  • 在 SageMaker 上部署模型时的其他注意事项

第 5 部分:总结

  • 模块评估

 

演示 - 使用 DeepSpeed 容器在 Amazon SageMaker 上托管 LLM 的简介

 

为生成式 AI 任务自定义基础语言模型

第 1 部分:简介

  • 基础模型简介

第 2 部分:使用 SageMaker JumpStart

  • SageMaker JumpStart 使用入门
  • 使用 SageMaker Python SDK 部署 SageMaker JumpStart 模型
  • 选择 FM

第 3 部分:自定义 FM

  • 提示工程
  • 使用 SageMaker Python SDK 微调 JumpStart 模型

第 4 部分:检索增强生成 (RAG)

  • 使用检索增强生成 (RAG)

第 5 部分:总结

  • 模块评估


演示 - 使用 Amazon SageMaker JumpStart 部署用于执行文本生成任务的 FLAN-T5 模型

 

行动号召和其他资源

第 1 部分:回顾

  • 本课程系列涵盖的主题

第 2 部分:总结

  • 资源、回顾与后续步骤


Reviews

Start your review of Building Language Models on AWS (Simplified Chinese)

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.