在本课程中,您将了解监控和优化的重要性,包括应关注哪些关键绩效指标 (KPI)。本课程将讨论可用于监控和优化基础设施的工具。这些工具包括 Amazon CloudWatch、AWS X-Ray、Amazon QuickSight、AWS CloudTrail、Amazon EventBridge、AWS Compute Optimizer 和 Amazon SageMaker Inference Recommender 等。在 ML 解决方案方面,本课程还将探讨 AWS 成本分析工具,例如 AWS 账单与成本管理、AWS Budgets、AWS Cost Explorer 和 AWS Trusted Advisor。
- 课程级别:高级
- 时长:2 小时 30 分钟
注意:本课程具有本地化的注释/字幕。 旁白保留英语。要显示字幕,请单击播放器右下角的 CC 按钮。
课程内容
- 在线资料
- 练习
- 知识考核问题
课程目标
- 阐述监控 ML 基础设施和关键性能指标的重要性。
- 配置并使用 CloudWatch Logs 和警报来排查问题和分析资源。
- 确定用于排查延迟和性能问题的监控和可观测性工具。
- 设置控制面板以监控机器学习基础设施的性能指标。
- 介绍如何使用 CloudTrail 来记录、监控和保留与 API 调用相关的活动。
- 演示如何使用 SageMaker Inference Recommender 合理调整实例系列大小。
- 演示如何使用 Compute Optimizer 合理调整实例系列大小。
- 确定并排查成本和性能方面的容量问题。
- 识别并描述 AWS 成本分析工具的功能。
- 描述 Amazon SageMaker 机器学习 Savings Plans 提供的优势和选项。
- 确定用于优化成本的其他资源和最佳实践。
培训对象
- 云架构师
- 机器学习工程师
建议具备的技能
- 拥有至少 1 年使用 SageMaker 和其他 AWS 服务进行机器学习工程工作的经验
- 拥有至少 1 年相关职位(例如后端软件开发人员、DevOps 开发人员、数据工程师或数据科学家)的工作经验
- 对 Python 等编程语言有基本的了解
- 已完成 AWS ML Engineer Associate 学习计划的前几门课程
课程大纲
- 第 1 部分:简介
- 第 1 课:如何学习本课程
- 第 2 课:课程概览
- 第 2 部分:课程概览
- 第 3 课:监控 ML 基础设施的重要性
- 第 4 课:监控性能指标
- 第 5 课:监控和可观测性
- 第 6 课:监控性能和延迟的工具
- 第 7 课:ML 解决方案的可观测性和审计
- 第 8 课:设置控制面板
- 第 3 部分:优化基础设施
- 第 9 课:针对 ML 解决方案合理调整计算基础设施的大小
- 第 10 课:演示:Amazn SageMaker Inference Recmmender
- 第 4 部分:优化成本
- 第 11 课:降低监控成本
- 第 12 课:在容量、成本和性能之间取得平衡
- 第 13 课:将 AWS 成本管理工具与 ML 解决方案结合使用
- 第 14 课:通过购买选项优化 ML 基础设施成本
- 第 5 部分:总结
- 第 15 课:课程总结
- 第 16 课:评估
- 第 17 课:联系我们