Distributed Training Methods for Efficient Machine Learning - Part 1

Overview

Learn about distributed training fundamentals in machine learning through a comprehensive MIT lecture that explores parallelization methods, data parallelism, and communication primitives. Dive deep into memory reduction techniques like ZeRO and FSDP, while understanding pipeline parallelism, tensor parallelism, and sequence parallelism. Professor Song Han delivers this 70-minute lecture covering essential background, motivation, and various parallelization approaches for training large-scale machine learning models efficiently across distributed systems.

Syllabus

EfficientML.ai Lecture 19 - Distributed Training Part 1 (MIT 6.5940, Fall 2024)

Taught by

MIT HAN Lab

Reviews

Start your review of Distributed Training Methods for Efficient Machine Learning - Part 1

Taught by

Distributed Training Methods and Parallelization Techniques - Lecture 19

Distributed Training: Hybrid Parallelism and Gradient Optimization - Lecture 20

Distributed Training: Hybrid Parallelism and Gradient Optimization - Lecture 20

Distributed Training - Part I - Lecture 17

Distributed Training for Efficient Machine Learning - Part I - Lecture 17

Distributed Training for Efficient Machine Learning - Part II - Lecture 18

10 Best Machine Learning Courses for 2024: Scikit-learn, TensorFlow, and more

Never Stop Learning.