Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

Yannic Kilcher via YouTube Direct link

- Model-, Data- and Expert-Parallelism

4

of 8

4 of 8

- Model-, Data- and Expert-Parallelism

Class Central Classrooms beta

YouTube videos curated by Class Central.

Classroom Contents

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity