Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

Yannic Kilcher via YouTube Direct link

- Performance Gains from Scale

2

of 8

2 of 8

- Performance Gains from Scale

Class Central Classrooms beta

YouTube videos curated by Class Central.

Classroom Contents

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity