Retentive Network - A Successor to Transformer for Large Language Models

Yannic Kilcher via YouTube Direct link

- Chunkwise and multi-scale retention

5

of 7

5 of 7

- Chunkwise and multi-scale retention

Class Central Classrooms beta

YouTube videos curated by Class Central.

Classroom Contents

Retentive Network - A Successor to Transformer for Large Language Models