LongNet: Understanding Transformer Scaling to 1 Billion Tokens - A Technical Overview

AI Bites via YouTube Direct link

- Multi-head Dilated Attention

6

of 8

6 of 8

- Multi-head Dilated Attention

Class Central Classrooms beta

YouTube videos curated by Class Central.

Classroom Contents

LongNet: Understanding Transformer Scaling to 1 Billion Tokens - A Technical Overview