Load-Aware GPU Fractioning for LLM Inference on Kubernetes

CNCF [Cloud Native Computing Foundation] via YouTube Direct link

Load-Aware GPU Fractioning for LLM Inference on Kubernetes - Olivier Tardieu & Yue Zhu, IBM

1

of 1

1 of 1

Load-Aware GPU Fractioning for LLM Inference on Kubernetes - Olivier Tardieu & Yue Zhu, IBM

Class Central Classrooms beta

YouTube videos curated by Class Central.

Classroom Contents

Load-Aware GPU Fractioning for LLM Inference on Kubernetes