Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

YouTube

LLMOps: Quantizing Models and Inference with ONNX Generative Runtime

The Machine Learning Engineer via YouTube

Overview

Aprende a instalar el onnx runtime con soporte GPU para realizar inferencia con Modelos Generativos en este tutorial de 39 minutos. Explora el proceso de cuantización utilizando un modelo Phi3-mini-4k a 4int y transforma un Phi3-mini-128k a 4int con el runtime onnx. Sigue paso a paso la implementación práctica utilizando el notebook proporcionado en GitHub para dominar técnicas avanzadas de LLMOps, cuantización de modelos e inferencia con ONNX Generative Runtime. Perfecciona tus habilidades en ciencia de datos y aprendizaje automático con este contenido técnico detallado.

Syllabus

LLMOps: Quantizar modelos e Inferencia con ONNX Generative Runtime #datascience #machinelearning

Taught by

The Machine Learning Engineer

Reviews

Start your review of LLMOps: Quantizing Models and Inference with ONNX Generative Runtime

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.