Build Features for Machine Learning from Netflix Description Text

Overview

Explore machine learning feature engineering techniques for text data using tidymodels in this 34-minute screencast. Learn how to build a support vector machine model to classify Netflix titles as TV shows or movies. Follow along as Julia Silge demonstrates data exploration, feature engineering, model calibration, and evaluation using #TidyTuesday Netflix data. Discover how to create and interpret visualizations like confusion matrices, ROC curves, and variable importance plots. Gain insights into working with text features, handling data budgets, and achieving consistent results in machine learning workflows.

Syllabus

Introduction
Exploring the data
Data Budget
Feature Engineering
Moat
Model calibration
The model
Resamples
Evaluation
Results
Confusion Matrix
Tidy
Autoplot
Collect metrics
Collect predictions
Consistent results
Tibble
Fitted workflow
Linear SVM
Top 15 words
Sign value
Plot
Testing
Visualization
Summary