Overview
El manejo de datos que permita generar conocimiento útil para una organización es cada vez más importante en los trabajos de alta demanda al día de hoy. Es así como este curso presenta al estudiante una metodología para el desarrollo de proyectos basados en datos, en especial de ciencia de datos. Hace énfasis en los procesos de exploración, transformación, integración de fuentes de datos estructuradas y no estructuradas con el fin de mejorar la eficiencia y calidad en los resultados de análisis posteriores como los basados en modelos analíticos. El estudiante tendrá a su disposición diferentes tutoriales con ejemplos en contextos cercanos a la realidad para comprender mejor los conceptos desarrollados en el curso y practicar su aprendizaje con el punto de extensión propuesto en cada tutorial. De igual manera, contará con videos, lecturas ilustradas y sugerencias de lecturas para profundizar en los temas de interés. Consideramos que esto le permitirá al estudiante afianzar sus conocimientos llevando a la práctica lo aprendido.
Syllabus
- Exploración y visualización de datos
- Bienvenido al primer módulo del curso. En este módulo trabajaremos sobre la metodología para realizar proyectos centrados en datos, en especial de ciencia de datos. Adicionalmente, profundizaremos en la etapa de entendimiento de los datos, para lo cual comprenderemos temas relacionados con perfilamiento, exploración de datos y visualización de los mismos. De igual manera, introduciremos el caso del proyecto y tendremos una serie de videos en diferentes sectores que espero te ayuden a lograr los objetivos del módulo y disfrutarlo.
- Preparar datos para mejorar la calidad de los datos
- Bienvenido al segundo módulo del curso, centrado en la forma de preparar datos para mejorar su calidad. En este módulo tendrás la oportunidad de entender qué es calidad de datos, describiremos algunas de las dimensiones de calidad más frecuentes en fuentes de datos y las acompañaremos de videos, tutoriales y actividades que te permitirán comprender estas temáticas, entender los problemas que se generan en los datos relacionados con las dimensiones de calidad y, algunas formas de solucionarlos.
- La Integración de Datos
- Hola, en este módulo nos centraremos en la integración de datos. Con ello en mente, nos enfocaremos en las diferentes formas de unir dos o más fuentes de información con el fin de generar análisis y conclusiones que no habríamos podido obtener con información fragmentada. Allí recae el punto de importancia de aprender a integrar datos, pues la información integrada representa un valor para nuestros proyectos de Ciencias de Datos. Es por ello que en este módulo vamos a ver qué hay diferentes formas de unir diferentes fuentes de información, como lo son los joins, union y merge. Además, veremos los conceptos de lookup y de filtrado condicional de información en Pandas. Podrás aplicar todo lo aprendido en las actividades del módulo y en los ejercicios propuestos. ¡Espero te guste!
- Transformar datos para construir modelos analíticos
- Bienvenido al cuarto y último modulo del curso. En este módulo veras como transformar datos, con el fin de tener un conjunto de datos que podamos trabajar fácilmente al momento de entrenar nuestros modelos de predicción. Vas a poder seleccionar y transformar atributos mediante técnicas como la normalización, la combinación de atributos para generar nuevas variables, la reducción de dimensionalidad y la transformación de texto. Tendrás la oportunidad de reforzar tu aprendizaje mediante ejercicios prácticos y tutoriales utilizando Python.
Taught by
Maria Del Pilar Villamil Giraldo and John Calvo Martínez