Overview
Este curso es una primera inmersión en el mundo de la ciencia de datos, en el cual el estudiante comprenderá los fundamentos de la ciencia de datos, las características de un científico de datos, las herramientas que utiliza, la metodología que se debe seguir para este estilo de proyectos, y estará en capacidad de aplicar técnicas estadísticas para la construcción e interpretación de modelos analíticos descriptivos.
El curso consta de 4 módulos, cada uno de una semana, en los cuales al final del mismo, se tiene una lección dedicada al desarrollo del proyecto del curso. Los módulos son:
Módulo 1. La ciencia de datos y los científicos de datos: En este módulo, se presenta los aspectos fundamentales de la ciencia de datos, la metodología ASUM-DM para la implementación de estos proyectos y la metodología design thinking para identificar problemas y oportunidades de negocio.
Módulo 2. Análisis exploratorio de datos: En este módulo, se presenta los conceptos asociados a estadística descriptiva y exploratoria univariada, y una ejemplificación de estos mediante el uso de la herramienta Jupyter Notebook, los cuales son utilizados para validar hipótesis de negocio.
Módulo 3. Modelos analíticos basados en estadística bivariada: En este módulo, se presenta los conceptos asociados a pruebas de correlación y análisis de tablas de contingencia, y una ejemplificación de estos mediante el uso de la herramienta Jupyter Notebook, los cuales son utilizados para validar hipótesis de negocio.
Módulo 4. Comparaciones entre grupos y validación de modelos estadísticos: En este módulo, se presenta los conceptos asociados a ANOVAS a una y dos vías, y una ejemplificación de estos mediante el uso de la herramienta Jupyter Notebook, los cuales son utilizados para validar hipótesis de negocio.
Este curso está pensado para personas de diferentes disciplinas que quieran adentrarse en el mundo de la ciencia de datos, que estén iniciando estudios universitarios o con títulos de técnicos o tecnológicos, así mismo, se recomienda tener un background de conocimientos básicos en probabilidad y estadística. El aspirante a tomar este curso puede provenir de cualquier campo del conocimiento ya sea de gobierno, la industria, la consultoría, la academia, etc.
Para el desarrollo de este curso, es necesario la instalación de un programa especial (Anaconda – Jupyter Notebook) con el fin de poder realizar los análisis de los datos a través del lenguaje de programación Python, es recomendable que el equipo cuente con más de 4GB de RAM y espacio en disco duro superior a 1GB.
Syllabus
- La ciencia de datos y los científicos de datos
- Bienvenidos al primer módulo del curso introducción a la ciencia de datos. En este módulo veremos distintos tópicos que te permitirán iniciar en el fascinante mundo de la ciencia de datos, en particular veremos una definición de ciencia de datos y algunos ejemplos en múltiples disciplinas en donde se pueden implementar proyectos de ciencia de datos, Así mismo, te presentaremos una primera metodología denominada ASUM-DM que te ayudará a desarrollar este tipo de proyectos y una segunda metodología denominada Design Thinking que te permitirá encontrar oportunidades analíticas en el contexto en donde te desempeñas. Finalmente, te presentaremos un caso de uso para que pongas en prácticas tus conocimientos.
- Análisis exploratorio de datos
- Bienvenidos al segundo módulo del curso introducción a la ciencia de datos. En este módulo veremos nuestras primeras herramientas para realizar un primer análisis de datos con el fin de encontrar nuestros primeros insights relevantes para el negocio. En este módulo, veremos inicialmente los conceptos de estadística univariada, en particular se estudiarán las medidas de tendencia central, de localización o de posición y medidas de variabilidad. Así mismo, aprenderemos a representar gráficamente nuestros datos con el fin de validar hipótesis de negocio. Adicional a lo anterior en este módulo vas a tener la oportunidad de ver cómo se aplican los distintos tópicos a un caso de uso enfocado en el sector retail mediante el uso de la herramienta Jupyter Notebook. Finalmente, te presentaremos de nuevo el caso de uso de Airbnb para que pongas en prácticas tus conocimientos.
- Modelos analíticos basados en estadística bivariada
- Bienvenidos al tercer módulo del curso introducción a la ciencia de datos. En el anterior módulo, aprendimos sobre cómo validar nuestras primeras hipótesis de negocio a través del uso de estadística exploratoria univariada, la cual nos permitía analizar cada variable por separado, ahora, nos enfrentaremos al reto de analizar dos variables al mismo tiempo, en este módulo, estudiaremos los conceptos de correlación, los cuales nos permitirá analizar dos variables cuantitativas al tiempo, adicional a ello, en este módulo tendrás la oportunidad de estudiar sobre tablas de contingencia y pruebas chi cuadrado las cuales nos ayudarán analizar dos variables categóricas al tiempo. Finalmente, vas a tener la oportunidad de ver cómo se aplican los distintos tópicos vistos en este módulo a un caso de uso enfocado en el sector retail mediante el uso de la herramienta Jupyter Notebook y pondrás en prácticas tus conocimientos aplicando todos los conceptos vistos en este módulo al caso de uso de Airbnb.
- Comparaciones entre grupos y validación de modelos estadísticos
- Bienvenido al cuarto módulo del curso de Introducción a la ciencia de datos aplicada, denominado comparaciones entre grupos y validación de modelos estadísticos. En este módulo te voy a presentar 2 casos que he seleccionado con la intención de mostrarte la importancia de los contrastes de hipótesis y mediante pruebas de significancia estadística en los diferentes proyectos que realicemos. En ellos, podrás observar por qué es necesario validar correctamente nuestras hipótesis.
Taught by
John Calvo Martínez and Harry Cristhian Torres Moreno