La visión por computador es una destreza indispensable en el mercado laboral, catalizando avances significativos en campos como la inteligencia artificial, la robótica y la automatización. Su uso transforma nuestra interacción con la tecnología, optimizando sistemas de producción y fomentando la innovación en la interacción humano-computadora. Nuestro curso brinda una comprensión detallada de esta tecnología, destacando su capacidad para procesar información visual en diversas tareas.
Daremos un enfoque profundo a la composición y procesamiento de imágenes desde una perspectiva computacional, concentrándonos en aprendizaje profundo y Redes Neuronales Convolucionales (CNN) para la clasificación de imágenes. Exploraremos modelos avanzados como los Transformer Visuales y técnicas como aprendizaje auto-supervisado, Few-Shot learning, y Masked Autoencoders, abarcando la detección de objetos, segmentación de imágenes y calibración de cámaras. En etapas avanzadas, nos enfocaremos en la reconstrucción 3D, análisis de movimiento, flujo óptico y temas emergentes como el metaverso y la realidad aumentada. El curso se basa en un aprendizaje teórico, el cual es reforzado con un enfoque práctico basado en casos y aplicaciones de la visión por computador en el mundo real. Los estudiantes accederán a recursos variados como videos, lecturas y actividades, promoviendo un aprendizaje integral y aplicado de esta tecnología revolucionaria.
¿Para quién es este curso?: (qué perfil de entrada debería tener el estudiante que toma este curso)
Este curso se dirige a cualquier persona que tenga interés en conocer de manera introductoria el área de la visión por computador y los avances contemporáneos que esta rama ha tenido en diferentes aplicaciones. Principalmente, está pensado para personas con por lo menos un título de pregrado en ingeniería y ciencias de la computación y es deseable que los estudiantes cuenten con conocimientos de básicos de programación. Sin embargo, cualquier persona que quiera estudiar esta área para aplicarla en su contexto puede tomar el curso.
Overview
Syllabus
- Introducción y fundamentos de la visión artificial
- Este módulo ofrece una introducción a la visión por computador, abarcando desde su conceptualización hasta sus aplicaciones prácticas. Exploraremos las tareas fundamentales que constituyen este campo, la evolución histórica de la tecnología y los principios de cómo las máquinas interpretan las imágenes. Nos adentraremos en la naturaleza de las imágenes digitales, cómo se forman y cómo se estructuran los conjuntos de datos para su análisis. Introduciremos el uso del aprendizaje profundo para la clasificación de imágenes y desglosaremos los conceptos y la arquitectura detrás de las Redes Neuronales Convolucionales (CNN). Al final de este módulo, los participantes podrán construir su propia CNN y tendrán una comprensión sólida de los fundamentos de la visión por computador, preparándolos para sumergirse en aplicaciones más complejas.
- Transformers Visuales en Reconocimiento, Detección y Segmentación
- En este módulo exploramos los Transformers Visuales, su impacto en el campo de la visión por computador y sus aplicaciones en escenarios reales. Comenzaremos con una visión general de este sistema, introduciendo su arquitectura innovadora y cómo se diferencia de otros modelos en el procesamiento de imágenes. Además, examinaremos los componentes clave que permiten abordar tareas como la clasificación, detección y segmentación de imágenes. Además, introduciremos distintos métodos de supervisión del aprendizaje automático que darán al participante herramientas necesarias en escenarios donde no hay suficientes anotaciones. Finalizado este módulo, habremos estudiado también los fundamentos de la segmentación y sus inicios como tarea de visión por computador.
- De la Reconstrucción 3D a la Visión Dinámica y Egocéntrica
- En este módulo exploraremos los principios básicos de la reconstrucción 3D, el análisis de movimiento y la visión egocéntrica. Iniciaremos con una revisión de los parámetros esenciales para la calibración de cámaras, los cuales son cruciales para el análisis de imágenes en diversas aplicaciones de la visión por computadora. Proseguiremos con el estudio de las técnicas para la reconstrucción tridimensional y el análisis del movimiento, además de revisar algunas de sus aplicaciones prácticas en escenarios reales. Posteriormente, nos enfocaremos en la visión egocéntrica, examinando su evolución y algunas de las principales bases de datos que impulsan el progreso en este campo. Al finalizar este módulo, los participantes tendrán una comprensión sólida de los principios y técnicas que fundamentan la calibración de cámaras, el análisis de movimiento y la visión egocéntrica, preparándolos para aplicar estos conocimientos en el desarrollo de tecnologías de realidad aumentada, realidad mixta y entornos virtuales.
- Generación de datos visuales y modelos fundacionales
- Este módulo ofrece una introducción a la creciente área de la generación y a los modelos fundacionales en la visión por computador. Exploraremos herramientas de gran utilidad en la generación de imágenes sintéticas, como lo son las redes generativas y los modelos de difusión. Asimismo, los participantes aprenderán a reconocer las limitaciones de estos modelos y el funcionamiento del estado del arte. Exploraremos los elementos esenciales de los modelos fundacionales y cómo éstos permiten combinar datos de distinta naturaleza. Al finalizar, los participantes tendrán el conocimiento necesario para reconocer las piezas clave del desarrollo de herramientas de inteligencia artificial y estarán listos para aplicarlas en tareas de visión por computador.
Taught by
Pablo Andrés Arbeláez Escalante