Overview
Class Central Tips
Este programa está pensado como una entrada al mundo de los datos masivos y su tratamiento. El primer curso tiene como objetivo mostrar al estudiante el impacto del Big Data en la sociedad actual, tanto en el mundo de los negocios como en el de la política y administraciones públicas, los medios de comunicación y/o la investigación científica. A lo largo de los cursos 2, 3 y 4 se estudian la identificación, captura, pre-procesamiento, análisis y visualización de datos, desde un punto de vista “usuario”, y con una orientación práctica. Finalmente, el Capstone Project permite al estudiante aplicar los conocimientos adquiridos a un caso práctico del campo de la astronomía.
Al finalizar los cursos de esta especialización el estudiante será capaz de:
1. Entender el impacto del tratamiento de datos masivos en la sociedad actual.
2. Entender y explicar la procedencia y características de los datos masivos.
3. Adquirir, preparar, almacenar, analizar, visualizar y manejar grandes conjuntos de datos.
4. Extraer información de los datos.
5. Trabajar dentro del ecosistema Hadoop.
6. Contestar a una pregunta bien formulada en función de la información disponible.
Contamos con un conjunto maravilloso de profesores, con una gran experiencia en el tema, provenientes tanto de la universidad como de la empresa.
Necesitarás una computadora de 64bits que permita virtualizacion, con un mínimo de 6G de RAM (8G recomendable) y 20G disponibles en disco.
Syllabus
Course 1: Big Data: el impacto de los datos masivos en la sociedad actual
- Offered by Universitat Autònoma de Barcelona. La digitalización, la informática e Internet han producido lo que se puede denominar una ... Enroll for free.
Course 2: Big Data: adquisición y almacenamiento de datos
- Offered by Universitat Autònoma de Barcelona. ¿Estás interesado en tener un conocimiento más detallado sobre las herramientas y aplicaciones ... Enroll for free.
Course 3: Big Data: procesamiento y análisis
- Offered by Universitat Autònoma de Barcelona. El presente curso tiene como objetivo presentar los métodos y técnicas básicos para el ... Enroll for free.
Course 4: Big Data: visualización de datos
- Offered by Universitat Autònoma de Barcelona. “Visualización de datos” es el cuarto curso de la especialización “Biga Data- Uso práctico de ... Enroll for free.
Course 5: Big Data: capstone project
- Offered by Universitat Autònoma de Barcelona. En este último curso de la Especialización Big Data el estudiante tendrá la oportunidad de ... Enroll for free.
- Offered by Universitat Autònoma de Barcelona. La digitalización, la informática e Internet han producido lo que se puede denominar una ... Enroll for free.
Course 2: Big Data: adquisición y almacenamiento de datos
- Offered by Universitat Autònoma de Barcelona. ¿Estás interesado en tener un conocimiento más detallado sobre las herramientas y aplicaciones ... Enroll for free.
Course 3: Big Data: procesamiento y análisis
- Offered by Universitat Autònoma de Barcelona. El presente curso tiene como objetivo presentar los métodos y técnicas básicos para el ... Enroll for free.
Course 4: Big Data: visualización de datos
- Offered by Universitat Autònoma de Barcelona. “Visualización de datos” es el cuarto curso de la especialización “Biga Data- Uso práctico de ... Enroll for free.
Course 5: Big Data: capstone project
- Offered by Universitat Autònoma de Barcelona. En este último curso de la Especialización Big Data el estudiante tendrá la oportunidad de ... Enroll for free.
Courses
-
La digitalización, la informática e Internet han producido lo que se puede denominar una revolución en la acumulación y utilización de datos. Podemos almacenar y conservar más datos que nunca antes en la historia. Podemos estudiarlos y analizarlos para tomar decisiones y mejorar procesos. Esta nueva capacidad tiene un enorme impacto en todos los ámbitos de la vida social. A lo largo de este curso: • Conoceremos qué es el Big Data y cuáles son sus características fundamentales • Exploraremos el crecimiento continuo de datos, analizaremos el impacto potencial en muchos campos de la actividad humana y nos preguntaremos por los retos y desafíos que suponen en todos los órdenes de la vida social. • Conoceremos las características de cada una de las fases del procesamiento Big Data, adquiriendo un lenguaje adecuado para la descripción de los procesos. Dispondremos así de una visión de conjunto sobre sistema de tratamiento de grandes datos en la actualidad. • Conoceremos las principales áreas de aplicación de los datos masivos. Qué tipos de transformaciones están imponiendo en la organización del trabajo y en la gestión. Qué desafíos imponen en la gobernanza, la economía y el trabajo. Qué mejoras introducen y qué riesgos representan. • Estudiaremos las principales tecnologías e infraestructuras para el almacenamiento y procesado de grandes volúmenes de datos.
-
El presente curso tiene como objetivo presentar los métodos y técnicas básicos para el procesamiento y análisis de datos en el contexto de Big Data. No prentende ser un curso exhaustivo sobre Machine Learning ni sobre métodos Estadísticos, simplemente se pretenden mostrar las características principales de estas técnicas para que el alumno pueda tener una visión general de las opciones que ofrece el análisis de datos para poder explorar, confirmar indicios y en definitiva, extraer conclusiones. El curso está dirigido a estudiantes y profesionales que deseen aproximarse al procesamiento y análisis de datos en Big Data. Aunque no es un requisito indispensable tener experiencia en análisis de datos o en entornos Big Data, el curso puede resultar especialmente interesante a estudiantes con ciertos conocimientos de análisis de datos que deseen introducirse en el entorno Big Data, por otro lado, también resultará interesante a aquellos estudiantes con cierta experiencia en entornos Big Data que deseen adquirir una mayor visión analítica. En este sentido el curso pretende ofrecer recursos realistas en el contexto Big Data y por este motivo se trabajará des de una máquina virtual con la aplicación Jupyter como enlace para desarrollar los modelos y técnicas con PySpark. El curso está dividido en 4 módulos más o menos independientes aunque se recomienda realizarlos de forma secuencial. En el Módulo 1 se presentan los diferentes problemas y técnicas más habitules para analizar datos desde una perspectiva general. También se introduce el caso de estudio y las herramientas de trabajo que se emplearán. El resto de módulo está dedicado a la tarea de Exploración y Pre-Proceso de los datos, incluyendo consultas, tareas de gestión, resúmenes numéricos y gráficos. Los siguientes módulos se focalizan en las técnicas de análisis. El Módulo 2 se centra en técnicas de modelización básicas, en particular regresión y regresión logística. Además de repasar las etapas de calibración del modelo, también se incluyen las etapas de validación y simplificación. El módulo 3 está plenamente dedicado a la técnica de Árboles de Regresión y Clasificación. También se incluyen los bosques aleatorios. El módulo final contiene la técnica de Redes Neuronales para clasificación y también una introducción a las técnicas No Supervisadas, en particular, reducción de dimensión a través del análisis de componentes principales y la clasificación automática a través del análisis de clústers.
-
“Visualización de datos” es el cuarto curso de la especialización “Biga Data- Uso práctico de datos masivos. Organizado en cuatro semanas, tiene por objetivo motivar e introducir los conceptos clave de la visualización de datos así como mostrar ejemplos en diferentes contextos. Además, se proporcionan criterios para formular el problema y elegir las herramientas más adecuadas para obtener una correcta visualización. Este debe ser un curso introductorio, motivador e inspirador para la narración de historias a través de la visualización de sus datos. Los cuatro módulos en los que se estructura el curso son los siguientes: MÓDULO 1: Contexto para la visualización de datos hoy MÓDULO 2: Herramientas de análisis y visualización de datos MÓDULO 3: El proceso de creación de una visualización de datos MÓDULO 4: Otros aspectos de la visualización de datos
-
¿Estás interesado en tener un conocimiento más detallado sobre las herramientas y aplicaciones Big Data? En este curso aprenderás los principios para comprender la terminología, conceptos básicos y herramientas más importantes para resolver problemas de análisis de datos enfocándonos en los problemas y las aplicaciones. El objetivo es proporcionar una visión de sistema para entender los retos más importantes que nos encontramos cuando trabajamos en entornos con grandes volúmenes de datos. En el curso se plantea una introducción a diversas herramientas utilizadas de forma común en la comunidad como Hadoop, Spark o Hive y tendrás que resolver diferentes retos de análisis de datos mediante su uso. Al terminar el curso habrás adquirido conocimientos sobre el ecosistema de herramientas Big Data incluyendo ejemplos de uso con problemas industriales y científicos. Tendrás una serie de recursos sobre cómo un análisis a realizar se traduce en una serie de operaciones de recolección de datos, monitorización, almacenamiento, análisis y creación de informes sobre los resultados obtenidos. También adquirirás un criterio para elegir cuál es la herramienta más adecuada para resolver un cierto problema de análisis de datos a partir de los requerimientos de uso de las herramientas. El curso está orientado tanto a estudiantes universitarios de primeros cursos de estudios universitarios relacionados con la informática, la ingeniería o las matemáticas, como a otros estudiantes con conocimientos de programación, interesados en aprender cómo utilizar de análisis de datos con herramientas de código abierto. Para realizar los ejercicios es necesario utilizar una máquina virtual que deberá ser instalada en tu ordenador.
-
En este último curso de la Especialización Big Data el estudiante tendrá la oportunidad de aplicar algunas de las herramientas y métodos aprendidos en los cursos anteriores en un caso práctico. El objetivo de este Capstone Project es mostrar un ejemplo del trabajo que se realiza diariamente en el departamento de Cosmología del Port d’Informació Científica, en Barcelona. Se trata de crear un clasificador para imágenes de galaxias, a partir de datos del proyecto GalaxyZoo e imágenes y datos del telescopio Sloan Digital Sky Survey. Los trabajos y ejercicios guiados llevarán al estudiante a la exploración y analisis de estos datos, hasta realizar una herramienta automática de Machine Learning. El proceso seguido por los estudiantes en este curso se podría aplicar en cualquier otra disciplina, por ejemplo en las ciencias sociales, en un estudio de mercado o en cualquier ámbito que comporte toma de decisiones a partir de un gran volumen de datos.
Taught by
Andrés Cencerrado, Antonio Espinosa, Antonio Pita, Carme Artigas Brugal, Francesc Torradeflot, Ignasi Alcalde, Isabel Serra, Jorge Carretero, Josep Curto Díaz, Julià Minguillón Alfonso, Llorenç Badiella, Nadia Tonello, Pau Tallada, Quelic Berga Carreras, Santiago González, Teresa Sancho Vinuesa and Tomás Margalef