Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Universitat Autònoma de Barcelona (Autonomous University of Barcelona)

Big Data: capstone project

Universitat Autònoma de Barcelona (Autonomous University of Barcelona) via Coursera

Overview

En este último curso de la Especialización Big Data el estudiante tendrá la oportunidad de aplicar algunas de las herramientas y métodos aprendidos en los cursos anteriores en un caso práctico. El objetivo de este Capstone Project es mostrar un ejemplo del trabajo que se realiza diariamente en el departamento de Cosmología del Port d’Informació Científica, en Barcelona. Se trata de crear un clasificador para imágenes de galaxias, a partir de datos del proyecto GalaxyZoo e imágenes y datos del telescopio Sloan Digital Sky Survey. Los trabajos y ejercicios guiados llevarán al estudiante a la exploración y analisis de estos datos, hasta realizar una herramienta automática de Machine Learning. El proceso seguido por los estudiantes en este curso se podría aplicar en cualquier otra disciplina, por ejemplo en las ciencias sociales, en un estudio de mercado o en cualquier ámbito que comporte toma de decisiones a partir de un gran volumen de datos.

Syllabus

  • INTRODUCCIÓN
  • LA MÁQUINA VIRTUAL
    • ATENCIÓN: Si ya te instalaste la máquina virtual en el curso anterior de la Especialización no es necesario que vuelvas a hacerlo. En caso contrario, en este apartado te explicamos cómo descargar e instalar dicha máquina virtual en tu ordenador.

      La MV-Cloudera requiere disponer de un equipo con las siguientes características: (1) máquina de 64 bits, (2) mínimo 6G de memoria (recomendable 8G), y (3) 20G disponibles en disco.

      Ten en cuenta que bajar e instalar la máquina virtual te llevará tiempo dado el tamaño y complejidad de la misma
  • MÓDULO 1 - Exploración de datos
    • En esta semana vamos a conocer el proyecto y a hacer una primera exploración de algunos de los datos con los que iremos trabajando. Nos familiarizamos con el contenido de estos ficheros y haremos el trabajo preliminar para poderlo luego aplicar a grandes volumenes de datos.
  • MÓDULO 2 - MODELO DE DATOS
    • En esta semana aprenderemos a cargar los datos en Hive, construir su modelo de datos y entender la tarea de clasificar una galaxia según su forma.
  • MÓDULO 3 - CLASIFICACIÓN
    • Esta semana vamos a normalizar un modelo de datos, estudiaremos con profundidad los votos que nos han proporcionado los usuarios y generaremos la información necesaria para construir un clasificador automàtico.
  • MÓDULO 4 - MACHINE LEARNING
    • Esta semana introduciremos el dataset de imágenes galácticas y prepararemos dos algoritmos de Inteligencia Artificial para la clasificación automática de galaxias a partir de una imagen.
  • MÓDULO 5 - TRABAJO FINAL
    • Es el momento de preparar el informe final con el trabajo realizado hasta ahora. Necesitaréis tener a mano los trabajos realizados las semanas anteriores.

Taught by

Francesc Torradeflot, Nadia Tonello, Pau Tallada and Jorge Carretero

Tags

Reviews

4.7 rating at Coursera based on 56 ratings

Start your review of Big Data: capstone project

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.