Schedule

Antònia Tugores, Francisco Correoso, Guillem Duran, Juan Carlos González, Jordi Contestí

Workshop

Aula 1

05 October 2018, 15:00 - 17:30

Introducción a Data Science en Python

Este taller está destinado a cualquier persona que no conozca las técnicas actuales de análisis científico de datos y quiera empezar a dar sus primeros pasos en este mundo.

Los requisitos para asistir al taller son simplemente tener conocimientos básicos de programación, sin importar si es Python o no y también conocimientos básicos de estadística descriptiva. Además, deberás llevar un portátil con Anaconda con Python 3.6 instalado para poder realizar la parte práctica.

Te ayudaremos a descubrir cómo la ciencia de datos puede permitirte aprovechar al máximo tus datos. Y aprenderás a configurar y utilizar un entorno de ciencia de datos en Python.

El taller de introducción a Data Science en Python incluirá los siguientes bloques:

  1. Introducción al taller. Para empezar, comentaremos qué es Data Science, Big Data, Machine Learning y otros conceptos relacionados y cómo encaja el lenguaje Python en todo ello. Asimismo, enunciaremos los requisitos que debería tener un analista de datos.

  2. Introducción a Jupyter. En el taller utilizaremos Jupyter, que es una aplicación que permite editar código Python, así como también otros lenguajes como R, Julia o Scala, de forma conjunta con texto enriquecido y que es ampliamente utilizado en el análisis de datos actualmente. En este bloque explicaremos cómo utilizarlo y sus funcionalidades principales.

  3. Breve introducción a la anatomía de un numpy array. Todo el ecosistema científico Python usa de forma generalizada los arrays de numpy en sus tripas. En este bloque intentaremos explicar cómo funciona un numpy array para que le podáis sacar el máximo provecho numérico a Python.

  4. Tratamiento de datos mediante Pandas. Pandas es la librería principal de carga, consulta y modificación de datos en Python. En este bloque realizaremos diversos ejercicios para conocer las funcionalidades más importantes de Pandas y prepararnos para los siguientes bloques.

  5. Visualización de datos con Matplotlib. Por su parte, Matplotlib es una librería de Python que nos permite construir gráficos. Durante este apartado veremos cómo crear gráficos fácilmente mediante esta librería y realizaremos ejercicios para poner en práctica esta librería.

  6. Resolución de un problema de clasificación mediante scikit-learn. Posteriormente, propondremos un problema de clasificación y explicaremos un algoritmo matemático que permita su resolución, ¡no te asustes! No entraremos en explicaciones matemáticas profundas, pero sí intentaremos comprender cómo funcionan estos algoritmos de forma general y en particular para el algoritmo de clasificación escogido. Haremos ejercicios y jugaremos con los datos para poder entender mejor cómo funciona un algoritmo de este tipo. Utilizaremos scikit-learn, que es la librería de Python que nos permite implementar soluciones de Machine Learning.