Análisis de Datos
Análisis de Datos
Novedades
- El miércoles 23 de junio habrá clase de consulta en el Instituto de Cálculo a las 17:30.
- DECIMO SET DE EJERCICIOS A ENTREGAR (PRÁCTICA 10). Fecha límite de entrega: martes 5 de julio. Se entrega el ejercicio 4 (clasificación de iris.data) con informe y programa.
- NOVENO SET DE EJERCICIOS A ENTREGAR (PRÁCTICA 9). Fecha límite de entrega: viernes 24 de junio. Se entrega el ejercicio 5 de kNN (clasificación de iris), con informe y código.
- OCTAVO SET DE EJERCICIOS A ENTREGAR (PRÁCTICA 8). Fecha límite de entrega: martes 14 de junio. Para una nota máxima de 8, se entrega informe y código correspondiente del ejercicio 4. Para apuntar a la nota máxima de 10, además se debe incluir lo mismo para el ejercicio 5. Por favor, aclarar a la hora de entregar en cual de las dos "modalidades" se entrega.
- Se subió el enunciado y los archivos adjuntos para el TP final
- SEPTIMO SET DE EJERCICIOS A ENTREGAR (PRÁCTICA 7). Fecha límite de entrega: jueves 2 de junio. Se entrega: informe y código correspondiente al ejercicio 5 de la práctica 7. No hace falta hacer el inciso d) si siente que no es necesario estandarizar los datos.
- SEXTO SET DE EJERCICIOS A ENTREGAR (PRÁCTICA 6). Fecha límite de entrega: martes 24 de mayo. Se entrega: informe y código correspondiente al ejercicio 6 de la práctica 6.
- QUINTO SET DE EJERCICIOS A ENTREGAR (PRÁCTICA 5). Fecha límite de entrega: miércoles 11 de mayo. Se entrega informe y código correspondiente a:
a) elegir uno de los primeros cuatro ejercicios de la práctica 5 (K-Fold). Graficar el modelo "ganador" junto con los datos.
b) ejercicio 5 (bootstrap).
IMPORTANTE: puede (y se recomienda) hacer uso del comando lm. - CUARTO SET DE EJERCICIOS A ENTREGAR (PRÁCTICA 4). Fecha límite de entrega: viernes 29 de abril. Se entrega: informe y código correspondiente a el ejercicio 6 o el ejercicio 7 (elegir uno) de la práctica 4.
- TERCER SET DE EJERCICIOS A ENTREGAR (PRÁCTICA 3). Fecha límite de entrega: miércoles 20 de abril. Se entrega: informe y código correspondiente al ejercicio aplicado 1 de la práctica 3. En el informe deben figurar las gráficas solicitadas, incluyendo en el scatter plot una gráfica del modelo que mejor ajustó al testing set.
- SEGUNDO SET DE EJERCICIOS A ENTREGAR (PRÁCTICA 2). Fecha límite de entrega: miércoles 13 de abril. Se entrega: informe con los resultados del ejercicio 6 o 7 (a elegir) de la práctica 2. En el informe se consignarán las gráficas pedidas junto con las respuetas a los enunciados.
- PRIMER SET DE EJERCICIOS A ENTREGAR (PRÁCTICA 1). Fecha de entrega: 4 de abril. Se entrega:
a) elegir UNO entre los ejercicios 14, 15 o 16.
b) ejercicio 25.
Mail de entrega de ejercicios: ejerciciosuba@gmail.com. - Mail de entrega de ejercicios: ejerciciosuba@gmail.com.
- Las clases comienzan el 14 de marzo en el Instituto de Cálculo.
Programa Tentativo
- Principios básicos de programación en R.
- Estadística Descriptiva: medidas resumen (posición y escala), histogramas, boxplots y qq-plots.
- Regresión lineal simple y múltiple.
- Método de partición en entrenamiento/testing.
- Métodos de resampling: cross-validation y Bootstrap.
- Estimación de la densidad y regresión no paramétrica.
- El problema del balance sesgo/varianza.
- Regresión lineal mediante métodos aproximados de optimización funcional usando descenso por el gradiente.
- Clasificación, regresión logística. Implementación y validación del modelo.
- Medidas de calidad para los problemas de clasificación (precision, recall, puntaje F).
- Clasificación por k vecinos más cercanos (kNN).
- Redes Neuronales, modelos multi-capas y el algoritmo de entrenamiento backpropagation.
- Métodos de clustering.
- Reducción de la dimensión: análisis de componentes principales.
Horarios y docentes a cargo
Lunes 17 a 22 - Aula del Instituto de Cálculo, Pabellón 2.Lucas Bali, Laura Cacheiro.
Prácticas
- Práctica 1 : Introducción al R.
- Práctica 2 : Estadística Descriptiva.
- Práctica 3 : Regresión Lineal Simple.
- Práctica 4 : Regresión Lineal Múltiple.
- Práctica 5 : Cross-validation y Bootstrap.
- Práctica 6 : Estimación y Regresión No Paramétrica.
- Práctica 7 : Optimización Funcional.
- Práctica 8 : Regresión Logística.
- Práctica 9 : Curvas ROC y k-vecinos más cercanos.
- Práctica 10 : Análisis Discriminante Lineal (LDA).
- Práctica 11 : Clustering.
Trabajo Práctico Final: Titanic
Datos para las clases
Datos para las prácticas
autos.txtdatos1.txt
datos2.txt
graduados.txt
ciudades.txt
hierro.txt
cpu.txt
abalone.txt
girasol.txt
Credit.csv
productos.txt
inmuebles.txt
Credit.txt
presion.txt
yield.txt
iris.data
Apuntes de R
Programas R de ayuda
Bibliografía
- An Introduction to Statistical Learning with Application in R, Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani, Editorial Springer. Disponible en An Introduction to Statistical Learning
- Machine Learning with R, Brett Lantz, Editorial Packt
- Machine Learning An Algorithmic Perspective, Stephen Marsland, Second Edition-Chapman and Hall_CRC
- Applied Predictive Modeling, Max Kuhn y Kjell Johnson,Springer (2013)
- Introductory Statistics with R, Peter Dalgaard, Editorial Springer.
Otro material
- Curso online de Statistical Learning ofrecido por Trevor Hastie y Robert Tibshirani: Sitio Web
- Videos del curso online de Coursera "Machine Learning", dictado por Andrew Ng: Sitio Web
- Sitio web con material de un curso online de "Machine Learning" de la Universidad de Stanford, dictado por Andrew Ng: Sitio web