Análisis de Datos
Análisis de Datos
Novedades
- Quinto TP colgado en la página web: Enunciado . Fecha límite de entrega: 11 de julio de 2018 23:59. Dataset del ejercicio: Vinos
- Cuarto TP colgado en la página web: Enunciado . Fecha límite de entrega: 18 de junio de 2018 23:59. Dataset del ejercicio: Abalone
- Tercer TP colgado en la página web: Enunciado . Fecha límite de entrega: 17 de mayo de 2018 23:59.
- Segundo TP colgado en la página web: Enunciado . Fecha límite de entrega: 30 de abril de 2018 23:59.
- Primer TP colgado en la página web: Enunciado . Fecha límite de entrega: 16 de abril de 2018.
- Arrancamos el lunes 19 de marzo a las 17 horas en el Instituto de Cálculo. IMPORTANTE: dada la reducida provisión de computadoras, se solicita que los asistentes traigan, si pueden y tienen, su propia notebook, preferentemente con el R instalado (Página de R ).
- Mail de entrega de ejercicios: ejerciciosuba@gmail.com.
- Las clases comienzan el 19 de marzo en el Instituto de Cálculo.
Programa Tentativo
- Principios básicos de programación en R.
- Estadística Descriptiva: medidas resumen (posición y escala), histogramas, boxplots y qq-plots.
- Regresión lineal simple y múltiple.
- Método de partición en entrenamiento/testing.
- Métodos de resampling: cross-validation y Bootstrap.
- Estimación de la densidad y regresión no paramétrica.
- El problema del balance sesgo/varianza.
- Regresión lineal mediante métodos aproximados de optimización funcional usando descenso por el gradiente.
- Clasificación, regresión logística. Implementación y validación del modelo.
- Medidas de calidad para los problemas de clasificación (precision, recall, puntaje F).
- Clasificación por k vecinos más cercanos (kNN).
- Redes Neuronales, modelos multi-capas y el algoritmo de entrenamiento backpropagation.
- Métodos de clustering.
- Reducción de la dimensión: análisis de componentes principales.
Horarios y docentes a cargo
Lunes 17 a 22 - Aula del Instituto de Cálculo, Pabellón 2.Victor Yohai, Lucas Bali.
Prácticas
- Práctica 1 : Introducción al R.
- Práctica 2 : Estadística Descriptiva.
- Práctica 3 : Regresión Lineal Simple.
- Práctica 4 : Regresión Lineal Múltiple.
- Práctica 5 : Cross-validation y Bootstrap.
- Práctica 6 : Estimación y Regresión No Paramétrica.
- Práctica 7 : Optimización Funcional.
- Práctica 8 : Regresión Logística.
- Práctica 9 : Curvas ROC y k-vecinos más cercanos.
- Práctica 10 : Análisis Discriminante Lineal (LDA).
- Práctica 11 : Clustering.
Datos para las clases
Datos para las prácticas
autos.txtdatos1.txt
datos2.txt
graduados.txt
ciudades.txt
hierro.txt
cpu.txt
abalone.txt
girasol.txt
Credit.csv
productos.txt
inmuebles.txt
Credit.txt
presion.txt
yield.txt
iris.data
GaltonMod.csv
ortann.csv
Apuntes de R
Programas R de ayuda
Bibliografía
- An Introduction to Statistical Learning with Application in R, Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani, Editorial Springer. Disponible en An Introduction to Statistical Learning
- Machine Learning with R, Brett Lantz, Editorial Packt
- Machine Learning An Algorithmic Perspective, Stephen Marsland, Second Edition-Chapman and Hall_CRC
- Applied Predictive Modeling, Max Kuhn y Kjell Johnson,Springer (2013)
- Introductory Statistics with R, Peter Dalgaard, Editorial Springer.
Otro material
- Curso online de Statistical Learning ofrecido por Trevor Hastie y Robert Tibshirani: Sitio Web
- Videos del curso online de Coursera "Machine Learning", dictado por Andrew Ng: Sitio Web
- Sitio web con material de un curso online de "Machine Learning" de la Universidad de Stanford, dictado por Andrew Ng: Sitio web