File contents
##Item a): Leemos los datos
gluco<-read.table("estad_descriptiva.txt", header=TRUE)
gluco
##También los puedo separar de la siguiente forma:
DietaA<-gluco[,1]
DietaA
DietaB<-gluco[,2]
DietaC<-gluco[,3]
##Item b): Medidas resumen: media, mediana, media alpha podada al 10% y 20%
summary(gluco)
#Media muestral:
mean(gluco)
mean(DietaA)
mean(DietaB)
mean(DietaC)
#Mediana muestral:
median(gluco) #Con la mediana no se puede hacer lo mismo
median(DietaA)
##Lo podemos ver haciendo
length(DietaA) #Por lo tanto nos interesa la posición 1/2(100+1)=50.5
sort(DietaA)
#Media alpha podada al 10%
mean(gluco,trim=0.1)
mean(DietaA,trim=0.1)
##Observemos que coincide con
DietaAordenada<-sort(DietaA)
mean(DietaAordenada[11:90])
mean(gluco,trim=0.2)
###Conclusión: Podemos ver que, dado que los valores de glucosa saludable están entre 80 y 110 mg/dl, la dieta C tiene aproximadamente un 75% que no es saludable.
##Item c): Medidas de dispersión: desvío estándar, distancia intercuartos.
#Varianza muestral
var(DietaA)
var(DietaB)
var(DietaC)
#Desvío Muestral: raiz cuadrada de la varianza muestral
sqrt(var(DietaA))
sqrt(var(DietaB))
sqrt(var(DietaC))
#Distancia Intercuartos
##¿Cómo hacemos para obtener el primer cuarto?
median(sort(DietaA)[1:50])
median(sort(DietaB)[1:50])
median(sort(DietaC)[1:50])
##¿Y el tercer cuarto?
median(sort(DietaA)[51:100])
median(sort(DietaB)[51:100])
median(sort(DietaC)[51:100])
##Luego, las distancias intercuartos de cada uno son:
median(sort(DietaA)[51:100])-median(sort(DietaA)[1:50])
median(sort(DietaB)[51:100])-median(sort(DietaB)[1:50])
median(sort(DietaC)[51:100])-median(sort(DietaC)[1:50])
###Conclusión: La dieta B tiene más variabilidad que las restantes dietas.
##Item d): Percentiles
quantile(DietaA) #Da los percentiles 0% (mínimo), 25%, 50%, 75% y 100%(máximo)
quantile(DietaB)
quantile(DietaC)
#Percentiles 10% y 90%
quantile(DietaA,0.10)
quantile(DietaB,0.10)
quantile(DietaC,0.10)
quantile(DietaA,0.90)
quantile(DietaB,0.90)
quantile(DietaC,0.90)
#Obervación: Para obtener las distancias intercuartiles podemos hacer:
quantile(DietaA,0.75)-quantile(DietaA,0.25)
quantile(DietaB,0.75)-quantile(DietaB,0.25)
quantile(DietaC,0.75)-quantile(DietaC,0.25)
#Rango muestral
range(DietaA)
range(DietaB)
range(DietaC)
##Conclusión: el 80% de los individuos que siguieron la dieta A son saludables, mientras que sólo el 50% de los individuos que siguieron la dieta B lo son. El 75% de los que siguieron la dieta C tienen niveles de glucosa no saludable.
##Item e): Histograma y Tallo-Hoja
stem(DietaA)
stem(DietaB)
stem(DietaC)
par(mfrow=c(1,3))
hist(DietaA)
hist(DietaB)
hist(DietaC)
plot(density(DietaA))
plot(density(DietaB))
plot(density(DietaC))
#Por default usa el núcleo Gaussiano.
#Se puede cambiar con modificando el "kernel". Ej. kernel="rectangular".
plot(density(DietaA, kernel="rectangular", bw=10))
##Conclusión: La dieta B parece bimodal. En la dieta A parecería haber un valor más alejado hacia la izquierda.
#La dieta A tiene una distribución bastante simétrica y unimodal, por lo que un ajuste normal podría ser razonable.
#Observemos que la dieta B también tiene una distribución bastante simétrica, pero bimodal!
##Item f): Box-Plots
par(mfrow=c(1,3))
boxplot(DietaA)
boxplot(DietaB)
boxplot(DietaC)
##Si queremos obtener la información con la que se construyen los box-plots
boxplotA<-boxplot(DietaA)
boxplotA
##Si queremos los tres gráficos en un mismo sistema de coordenadas
boxplot(gluco)
#Si quiero ver cuáles son los outliers identificados
sal.aux <- boxplot(DietaC)
sal.aux$out
dietac <- DietaC
names(dietac) <- 1:100
sal.aux <- boxplot(dietac)
sal.aux$out #Me dice ahora además cuál es el número de la observación que le corresponde.
#Hagamos ahora los box-plots asimétricos
library(robustbase)
adjbox(gluco)
par(mfrow=c(2,1))
boxplot(gluco, main="Boxplots Clásicos")
adjbox(gluco, main="Boxplots Asimétricos")
###Item g): Q-Q plots
qqnorm(DietaA) #Tiene forma de recta
qqnorm(DietaB) #Tiene colas livianas respecto de la distribución normal
qqnorm(DietaC) #Tiene cola liviana a izquierda y cola pesada a derecha respecto de la normal
##Conclusión: La dieta A tiene una distribución que podría aproximarse con una normal.
###Item h)
#La dieta que parece más razonable es la Dieta A.