Skip to content

Departamento de Matematica

Sections
Personal tools
Views
  • State: visible

Clases2y3 en R

Click here to get the file

Size 4.4 kB - File type text/x-r-source

File contents

##Item a): Leemos los datos
gluco<-read.table("estad_descriptiva.txt", header=TRUE)
gluco

##También los puedo separar de la siguiente forma:
DietaA<-gluco[,1]
DietaA
DietaB<-gluco[,2]
DietaC<-gluco[,3]

##Item b): Medidas resumen: media, mediana, media alpha podada al 10% y 20%

summary(gluco)

#Media muestral:
mean(gluco)
mean(DietaA)
mean(DietaB)
mean(DietaC)

#Mediana muestral:
median(gluco) #Con la mediana no se puede hacer lo mismo
median(DietaA)

##Lo podemos ver haciendo
length(DietaA) #Por lo tanto nos interesa la posición 1/2(100+1)=50.5
sort(DietaA)

#Media alpha podada al 10%
mean(gluco,trim=0.1)
mean(DietaA,trim=0.1)

##Observemos que coincide con
DietaAordenada<-sort(DietaA)
mean(DietaAordenada[11:90])

mean(gluco,trim=0.2)

###Conclusión: Podemos ver que, dado que los valores de glucosa saludable están entre 80 y 110 mg/dl, la dieta C tiene aproximadamente un 75% que no es saludable.

##Item c): Medidas de dispersión: desvío estándar, distancia intercuartos.

#Varianza muestral
var(DietaA)
var(DietaB)
var(DietaC)

#Desvío Muestral: raiz cuadrada de la varianza muestral
sqrt(var(DietaA))
sqrt(var(DietaB))
sqrt(var(DietaC))

#Distancia Intercuartos
##¿Cómo hacemos para obtener el primer cuarto?
median(sort(DietaA)[1:50])
median(sort(DietaB)[1:50])
median(sort(DietaC)[1:50])
##¿Y el tercer cuarto?
median(sort(DietaA)[51:100])
median(sort(DietaB)[51:100])
median(sort(DietaC)[51:100])
##Luego, las distancias intercuartos de cada uno son:
median(sort(DietaA)[51:100])-median(sort(DietaA)[1:50])
median(sort(DietaB)[51:100])-median(sort(DietaB)[1:50])
median(sort(DietaC)[51:100])-median(sort(DietaC)[1:50])

###Conclusión: La dieta B tiene más variabilidad que las restantes dietas.

##Item d): Percentiles

quantile(DietaA) #Da los percentiles 0% (mínimo), 25%, 50%, 75% y 100%(máximo)
quantile(DietaB)
quantile(DietaC)

#Percentiles 10% y 90%

quantile(DietaA,0.10)
quantile(DietaB,0.10)
quantile(DietaC,0.10)

quantile(DietaA,0.90)
quantile(DietaB,0.90)
quantile(DietaC,0.90)

#Obervación: Para obtener las distancias intercuartiles podemos hacer:
quantile(DietaA,0.75)-quantile(DietaA,0.25)
quantile(DietaB,0.75)-quantile(DietaB,0.25)
quantile(DietaC,0.75)-quantile(DietaC,0.25)

#Rango muestral
range(DietaA)
range(DietaB)
range(DietaC)

##Conclusión: el 80% de los individuos que siguieron la dieta A son saludables, mientras que sólo el 50% de los individuos que siguieron la dieta B lo son. El 75% de los que siguieron la dieta C tienen niveles de glucosa no saludable.

##Item e): Histograma y Tallo-Hoja

stem(DietaA)
stem(DietaB)
stem(DietaC)

par(mfrow=c(1,3))
hist(DietaA)
hist(DietaB)
hist(DietaC)

plot(density(DietaA))
plot(density(DietaB))
plot(density(DietaC))

#Por default usa el núcleo Gaussiano. 
#Se puede cambiar con modificando el "kernel". Ej. kernel="rectangular".
plot(density(DietaA, kernel="rectangular", bw=10)) 


##Conclusión: La dieta B parece bimodal. En la dieta A parecería haber un valor más alejado hacia la izquierda.
#La dieta A tiene una distribución bastante simétrica y unimodal, por lo que un ajuste normal podría ser razonable.
#Observemos que la dieta B también tiene una distribución bastante simétrica, pero bimodal!

##Item f): Box-Plots
par(mfrow=c(1,3))
boxplot(DietaA)
boxplot(DietaB)
boxplot(DietaC)

##Si queremos obtener la información con la que se construyen los box-plots
boxplotA<-boxplot(DietaA)
boxplotA

##Si queremos los tres gráficos en un mismo sistema de coordenadas
boxplot(gluco)

#Si quiero ver cuáles son los outliers identificados
sal.aux <- boxplot(DietaC)
sal.aux$out
dietac <- DietaC
names(dietac) <- 1:100
sal.aux <- boxplot(dietac)
sal.aux$out #Me dice ahora además cuál es el número de la observación que le corresponde.

#Hagamos ahora los box-plots asimétricos
library(robustbase)

adjbox(gluco)

par(mfrow=c(2,1))
boxplot(gluco, main="Boxplots Clásicos")
adjbox(gluco, main="Boxplots Asimétricos")

###Item g): Q-Q plots

qqnorm(DietaA) #Tiene forma de recta
qqnorm(DietaB) #Tiene colas livianas respecto de la distribución normal
qqnorm(DietaC) #Tiene cola liviana a izquierda y cola pesada a derecha respecto de la normal

##Conclusión: La dieta A tiene una distribución que podría aproximarse con una normal.

###Item h)
#La dieta que parece más razonable es la Dieta A.









Created by slaplagn
Last modified 2015-08-17 11:00 AM
 
 

Powered by Plone