Parte escrita

Ejercicio 1

Para establecer si hay relaci'on entre la humedad de ambiente y la supervivencia de cierta bacteria, se han tomado muestras de la concentraci'on de esta bacteria a distintas distancias de la orilla de un r'io. Los resultados se representan en la siguiente www3.uah.es/marcos_marva/files_bioest/BiolEj1Enero2016.csv

  1. Determina ecuaci'on de la recta de regresi'on. Si llamamos x e y a la distancia de la orilla del río y la concentraci'on de esta bacteriam, entonces, con la función lm obtenemos los coeficientes de la recta \[ y = 16.53 -1.424x\]
  2. Calcula e interpreta el coeficiente de correlación lineal. -0.9978
  3. Calcula e interpreta el intervalo de confianza para los coeficientes de regresión.
##                 2.5 %    97.5 %
## (Intercept) 16.050511 17.016156
## datos1$V1   -1.502056 -1.346429
  1. Si quieres optar a matr'icula de honor, o subir nota. Considera los datos del fichero www3.uah.es/marcos_marva/files_bioest/BiolEj11Enero2016.csv
    Decide qu'e tipo de curva describe mejor los datos.
    Determina sus coeficientes (para tener una f'ormula expl'icita que relacione peso y tiempo). La nube de puntos recuerda a la función logaritmo. De hecho, al representar (ln(x), y) en lugar de (x,y) se observa que los puntos sugieren una relación lineal por tanto, queremos ajustar la curva \[ y = a+b\ln(x)\] para ello, se hace el cambio de variable w = ln(x) y se calculan los coeficientes de la recta de regresión para (w, y):
datos11 = read.table(file = "BiolEj11Enero2016.csv", sep=";", header = F)
lmXYlog = lm(datos11$V2 ~ log(datos11$V1, base = exp(1)))
lmXYlog$coefficients
##                    (Intercept) log(datos11$V1, base = exp(1)) 
##                       5.176038                       4.918352

es decir, \[ y = 5.176 + 4.918\ln(x) \] podemos visualizar la nube de puntos junto con la curva logaritmo ajustada

Ejercicio 2

Se realiza una encuesta en esta asignatura acerca del tiempo dedicado en el periodo de Navidad al estudio. Los resultados en funci'on del g'enero se reflejan en esta tabla

##          hombre mujer
## muy poco      7     9
## poco         10    18
## normal       14    18
## bastente     10    34
## mucho         7    18
  1. La cantidad de tiempo invertido, depende del g'enero? La hipótesis nula es “el tiempo invertido no depende del género” yel p-valor del contraste es
## [1] 0.2897399

de modo que no se aprecian diferencias significativas.

  1. ¿Qu'e combinaci'on de niveles de los dos factores
    tiene una frecuencia relativa menor?

Ejercicio 3

En un experimento sobre la incidencia de la dieta en la hipertensi'on se han reclutado 125 personas con tensi'on arterial similar. Luego, se han hecho 5 grupos de 25 personas cada uno y a cada grupo se le ha administrado una dieta diferente. La tabla www3.uah.es/marcos_marva/files_bioest/DABSEnero2016.csv contiene el valor de la tensi'on arterial de cada uno de ellos despu'es de 2 meses de tratamiento. A la vista de los datos,

  1. La tensi'on arterial media ¿es significativamente diferente en alg'un grupo? Planteamos la hipótsis nula H0: “todas las media son iguales” y calculamos la tabla anova
## Analysis of Variance Table
## 
## Response: datos$Respuesta
##                    Df Sum Sq Mean Sq F value   Pr(>F)    
## datos$Tratamiento   4 2363.2  590.79  22.951 4.23e-14 ***
## Residuals         120 3089.0   25.74                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

se observa que el p-valor es muy pequeño, luego hay que rechazar H0, es decir, no todas las medias son iguales.

  1. En caso afirmativo, ordena las medias. Calculamos la tabla de Bonferroni y, para visualizar las diferencias, utilizamos el código de letras habitual
## 
##  Pairwise comparisons using t tests with non-pooled SD 
## 
## data:  datos$Respuesta and datos$Tratamiento 
## 
##        dieta1  dieta2  dieta3  dieta4 
## dieta2 1.0000  -       -       -      
## dieta3 1.0000  0.2216  -       -      
## dieta4 0.2836  0.0035  0.7837  -      
## dieta5 9.2e-07 4.4e-05 2.3e-09 1.1e-10
## 
## P value adjustment method: bonferroni

  1. ¿Se cumplen las condiciones para el Anova? Visualizar el diagrama de residuos y el QQ-plot, o bien usar los contrastes de normalidad y homocedasticidad que aprendimos en regresión
## 
## Call:
## lm(formula = datos$Respuesta ~ datos$Tratamiento)
## 
## Coefficients:
##             (Intercept)  datos$Tratamientodieta2  datos$Tratamientodieta3  
##                  89.752                    2.172                   -1.016  
## datos$Tratamientodieta4  datos$Tratamientodieta5  
##                  -3.564                    9.242  
## 
## 
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance =  0.05 
## 
## Call:
##  gvlma(x = datos.lm) 
## 
##                        Value p-value                Decision
## Global Stat        8.347e-01  0.9337 Assumptions acceptable.
## Skewness           2.404e-03  0.9609 Assumptions acceptable.
## Kurtosis           1.203e-03  0.9723 Assumptions acceptable.
## Link Function      6.168e-15  1.0000 Assumptions acceptable.
## Heteroscedasticity 8.311e-01  0.3620 Assumptions acceptable.

Cualquiera de los dos cálculos muestra que se cumplen las condiciones de igualdad de varianzas y de normalidad de los residuos.

  1. Si quieres optar a matr'icula de honor, o subir nota. Sup'on que en vez de hacer un Anova decides comparar la respuesta media para cada par de tratamientos con un contraste de diferencia de medias al nivel de significaci'on \(\alpha = 0.02\). ¿Cu'al es la probabilidad de comenter error de tipo I? Hay 5 tratamientos; el número de comparaciones de medias 2 a 2 es el número de cobinaciones de 5 elementos tomados de 2 en 2, es decir \[10 \] Definimos la variable X = “número de veces que se comete error de tipo 1 en las 10 comparaciones”, que resulta ser X ~ B(10, 0.02), de donde la probablidad de cometer al menos una vez error de tipo 1 es
pbinom(0, size = 10, prob = 0.02, lower.tail = F)
## [1] 0.1829272

que es bastante alta.