Ejercicio 1

Sabemos que el peso en seco de las plántulas de la se distribuye de forma normal. Se ha tomado una muestra, que puedes descargar de www3.uah.es/marcos_marva/2016NovBio.csv.

1.- Se dice que el peso en seco de las plántulas de esta especie es \(\mu_0 = 4.5g\). ¿Contradice tu muestra esta afirmación?
Se afirma que el peso medio de esta especie es 4.5 gramos. El de nuestra muestra es

df.muestra = read.table(file = "2016NovBio.csv", sep = ";", header = T)
muestra = df.muestra$Control
mean(muestra)
## [1] 4.858333

con una desviación estadística de

sd(muestra)
## [1] 1.313372

Para comprobar si la diferencia es significativa, hay que contrastar la hipótesis \[H_0:\,\mu = 4.5 \qquad H_1:\,\mu \neq 4.5\] Utilizamos la plantilla Tut07-Contraste-Media-UsandoT.R con los valores n=24, Xbar=4.8583, s=1.3134, mu0=4.5, tipo de contraste=3, y nivel de significación=0.05. También puedes usar la función t.test que hemos visto en clase

t <- t.test(x = muestra, alternative = "two.sided", mu = 4.5)
t$p.value
## [1] 0.194422

En cualquier caso, con un p-valor de 0.1945 no podemos rechazar la hipótesis de que los pesos sean iguales.

2.- Si se fija un nivel de significación \(\alpha = 0.05\), ¿qué debes observar para rechazar que \(\mu_0 = 4.5\)?
Lo que se pide es determinar los límites de la región de rechazo (el contraste es bilateral) para el nivel de significación de 0.05. En este caso, como la muestra es pequeña (n = 24), tenemos que suponer que los datos provienen de una población normal. Además, si la hipótesis nula es cierta (esa suposición es parte del mecanísmo del contraste de hipótesis) la teoría dice que \[\dfrac{\bar x - 4.5}{1.313/\sqrt{24}}\sim t_{23}\] y buscamos el 5% de los valores de la media muestral que más se alejan de \(\mu = 4.5\), cuya tipificación es 0. Para ello, usaremos la distribución de probabilidades de la tipificación de la media muestral. Los valores que buscamos están en las colas de la t de Student y, en concreto, son los que quedan fuera del intervalo que definen los valores

(valores.criticos <-qt(c(0.025,0.975), df = 23))
## [1] -2.068658  2.068658

Pero los valores que hemos determinado están estandarizados, es decir, no están en las unidades del problema. Para desestandarizarlos, basta con hacer

(reg.rech <- 4.5 + valores.criticos * sd(muestra)/sqrt(24))
## [1] 3.945412 5.054588

En definitiva, si obtuviéramos una muestra cuyo peso medio en seco es menor que 3.9454118 gramos o mayor que 5.0545882 gramos, tendríamos que rechazar H0.

Errores más repetidos

Ejercicio 2

Algunos individuos de la especie Arao común (Uria aalge) presentan una mutación que se manifiesta con un cambio en la coloración en el plumaje próximo al ojo (se dice que el ejemplar está bridado). Se quiere determinar si la presencia de esta mutación es inferior en una colonia situada en Islandia que en una colonia ubicada en Escocia. Se toma una muestra en Islandia y se encuentran 9 ejemplares bridados de un total de 200 observados. Por otro lado, en Escocia se han detectado 17 ejemplares bridados de una muestra de 100 ejemplares. A pesar de que se trata de la misma especie de pájaro, estamos estudiando dos poblaciones que pueden presentar distintas características. Por lo que nos enfrentamos a un problema en el que intervienen dos poblaciones. Nos piden que estudiemos si ciertos pájaros tienen o no una determinada mutación. Por tanto, el par'ametro de inter'es es la proporción de individuos que presentan la mutación. En la primera población (Islandia) la proporción de afectados por la mutación es \(p_1=9/200\), mientras que en la población dos (Escocia) la proporción es \(p_2=17/100\). Usaremos elhecho de que conocemos la distribución muestral de la diferencia de proporciones \[\hat p_1 - \hat p_2 \sim N\left(p_1-p_2,\sqrt{\dfrac{\hat p_1\hat q_1}{n_1}+\dfrac{\hat p_2\hat q_2}{n_2}}\right)\dfrac{}{}\]

1.- Contrasta la hipótesis planteada en el enunciado. Queremos comprobar si la proporción de especímenes mutados es menor en Islandia, y eso es lo que establecemos como hipótesis alternativa: \[H_0:\,p_1\geq p_2 \qquad H_1:\,p_1 < p_2\] Además, si H0 es cierta, \[\hat p_1 - \hat p_2 \sim N\left(0,\sqrt{\dfrac{\hat p_1\hat q_1}{n_1}+\dfrac{\hat p_2\hat q_2}{n_2}}\right)\] Calculamos el p-valor del contraste, es decir, \[P(X<9/200-17/100)\] donde \(X\) es una variable normal con los parámetros (media y desviación típica) de la distribución muestral de \(\hat p_1 - \hat p_2\). Podemos usar la plantilla Tut09-Contraste-2Pob-DifProporciones-UsandoZ.R (contraste tipo 2) o calcular, directamente,

n1 = 200; phat1 = 9/200; n2 = 100; phat2 = 17/100
pnorm(phat1-phat2, mean = 0, 
      sd = sqrt(phat1*(1-phat1)/n1+phat2*(1-phat2)/n2))
## [1] 0.0009674926

2.- Calcula e interpreta el tama~no de la diferencia de proporciones con un nivel de confianza del 95%. Se trata de determinar el intervalo de confianza para la diferencia de proporciones. Puedes usar la plantilla Tut09-IntConf-2Pob-DifProporciones-UsandoZ.R

propr.t <- prop.test(x = c(9, 17), n = c(200, 100), conf.level = .95)
propr.t$conf.int
## [1] -0.21152994 -0.03847006
## attr(,"conf.level")
## [1] 0.95

El hecho de que los extremos del intervalo de confianza son negativos quieres decir que, con una probabilidad del 0.95, en la colonia escocesa hay entre un 3.847% y un 21.15% más de individuos bridados que en la colonia islandesa.

Ejercicio Opcional

En un experimento se han fijado unas hipótesis nula y alternativa, y el nivel de significación es del 10%. Se han tomado 100 muestras y calculado el correspondiente p-valor. De modo que dispones de 100 p-valores para el mismo contraste y, para tener una visióon global, haces un histograma y obtienes la siguiente figura. El investigador principal decide rechazar H0. Explica si eso es coherente con la figura que has obtenido, es decir, interpreta la distribucióon de los p-valores. El 90% de los p-valores están por debajo del nivel de significación, y cada uno de ellos lleva a rechazar la hipótesis nula. El hecho de que podamos descartar H0 no implica que elp valor de todas las posibles muestras lleve a rechazarla, y eso explica que algunos p valores sean mayores que 0.1.