Parte escrita

Ejercicio 1

La tabla que puedes descargar de www3.uah.es/marcos_marva/files_bioest/DRBSEnero2016.csv
contiene el diámetro en mm de 3 ramas del mismo árbol, medidas anualmente entre los 2 y los 10 años.

  1. Visualiza la nube de punto. Calcula los coeficientes de la recta de regresión que describe el diámetro en función del tiempo y estima el diámetro tras \(t = 3\text{.}5\) y \(t = 12\) años de crecimiento.
    La nube de puntos es

Si llamamos t y d al tiempo y al diámetro, respectivamente, con la función lm obtenemos los coeficientes de la recta \[ d(t) = -0.1659 5.052t\] De las dos estimaciones que se piden, la primera es \[ d(3.5) = 17.52\] y la segunda no tiene sentido calcularla, puesto que está fuera del rango de valores observados para la variable independiente \(t\).

  1. Calcula e interpreta el coeficiente de correlación lineal. 0.9978
  2. Calcula e interpreta el intervalo de confianza para los coeficientes de regresión.
##                 2.5 %    97.5 %
## (Intercept) -1.076057 0.7442053
## datos1$V1    4.912887 5.1915570
  1. Si quieres optar a matrícula de honor, o subir nota. Considera los datos del fichero www3.uah.es/marcos_marva/files_bioest/DRBSMHEnero2016.csv
    Decide qué tipo de curva describe mejor los datos.
    Determina sus coeficientes (para tener una fórmula explícita que relacione peso y tiempo). La nube de puntos recuerda a la función exponencial. De hecho, al representar (x, ln(y)) en lugar de (x,y) se observa que los puntos sugieren una relación lineal por tanto, queremos ajustar la curva \[ y = ae ^{bx}\] para ello, gracias a las propiedades de los logaritmos, si se toman logaritmos en ambos miembros de la ecuación se tiene \[ \ln(y) = \ln\left(ae ^{bx} \right) = \ln a + \ln e^{bx} = \ln a + bx \]

es decir, si llamamos w = ln(y), se tiene \[ w = \hat a + bx, \qquad donde \qquad \hat a = \ln a \] y se calculan los coeficientes de la recta de regresión para (x, w):

lmXYexp = lm(log(datos11$V2, base = exp(1))~ datos11$V1)
lmXYexp$coefficients
## (Intercept)  datos11$V1 
##   1.6033681   0.3003784

es decir, \[ w = 1.603 + 0.3004x \Leftrightarrow y = e^{ (1.603)} e ^{0.3004x} \] podemos visualizar la nube de puntos junto con la curva exponencial ajustada

Ejercicio 2

En la encuesta del CIS de Octubre de 2015, en referencia a la situación econ'omica general de Espa~na (muy buena, buena, regular, mala o muy mala), arroj'o los siguientes resultados:

##           hombre mujer
## muy buena      2     1
## buena         44    34
## regular      441   350
## mala         436   522
## muy mala     273   376
  1. La cantidad de tiempo invertido, depende del género? La hipótesis nula es “el tiempo invertido no depende del género” yel p-valor del contraste es
## Warning in chisq.test(m, correct = F): Chi-squared approximation may be
## incorrect
## [1] 1.118752e-06

de modo que no se aprecian diferencias significativas.

  1. ¿Qué combinación de niveles de los dos factores
    tiene una frecuencia relativa menor?

Ejercicio 3

Se quiere estudiar si hay relación entre la facilidad para aprender un nuevo idioma y el número de idiomas previos que se dominan. Para ello se analiza el número nuevo de palabras que pueden asimilar en una hora las personas pertenecientes a tres grupos: personas que únicamente hablen un idioma, personas que hablen 2 o 3 idiomas, y personas que hablen 4 idiomas o más. El número de palabras memorizadas, y su significado viene reflejado en la siguiente tabla:

  1. El número de palabras asimiladas, ¿es significativamente diferente en algún grupo? Planteamos la hipótsis nula H0: “todas las media son iguales” y calculamos la tabla anova
## Analysis of Variance Table
## 
## Response: datos$Respuesta
##                   Df Sum Sq Mean Sq F value Pr(>F)
## datos$Tratamiento  2    0.0  0.0000       0      1
## Residuals         27   60.3  2.2333

se observa que el p-valor es muy pequeño, luego hay que rechazar H0, es decir, no todas las medias son iguales.

  1. En caso afirmativo, ordena las medias. Calculamos la tabla de Bonferroni y, para visualizar las diferencias, utilizamos el código de letras habitual
## 
##  Pairwise comparisons using t tests with non-pooled SD 
## 
## data:  datos$Respuesta and datos$Tratamiento 
## 
##          cuatro_mas dos_tres
## dos_tres 1          -       
## unos     1          1       
## 
## P value adjustment method: bonferroni

  1. ¿Se cumplen las condiciones para el Anova? Visualizar el diagrama de residuos y el QQ-plot, o bien usar los contrastes de normalidad y homocedasticidad que aprendimos en regresión
## 
## Call:
## lm(formula = datos$Respuesta ~ datos$Tratamiento)
## 
## Coefficients:
##               (Intercept)  datos$Tratamientodos_tres  
##                 3.300e+00                  5.426e-16  
##     datos$Tratamientounos  
##                 3.972e-16  
## 
## 
## ASSESSMENT OF THE LINEAR MODEL ASSUMPTIONS
## USING THE GLOBAL TEST ON 4 DEGREES-OF-FREEDOM:
## Level of Significance =  0.05 
## 
## Call:
##  gvlma(x = datos.lm) 
## 
##                     Value p-value                Decision
## Global Stat        2.0127  0.7334 Assumptions acceptable.
## Skewness           0.4596  0.4978 Assumptions acceptable.
## Kurtosis           0.4982  0.4803 Assumptions acceptable.
## Link Function      0.8540  0.3554 Assumptions acceptable.
## Heteroscedasticity 0.2009  0.6540 Assumptions acceptable.

Cualquiera de los dos cálculos muestra que se cumplen las condiciones de igualdad de varianzas y de normalidad de los residuos.