En esta práctica vamos a trabajar con datos procedentes del libro
Environmental and Ecological Statistics with R, Second Edition
Concretamente vamos a utilizar este fichero csv
https://raw.githubusercontent.com/songsqian/eesR/master/R/Data/laketrout2.csv
Este fichero de datos contiene observaciones sobre el contenido en PCBs (bifenilos policlorados) de truchas pescadas en el Lago Michigan. Se sabe, desde hace décadas, que el consumo de pescado que contiene niveles altos de PCBs puede resultar perjudicial, especialmente en el caso de niños y mujeres embarazadas. Una de las preocupaciones de los investigadores al analizar ese problema era establecer una posible relación entre el tamaño de la trucha (variable length
en la tabla) y el contenido en PCBs (variable pcb
). En los siguientes ejercicios vamos a explorar esa relación, pero usaremos además algunas otras variables de la tabla.
Descarga de los datos.
datos
de tu carpeta de trabajo**.read.table
y guárdalo en un data.frame con el nombre laketrout
.Exploración inicial de los datos.
¿Cuántes filas y columnas tiene la tabla?
Utiliza summary
para ver información básica sobre las variables de esa tabla. ¿Hay datos ausentes en alguna variable?
Utiliza complete.cases
(ya apareció en la anterior práctica) para comprobar si hay filas con datos ausentes en esa tabla. Si las hay, fabrica una nueva tabla que no contenga esas filas y llámala igual que la tabla original (laketrout
).
Dibuja un diagrama de caja (boxplot) de la variable length
. ¿Hay valores atípicos? ¿Cuánto valen? ¿Qué crees que debes hacer con esos valores (es posiible que la respuesta depende del valor)?
Haz lo mismo con la variable pcb
, dibujando un boxplot para empezar a analizar la variable.
Después, cuando hayas decidido qué hacer con los atípicos, dibuja histogramas y diagramas de densidad de ambas variables, length
y pcb
. ¿Las distribuciones sOn simétricas?
Modelo de regresión lineal.
Vamos a tratar de explorar la posible relación entre length
y pcb
. Empieza por dibujar un diagrama de dispersión con length
en el eje \(x\) (variable explicativa) y pcb
en el eje \(y\) (variable respuesta).
¿Crees que estos datos se describen bien mediante una recta?
Antes hemos visto que los datos de pcb
son asimétricos (a la derecha). Este tipo de asimetría se presenta muy a menudo en datos biológicos. A menudo, en ese tipo de situaciones, recurrimos a transformar los datos a otra escala, como la escala logarítmica, en la que la relación entre las dos variables puede ser más fácil de analizar. El conjunto de datos que estamos usando ya contempla esa transformación: la columna lgpcb
contiene los logaritmos (neperianos) de los valores pcb
. Dibuja un nuevo un diagrama de dispersión con length
en el eje \(x\) (variable explicativa) pero ahora usando lgpcb
en el eje \(y\) (variable respuesta).
¿Crees que estos datos transformados se representan mejor con una recta que lso datos sin transformar?
Calcula ahora dos modelos de regresión lineal. Uno para los datos no transformados y otro para los transformados.
Vuelve a dibujar los dos diagramas de dispersión, añadiendo la recta de regresión correspondiente a cada uno de ellos.
Calcula los coeficientes (pendiente, ordenada en el origen) de la recta de regresión en ambos modelos.
Calcula también los coeficientes de correlación \(r\) de ambos modelos. ¿Qué modelo crees que es más adecuado?
Utilizando ese modelo, ¿cuál es tu estimacion del contenido en pcb de una trucha con length=28
? ¿Y con length = 11
?
Vamos a tratar de estudiar cómo ha cambiado el contenido de pcb
a lo largo de los años. Para ello disponemos de la variable year
, que indica en que año se hizo cada una de las observaciones. Haz una tabla de frecuencias de esa variable.
Para simplificar el análisis, vamos a agrupar la variable year en intervalos, que correspondan con las tres décadas que abarca el estudio. Usa para esto la función cut
, con cortes en los años 1971, 1981, 1991 y 2001. El resultado es un factor que podemos llamar decada
. ¿Cuántos niveles tiene? Pídele a tu profesor que te enseñe a usar labels
para elegir los nombres de esos niveles y que te enseñe también a añadir a la tabla una nueva columna con los valores del factor decada
.
Calcula el valor medio de pcb
según la década de la observación. Dibuja los boxplots de pcb
correspondientes a cada nivel del factor. ¿Qué observas?