Introducción.

En esta práctica vamos a trabajar con datos procedentes del libro

Environmental and Ecological Statistics with R, Second Edition

Concretamente vamos a utilizar este fichero csv

https://raw.githubusercontent.com/songsqian/eesR/master/R/Data/laketrout2.csv

Este fichero de datos contiene observaciones sobre el contenido en PCBs (bifenilos policlorados) de truchas pescadas en el Lago Michigan. Se sabe, desde hace décadas, que el consumo de pescado que contiene niveles altos de PCBs puede resultar perjudicial, especialmente en el caso de niños y mujeres embarazadas. Una de las preocupaciones de los investigadores al analizar ese problema era establecer una posible relación entre el tamaño de la trucha (variable length en la tabla) y el contenido en PCBs (variable pcb). En los siguientes ejercicios vamos a explorar esa relación, pero usaremos además algunas otras variables de la tabla.

Ejercicio 1

Descarga de los datos.

  • Selecciona la carpeta de trabajo adecuada para esta sesión con R.
  • Descarga el fichero y guárdalo en la subcarpeta datos de tu carpeta de trabajo**.
  • Explora el fichero con un editor de texto como el Bloc de Notas.
  • Lee ese fichero con R, usando el comando read.table y guárdalo en un data.frame con el nombre laketrout.
  • Comprueba que la lectura ha sido correcta.

Ejercicio 2

Exploración inicial de los datos.

  • ¿Cuántes filas y columnas tiene la tabla?

  • Utiliza summary para ver información básica sobre las variables de esa tabla. ¿Hay datos ausentes en alguna variable?

  • Utiliza complete.cases (ya apareció en la anterior práctica) para comprobar si hay filas con datos ausentes en esa tabla. Si las hay, fabrica una nueva tabla que no contenga esas filas y llámala igual que la tabla original (laketrout).

  • Dibuja un diagrama de caja (boxplot) de la variable length. ¿Hay valores atípicos? ¿Cuánto valen? ¿Qué crees que debes hacer con esos valores (es posiible que la respuesta depende del valor)?

  • Haz lo mismo con la variable pcb, dibujando un boxplot para empezar a analizar la variable.

  • Después, cuando hayas decidido qué hacer con los atípicos, dibuja histogramas y diagramas de densidad de ambas variables, length y pcb. ¿Las distribuciones sOn simétricas?

Ejercicio 3

Modelo de regresión lineal.

  • Vamos a tratar de explorar la posible relación entre length y pcb. Empieza por dibujar un diagrama de dispersión con length en el eje \(x\) (variable explicativa) y pcb en el eje \(y\) (variable respuesta).

  • ¿Crees que estos datos se describen bien mediante una recta?

  • Antes hemos visto que los datos de pcb son asimétricos (a la derecha). Este tipo de asimetría se presenta muy a menudo en datos biológicos. A menudo, en ese tipo de situaciones, recurrimos a transformar los datos a otra escala, como la escala logarítmica, en la que la relación entre las dos variables puede ser más fácil de analizar. El conjunto de datos que estamos usando ya contempla esa transformación: la columna lgpcb contiene los logaritmos (neperianos) de los valores pcb. Dibuja un nuevo un diagrama de dispersión con length en el eje \(x\) (variable explicativa) pero ahora usando lgpcb en el eje \(y\) (variable respuesta).

  • ¿Crees que estos datos transformados se representan mejor con una recta que lso datos sin transformar?

  • Calcula ahora dos modelos de regresión lineal. Uno para los datos no transformados y otro para los transformados.

  • Vuelve a dibujar los dos diagramas de dispersión, añadiendo la recta de regresión correspondiente a cada uno de ellos.

  • Calcula los coeficientes (pendiente, ordenada en el origen) de la recta de regresión en ambos modelos.

  • Calcula también los coeficientes de correlación \(r\) de ambos modelos. ¿Qué modelo crees que es más adecuado?

  • Utilizando ese modelo, ¿cuál es tu estimacion del contenido en pcb de una trucha con length=28? ¿Y con length = 11?

Ejercicio 4

  • Vamos a tratar de estudiar cómo ha cambiado el contenido de pcb a lo largo de los años. Para ello disponemos de la variable year, que indica en que año se hizo cada una de las observaciones. Haz una tabla de frecuencias de esa variable.

  • Para simplificar el análisis, vamos a agrupar la variable year en intervalos, que correspondan con las tres décadas que abarca el estudio. Usa para esto la función cut, con cortes en los años 1971, 1981, 1991 y 2001. El resultado es un factor que podemos llamar decada. ¿Cuántos niveles tiene? Pídele a tu profesor que te enseñe a usar labels para elegir los nombres de esos niveles y que te enseñe también a añadir a la tabla una nueva columna con los valores del factor decada.

  • Calcula el valor medio de pcb según la década de la observación. Dibuja los boxplots de pcb correspondientes a cada nivel del factor. ¿Qué observas?