Introducción.

En esta práctica vamos a trabajar con los datos de este fichero csv

Enlace de descarga: http://www3.uah.es/marcos_marva/biologia1718/datos/wcgs.csv

que ya hemos usado en algunos ejemplos de clase.

Ejercicio 1

Vamos a recordar los pasos básicos para empezar a trabajar con un fichero csv. En sucesivas prácticas daremos por supuesto que ya conoces esta rutina.

  • Asegúrate de que has seleccionado la carpeta de trabajo adecuada para esta sesión con R. Usa el menú Session-> Set Working Directory de RStudio para hacer esto.
    Indicación: Si tienes dudas de cómo hacer esto mira la Sección 3, pág. 12, del Tutorial02.
  • Descarga el fichero y guárdalo en la subcarpeta datos de tu carpeta de trabajo. Si no existe esa carpeta, créala antes.
    Indicación: Recuerda que la carpeta de trabajo no es la carpeta datos, sino la carpeta que contiene a la carpeta datos.
  • Explora el fichero con un editor de texto como el Bloc de Notas.
  • Lee ese fichero con R, usando el comando read.table y guárdalo en un data.frame con el nombre wcgs. Asegúrate de usar correctamente las opciones header, dec y sep al leer el fichero. Para eso es muy importante que hayas hecho bien la fase de exploración del fichero.
  • Comprueba que la lectura ha sido correcta.

Ejercicio 2

  • Calcula la media y la cuasidesviación típica muestral de la variable weight (peso en libras).

  • ¿Cuántas observaciones corresponden a pacientes de 50 o más años?

  • Ahora calcula la media de la variable weight para aquellas observaciones en las que age es mayor o igual que 50. Compárala con la media que has calculado en el anterior apartado. Haz lo mismo con la cuasidesviación típica.

Ejercicio 3

  • Dibuja un diagrama de caja (boxplot) de la variable bmi. ¿Hay valores atípicos? ¿Cuáles son? ¿Y qué filas ocupan en la tabla?

  • A continuación dibuja un gráfico que muestre los dos diagramas de caja (boxplot) de la variable bmi correspondientes a los dos posibles niveles (valores) del factor ch69.

Ejercicio 4

  • Calcula la media de la variable chol.

  • ¿Qué ha pasado? El resultado se debe a que esa columna contiene valores ausentes. En inglés missing values, también llamados Non-Available (de ahí la respuesta de R). Prueba a utilizar la función mean con la opción na.rm = TRUE para pedirle a R que ignore esos valores ausentes al calcular la media.

  • La ausencia de algunos valores es uno de los quebraderos de cabeza más frecuentes en Análisis de Datos. Lo primero es aprender a detectarlos. Usa la función complete.cases así:

complete.cases(wcgs)

para identificar las filas de la tabla en las que hay valores ausentes (en alguna variable).

  • Combina complete.cases con which para averiguar el número de filas en las que faltan valores.

  • Pídele a R (usando selección por filas) que te enseñe solo las filas de la tabla en las que faltan valores.

  • También puedes analizar una columna concreta, en este caso con la función is.na. Por ejemplo, prueba con:

is.na(wcgs$chol)
  • De nuevo, combínalo con which para ver qué números de fila corresponden a valores ausentes de chol.

Ejercicio 5

Antes de hacer este ejercicio debes haber leído la Introducción a los documentos reproducibles.

Crea un documento reproducible en RMarkdown a partir del código que has escrito para responder al ejercicio 2 de la práctica 1. El código debe ir en los chunks del documento reproducible y además debes añadir comentarios fuera de esos chunks explicando los pasos que das para resolver el ejercicio. A partir de ese documento reproducible debes generar documentos HTMl y docx.