En esta práctica vamos a trabajar con los datos de este fichero csv
Enlace de descarga: http://www3.uah.es/marcos_marva/biologia1718/datos/wcgs.csv
que ya hemos usado en algunos ejemplos de clase.
Vamos a recordar los pasos básicos para empezar a trabajar con un fichero csv. En sucesivas prácticas daremos por supuesto que ya conoces esta rutina.
datos
de tu carpeta de trabajo. Si no existe esa carpeta, créala antes.datos
, sino la carpeta que contiene a la carpeta datos
.read.table
y guárdalo en un data.frame con el nombre wcgs
. Asegúrate de usar correctamente las opciones header
, dec
y sep
al leer el fichero. Para eso es muy importante que hayas hecho bien la fase de exploración del fichero.Calcula la media y la cuasidesviación típica muestral de la variable weight
(peso en libras).
¿Cuántas observaciones corresponden a pacientes de 50 o más años?
Ahora calcula la media de la variable weight
para aquellas observaciones en las que age
es mayor o igual que 50. Compárala con la media que has calculado en el anterior apartado. Haz lo mismo con la cuasidesviación típica.
Dibuja un diagrama de caja (boxplot) de la variable bmi
. ¿Hay valores atípicos? ¿Cuáles son? ¿Y qué filas ocupan en la tabla?
A continuación dibuja un gráfico que muestre los dos diagramas de caja (boxplot) de la variable bmi
correspondientes a los dos posibles niveles (valores) del factor ch69
.
Calcula la media de la variable chol
.
¿Qué ha pasado? El resultado se debe a que esa columna contiene valores ausentes. En inglés missing values, también llamados Non-Available (de ahí la respuesta de R). Prueba a utilizar la función mean
con la opción na.rm = TRUE
para pedirle a R que ignore esos valores ausentes al calcular la media.
La ausencia de algunos valores es uno de los quebraderos de cabeza más frecuentes en Análisis de Datos. Lo primero es aprender a detectarlos. Usa la función complete.cases así:
complete.cases(wcgs)
para identificar las filas de la tabla en las que hay valores ausentes (en alguna variable).
Combina complete.cases
con which
para averiguar el número de filas en las que faltan valores.
Pídele a R (usando selección por filas) que te enseñe solo las filas de la tabla en las que faltan valores.
También puedes analizar una columna concreta, en este caso con la función is.na
. Por ejemplo, prueba con:
is.na(wcgs$chol)
which
para ver qué números de fila corresponden a valores ausentes de chol
.Antes de hacer este ejercicio debes haber leído la Introducción a los documentos reproducibles.
Crea un documento reproducible en RMarkdown a partir del código que has escrito para responder al ejercicio 2 de la práctica 1. El código debe ir en los chunks del documento reproducible y además debes añadir comentarios fuera de esos chunks explicando los pasos que das para resolver el ejercicio. A partir de ese documento reproducible debes generar documentos HTMl y docx.