Objetivos

En ciencias aplicadas es habitual medir el efecto que producen sobre una variable cuantitativa la aplicación de distintos tratamientos. Analizar ese efecto permite decidir qué tratamiento es más o menos efectivo, y decidir en consecuencia. Una herramienta para afrontar estas situaciones es el análisis de la varianza. Como cualquier otra herramienta, su uso está prescrito bajo ciertas condiciones y el alcance de los resultados, circunscrito a cierto marco teórico. El objetivo de este trabajo es aplicar la técnica del análisis de la varianza a cierto conjunto de datos.

Una parte importante en estadística consiste en comunicar de forma eficiente los resultados obtenidos. En los últimos años se están imponiendo los documentos reproducibles, que permiten incluir en un mismo documento tanto el procedimiento estadísitico como los resultados. Los documentos escritos con knir con R-Markdown son un ejemplo de ello. Así, el análisis es absolutamente diáfano para el lector: puede leer el informe (fichero de salida, html o pdf) y, si lo desea, consultar el procedimiento que lleva a los resultados estadísticos (está en los chunks del documento Rmd).

Datos

Los datos y el contexto para el trabajo los proporciona el experimento de Framinham, diseñado para recopilar información longitudinal (a lo largo de un periodo largo de tiempo) sobre enfermedades cardiovasculares. En este trabajo te proporcionamos los datos de una de las variables cuantitativas que se estudiaron agrupada en 5 clases de edad. En concreto:

  • Posibles variables: totchol (colesterol total), sysbp (presión sistólica), diabp (presión diastólica), bmi (índice de masa corporal), heartrte (frecuencia cardiaca), glucose (glucosa en sangre). Recuerda que en el experimento se midió cada variable 3 veces a intervalos de 10 años; en el nombre de la variable aparecerá un 1, 2, o 3 según el momento en que fue medida.
  • Clases de edad: se divide el intervalo [edad_mínima, edad_máxima] observado para la variable de estudio que se os adjudica y se divide en 5 intervalos de igual longitud. No todas las clases tienen el mismo número de individuos. Para que la muestra con la que trabajarás sea equilibrada (clases de la misma longitud), se eliminan de forma aleatoria individuos de las clases que más elementos tienen hasta que todas las clases de edad tengan tantos individuos como la que menos.

Cada grupo trabajará con su propio conjunto de datos. Para generarlos:

  • Crea una carpeta
  • Guarda los datos del experimento de Framinham
  • Guarda este script la misma carpeta
  • Abre el script, completa los valores n1, n2 y n3 con vuestros números de lista (está en el aula virtual) y ejecútalo. Deben aparecer en tu directorio 2 ficheros csv. Uno con la tabla de datos y otro que describe las clases de edad.

Instrucciones y criterios de evaluación

La parte que entregarás en la asignatura de Estadística consiste en un fichero comprimido tal que

Los requisitos que se nombran no tienen porqué completarse en ese orden, es simplemente una sugerencia. En función de las herramientas que decidas usar, puede que

Fecha y modo de entrega

  • Tienes hasta el 10 de Enero de 2017 para entregar fichero.
  • La entrega se hará a través de la plataforma BlackBoard, subiendo el fichero comprimido.

Observaciones

  • En las diapositivas de ANOVA hay incrustados fragmentos de código para, por ejemplo, hacer de forma autónoma los QQ-plot o comprobar la homocedasticidad

Algunas buenas prácticas son…

  • Antes de nada, decidir qué debe hacer el código. Desglosar el trabajo en pasos sencillos, y programar cada uno de ellos.
  • Guarda cada poco tiempo el fichero.
  • Ejecuta línea a línea el código para tener localizados los posibles errores
  • Es habitual trabajar primero sobre un script. Cuando se ha conseguido un código que produce los resultados deseados, trasladarlo al documento reproducible.
  • Dejar las cuestiones estéticas para el final.