Introducción

Resulta imprescindible comunicar de forma eficiente los resultados obtenidos en cualquier análisis estadístico. Además, desde hace relativamente pocos años es posible acceder a gran cantidad de bases de datos de tamaño considerable y, a la vez, proliferan las herramientas libres para analizarlos y extraer información de ellos. Así, surge la necesidad (cuando no la exigencia) no sólo de comunicar los resultados, sino de explicitar cómo se ha llegado a ellos. El término ciencia de datos reproducible, de reciente cuño, recoge todas estas ideas.

Una de respuestas a esta necesidad es la de los documentos reproducibles, que incluyen en un mismo documento tanto el procedimiento estadísitico como la posibilidad de comentar esos resultados, a la vez que se imprime un mínimo de formato. Los documentos escritos con knitr con R Markdown que ya conoces son un ejemplo de ello. Por esas razones en este trabajo vamos a utilizar ese formato, para familiarizarnos con él y practicar esta forma de trabajar.

Además, cuando se recibe un conjunto de datos, el primer paso es explorarlos mediante las técnicas de la Estadística Descriptiva que estamos estudiando en la primera parte del curso. Esa exploración busca, entre otras cosas:

  • Asegurarse de la integridad de los datos (detectar datos ausentes, valores imposibles o atípicos,…)
  • Familiarizarse con las variables con las que se trabaja y con cómo están codificadas.
  • Hacerse una primera idea sobre las características de ese conjunto de datos en particular.
  • Tener una primera intuición sobre patrones o posibles asociaciones entre las distintas variables.

Instrucciones y descarga de los datos

Recuerda que cada grupo de trabajo debe estar compuesto por 2 o 3 personas. Sólo se aceptarán otras situaciones cuando hayan sido comunicadas a tiempo y explícitamente autorizadas por los profesores de la asignatura.

Cada grupo trabajará con su propio conjunto de datos. Para obtenerlos debes utilizar el enlace que aparece debajo, después de
LEER ATENTAMENTE ESTAS INSTRUCCIONES:

  • Usa un navegador adecuado para descargar el fichero (de tipo csv). Recomendamos Chrome o Firefox. Si usas Internet Explorer, Edge o Safari puedes tener dificultades.
  • NO cambies el nombre del fichero. Hacerlo puede invalidar tu trabajo.
  • Los datos sólo se mantienen en el servidor de descarga durante un tiempo breve. Si pasados unos minutos vuelves a usar el enlace de descarga, el nombre del fichero y los datos que contiene será distinto. Asegúrate de poner a salvo el fichero con el que vayas a trabajar (haz una copia de seguridad), porque si lo pierdes no es fácil recuperarlo.

Descarga de los datos

Enunciado

El trabajo se enmarca dentro de un estudio sobre posibles dimorfismos asociados al género (sexo) o al color de los cangrejos de la especie Leptograpsus variegatus, para lo que se recogieron medidas morfológicas en Fremantle, al este de Australia, y que están basados en el conjunto de datos crabs de la librería MASS de R. También en relación a esas variables se quiere determinar posibles variaciones en el comportamiento, por lo que se midió el nivel de actividad observado en los ejemplares y el número de patas como medida del nivel de agresividad (estas dos variables no aparecían en el estudio original). Puedes encontrar información sobre las variables de tu tabla aquí, aunque cada grupo trabajará con 5 de ellas. En concreto: dos variables cualitativas (una nominal y otra ordinal) y tres cuantitativas (una discreta y dos continuas).

El trabajo se divide en dos grandes bloques que están interrelacionados entre sí.

Para tratar dos variables cualitativas: aquí

Análisis exploratorio.

  1. Preparación o Esquilado previo de los datos: determina si hay celdas vacías en la tabla. En caso afirmativo, elimina esos registros completos (toda la fila). Detecta y localiza en la tabla posibles valores atípicos. Si crees que debes eliminarlos hazlo, pero en cualquier caso explica las razones de tu decisión y detalla cuáles son los valores que eliminas.

  2. Tu conjunto de datos contiene una de las variables cualitativas (factor) sp o sex. Para cada nivel (valor) de ese factor debes resumir la información contenida en cada una de las restantes tres variables. Para ello:

    1. Usa las medidas de centralización y dispersión que consideres más oportuna en cada caso.
    2. Usa el gráfico, diagrama o tabla (pero sólo uno de ellos por cada variable) que te parezca mejor en cada caso.
    3. Reseña las tendencias o patrones que detectes.

Regresión lineal.

  1. Visualiza la nube de puntos (diagrama de dispersión) correspondiente a las dos variables continuas.
  2. A la vista de ese diagrama, ¿crees que una recta puede ser un buen modelo para explicar la relación entre ambas variables? ¿Observas algún otro patrón interesante?
  3. En caso afirmativo, calcula los coeficientes de la recta de regresión. Interpreta la pendiente de la recta.
  4. Explica con un ejemplo cómo usarías la recta para calcular el valor de la variable respuesta predicho por el modelo lineal para un valor no observado de la variable explicativa.
  5. Calcula e interpreta los coeficientes de regresión \(r\) y determinación \(r^2\).

Instrucciones de entrega

La entrega se hará mediante un fichero comprimido (en formato zip) que debe cumplir estas condiciones:

  • Cada uno de vosotros tiene asignado un número de lista, que podéís consultar en este fichero.


    Si tu nombre no aparece en ese fichero avisa a tu profesor en el correo electrónico marcos.marva@uah.es .

  • Si los integrantes del grupo tienen, por ejemplo, los números de lista 2, 65 y 45, entonces el nombre del fichero zip que entregáis será:

    grupo-2-45-65.zip (con los números ordenados de menor a mayor, por favor)


  • El fichero zip debe contener estos tres ficheros:

    • un fichero de texto (extensión .txt) con el nombre, el número y el correo electrónico de todos los integrantes del grupo.
    • el fichero de datos (extensión .csv) que habéis utilizado.
    • un documento reproducible (extensión .Rmd) que contiene el análisis estadístico de esos datos, de acuerdo con el enunciado del apartado anterior
  • Ese documento reproducible debe generar un fichero .html o .pdf que haga lo siguiente:

    • El trabajo comienza con un breve resumen en el que se explica el objetivo (en relación a las variables de estudio) del trabajo.
    • Lea los datos de la tabla (se supone que todo está en el mismo directorio).
    • Realice el análisis que se propone arriba, generando los valores, tablas y figuras necesarias.
    • No debe ocupar más de 8 páginas (o equivalente, si usas formato html para el fichero de salida). Se valorará la concisión.

Fecha y modo de entrega

  • Tienes hasta el 16 de octubre de 2018 para entregar el fichero.
  • La entrega se hará a través de la plataforma BlackBoard, subiendo el fichero comprimido (zip).

Criterios de evaluación

Se tendrá en cuenta

  • Cumplir con las instrucciones de entrega.
  • Responder a las preguntas del enunciado de forma correcta y concisa.

Algunas buenas prácticas que os sugerimos son…

  • Antes de teclear nada, hazte un esquema con el flujo de trabajo que te permita trocear el problema en pasos sencillos.
  • Piensa qué nombre usarás para las variables.
  • Todo es más ágil si empiezas a trabajar en un script y, cuando tengas el código listo, lo trasladas al fichero Rmarkdown. Si has comentado el script de forma conveniente, sólo te quedará darle formato y hacer algunos retoques.
  • Guarda cada poco tiempo los ficheros de trabajo.
  • Ejecuta línea a línea el código para tener localizados los posibles errores.
  • Deja las cuestiones estéticas para el final.
  • Planteate en cada momento si es necesario mostrar o no el código.
  • No dejes la entrega para el último momento, por si algo fallara (como la red, la plataforma,…)

Objetivos de aprendizaje

A grandes rasgos los objetivos fundamentales de este trabajo son

  • Aprender a usar documentos reproducibles para comunicar resultados estadísticos.
  • Usar las medidas adecuadas para resumir la información recogida en variables estadísticas de distinto tipo.
  • Explorar la posible relación lineal entre dos variables cuantitativas.