EL TEOREMA CENTRAL DEL LÍMITE
Este es uno de los resultados más importante de las ciencias en general. Entenderlo y ser capaz de reproducirlo constituye en sí mismo uno de los mejores aprendizajes que se puede hacer en esta asignatura.
Objetivos
La demostración matemática del teorema central del límite queda fuera de los objetivos de este curso, aunque hay otros enfoques. El objetivo principal es que aprendas a utilizar simulaciones para ilustrar ese resultado, es decir, la relación entre la media de una población y la distribución de probabilidad de la media de las muestras de esa población.
Una parte importante en estadística consiste en comunicar de forma eficiente los resultados obtenidos. En los últimos años se están imponiendo los documentos reproducibles, que permiten incluir en un mismo documento tanto el procedimiento estadísitico como los resultados. Los documentos escritos con knir
con R-Markdown
son un ejemplo de ello. Así, el análisis es absolutamente diáfano para el lector: puede leer el informe (fichero de salida, html o pdf) y, si lo desea, consultar el procedimiento que lleva a los resultados estadísticos (está en los chunks del documento Rmd).
Instrucciones:
- Lee el enunciado del teorema central del límite (segunda versión, en el libro). Como trabajarás con muestras grandes, puedes suponer que no conoces la desviación típica (y usar su mejor estimación: la cuasidesviación típica).
- La población es una de las variables del experimento de Framinham.
- Cada grupo trabaja con un variable diferente. Para saber qué variable te corresponde,
- debes guardar en la misma carpeta este fichero de datos y este script de R.
- Fija el directorio de trabajo en la carpeta en la que tienes ambos ficheros guardados.
- Ejecuta el script (
Ctrl+A
, Ctrl+Intro
).
- El script debe haber generado el fichero
pobTrabajo.csv
en dicha carpeta, que contiene los datos con los que harás el trabajo.
- Toma al menos 500 muestras, cada una de ellas de tamaño al menos igual a 30.
- Para generar las muestras, puedes
- O bien usar matrices (como en al principio de este fichero, relacionado con el problema del caballero Demere) y la función
rowMeans()
.
- O un bucle (tal y como se hace aquí para ilustrar porqué la varianza es un estimador sesgado).
- Calcula la media de cada muestra y representa el histograma de las medias.
Criterios de evaluación
El trabajo entregado es un fichero comprimido en el que
- Si los integrantes del grupo tienen los números de lista (ver lista en el curso virtual) 2, 65 y 45, el nombre del fichero será
grupo-2-45-65.zip
(ordenados de menor a mayor).
- Contiene un fichero de texto con el nombre, el número y el correo electrónico de todos los integrantes del grupo.
- Contiene un fichero .csv con la tabla de datos que analizas (la que has generado con el script).
- Contiene un documento reproducible
.Rmd
con el que has hecho el análisis estadístico a partir de los datos que has generado. Al compilar el documento que entregues (el fichero .Rmd
) se genera un fichero .html o .pdf que haga lo siguiente:
- El trabajo comienza con un breve resumen en el que se explica el objetivo del trabajo.
- Una vez compilado, no excede las 3 páginas (o equivalente, si la salida es en formato html).
- El trabajo contiene al menos 2 y no más de 5 figuras.
- A partir de las simulaciones, se explica la relación entre la media teórica de la población y la distribución de la media de las muestras.
- Puedes intercalar texto y figuras producidas por tu código. Si lo consideras necesario o relevante, puedes mostrar fragmentos de código. Recuerda que, además, puedes hacer visible o no el contenido/resultado de cada chunk.
Fecha y modo de entrega
- Tienes hasta el 10 de Enero de 2017 para entregar fichero.
- La entrega se hará a través de la plataforma BlackBoard, subiendo el fichero comprimido.
Algunas buenas prácticas son…
- Antes de nada, decidir qué debe hacer el código. Desglosar el trabajo en pasos sencillos, y programar cada uno de ellos.
- Guarda cada poco tiempo el fichero.
- Ejecuta línea a línea el código para tener localizados los posibles errores.
- Es habitual trabajar primero sobre un script. Cuando se ha conseguido un código que produce los resultados deseados, trasladarlo al documento reproducible.
- Dejar las cuestiones estéticas para el final.