Pulsa aquí para ir a la sesión más reciente.
Septiembre.
Semana 1.
2017-09-12, Martes. 12-13. Sesión 1 de Teoría.
Hemos visto el contenido de estos dos documentos:
Del segundo documento no hemos visto los conjuntos de datos BreastCancer y WCGS, con los que empezaremos mañana.
Temas que habéis planteado y han quedado pendientes:
- La situación de los repetidores en relación con los trabajos del curso.
- Averiguar si R y el resto del software está instalado en los ordenadores de la biblioteca.
Mañana tenemos que hablar también del tema de los colaboradores para las prácticas.
2017-09-13, Miércoles. 11-12. Sesión 2 de Teoría.
- Hemos empezado con retraso por el cambio de aula.
- Hemos empezado a trabajar con tablas de datos almacenadas en ficheros csv. Concretamente, hemos empezado por el fichero wcgs.csv. Hemos visto como explorarlo con un editor de texto e importarlo desde Calc.
- A partir de los datos hemos discutido los tipos principales de variables estadísticas, distinguiendo entre factores y variables cuantitativas. Dentro de estas hemos tenido una primera toma de contacto con la diferencia sutil pero importante entre variables discretas y continuas.
- Hemos recordado como se redondea un número a una cantidad dada de cifras significativas.
- Después de explorarlo hemos abierto con R el fichero cap01-DatosAlumnos.csv y hemos construido la primera tabla de frecuencias absoluta del curso (para la variable
edad
).
He corregido las fechas de evaluación que aparecían equivocadas en la presentación, gracias por el aviso. En cualquier caso la información oficial es la que incluye la página de Coordinación de Actividades Docentes.
Recordad que sigue abierta la inscripción para colaborar en las prácticas de la asignatura y que aún quedan grupos con vacantes.
2017-09-14, Jueves. 12-13. Sesión 3 de Teoría.
- Calculamos las frecuencias absolutas de la variable
edad
en el fichero cap01-DatosAlumnos.csv.
- También vemos cómo calcular una tabla de frecuencias de un conjunto de datos Sí/No extraídos de un pdf por copia/pega y las dificultades que acarrea ese método.
- Definimos las frecuencias relativas y comentamos su relación con las ideas de probabilidad y proporción.
- Representamos gráficamente las tablas de frecuencia mediante diagramas de barras.
- En el caso de la variable altura vemos que una tabla de frecuencias absolutas no aporta información y que la alternativa es agrupar los datos en intervalos, dando como resultado un factor ordenado.
- Obtenemos la tabla de frecuencias de los datos agrupados.
- Representamos esos datos agrupados mediante un histograma y vemos que el resultado depende de la forma en que se eligen los puntos de corte.
Para mañana ha quedado pendiente que veamos un ejemplo de histograma mal dibujado y el diagrama de densidad.
Tenemos que hablar también del uso de portátiles en las prácticas.
2017-09-15, Viernes. 12-13. Sesión 4 de Teoría.
- Empezamos viendo un ejemplo de histograma mal dibujado.
- Diagrama de densidad y su significado.
- Comenzamos el Capítulo 2: Valores centrales y dispersión:
- Recordamos la definición de media aritmética.
- Nos entretenemos en los detalles concretos del cálculo de la media a partir de datos procedentes de fuentes diversas.
- También vemos como calcularla a partir de una tabla de frecuencias usando el fichero cap01-DatosAlumnos-Calc.csv.
- Terminamos observando las limitaciones de la media aritmética en presencia de valores anormalmente grandes o pequeños (atípicos). Avanzamos la definición de mediana.
Semana 2.
2017-09-19, Martes. 12-13. Sesión 5 de Teoría.
- Recordamos las limitaciones de la media y el uso de la mediana como remedio.
- Vemos algunos ejemplos de cálculo de la mediana y comprobamos que efectivamente es robusta frente a los atípicos.
- Los cuartiles y percentiles aparecen como generalizaciones de la mediana. Medidas de posición.
- Usando los datos de wcgs.csv vemos como usar
summary
y quantile
para calcular esas medidas de posición.
- Definimos las frecuencias acumuladas y relativas acumuladas, relacionándolas con las medidas de posición y las cuestiones que responden.
- Diagramas de caja y bigotes (boxplots). Vemos su estructura y los usamos para discutir el rango intercuartílico y la definición de valores atípicos (outliers).
- También vemos las limitaciones de los boxplots y algunas posibles respuestas (violinplots, por ejemplo).
- Definimos la moda como un máximo (local) de la distribución de frecuencias y vemos la representación en curva de densidad de distribuciones unimodales y bimodales.
- Aprovechamos las curvas de densidad para introducir la noción de asimetría en una distribución.
2017-09-21, Jueves. 12-13. Sesión 6 de Teoría.
- Hemos empezado resumiendo la estructura del boxplot y algunas nociones de medidas de posición que vimos en la anterior clase.
- Luego hemos hablado de la idea de dispersión y de como podemos medirla. La primera observación es que la suma de las diferencias con la media es 0.
- Hemos valorado las dos opciones naturales (valores absolutos y cuadrados) con los pros y contras de cada una.
- Definimos la varianza y la desviación típica y justificamos por qué hablamos de fórmulas poblacionales y fórmulas muestrales.
2017-09-22, Viernes 14-15. Sesión 7 de Teoría.
- Hoy hemos empezado a hablar de rectas de regresión (que aparecen en el Capítulo 10) para que podáis disponer de esas herramientas en otras asignaturas.
- Se trata de estudiar la posible relación entre dos variables. Gráficamente, representamos los pares de puntos \((x, y)\) en un diagrama de dispersión.
- Hemos visto que se puede distinguir entre relaciones deterministas \(y = f(x)\) y relaciones aleatorias, con ruido, que representamos como \(y \sim x\).
- En el caso de las relaciones aleatorias construiremos modelos para representarlas y la idea fundamental es la de medir el peso relativo del modelo frente al ruido. Si el ruido es más importante que el modelo, el modelo será de poca utilidad.
- Los modelos más sencillos son los que utilizan rectas de regresión.
- También hemos visto (gráficamente) algunos ejemplos en los que claramente hay un modelo que no es una recta, y ejemplos en los que no parece haber un modelo.
- A continuación nos hemos planteado el problema de como elegir la recta de regresión, la mejor recta para representar nuestros datos. La idea más útil es la de Error Cuadrático Medio.
- Hemos visto la solución que se obtiene minimizando el ECM y la definición de covarianza.
- Hemos usado R para calcular la recta de regresión en un ejemplo (fichero de alumnos, peso frente a altura).
- Hemos terminado viendo un ejemplo de correlación espúrea. Nos ha quedado pendiente discutir la interpretación del coeficiente de correlación y ver ejemplos de esa interpretación.
Semana 3.
Práctica 2.
2017-09-26, Martes 12-13. Sesión 8 de Teoría.
- Hemos empezado con un repaso rápido de lo que hicimos en la última sesión, hablando después del coeficiente de correlación y de su interpretación. Sobre todo hemos hecho énfasis en que un coeficiente cercano a 1 no significa automáticamente que el modelo de regresión sea bueno.
- Hemos empezado el Capítulo 3 sobre Probabilidad. Para mostrar que los resultados de esta teoría son muchas veces antiintuitivos hemos empezado por la Paradoja del Cumpleaños y el Problema de Monty Hall, dos ejemplos en los que los inexpertos suelen apostar por soluciones erróneas.
- A continuación hemos discutido los dos juegos del Caballero de Mèrè. Y los hemos usado como justificación para llegar a la Regla de Laplace. Hemos visto varios ejemplos de cómo usar esta Regla y hemos comentado lo importante que es la noción de sucesos elementales equiprobables para usarla correctamente.
- Hemos terminado con un ejemplo que ilustra la razón por la que cálculos de probabilidades como los del Caballero de Mèrè eran incorrectos: las intersecciones estaban mal calculadas.
- En varios de los ejemplos de hoy hemos usado simulaciones basadas en R, en las que la función
sample
juega un papel muy destacado.
2017-09-28, Jueves. 12-13. Sesión 9 de Teoría.
- Ejemplos de la Regla de Laplace, construyendo la lista de casos posibles y favorables para empezar a ilustrar el papel de la Combinatoria. La dificultad de contar esos casos es el primer obstáculo para la Regla de Laplace.
- Discutimos dos problemas de Probabilidad Geométrica, que muestran limitaciones más severas de la Regla de Laplace.
- A continuación vemos la formulación de Kolmogorov de los axiomas de la Teoría de la Probabilidad.
- Utilizamos los diagramas de Venn para ilustrar el significado de esos axiomas.
- Enunciamos varias propiedades de la Probabilidad que se deducen de esos axiomas, pero sin llegar a hacer ejemplos.
Octubre.
Semana 4.
Práctica 3.
2017-10-03, Martes. 12-13. Sesión 10 de Teoría.
- Vemos algunos ejemplos de cómo usar las propiedades de la Probabilidad que discutimos en la sesión anterior.
- Introducimos la noción de probabilidad condicionada.
- Reescribimos la definición como Regla del Producto y vemos ejemplos de uso de esta regla.
- También introducimos las tablas de contingencia y la idea de falsos positivos y negativos.
2017-10-05, Jueves. 12-13. Sesión 11 de Teoría.
- Hemos discutido lo que significa la independencia de sucesos.
- Teorema de las Probabilidades Totales, ejemplos.
- Teorema de Bayes, ejemplos.
Semana 5.
Sin prácticas.
2017-10-10, Martes. 12-13. Sesión 12 de Teoría.
- Hoy empezamos el Capítulo 4, sobre Variables Aleatorias, que presentamos como la versión teórica de un experimento aleatorio.
- Hemos visto que una variable aleatoria discreta se resume en una tabla de valores y probabilidades. + También hemos discutido un par de ejemplos de variables aleatorias continuas, pero sin profundizar en los detalles porque todavía no disponemos del lenguaje.
- Hemos definido la media \(\mu\) de una variable aleatoria discreta, a partir de la definición de \(\bar x\) mediante frecuencias relativas.
Semana 6.
Práctica 4.
2017-10-17, Martes. 12-13. Sesión 13 de Teoría.
- Repasamos la noción de media de una variable aleatoria discreta.
- Definimos también la varianza \(\sigma^2\) de esas variables.
- Discutimos cuál es la idea de juego justo y su relación con la media (y con las apuestas).
- Usamos ese lenguaje para introducir la idea de odds (posibilidades).
- Vemos la propiedad \(E(X_1 + X_2) = E(X_1) + E(X_2)\).
2017-10-19, Jueves. 12-13. Sesión 14 de Teoría.
- Terminamos la discusión sobre las propiedades de la media y la varianza cuando hacemos operaciones con variables aleatorias.
- Empezamos el Capítulo 5, hablando de las variables aleatorias de tipo Bernouilli. Vemos su tabla de valores y probabilidades, su media y su varianza.
- Luego pasamos a las binomiales, empezando con un ejemplo en el que la variable \(X\) es el número de seises en lanzamientos de dados. Usamos este ejemplo para enumerar las características de una variable binomial \(B(n, p)\).
- Hemos construido una simulación con 10000 repeticiones de ese experimento binomial para ver la tabla de frecuencias relativas de los valores de \(X\).
- Para ver otro ejemplo, visitamos las páginas web de Bioconconductor y el NCBI, descargamos el genoma del fago \(\Phi\)X174 y lo usamos para definir una binomial cuyo valor es el número de citosinas en 25 nucleótidos elegidos al azar.
Semana 7.
Práctica 5.
2017-10-24, Martes. 12-13. Sesión 15 de Teoría.
- Repasamos la definición de la variable binomial.
- Vemos su función de densidad, que exploramos en las prácticas de esta semana.
- La función
dbinom
sirve para calcular esas probabilidades, mientras que pbinom
es la función de distribución (probabilidades acumuladas) y rbinom
es útil para simulaciones.
- Vemos las expresiones para la media y varianza de una variable binomial.
- Analizamos el comportamiento de las binomiales según los valores de \(n\) y \(p\) (el zoo binomial).
- Al estudiar el caso de binomiales con \(n\) grande y \(p\) moderada vemos aparecer la curva normal.
2017-10-26, Jueves. 12-13. Sesión 16 de Teoría.
- Recordamos la forma en la que hemos llegado a la curva normal.
- Empezamos a pensar en la dificultad computacional de calcular probabilidades de intervalos usando binomiales con \(n\) grande, por el cálculo de números combinatorios.
- Al mismo tiempo, el valor de cada término de la binomial pierde importancia relativa frente al valor global de la probabilidad (paso de discreto a continuo).
- Introducimos la idea del uso de funciones de densidad y sus integrales como forma de definir probabilidades.
- Establecemos las propiedades que debe cumplir una función de densidad para definir una variable aleatoria continua.
- Vemos ejemplos para entender el papel que juega la función de densidad.
- Definimos la media y varianza de una variable aleatoria continua, estableciendo la analogía con el caso discreto.
Noviembre.
Semana 8.
Práctica 6 (¡atención cambio horarios!).
2017-10-31, Martes. 12-13. Sesión 17 de Teoría.
- Hemos visto como dependen las normales de los valores de \(\mu\) y \(\sigma\).
- Hemos visto la regla 68-95-99 y la forma en que \(Z = N(0, 1)\) se puede entender como una escala universal de probabilidad, mediante la tipificación.
- También hemos hablado de la suma de variables normales independientes, insitiendo en que la novedad es que el resultado sigue siendo normal.
- Con eso hemos terminado el Capítulo 5. Para empezar el Capítulo 6 hemos visto una simulación del proceso de muestreo en una población uniforme, cuyo resultado es la aparición de la distribución normal de las medias muestrales.
2017-11-02, Jueves. 12-13. Sesión 18 de Teoría.
- Hemos dedicado una parte de la clase a ver un ejercicio tipo examen, para ilustrar la clase de problemas que combinan propiedades básicas de la probabilidad con las distribuciones binomial y normal.
- Luego hemos vuelto sobre las simulaciones del proceso muestral con más detalle, viendo cómo la forma de la población que se muestrea afecta a la aparición de la distribución normal de la media.
- Hemos enunciado el Teorema Central del Límite que describe esos resultados.
Semana 9.
Práctica 7.
2017-11-07, Martes. 12-13. Sesión 19 de Teoría.
2017-11-09, Jueves. 12-13. Sesión 20 de Teoría.
Semana 10.
Sin prácticas.
2017-11-14, Martes. 12-13. Sesión 21 de Teoría.
2017-11-16, Jueves. 12-13. Sesión 22 de Teoría.
Semana 11.
Práctica 8.
2017-11-21, Martes. 12-13. Sesión 23 de Teoría.
2017-11-23, Jueves. 12-13. Sesión 24 de Teoría.
Semana 12.
Práctica 9.
2017-11-28, Martes. 12-13. Sesión 25 de Teoría.
2017-11-30, Jueves. 12-13. Sesión 26 de Teoría.
Diciembre.
Semana 13.
Sin prácticas.
2017-12-05, Martes. 12-13. Sesión 27 de Teoría.
2017-11-07, Jueves. 12-13. Sesión 28 de Teoría.
Semana 14.
Práctica 10.
2017-12-12, Martes. 12-13. Sesión 29 de Teoría.